Gate News 消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其针对网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确率与工具使用效率。
强化学习阶段使用 GRPO 算法,并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,要求推理 2–4 跳,并通过多求解器验证;以及基于评分标准的通用对话数据,将部署需求转换为客观可检验的原子条件,从而防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或满足所有评分标准),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,且该基线以同一组中正确答案的长度为准。
评估结果表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (四次工具调用) 条件下,它以每次查询 $0.02 实现 73.9% 准确率;相比之下,GPT-5.4 为每次查询 $0.085 且准确率 67.8%,Sonnet 4.6 为每次查询 $0.153 且准确率 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Anthropic Ra Mắt /ultrareview Cho Claude Code: Đánh Giá Mã Trên Đám Mây Từ Nhiều Tác Nhân
Tin tức Gate, ngày 23 tháng 4 — Anthropic đã giới thiệu /ultrareview (research preview), một tính năng đánh giá mã nhiều tác nhân dựa trên đám mây cho Claude Code. Người dùng có thể gõ /ultrareview trong CLI để khởi chạy một nhóm tác nhân đánh giá trong một sandbox từ xa, nơi chúng làm việc song song để xem xét sự khác biệt giữa nhánh hiện tại và nhánh mặc định bao gồm các thay đổi chưa được commit, hoặc đánh giá trực tiếp các GitHub PR bằng cách cung cấp số PR. Toàn bộ quy trình không cần tài nguyên cục bộ và thường mất từ 5 đến 10 phút, với kết quả được trả về phiên dưới dạng thông báo.
Điểm khác biệt quan trọng so với công cụ cục bộ /review nằm ở cơ chế xác minh: mỗi phát hiện được tái tạo và xác nhận độc lập bởi một tác nhân riêng, tập trung vào các lỗi thực sự thay vì các gợi ý về phong cách mã. Anthropic định vị hai công cụ cho các giai đoạn phát triển khác nhau — /review để nhận phản hồi nhanh khi đang lập trình, và /ultrareview để đánh giá sâu các thay đổi quan trọng chẳng hạn như xác thực hoặc di chuyển dữ liệu trước khi gộp.
Về giá cả, /ultrareview tính thêm phí theo mức sử dụng và không tiêu thụ phần sử dụng đã bao gồm trong gói. Người dùng Pro và Max mỗi người có 3 lượt sử dụng miễn phí trước ngày 5 tháng 5 một lần, không gia hạn, sau đó mỗi lần đánh giá có giá xấp xỉ to tùy thuộc vào quy mô thay đổi. Người dùng Team và Enterprise không có hạn mức miễn phí. Tính năng này yêu cầu xác thực tài khoản Claude.ai và không khả dụng cho Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, hoặc các tổ chức có bật tính năng không lưu trữ dữ liệu ở mức bằng 0.
GateNews25phút trước
OpenAI Ra Mắt Các Tác Nhân Không Gian Làm Việc của ChatGPT để Tự Động Hóa Quy Trình Doanh Nghiệp
Tin cổng, ngày 23 tháng 4 — OpenAI đã công bố việc triển khai các tác nhân cho không gian làm việc trong ChatGPT vào ngày 22 tháng 4, giới thiệu các tác nhân AI dùng chung được thiết kế để tự động hóa các tác vụ phức tạp và các quy trình làm việc mở rộng trên nhiều công cụ và nhóm trong một tổ chức. Các tác nhân này được cung cấp bởi Codex và hoạt động trong môi trường dựa trên đám mây, với quyền truy cập vào các tệp, thực thi mã, các ứng dụng được kết nối và các chức năng bộ nhớ trong một
GateNews26phút trước
Alibaba Cloud Ra mắt JVS Crew, Nền tảng AI Agent Cấp Doanh nghiệp
Tin tức từ cổng thông tin, ngày 23 tháng 4 — Alibaba Cloud chính thức ra mắt JVS Crew, một nền tảng xây dựng AI Agent cấp doanh nghiệp được thiết kế theo phương châm “tích hợp là ưu tiên hàng đầu”. Nền tảng giúp doanh nghiệp nhanh chóng tích hợp các năng lực AI Agent vào các ứng dụng hiện có, dịch vụ SaaS hoặc phần cứng thông minh
GateNews38phút trước
Các ngân hàng Đài Loan cùng hợp tác xây dựng AI nội địa! Mô hình ngôn ngữ lớn cho tài chính dự kiến ra mắt sớm nhất vào cuối năm
Tập đoàn tài chính và ngân hàng CITIC dẫn đầu 16 tổ chức tài chính đã công bố khởi động dự án “Mô hình ngôn ngữ lớn tài chính FinLLM”, phiên bản đầu tiên của mô hình ngân hàng dự kiến ra mắt vào tháng 8, và trong quý 1 năm 2026 sẽ ra mắt thêm các tác nhân AI dựa trên FinLLM. Việc huấn luyện bắt đầu từ tháng 5, với ngân sách khoảng 40–70 triệu NDT. Do yêu cầu về quy định và nhu cầu bản địa hóa, việc huấn luyện dựa trên dữ liệu tại chỗ là trọng tâm, tăng cường AI chủ quyền, xây dựng cơ sở hạ tầng dùng chung, đồng thời mở rộng sang tài chính toàn dân. Kế hoạch đã được đưa vào kế hoạch phát triển AI quốc gia và nhận được sự hỗ trợ từ nhiều bộ ngành.
ChainNewsAbmedia2giờ trước
CEO Google: Đầu tư vốn năm 2026 đạt 1850 tỷ, tăng mạnh đầu tư cho thời đại tác nhân AI
Giám đốc điều hành Google Sundar Pichai đã công bố tại sự kiện Google Cloud Next ở Las Vegas vào ngày 22 tháng 4 rằng Google dự kiến đầu tư từ 175 đến 185 tỷ USD chi tiêu vốn vào năm 2026 để xây dựng cơ sở hạ tầng cần thiết cho các tác nhân AI (AI Agent) tự chủ, tăng so với 31 tỷ USD vào năm 2022.
MarketWhisper2giờ trước
Google Jules công bố danh sách ứng viên phiên bản mở mới, định vị lại thành nền tảng phát triển sản phẩm đầu đến đầu
Theo thông báo chính thức của đội ngũ Google Jules vào ngày 23 tháng 4, định vị sản phẩm của Jules đã được nâng cấp từ agent mã hóa bất đồng bộ lên “nền tảng phát triển sản phẩm agentic đầu cuối”, phiên bản mới có thể đọc toàn bộ ngữ cảnh sản phẩm, tự đưa ra quyết định về hướng xây dựng tiếp theo và gửi PR. Phía chính thức cũng đồng thời công bố việc mở danh sách ứng viên cho phiên bản mới.
MarketWhisper2giờ trước