封面新闻讯息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确性与工具使用效率。
强化学习阶段使用 GRPO 算法,并来自两类数据源:一是专有的多跳可验证问答数据集,由内部种子查询构建而来,这些查询需要 2–4 跳推理,并通过多求解器验证;二是基于评分规则的通用对话数据,将部署需求转换为可客观核查的原子条件,以防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会被计入 (question-answer match 或所有评分规则标准均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用与生成长度施加平滑惩罚,其基线为同一组中正确答案的基线水平。
评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它使用单次工具调用达到 57.3% 的准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 实现 73.9% 的准确率;相比之下,GPT-5.4 为 67.8%(每次查询 $0.085),Sonnet 4.6 为 62.4%(每次查询 $0.153)。成本数据基于各提供方公开的 API 定价,并且不包括缓存优化。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Vercel 安全漏洞扩散至数百名用户;AI 开发者风险更高
Gate 新闻消息,4月23日——Vercel披露称,4月19日其安全事件起初被描述为影响“有限的客户群”,但现已扩展到更广泛的开发者社区,尤其是那些构建 AI 代理工作流的人。此次攻击可能影响数百名用户
GateNews24 分钟前
OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準
OpenAI 发布 GPT-5.5,主打代理式工作与企业知识处理,并同步于 ChatGPT 与 Codex 推出。要点含 1200 万 token 脉络视窗、AA Intelligence Index 60,领先 Claude Opus 4.7、Gemini 3.1 Pro;价格为每百万 token 输入 5 美元、输出 30 美元,输出 token 减少约 40%,实际成本上升约 20%。
鏈新聞abmedia1小时前
MagicBlock 发布 Mirage:面向 Solana 的命令行隐私支付工具
Gate News 消息,4月23日——MagicBlock 已发布 Mirage,这是一款面向 Solana 网络的命令行隐私支付工具。该工具使用户能够通过终端命令、机器人或 AI 代理创建钱包、存入资金,并发送私密交易。
Mirage 构建在 Private Ephemeral Rollups 之上
GateNews5小时前
OpenClaw 2026.4.22 统一 Codex 与 Pi Harness 的插件生命周期,将插件加载时间最多减少 90%
Gate 新闻消息,4月23日——OpenClaw,一个开源 AI 代理平台,于 4 月 22 日发布了 2026.4.22 版本,其最大的变化是对 Codex harness 和 Pi harness 的生命周期进行了对齐。此前,插件在这两条 harness 路径中表现不一致,部分 hooks 在特定环境中缺失
GateNews6小时前
Google Cloud 与 CVC 携手加速为投资组合公司进行 AI 代理转型
Gate News 消息,4 月 23 日——Google Cloud 和私募股权巨头 CVC 宣布了一项战略合作,以加速 CVC 及其投资组合中的数百家公司的 AI 代理转型。该合作将利用 Google Cloud 的人工智能平台以及
GateNews8小时前