Perplexity 公开网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上胜过 GPT-5.4
Perplexity 使用 Qwen3.5 模型进行先 SFT 后 RL 的训练流程,借助多跳 QA 数据集和评分规则检查来提升搜索的准确性与效率,实现同类最佳的 FRAMES 表现。
摘要:Perplexity 面向网页搜索代理的后训练工作流将使用监督微调 (SFT) 来强化指令遵循与语言一致性,并通过 GRPO 算法结合在线强化学习 (RL)。强化学习阶段使用专有的多跳可验证 QA 数据集以及基于评分规则的对话数据,以防止 SFT 漂移,并采用奖励门控与组内效率惩罚。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上取得顶级表现:单次工具调用准确率为 57.3%,四次调用为 73.9%,成本为每次查询 $0.02,且在这些指标上优于 GPT-5.4 和 Claude Sonnet 4.6。定价基于 API,并且不包括缓存。