Resultados de la búsqueda para "SFT"
2026-04-23
04:54

Perplexity 披露网络搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

Perplexity 使用 Qwen3.5 模型进行 SFT,随后使用带有 RL 的训练流程,借助多跳 QA 数据集和评分标准检查来提升搜索准确性与效率,实现了同类最佳的 FRAMES 表现。 摘要:Perplexity 的用于网络搜索代理的后训练工作流,将监督微调 (SFT) 与通过 GRPO 算法的在线强化学习 (RL) 结合在一起。监督微调用于强化指令遵循和语言一致性;强化学习阶段则用于进一步优化。RL 阶段使用专有的多跳可验证问答数据集以及基于评分标准的对话数据,以防止 SFT 漂移,并采用奖励门控以及组内效率惩罚。评估显示 Qwen3.5-397B-SFT-RL 在 FRAMES 上达到顶级表现:单次工具调用准确率 57.3%,四次调用准确率 73.9%,成本为每次查询 $0.02,在这些指标上优于 GPT-5.4 与 Claude Sonnet 4.6。定价基于 API,并不包含缓存。
Más
05:38

Prime Intellect lanzó el modelo INTELLECT-3

El protocolo de inteligencia artificial Descentralización Prime Intellect ha lanzado un modelo de expertos híbrido INTELLECT-3 con 106B parámetros, que se basa en el modelo GLM 4.5 Air Base y se entrena utilizando SFT y RL. Prime Intellect completó una financiación de 15 millones de dólares en marzo de este año.
Más