"SFT"的搜尋結果
2026-04-23
04:54

Perplexity 揭露 Web 搜尋代理後訓練方法;基於 Qwen3.5 的模型在準確率與成本上超越 GPT-5.4

Perplexity 使用搭配 Qwen3.5 模型的 SFT,並在其後使用帶有 RL 的強化學習;透過多跳 QA 資料集與規則量表檢查來提升搜尋的準確性與效率,實現業界一流的 FRAMES 表現。 摘要:Perplexity 的線上搜尋代理後訓練流程,結合監督式微調 (SFT),以透過線上強化學習 (RL)(使用 GRPO 演算法)來強制遵循指令與語言一致性。RL 階段使用專有的多跳可驗證問答資料集,以及基於規則量表的對話資料,以防止 SFT 漂移,並採用獎勵閘控與同組內效率懲罰。評估顯示 Qwen3.5-397B-SFT-RL 在 FRAMES 上取得頂尖表現:單次工具呼叫準確率為 57.3%,四次呼叫為 73.9%,每次查詢成本為 $0.02;在這些指標上超越 GPT-5.4 與 Claude Sonnet 4.6。定價採用 API 計費,且不包含快取。
展開
05:38

Prime Intellect 推出 INTELLECT-3 模型

去中心化 AI 協議 Prime Intellect 推出具有 106B 參數的混合專家模型 INTELLECT-3,該模型基於 GLM 4.5 Air Base 模型,並採用 SFT 和 RL 進行訓練。Prime Intellect 在今年 3 月完成 1500 萬美元融資。
展開