"SFT"検索結果
2026-04-23
04:54

PerplexityがWeb検索エージェントのポストトレーニング手法を公開;Qwen3.5ベースのモデルが精度とコストでGPT-5.4を上回る

Perplexityは、Qwen3.5モデルを用いたSFTの後にRLを行います。マルチホップQAデータセットとルーブリック(評価基準)チェックを活用して、検索の精度と効率を高め、FRAMESにおいて業界最高水準の性能を達成しています。 要旨:PerplexityのWeb検索エージェント向けポストトレーニングのワークフローは、命令追従と言語の一貫性を強制するための教師あり微調整 (SFT) と、GRPOアルゴリズムによるオンライン強化学習 (RL) を組み合わせています。RL段階では、SFTのドリフトを防ぐために、独自のマルチホップ検証可能QAデータセットと、ルーブリックに基づく対話データを使用し、報酬ゲーティングと同一グループ内の効率ペナルティを採用します。評価の結果、Qwen3.5-397B-SFT-RLがトップのFRAMES性能を達成し、単一ツール呼び出しで57.3%の精度、4回の呼び出しで73.9%の精度を、1クエリあたり$0.02で実現しています。これにより、これらの指標においてGPT-5.4およびClaude Sonnet 4.6を上回ります。料金はAPIベースで、キャッシュは除外されます。
もっと
05:38

Prime IntellectがINTELLECT-3モデルを発売

分散化 AI プロトコル Prime Intellect は、106B パラメータを持つハイブリッド専門家モデル INTELLECT-3 を発表しました。このモデルは GLM 4.5 Air Base モデルに基づいており、SFT および RL を使用してトレーニングされています。Prime Intellect は今年の 3 月に 1500 万ドルの資金調達を完了しました。
もっと