PerplexityがWeb検索エージェントのポストトレーニング手法を公開;Qwen3.5ベースのモデルが精度とコストでGPT-5.4を上回る
Perplexityは、Qwen3.5モデルを用いたSFTの後にRLを行います。マルチホップQAデータセットとルーブリック(評価基準)チェックを活用して、検索の精度と効率を高め、FRAMESにおいて業界最高水準の性能を達成しています。
要旨:PerplexityのWeb検索エージェント向けポストトレーニングのワークフローは、命令追従と言語の一貫性を強制するための教師あり微調整 (SFT) と、GRPOアルゴリズムによるオンライン強化学習 (RL) を組み合わせています。RL段階では、SFTのドリフトを防ぐために、独自のマルチホップ検証可能QAデータセットと、ルーブリックに基づく対話データを使用し、報酬ゲーティングと同一グループ内の効率ペナルティを採用します。評価の結果、Qwen3.5-397B-SFT-RLがトップのFRAMES性能を達成し、単一ツール呼び出しで57.3%の精度、4回の呼び出しで73.9%の精度を、1クエリあたり$0.02で実現しています。これにより、これらの指標においてGPT-5.4およびClaude Sonnet 4.6を上回ります。料金はAPIベースで、キャッシュは除外されます。