PerplexityがWeb検索エージェントのポストトレーニング手法を公開;Qwen3.5ベースのモデルが精度とコストでGPT-5.4を上回る

ニュース速報メッセージ:4月23日 — Perplexityの研究チームが、Web検索エージェント向けのポストトレーニング手法の詳細を説明する技術記事を公開しました。このアプローチは、2つのオープンソースのQwen3.5モデル (Qwen3.5-122B-A10B と Qwen3.5-397B-A17B) を使用し、2段階のパイプラインを採用します。すなわち、命令追従と言語の一貫性を確立するための教師あり微調整 (SFT) の後に、検索精度とツール使用の効率を最適化するためのオンライン強化学習 (RL) を行います。

RLフェーズでは、GRPOアルゴリズムを2つのデータソースとともに活用します。1つは、内部のシードクエリから構築された独自のマルチホップ検証可能な質問-回答データセットで、推論の2〜4ホップと、複数ソルバによる検証を必要とします。もう1つは、配備要件を客観的に検査可能な原子的条件へ変換してSFTの振る舞い劣化を防ぐ、ルーブリックに基づく汎用会話データです。

報酬設計では、ゲート付き集約を採用します——ベースラインの正しさが達成された場合にのみ、選好スコアが寄与します (question-answer match または すべてのルーブリック基準が満たされた場合)。これにより、高い選好信号が事実誤りを覆い隠すことを防ぎます。効率ペナルティは同一グループ内のアンカーリングを用い、同じグループにおける正答のベースラインを超えて、ツール呼び出しや生成長に対してなめらかなペナルティを適用します。

評価では、Qwen3.5-397B-SFT-RLが検索ベンチマーク全体で業界最高水準の性能を達成しています。FRAMESでは、単一ツール呼び出しで57.3%の精度を実現し、GPT-5.4を5.7パーセントポイント上回ります。また、Claude Sonnet 4.6を4.7パーセントポイント上回ります。中程度の予算 (4回のツール呼び出し) では、1クエリあたり$0.02で73.9%の精度を達成し、GPT-5.4の1クエリあたり$0.085での67.8%の精度、Sonnet 4.6の1クエリあたり$0.153での62.4%の精度と比較しています。コスト数値は各提供元の公開API料金に基づき、キャッシュの最適化は除外されています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Vercelのセキュリティ侵害が数百人のユーザーに拡大;AI開発者はより高いリスク

Gate Newsメッセージ、4月23日—Vercelは4月19日、当初「限られた顧客の一部に影響している」と説明されていた同社のセキュリティインシデントが、特にAIエージェントのワークフローを構築している人々を中心とする、はるかに広範な開発者コミュニティにまで拡大したことを明らかにしました。攻撃は数百人のユーザーに影響する可能性があります

GateNews24分前

OpenAI が GPT-5.5 を公開:12M の文脈、AA 指数で首位獲得、Terminal-Bench 82.7% が代理のベンチマークを更新

OpenAI が GPT-5.5 を公開し、主力はエージェント型の作業と企業のナレッジ処理で、同時に ChatGPT と Codex でも提供されます。要点として、1200 万 token のコンテキストウィンドウ、AA Intelligence Index 60、Claude Opus 4.7、Gemini 3.1 Pro より優位です。価格は、1 百万 token あたり入力 5 米ドル、出力 30 米ドルで、出力 token は約 40% 減少し、実際のコストは約 20% 上昇します。

ChainNewsAbmedia1時間前

MagicBlock、Solana向けコマンドライン型プライバシー決済ツールMirageをローンチ

Gate Newsメッセージ、4月23日 — MagicBlockは、Solanaネットワーク向けに設計されたコマンドライン型のプライバシー決済ツール「Mirage」をリリースしました。このツールにより、ユーザーはウォレットを作成し、資金を入金し、ターミナルコマンド、ボット、またはAIエージェントを通じてプライベートな取引を送信できます。 MirageはPrivate

GateNews5時間前

OpenClaw 2026.4.22がCodexおよびPiハーネス間でプラグインのライフサイクルを統一、プラグインの読み込み時間を最大90%短縮%

Gateニュースメッセージ、4月23日 — オープンソースのAIエージェントプラットフォームであるOpenClawは、4月22日にバージョン2026.4.22をリリースしました。最大の変更点は、CodexハーネスとPiハーネスのライフサイクルを揃えたことです。以前は、2つのハーネス経路の間でプラグインの動作が一貫しておらず、一部の環境では一部のフックが欠落していました。いくつかのフック

GateNews6時間前

Google Cloud と CVC が提携し、ポートフォリオ企業の AI エージェント変革を加速

Gate News メッセージ、4月23日 — Google Cloud とプライベートエクイティ大手 CVC は、CVC および投資ポートフォリオ内の数百社に向けた AI エージェントの変革を加速するための戦略的提携を発表しました。この提携では、Google Cloud の人工知能プラットフォームと Gemini モデルを活用し、ポートフォリオ全体でインテリジェントエージェントの導入を推進します。

GateNews8時間前
コメント
0/400
コメントなし