作者|松壑2019年、AI「強化学習の父」リチャード・サットンは6ページの論文を書き、その後の人工知能界に大きな影響を与えた。この「苦い教訓」と題された論文の核心は一言:**人類は何十年もかけて知識をAIに詰め込もうとしたが、そのたびに「機械に自己試行錯誤させる」方に負けてきた。**チェス、囲碁、音声認識、画像認識なども同じだ。巧みに設計された先験知識や人工的な特徴、専門家のルールは、最終的には大規模計算と自己対戦に踏み潰されてしまう。サットンは強化学習の分野で公認の基礎を築いた人物だ。彼は半生をかけて一つのことを研究した。**知能は設計されて生まれるものではなく、環境によって育まれるものだ。エージェントと環境の継続的な相互作用こそが、より高い知能の限界に到達する唯一の確実な道である。**この論文発表後、学界の反応はほぼ二極化した。長年特徴工学やエキスパートシステムに取り組んできた研究者たちは、自身の仕事の意義を再考せざるを得なくなった。議論は今も収まらないが、サットンの判断は、その後の7年間に何度も証明されてきた。2026年初頭のエージェントブームを振り返ると、この判断はAI産業の中で意外な形で実証されつつある——ただし、多くの人はまだ気づいていない。**エージェントについて議論するのは半分だけ**-----------------Claude主導のスキル熱からコワークの協調、そして今や至る所に広がる「養虾熱」まで、エージェントは今日のAI界で最もホットな言葉だ。しかし、熱があるからといっても、能力が日々向上するエージェントに直面して、業界が焦点を当てているのはもはや「何ができるか」というツールの問いではなく、権限の拡大やプラグインエコシステムの充実に伴う応用範囲の拡大、そしてそれが生産関係や経済構造をどう変えるかという点だ。各種発表会や製品評価、業界のツイートを通じて、人々が問い続けているのは次の核心だ:より自主性とシステム権限を持つエージェントは、応用層でどれほどのビジネスの再編をもたらすのか。そして、どの産業や工程がこのエージェントの波により破壊されるのか。さらには、より鋭い警告や予言も出ている。エージェントの代替範囲と深度が拡大し続ける中、大規模な職の喪失や所得格差の拡大、実需の縮小といったリスクが蓄積され、構造的な雇用問題や連鎖的な経済リスクを引き起こす可能性がある。これらの物語は価値がある。なぜなら、それらは皆同じ問いを投げかけているからだ:**エージェントはツールとして、人類社会の応用層でどのように再構築されるのか?**しかし、あまり問われていないもう一つの問いもある。**今やエージェントの大規模普及が加速することで、モデル層にどのような本質的な変化がもたらされるのか?**この問いこそ、サットンの視点から見た本当に重要なポイントだ。**チャットボットの行き詰まり**--------------エージェントの深い価値を理解する前に、その前身であるチャットボットがどのような行き詰まりに直面したのかを見ておく必要がある。2023年初頭、ChatGPTのユーザー数は1億を突破し、消費者向けインターネット史上最速の成長記録を打ち立てた。世界中のプロダクトマネージャーは目を覚まし、自社製品に対話ウィンドウを次々と導入した。カスタマーサポートロボット、知識質問応答、ライティングアシスタント、コード補完——すべてが「チャットインターフェース」へと変貌した。しかし、2024年末、ある尷尬な事実が浮き彫りになった:多くのユーザーは最初の新鮮さが薄れるとともに、利用頻度が著しく低下した。複数のメディアや分析機関が、ChatGPTのアクティブ率の鈍化を報じている。ユーザーは気づく。何のためにこの対話ウィンドウを使えばいいのか分からなくなるのだ。たまにメールを書き換えたり、表現を変えたり、質問したりはするが、安定した習慣にはならない。その理由は簡単だ:**チャットボットのインタラクションは一問一答だが、人間の実際の仕事の流れは多段階、多ツール、多判断だ。**例えば、市場調査を頼むと、見た目の良い記事を出してくれるかもしれない。しかし、その情報源は信頼できるのか、重要な競合を見落としていないか、結論の背後にある推論の連鎖は妥当かどうかは分からない。結果は得られるが、その過程は見えない。さらに致命的なのは、チャットボットの各対話は孤立していることだ。過去の好みを覚えていないし、プロジェクトの文脈も理解しない。対話を開くたびに、礼儀正しい記憶喪失者と自己紹介をやり直すようなものだ。**だからこそ、2024年後半から業界は一斉にエージェントへと舵を切った。チャットボットの天井が明確になったからだ。**ただし、ここでほとんど誰も気づいていない次元がある。それは、チャットボットの天井は単なるプロダクト形態の限界だけではなく、モデルの進化の天井でもあるということだ。**インタラクションの実践こそが鍵**-----------サットンの強化学習哲学の核心は非常に明快だ:静的データの上限は、既知の世界の境界を示す。どれだけコーパスが大きくても、パラメータが多くても、固定データセット上で訓練されたモデルの能力の限界は、そのデータが描く世界の範囲にとどまる。2024-25年頃、その境界は肉眼でも見えるほど明らかになった。Epoch AIチームは、広く引用される分析を発表し、今後数年で高品質なインターネットテキストデータはほぼ枯渇すると予測している。業界は「データの壁」について語り始めた。情報の総量の物理的限界による壁だ。チャットボットが提供する答えは、ユーザーとの対話から得られるものだ。しかし、その情報密度は非常に低い。「このメールをもっと丁寧に直して」「Pythonでクイックソートを書いて」「中国のGDPはいくらか」などのやりとりは、表層的な人間の要求の反映にすぎない。モデルがこれらの対話から学べることは、インターネットから新しいテキストを取り込むことと本質的に変わらない。言語パターンの統計的規則を学ぶだけで、因果構造は欠落している。**エージェントの違いは:タスクを完遂する過程で、静的コーパスでは決して得られないもの——因果構造を注釈した意思決定の軌跡を生み出す点にある。**例えば、「来週水曜日に北京から上海への出張を手配して」とユーザーが言えば、チャットボットは一つの行程案を出して終了だ。そこから学ぶことはほとんどなく、その案の妥当性や満足度も分からないし、回答が本当に問題解決になったかも検証できない。一方、同じタスクをエージェントにやらせると、完全な自主的なワークフローをたどる。まず出張の要件を理解し、過去の好みを参照し、フライトのAPIを呼び出すと天候で早朝便がキャンセルされていることを自動検知し、代替便に切り替え、会社の出張規定に沿ってホテルを選び、初稿を作成。ユーザーが「会場から遠すぎる」とフィードバックすれば、徒歩圏内のホテルに再選定し、最終案を出す。各ステップには明確な因果信号が伴う。API呼び出し失敗は「予備の案を用意せよ」とモデルに伝え、ユーザの好みは「習慣を記憶せよ」と示し、修正フィードバックは「ニーズに合わせて最適化せよ」と教える。チャットボットは答えだけを出すが、エージェントは本当にタスクを自主的に完遂し、試行錯誤を重ねて成長していく。この種のデータの情報密度は、単なるウェブのスクレイピングをはるかに超える。これは人間の言語表現の写像ではなく、エージェントと現実世界のやりとりの記録だ。こうしたデータで訓練されたモデルは、知識を増やすのではなく、推論能力と自己修正能力を高める。これこそが大規模モデルの能力上限を決める重要な変数だ。**言い換えれば、エージェントは大規模モデルが外部世界から進化の燃料を得るインターフェースだ。**このインターフェースがなければ、モデルの能力上限は静的データの境界に閉じ込められる。**上限に追いつくか、それともインターフェースを積み重ねるか?**--------------2024年末から2025年にかけて、主要な大規模モデルの戦略選択に興味深い分岐点が現れた。OpenAIやGoogleなどのトップモデルは、能力の天井を追い求めるために最大の圧力をかけている。2024年末、OpenAIはo3をリリースした。このモデルは、François Chollet設計のARC-AGI基準テストで、業界を驚かせる成績を収めた。ARC-AGIは抽象推論能力を測る高難度のテストであり、Cholletは「知能の核心は推論と少量サンプルの汎化にある」と主張し、暴力的な探索ではなく推論時間をかけるアプローチを重視している。o3は大規模な推論時間をかけて、このテストでこれまでのシステムを超えるスコアを叩き出した。Cholletは公の場で慎重な態度を示した。彼はo3の成果を否定しなかったが、重要な事実を指摘した:このシステムは解答に膨大な計算量を要し、人間を超える高得点は汎用知能の突破ではない。Google DeepMindは、Gemini 2.0シリーズでマルチモーダル推論能力を拡張し続けている。一方、Anthropicは別の道を選んだ。2024年10月、Claudeに「Computer Use」という当時はあまり魅力的に見えなかった機能を導入した。これはClaudeが直接コンピュータ画面を操作できるものだ。画面の内容を見て、マウスを動かし、ボタンをクリックし、文字を入力できる。初期のユーザー体験は決して華麗ではなかった。Claudeの操作速度は遅く、ボタンを見つけるのに長時間かかり、たまに誤操作もあった。テクノロジーメディアやSNSのコメントは、善意の嘲笑を交えて「まるでPC初心者の老人が使っているみたい」と評された。しかし、AnthropicのCEO Dario Amodeiは、何度もインタビューで次の判断を強調した。**大規模モデルの次なる突破は、パラメータ数だけではなく、モデルと世界のインタラクションの方式にある。**Amodeiは、OpenAIで約5年間GPT-2からGPT-3への進化を経験し、2021年に離れてAnthropicを設立した。彼の信念はまさにこれだ。2024年末、AnthropicはModel Context Protocol(MCP)を公開し、AIモデルが外部ツールやデータソースと標準的に連携できる仕組みを整えた。**Computer UseがClaudeに「手足」を与えたとすれば、MCPは「神経末端」の標準化を実現し、現実世界への接触面積を倍増させたのだ。**Claudeの2025年の主要なストーリーは、特定のベンチマークのスコアではなく、エージェント能力の実用化だ。長いコンテキストの安定性、多段階タスクの確実な遂行、外部ツールとの柔軟な連携などだ。**それは、より難しい定量化目標を追うことだ:実世界のタスクで、継続的かつ信頼性高く働き続けること。**これはロマンチックではないかもしれない。しかし、サットンの理論は常にこう言っている:これこそがより高い知能の限界に到達する道だ。**働くこと=訓練**---------これは過去1年以上にわたり、最も直感に反する現象だ。多くの研究者が能力基準に集中している中、Claudeは実世界のエージェントシナリオでの大規模な運用を静かに進め、その中でサットンの予言したことを実現している。**それは、実世界とのインタラクションを通じて高品質な意思決定信号を継続的に蓄積し、それが逆にモデルの能力向上の燃料となることだ。**このサイクルはこう動く:ユーザーはClaudeを使ってCRMデータの整理や調達承認の自動化、リアルタイムデータに基づくマーケ戦略の調整、複雑なプログラミング作業を行う。成功も失敗も信号となり、各多段階ワークフローは因果構造の決定軌跡を持つ。ツール呼び出しの結果は、「こうすれば効果的」「こうすれば無駄」とモデルに伝える。これらの信号は、匿名化・抽出されてモデルの推論深度と自己修正能力に直接作用する。一方、チャットボットのパターンでは、ユーザーとChatGPTの膨大な対話の中で、モデルの推論能力を著しく高めるものはどれだけあるだろうか?"秋についての詩を書いて""Pythonでクイックソート""中国の省の数は"などのやりとりは、繰り返しても因果推論の信号を含まない。これは言語パターンの予測の繰り返しであり、知能の増分ではない。**これが、エージェントとチャットボットのモデル進化における根本的な違いだ:チャットボットは「言葉の影」をモデルに与えるのに対し、エージェントは「意思決定の骨格」を与える。**これこそ、サットンが何十年も語り続けたことだ:知能を直接教育・設計しようとせず、環境との相互作用の中で自ら育つようにすることだ。**OpenAIの転換**------------OpenAIもこの問題に気づいている。早くからFunction CallingやAssistants、GPTsといった機能を通じて、ツール呼び出しとタスク実行の探求を続けてきた。しかし、真の飛躍は2025年1月に起きた。OpenAIはOperatorをリリースし、ブラウザ内で自主的にタスクを完遂できるようにした。続いて、Deep Researchという、多段階の研究や複数サイトから情報収集・分析を自律的に行うエージェントシステムも登場した。OpenAIの戦略は、「対話」から「行動」へと明確にシフトしている。この変化は、サットンの論理と密接に呼応している:**静的データ上のパターンマッチングから、動的環境での意思決定と学習へと移行しているのだ。**しかし、OpenAIには一つの課題がある。パス依存だ。ChatGPTの数億のユーザーは、ほとんどがチャットボットの使い方に慣れてしまっている。対話ウィンドウを開き、質問し、答えを得る。これらのユーザーに、Q&Aからタスク指示へと切り替えさせるのは、単なるプロダクト設計の問題だけではなく、心的モデルの問題でもある。ユーザーは次の逆説的なことを学ぶ必要がある:**AIにやり方を教えるのではなく、結果を伝えるだけで良い。**Claudeは最初からChatGPTのような全民チャットボットの負担を背負っていない。彼らのユーザ層は開発者や企業に偏り、エージェントのインタラクションに自然に馴染む。AnthropicのMCPも、開発者エコシステムを意識し、第三者がClaudeにツールをつなぐのを容易にしている。これにより、微妙な時間差が生まれる。OpenAIはまだ大規模ユーザをQ&Aからエージェントへと誘導しようとしている間に、Claudeはすでにエージェントシナリオで相応のインタラクションデータを蓄積している。**強化学習の世界では、時間差がすべてだ。**先行者のデータ優位は、フライホイール効果によって拡大し続ける:より良いエージェント→より多くの開発者とユーザの利用→より多くのインタラクションデータ→より強力なモデル→より良いエージェント。**上限は突破されていない**------------歴史上、何度も繰り返されてきたパターンがある。深層ブルーがカスパロフを倒したのは、人間のすべての棋譜を手作業でコード化したからではない。膨大な評価の中から、人間が思いつかなかった手を見つけ出したからだ。AlphaGoの真の突破は、最初の人間の棋譜を学習したバージョンではなく、自己対戦だけで学習するAlphaGo Zeroにあった。ゼロから始めて、数日で人類の何千年もの囲碁知識を再発見し、それを超越した。**大規模言語モデルの数学推論やコード生成、論理分析の「出現」も、すべて意図的に設計されたものではない。**「数学問題を解く」「コードを書く」「論理を分析する」といった能力は、訓練目標に明示的に書かれていなかったが、モデルの規模とデータの規模がある臨界点を超えたときに自発的に出現した。能力の上限は、正面から突破されるのではなく、複雑な環境との継続的な相互作用の中で、逼迫されて生まれる。これがエージェントが大規模モデルにとって本当に意味することだ:単に「手足」を与えるだけでなく、現実世界と継続的に戦う舞台を提供する。**現実世界のフィードバックとゲームこそが進化のエンジンだ。**一度もミスをしないシステムは進化できない。質問に答えるだけのシステムは、自己の無知の場所を知ることもできない。エージェントが手を伸ばし、APIを呼び、ブラウザを操作し、ワークフローを実行し、現実から厳しい反応を受けるとき、真の学習が始まる。**古典的な響き**--------サットンの強化学習哲学と類似の原理は、半世紀以上前に別の全く異なる分野の経済学者によって発見されている。1945年、フリードリヒ・ハイエクは『アメリカ経済評論』に「社会における知識の利用」という論文を発表した。これは20世紀最も重要な経済学の論文の一つとされる。その核心は非常にシンプルだ:複雑な経済体の運営に必要な全知識を、一人や一組織が掌握することは原理的に不可能だ。それは一時的にできなくなるのではなく、**「原理的に不可能」**だからだ。価値ある知識は分散し、局所的で、暗黙的で、刹那的だ。経済においては、全体設計や全局的な青写真、トップダウンの指令系統は存在しない。無数の個人と環境の継続的な相互作用と、それにフィードバックを伝える仕組みだけがある。**この記述を、経済体を知能体に、価格信号を報酬信号に置き換えれば、サットンの強化学習と同じ構造になる。**1988年、89歳のハイエクは最後の重要著作『致命的な自負』を出版した。タイトル自体が論点だ。ハイエクは一冊の本でこう論じた:人類の最も危険な誤信は、「自分たちの理性で自発秩序より優れたシステムを設計できる」と思い込むことだ。彼はこう言う:我々は、すべての人のあらゆる時点のあらゆる要求と制約を事前に知ることはできない。唯一「知る」ことができるのは、実環境で人々が自己交互し、試行錯誤し、フィードバックに基づいて行動を調整する過程だ。この過程にハイエクは「自発秩序」と名付けた。これは、サットンが重視した環境訓練と非常に似ている。**ハイエクは言うかもしれない:計画者が専門知識を経済に詰め込み、トップダウンの設計で市場の自発的調整を代替しようとするが、結局は「個人が自己試行錯誤する」方に負けてしまう。****サットンはこう言うだろう:AI研究者が知識をアルゴリズムに詰め込み、人工的な特徴で機械の自主学習を代替しようとするが、結局は「機械に自己試行錯誤させる」方に負けてしまう。**ハイエクの「致命的な自負」とは、人間の理性が自発秩序より優れたシステムを設計できると誤信することだ。サットンの苦い教訓は、人間の専門家が単純に事前訓練すれば、より良い知能を作れると考える誤りだ。**ポランニーの黙的知識**------------もしもう一人、この時空を超えた対話に加わるとしたら、それはハイエクと同時代のハンガリー出身の学者、マイケル・ポランニーだ。ポランニーは1966年に『黙的次元』を出版し、深遠な概念を提唱した。**黙的知識(tacit knowledge)とは、人々が知っているが言葉にできない知識のことだ。原文は「We know more than we can tell.」**人は自転車の乗り方は知っているが、バランスを取るための一つ一つの動作を正確に言語化できない。経験豊富な医師はX線を見ただけで異常を見抜くが、その判断過程を完全に形式化するのは難しい。この概念は、以前のチャットボットモデルの致命的弱点を突いている。インターネットのテキストから学ぶ大規模言語モデルは、あくまで人間が言語化できる知識——顕在知識だけを学習している。しかし、人間の多くの能力や判断力は、黙的知識に由来し、それは行動の中にしか現れない。テキストには表現されない。人間の専門家の意思決定過程には、自分でも説明できない部分が多い——なぜこの時期に待つのか、なぜこの案が「直感的に」良くないと感じるのか。これらの判断は、どのウェブページにも教科書にも記載されていない。しかし、それらはエージェントの行動軌跡に現れる。複雑なタスクを実行する際、何を最初にやるか、次に何をやるか、障害にどう対処するか、不確実性の中でどう判断を調整するか——これらはすべて黙的知識の外化だ。**それは言語の表現ではなく、行動の記録だ。そして、行動の記録は言語表現よりもはるかに多くの情報を含む。**AIの言葉に置き換えれば、エージェントの行動軌跡に含まれる情報は、インターネット上のすべてのテキストの情報よりも構造的に豊かだ。なぜなら、前者は行動と結果を記録し、後者はただの言葉を記録しているに過ぎない。**検証の道筋**--------2026年初頭に振り返ると、過去1年余の業界の動きは、この認識論的論争に対する初期の証拠を提供している。基準に追従する路線は顕著な成果を挙げているが、その限界と頭打ちも明らかだ。各社のモデルは、主要なベンチマークでのスコアが近づき、差は世代間の圧倒から、数ポイントの差へと縮小している。ベンチマークのスコア競争は意味を失っていないが、それは短距離走の0.01秒勝負のようになり、観客には違いがわからず、実用面での影響も減少している。エージェント路線のリターンは、少しずつ現れてきているが、あまり目立たない形で。**大きな基準突破はなく、むしろ具体的なシナリオでの信頼性向上が進んでいる。**Claudeのプログラミング補助における多段階タスクの成功率は改善し続け、Computer Useの操作精度と速度も著しく向上している。MCPを基盤としたサードパーティツールエコシステムも拡大中だ。**一年前のDeepSeek-R1の世界的な話題は、この物語の最も面白い章の一つだ。強化学習を深く採用し、サットンが推奨する方法で推論タスクに驚くべき効果を低コストで実現した。**これは、産業界にサットン哲学の現場デモを行ったようなものだ。最大のパラメータ数や人手によるラベリングを必要とせず、明確なフィードバック信号のある環境で大規模に試行錯誤させるだけで、推論能力が「逼迫」される。ちなみに、物理世界のエージェントを大規模展開する前段階として、多くのモデルは合成データやルール明示の仮想環境で「予行演習」を行っている。これもまた、実世界への過渡期だ。DeepSeek-R1の成功とエージェント路線の論理は、根底でつながっている。どちらも、静的データの積み重ねではなく、インタラクションから生じる信号を使って能力を高める点だ。違いは、前者は推論タスクのために設計された環境、後者は混沌とした実世界だ。**もちろん、経験を積む道は、現実の摩擦に満ちていることも認めざるを得ない。**現実世界は、無限にリセットできる仮想の沙箱ではない。AlphaGoは何百万局も負けてもコストはほぼゼロだったが、数学の推論や実務の試行錯誤はコストが高い。しかし、実ビジネスや社会の連鎖の中では、エージェントの一度の越境失敗が取引の失敗や顧客体験の悪化、さらには金融・法務・医療のリスクに直結する。さらに厄介なのは、現実のフィードバック信号はノイズが多く遅延もあることだ。エージェントの戦略が最終的に効果を発揮したとき、それは推論の正確さによるのか、環境の追い風によるのか、判断はつきにくい。因果関係の曖昧さは、純粋な「有効経験」の抽出を妨げる大きな課題だ。しかし、それこそがサットン理論の「苦さ」が今日の現実に映し出された姿だ。たとえ試行錯誤のコストが高く、フィードバックがノイズだらけでも、これこそが汎用人工知能への唯一の回避不能な門なのだ。**眩しい苦さ**---------サットンは『苦い教訓』の中で、何度もAI研究者の苦しみを語った。人間が巧みに設計した特徴やルール、先験知識は、最終的には規模の拡大した探索と学習に追い越されてしまう。一見賢そうな方法も、実は「愚かな」方法の方がより遠くに行き着くことが多い。なぜなら、後者の方が拡張性に優れるからだ。過去数年の大規模モデルの進化は、まさにこのパターンの繰り返しだった。手工の特徴から深層学習へ、教師あり学習から自己教師あり学習へ、人工ラベルから強化学習へ——すべてのパラダイムの変遷は、同じ方向を向いている:人間の設計を減らし、環境での試行錯誤を増やす。エージェントの登場は、その道を新たな段階へと押し上げた。**もし過去のモデルが言語の学習に主眼を置いていたとすれば、エージェントは行動の世界で学習を始めている。**言語は世界を記述できるが、行動だけが結果を生む。知識を表現できても、無知を露呈させるのは行動だけだ。これが、エージェントの変化が短期的には製品の能力拡張に見えても、長期的には能力生成の仕組みそのものを変えることになる理由だ。対話だけのモデルは、自分の盲点に気づきにくい。一方、実世界で何度も試行錯誤し、失敗し、修正を繰り返すモデルは、現実により多くの修正を受け入れる。現実のフィードバックは、どんな人工ラベルよりも直接的で、残酷だ。**ある意味、エージェントの最も重要な価値は、「AIに経験を持たせること」にある。****経験は時間軸を意味し、因果構造を意味し、誤りと修正の循環を意味する。****経験のないシステムは判断を形成できず、成長もできない。**
エージェントの苦い覚醒:インテリジェンスは言語から経験へ
作者|松壑
2019年、AI「強化学習の父」リチャード・サットンは6ページの論文を書き、その後の人工知能界に大きな影響を与えた。
この「苦い教訓」と題された論文の核心は一言:
人類は何十年もかけて知識をAIに詰め込もうとしたが、そのたびに「機械に自己試行錯誤させる」方に負けてきた。
チェス、囲碁、音声認識、画像認識なども同じだ。巧みに設計された先験知識や人工的な特徴、専門家のルールは、最終的には大規模計算と自己対戦に踏み潰されてしまう。
サットンは強化学習の分野で公認の基礎を築いた人物だ。彼は半生をかけて一つのことを研究した。
知能は設計されて生まれるものではなく、環境によって育まれるものだ。エージェントと環境の継続的な相互作用こそが、より高い知能の限界に到達する唯一の確実な道である。
この論文発表後、学界の反応はほぼ二極化した。長年特徴工学やエキスパートシステムに取り組んできた研究者たちは、自身の仕事の意義を再考せざるを得なくなった。議論は今も収まらないが、サットンの判断は、その後の7年間に何度も証明されてきた。
2026年初頭のエージェントブームを振り返ると、この判断はAI産業の中で意外な形で実証されつつある——ただし、多くの人はまだ気づいていない。
エージェントについて議論するのは半分だけ
Claude主導のスキル熱からコワークの協調、そして今や至る所に広がる「養虾熱」まで、エージェントは今日のAI界で最もホットな言葉だ。
しかし、熱があるからといっても、能力が日々向上するエージェントに直面して、業界が焦点を当てているのはもはや「何ができるか」というツールの問いではなく、権限の拡大やプラグインエコシステムの充実に伴う応用範囲の拡大、そしてそれが生産関係や経済構造をどう変えるかという点だ。
各種発表会や製品評価、業界のツイートを通じて、人々が問い続けているのは次の核心だ:より自主性とシステム権限を持つエージェントは、応用層でどれほどのビジネスの再編をもたらすのか。そして、どの産業や工程がこのエージェントの波により破壊されるのか。
さらには、より鋭い警告や予言も出ている。エージェントの代替範囲と深度が拡大し続ける中、大規模な職の喪失や所得格差の拡大、実需の縮小といったリスクが蓄積され、構造的な雇用問題や連鎖的な経済リスクを引き起こす可能性がある。
これらの物語は価値がある。なぜなら、それらは皆同じ問いを投げかけているからだ:エージェントはツールとして、人類社会の応用層でどのように再構築されるのか?
しかし、あまり問われていないもう一つの問いもある。
今やエージェントの大規模普及が加速することで、モデル層にどのような本質的な変化がもたらされるのか?
この問いこそ、サットンの視点から見た本当に重要なポイントだ。
チャットボットの行き詰まり
エージェントの深い価値を理解する前に、その前身であるチャットボットがどのような行き詰まりに直面したのかを見ておく必要がある。
2023年初頭、ChatGPTのユーザー数は1億を突破し、消費者向けインターネット史上最速の成長記録を打ち立てた。世界中のプロダクトマネージャーは目を覚まし、自社製品に対話ウィンドウを次々と導入した。カスタマーサポートロボット、知識質問応答、ライティングアシスタント、コード補完——すべてが「チャットインターフェース」へと変貌した。
しかし、2024年末、ある尷尬な事実が浮き彫りになった:多くのユーザーは最初の新鮮さが薄れるとともに、利用頻度が著しく低下した。複数のメディアや分析機関が、ChatGPTのアクティブ率の鈍化を報じている。
ユーザーは気づく。何のためにこの対話ウィンドウを使えばいいのか分からなくなるのだ。たまにメールを書き換えたり、表現を変えたり、質問したりはするが、安定した習慣にはならない。
その理由は簡単だ:チャットボットのインタラクションは一問一答だが、人間の実際の仕事の流れは多段階、多ツール、多判断だ。
例えば、市場調査を頼むと、見た目の良い記事を出してくれるかもしれない。しかし、その情報源は信頼できるのか、重要な競合を見落としていないか、結論の背後にある推論の連鎖は妥当かどうかは分からない。結果は得られるが、その過程は見えない。
さらに致命的なのは、チャットボットの各対話は孤立していることだ。過去の好みを覚えていないし、プロジェクトの文脈も理解しない。対話を開くたびに、礼儀正しい記憶喪失者と自己紹介をやり直すようなものだ。
だからこそ、2024年後半から業界は一斉にエージェントへと舵を切った。チャットボットの天井が明確になったからだ。
ただし、ここでほとんど誰も気づいていない次元がある。それは、チャットボットの天井は単なるプロダクト形態の限界だけではなく、モデルの進化の天井でもあるということだ。
インタラクションの実践こそが鍵
サットンの強化学習哲学の核心は非常に明快だ:静的データの上限は、既知の世界の境界を示す。
どれだけコーパスが大きくても、パラメータが多くても、固定データセット上で訓練されたモデルの能力の限界は、そのデータが描く世界の範囲にとどまる。
2024-25年頃、その境界は肉眼でも見えるほど明らかになった。
Epoch AIチームは、広く引用される分析を発表し、今後数年で高品質なインターネットテキストデータはほぼ枯渇すると予測している。業界は「データの壁」について語り始めた。情報の総量の物理的限界による壁だ。
チャットボットが提供する答えは、ユーザーとの対話から得られるものだ。しかし、その情報密度は非常に低い。
「このメールをもっと丁寧に直して」「Pythonでクイックソートを書いて」「中国のGDPはいくらか」などのやりとりは、表層的な人間の要求の反映にすぎない。
モデルがこれらの対話から学べることは、インターネットから新しいテキストを取り込むことと本質的に変わらない。言語パターンの統計的規則を学ぶだけで、因果構造は欠落している。
エージェントの違いは:タスクを完遂する過程で、静的コーパスでは決して得られないもの——因果構造を注釈した意思決定の軌跡を生み出す点にある。
例えば、「来週水曜日に北京から上海への出張を手配して」とユーザーが言えば、チャットボットは一つの行程案を出して終了だ。そこから学ぶことはほとんどなく、その案の妥当性や満足度も分からないし、回答が本当に問題解決になったかも検証できない。
一方、同じタスクをエージェントにやらせると、完全な自主的なワークフローをたどる。まず出張の要件を理解し、過去の好みを参照し、フライトのAPIを呼び出すと天候で早朝便がキャンセルされていることを自動検知し、代替便に切り替え、会社の出張規定に沿ってホテルを選び、初稿を作成。ユーザーが「会場から遠すぎる」とフィードバックすれば、徒歩圏内のホテルに再選定し、最終案を出す。
各ステップには明確な因果信号が伴う。API呼び出し失敗は「予備の案を用意せよ」とモデルに伝え、ユーザの好みは「習慣を記憶せよ」と示し、修正フィードバックは「ニーズに合わせて最適化せよ」と教える。
チャットボットは答えだけを出すが、エージェントは本当にタスクを自主的に完遂し、試行錯誤を重ねて成長していく。
この種のデータの情報密度は、単なるウェブのスクレイピングをはるかに超える。これは人間の言語表現の写像ではなく、エージェントと現実世界のやりとりの記録だ。
こうしたデータで訓練されたモデルは、知識を増やすのではなく、推論能力と自己修正能力を高める。これこそが大規模モデルの能力上限を決める重要な変数だ。
言い換えれば、エージェントは大規模モデルが外部世界から進化の燃料を得るインターフェースだ。
このインターフェースがなければ、モデルの能力上限は静的データの境界に閉じ込められる。
上限に追いつくか、それともインターフェースを積み重ねるか?
2024年末から2025年にかけて、主要な大規模モデルの戦略選択に興味深い分岐点が現れた。
OpenAIやGoogleなどのトップモデルは、能力の天井を追い求めるために最大の圧力をかけている。
2024年末、OpenAIはo3をリリースした。このモデルは、François Chollet設計のARC-AGI基準テストで、業界を驚かせる成績を収めた。ARC-AGIは抽象推論能力を測る高難度のテストであり、Cholletは「知能の核心は推論と少量サンプルの汎化にある」と主張し、暴力的な探索ではなく推論時間をかけるアプローチを重視している。o3は大規模な推論時間をかけて、このテストでこれまでのシステムを超えるスコアを叩き出した。
Cholletは公の場で慎重な態度を示した。彼はo3の成果を否定しなかったが、重要な事実を指摘した:このシステムは解答に膨大な計算量を要し、人間を超える高得点は汎用知能の突破ではない。
Google DeepMindは、Gemini 2.0シリーズでマルチモーダル推論能力を拡張し続けている。
一方、Anthropicは別の道を選んだ。2024年10月、Claudeに「Computer Use」という当時はあまり魅力的に見えなかった機能を導入した。これはClaudeが直接コンピュータ画面を操作できるものだ。画面の内容を見て、マウスを動かし、ボタンをクリックし、文字を入力できる。
初期のユーザー体験は決して華麗ではなかった。Claudeの操作速度は遅く、ボタンを見つけるのに長時間かかり、たまに誤操作もあった。テクノロジーメディアやSNSのコメントは、善意の嘲笑を交えて「まるでPC初心者の老人が使っているみたい」と評された。
しかし、AnthropicのCEO Dario Amodeiは、何度もインタビューで次の判断を強調した。
大規模モデルの次なる突破は、パラメータ数だけではなく、モデルと世界のインタラクションの方式にある。
Amodeiは、OpenAIで約5年間GPT-2からGPT-3への進化を経験し、2021年に離れてAnthropicを設立した。彼の信念はまさにこれだ。
2024年末、AnthropicはModel Context Protocol(MCP)を公開し、AIモデルが外部ツールやデータソースと標準的に連携できる仕組みを整えた。
Computer UseがClaudeに「手足」を与えたとすれば、MCPは「神経末端」の標準化を実現し、現実世界への接触面積を倍増させたのだ。
Claudeの2025年の主要なストーリーは、特定のベンチマークのスコアではなく、エージェント能力の実用化だ。長いコンテキストの安定性、多段階タスクの確実な遂行、外部ツールとの柔軟な連携などだ。
それは、より難しい定量化目標を追うことだ:実世界のタスクで、継続的かつ信頼性高く働き続けること。
これはロマンチックではないかもしれない。しかし、サットンの理論は常にこう言っている:これこそがより高い知能の限界に到達する道だ。
働くこと=訓練
これは過去1年以上にわたり、最も直感に反する現象だ。多くの研究者が能力基準に集中している中、Claudeは実世界のエージェントシナリオでの大規模な運用を静かに進め、その中でサットンの予言したことを実現している。
それは、実世界とのインタラクションを通じて高品質な意思決定信号を継続的に蓄積し、それが逆にモデルの能力向上の燃料となることだ。
このサイクルはこう動く:ユーザーはClaudeを使ってCRMデータの整理や調達承認の自動化、リアルタイムデータに基づくマーケ戦略の調整、複雑なプログラミング作業を行う。
成功も失敗も信号となり、各多段階ワークフローは因果構造の決定軌跡を持つ。ツール呼び出しの結果は、「こうすれば効果的」「こうすれば無駄」とモデルに伝える。
これらの信号は、匿名化・抽出されてモデルの推論深度と自己修正能力に直接作用する。
一方、チャットボットのパターンでは、ユーザーとChatGPTの膨大な対話の中で、モデルの推論能力を著しく高めるものはどれだけあるだろうか?“秋についての詩を書いて”“Pythonでクイックソート”"中国の省の数は"などのやりとりは、繰り返しても因果推論の信号を含まない。これは言語パターンの予測の繰り返しであり、知能の増分ではない。
これが、エージェントとチャットボットのモデル進化における根本的な違いだ:チャットボットは「言葉の影」をモデルに与えるのに対し、エージェントは「意思決定の骨格」を与える。
これこそ、サットンが何十年も語り続けたことだ:知能を直接教育・設計しようとせず、環境との相互作用の中で自ら育つようにすることだ。
OpenAIの転換
OpenAIもこの問題に気づいている。
早くからFunction CallingやAssistants、GPTsといった機能を通じて、ツール呼び出しとタスク実行の探求を続けてきた。
しかし、真の飛躍は2025年1月に起きた。OpenAIはOperatorをリリースし、ブラウザ内で自主的にタスクを完遂できるようにした。続いて、Deep Researchという、多段階の研究や複数サイトから情報収集・分析を自律的に行うエージェントシステムも登場した。
OpenAIの戦略は、「対話」から「行動」へと明確にシフトしている。この変化は、サットンの論理と密接に呼応している:静的データ上のパターンマッチングから、動的環境での意思決定と学習へと移行しているのだ。
しかし、OpenAIには一つの課題がある。パス依存だ。ChatGPTの数億のユーザーは、ほとんどがチャットボットの使い方に慣れてしまっている。対話ウィンドウを開き、質問し、答えを得る。
これらのユーザーに、Q&Aからタスク指示へと切り替えさせるのは、単なるプロダクト設計の問題だけではなく、心的モデルの問題でもある。
ユーザーは次の逆説的なことを学ぶ必要がある:AIにやり方を教えるのではなく、結果を伝えるだけで良い。
Claudeは最初からChatGPTのような全民チャットボットの負担を背負っていない。彼らのユーザ層は開発者や企業に偏り、エージェントのインタラクションに自然に馴染む。AnthropicのMCPも、開発者エコシステムを意識し、第三者がClaudeにツールをつなぐのを容易にしている。
これにより、微妙な時間差が生まれる。OpenAIはまだ大規模ユーザをQ&Aからエージェントへと誘導しようとしている間に、Claudeはすでにエージェントシナリオで相応のインタラクションデータを蓄積している。
強化学習の世界では、時間差がすべてだ。
先行者のデータ優位は、フライホイール効果によって拡大し続ける:より良いエージェント→より多くの開発者とユーザの利用→より多くのインタラクションデータ→より強力なモデル→より良いエージェント。
上限は突破されていない
歴史上、何度も繰り返されてきたパターンがある。深層ブルーがカスパロフを倒したのは、人間のすべての棋譜を手作業でコード化したからではない。膨大な評価の中から、人間が思いつかなかった手を見つけ出したからだ。
AlphaGoの真の突破は、最初の人間の棋譜を学習したバージョンではなく、自己対戦だけで学習するAlphaGo Zeroにあった。ゼロから始めて、数日で人類の何千年もの囲碁知識を再発見し、それを超越した。
大規模言語モデルの数学推論やコード生成、論理分析の「出現」も、すべて意図的に設計されたものではない。
「数学問題を解く」「コードを書く」「論理を分析する」といった能力は、訓練目標に明示的に書かれていなかったが、モデルの規模とデータの規模がある臨界点を超えたときに自発的に出現した。
能力の上限は、正面から突破されるのではなく、複雑な環境との継続的な相互作用の中で、逼迫されて生まれる。
これがエージェントが大規模モデルにとって本当に意味することだ:単に「手足」を与えるだけでなく、現実世界と継続的に戦う舞台を提供する。
現実世界のフィードバックとゲームこそが進化のエンジンだ。
一度もミスをしないシステムは進化できない。質問に答えるだけのシステムは、自己の無知の場所を知ることもできない。
エージェントが手を伸ばし、APIを呼び、ブラウザを操作し、ワークフローを実行し、現実から厳しい反応を受けるとき、真の学習が始まる。
古典的な響き
サットンの強化学習哲学と類似の原理は、半世紀以上前に別の全く異なる分野の経済学者によって発見されている。
1945年、フリードリヒ・ハイエクは『アメリカ経済評論』に「社会における知識の利用」という論文を発表した。これは20世紀最も重要な経済学の論文の一つとされる。
その核心は非常にシンプルだ:複雑な経済体の運営に必要な全知識を、一人や一組織が掌握することは原理的に不可能だ。
それは一時的にできなくなるのではなく、**「原理的に不可能」**だからだ。
価値ある知識は分散し、局所的で、暗黙的で、刹那的だ。
経済においては、全体設計や全局的な青写真、トップダウンの指令系統は存在しない。無数の個人と環境の継続的な相互作用と、それにフィードバックを伝える仕組みだけがある。
この記述を、経済体を知能体に、価格信号を報酬信号に置き換えれば、サットンの強化学習と同じ構造になる。
1988年、89歳のハイエクは最後の重要著作『致命的な自負』を出版した。
タイトル自体が論点だ。ハイエクは一冊の本でこう論じた:人類の最も危険な誤信は、「自分たちの理性で自発秩序より優れたシステムを設計できる」と思い込むことだ。
彼はこう言う:我々は、すべての人のあらゆる時点のあらゆる要求と制約を事前に知ることはできない。唯一「知る」ことができるのは、実環境で人々が自己交互し、試行錯誤し、フィードバックに基づいて行動を調整する過程だ。
この過程にハイエクは「自発秩序」と名付けた。これは、サットンが重視した環境訓練と非常に似ている。
ハイエクは言うかもしれない:計画者が専門知識を経済に詰め込み、トップダウンの設計で市場の自発的調整を代替しようとするが、結局は「個人が自己試行錯誤する」方に負けてしまう。
サットンはこう言うだろう:AI研究者が知識をアルゴリズムに詰め込み、人工的な特徴で機械の自主学習を代替しようとするが、結局は「機械に自己試行錯誤させる」方に負けてしまう。
ハイエクの「致命的な自負」とは、人間の理性が自発秩序より優れたシステムを設計できると誤信することだ。
サットンの苦い教訓は、人間の専門家が単純に事前訓練すれば、より良い知能を作れると考える誤りだ。
ポランニーの黙的知識
もしもう一人、この時空を超えた対話に加わるとしたら、それはハイエクと同時代のハンガリー出身の学者、マイケル・ポランニーだ。
ポランニーは1966年に『黙的次元』を出版し、深遠な概念を提唱した。
黙的知識(tacit knowledge)とは、人々が知っているが言葉にできない知識のことだ。原文は「We know more than we can tell.」
人は自転車の乗り方は知っているが、バランスを取るための一つ一つの動作を正確に言語化できない。経験豊富な医師はX線を見ただけで異常を見抜くが、その判断過程を完全に形式化するのは難しい。
この概念は、以前のチャットボットモデルの致命的弱点を突いている。インターネットのテキストから学ぶ大規模言語モデルは、あくまで人間が言語化できる知識——顕在知識だけを学習している。
しかし、人間の多くの能力や判断力は、黙的知識に由来し、それは行動の中にしか現れない。テキストには表現されない。
人間の専門家の意思決定過程には、自分でも説明できない部分が多い——なぜこの時期に待つのか、なぜこの案が「直感的に」良くないと感じるのか。これらの判断は、どのウェブページにも教科書にも記載されていない。
しかし、それらはエージェントの行動軌跡に現れる。複雑なタスクを実行する際、何を最初にやるか、次に何をやるか、障害にどう対処するか、不確実性の中でどう判断を調整するか——これらはすべて黙的知識の外化だ。
それは言語の表現ではなく、行動の記録だ。そして、行動の記録は言語表現よりもはるかに多くの情報を含む。
AIの言葉に置き換えれば、エージェントの行動軌跡に含まれる情報は、インターネット上のすべてのテキストの情報よりも構造的に豊かだ。なぜなら、前者は行動と結果を記録し、後者はただの言葉を記録しているに過ぎない。
検証の道筋
2026年初頭に振り返ると、過去1年余の業界の動きは、この認識論的論争に対する初期の証拠を提供している。
基準に追従する路線は顕著な成果を挙げているが、その限界と頭打ちも明らかだ。
各社のモデルは、主要なベンチマークでのスコアが近づき、差は世代間の圧倒から、数ポイントの差へと縮小している。
ベンチマークのスコア競争は意味を失っていないが、それは短距離走の0.01秒勝負のようになり、観客には違いがわからず、実用面での影響も減少している。
エージェント路線のリターンは、少しずつ現れてきているが、あまり目立たない形で。
大きな基準突破はなく、むしろ具体的なシナリオでの信頼性向上が進んでいる。
Claudeのプログラミング補助における多段階タスクの成功率は改善し続け、Computer Useの操作精度と速度も著しく向上している。MCPを基盤としたサードパーティツールエコシステムも拡大中だ。
一年前のDeepSeek-R1の世界的な話題は、この物語の最も面白い章の一つだ。強化学習を深く採用し、サットンが推奨する方法で推論タスクに驚くべき効果を低コストで実現した。
これは、産業界にサットン哲学の現場デモを行ったようなものだ。最大のパラメータ数や人手によるラベリングを必要とせず、明確なフィードバック信号のある環境で大規模に試行錯誤させるだけで、推論能力が「逼迫」される。
ちなみに、物理世界のエージェントを大規模展開する前段階として、多くのモデルは合成データやルール明示の仮想環境で「予行演習」を行っている。これもまた、実世界への過渡期だ。
DeepSeek-R1の成功とエージェント路線の論理は、根底でつながっている。どちらも、静的データの積み重ねではなく、インタラクションから生じる信号を使って能力を高める点だ。違いは、前者は推論タスクのために設計された環境、後者は混沌とした実世界だ。
もちろん、経験を積む道は、現実の摩擦に満ちていることも認めざるを得ない。
現実世界は、無限にリセットできる仮想の沙箱ではない。AlphaGoは何百万局も負けてもコストはほぼゼロだったが、数学の推論や実務の試行錯誤はコストが高い。
しかし、実ビジネスや社会の連鎖の中では、エージェントの一度の越境失敗が取引の失敗や顧客体験の悪化、さらには金融・法務・医療のリスクに直結する。
さらに厄介なのは、現実のフィードバック信号はノイズが多く遅延もあることだ。エージェントの戦略が最終的に効果を発揮したとき、それは推論の正確さによるのか、環境の追い風によるのか、判断はつきにくい。
因果関係の曖昧さは、純粋な「有効経験」の抽出を妨げる大きな課題だ。
しかし、それこそがサットン理論の「苦さ」が今日の現実に映し出された姿だ。たとえ試行錯誤のコストが高く、フィードバックがノイズだらけでも、これこそが汎用人工知能への唯一の回避不能な門なのだ。
眩しい苦さ
サットンは『苦い教訓』の中で、何度もAI研究者の苦しみを語った。人間が巧みに設計した特徴やルール、先験知識は、最終的には規模の拡大した探索と学習に追い越されてしまう。
一見賢そうな方法も、実は「愚かな」方法の方がより遠くに行き着くことが多い。なぜなら、後者の方が拡張性に優れるからだ。
過去数年の大規模モデルの進化は、まさにこのパターンの繰り返しだった。
手工の特徴から深層学習へ、教師あり学習から自己教師あり学習へ、人工ラベルから強化学習へ——すべてのパラダイムの変遷は、同じ方向を向いている:人間の設計を減らし、環境での試行錯誤を増やす。
エージェントの登場は、その道を新たな段階へと押し上げた。
もし過去のモデルが言語の学習に主眼を置いていたとすれば、エージェントは行動の世界で学習を始めている。
言語は世界を記述できるが、行動だけが結果を生む。知識を表現できても、無知を露呈させるのは行動だけだ。
これが、エージェントの変化が短期的には製品の能力拡張に見えても、長期的には能力生成の仕組みそのものを変えることになる理由だ。
対話だけのモデルは、自分の盲点に気づきにくい。一方、実世界で何度も試行錯誤し、失敗し、修正を繰り返すモデルは、現実により多くの修正を受け入れる。現実のフィードバックは、どんな人工ラベルよりも直接的で、残酷だ。
ある意味、エージェントの最も重要な価値は、「AIに経験を持たせること」にある。
経験は時間軸を意味し、因果構造を意味し、誤りと修正の循環を意味する。
経験のないシステムは判断を形成できず、成長もできない。