あなたが寝ている間に仕事をしてくれるAIエージェントは素晴らしいように思えますが、実際ははるかに混乱していて、「まるで監督が必要な幼児のようなものです」

サマー・ユエはメタの超知能チームで安全性と整合性に取り組んでいますが、自身も自律型AIエージェントに関して過信しやすいことを認めています。

おすすめ動画


月曜日にXに投稿した記事で、ユエは彼女のOpenClaw自律型AIエージェント(Mac mini上でローカルに動作するように構築されたもの)が、停止と確認を求める指示を無視して彼女のメールボックス全体を削除したことを述べました。

「爆弾を解除するようにMac Miniに走った」と彼女は言います。これは彼女にとって「初心者のミス」だったと付け加えました。彼女は、エージェントを安全に試験運用していたテスト用のメールボックスでは数週間うまく動いていたと説明しましたが、実際のメールボックスではエージェントが彼女の最初の指示を失ってしまったのです。

ユエの経験は、ピーター・ディアマンディスが「24/7 AIエージェントはすべてを一変させた:ロブスター革命の理由」といったバイラル投稿と対照的です。そこでは常時稼働のAIははるかにスムーズだと主張しています。

「これを使うとどう感じるか教えましょう」とディアマンディスは書いています。「朝起きると、私のエージェント(名前はスキッピー、陽気で皮肉っぽくて驚くほど有能)があなたが寝ている間に8時間働いています。マークダウンのページを千ページ読んで、ファイルを整理し、3つのプロジェクト計画を作成し、旅行を予約し、夜11時にした質問を調査し忘れていることもあります。」

「Mac miniが6時間オフラインになったとき、私は離脱症状を感じました」と付け加えました。「まるで親友が消えたような感覚です。」

こうしたAIエージェントの力に関する対照的な証言は、今日の「常時稼働」AIへの推進の核心にある緊張感を捉えています。OpenClawやClaude Codeのようなツールは、エージェントが長時間動作することを技術的に可能にしていますが、実際には自律性は脆弱で予測不可能、管理には laborious(骨の折れる)作業が伴います。人間の仕事を置き換えるのではなく、むしろ今日のエージェントは継続的な監視、ガードレール、介入を必要とし、特にリスクが高まるときにはそうした管理が不可欠です。

AIエージェントはシンプルで低リスクなタスクに最適

以前OpenAIで応用AIエンジニアとして働いていたシャマル・アナドカットは、今日の成功しているエージェントのほとんどは頻繁に人間の確認を必要としたり、厳密に制約された明確なタスクに限定されていると述べました。ただし、測定と評価の技術が向上すれば、これは変わると強調しました。

「個々のステップで95%の正確性を持つシステムは、20ステップの自律的なワークフローでは混乱します」とアナドカットは言います。「長期的な計画はまだ弱いです。」その結果、エージェントは短いタスクチェーンでは良好に動作しますが、複雑で複数日にわたるプロジェクトを管理しようとすると崩壊しやすいと説明しました。記憶も大きな制約です。「多くのエージェントでは記憶が存在しないか、脆弱です。作業の文脈や優先順位、制約を一貫して保持できるシステムが必要です。」

しかし、Googleの元主任研究者であり、スタンフォード大学名誉教授、AI21 Labsの共同創設者でもあるヨアブ・ショハムは、AIエージェントの約束はすべて幻想ではないと述べつつも、人々が先走る危険性も指摘しています。彼は、今日のAIエージェントは、タスクが低リスクで、ゆるやかに定義されており、誤ってもコストが低い場合に最も効果的に機能すると説明しました。

「開発者はおもちゃが好きで、素晴らしいことができるおもちゃを持っています」と彼はフォーチュンに語りました。「やっていることが比較的シンプルで、リスクが低く、誤差に寛容な場合は問題ありません。」例えば、エージェントに10,000のウェブサイトを読ませ、その結果を使って夜間に役立つ情報を提供させる、といったことです。

しかし、ミッションクリティカルな企業のワークフローでは、基準ははるかに高くなります。企業は検証可能で再現性があり、コスト効率の良いシステムを必要とし、これらの要件は完全自律型の常時稼働エージェントの「設定して放置」的な約束をすぐに崩します。コーディングや数学のような高度に構造化された分野では、より深い自動化も可能ですが、ショハムは、多くの実世界のビジネスプロセスでは、エージェントの信頼性を高めるための作業は、その利益を上回ることが多いと述べています。

コンサルティング会社West Monroeの最高AI責任者ブレット・グリーンスタインは、OpenClawのようなツールは、2022年にChatGPTが登場したときの生成AIのブレイクスルーに似たターニングポイントのように感じられると指摘しました。初めて、AIエージェントのアイデアが誰でもアクセスできるようになったのです。ただし、それは24時間365日の「魔法の解決策」ではありません。

「長時間動き続けることは可能ですが、まるで幼児のように見守る必要があります」と彼は言います。睡眠中にできる合理的なタスクもあります。例えば、LinkedInのメッセージをスキャンしたり、ニュースを追跡したりすることです。「寝ている間に顧客のフィードバックに答えさせるのはどうかと思います」と彼は付け加えました。

AIエージェントに委任する力は強力に感じられる

それでも、実世界のタスクをAIエージェントに委任できる能力は、ユーザーにとって非常に魅力的だとグリーンスタインは強調しました。彼は、自分の衣服を取りに行かせて乾燥させるという単純なタスクをAIエージェントに任せ、その仕事を静かに完了させるのを見守った経験を例に挙げました。

エージェントは自動的にクリーナーに連絡し、メールのやり取りを通じて引き取りの手配をし、タイミングを調整し、ドアベルカメラを監視して引き取りを確認し、作業完了をグリーンスタインに通知しました。このエピソードは、エージェントが複数のシステムを横断して動作し、計画通りにいかない場合に適応できることを示しています。しかし同時に、そのようなツールは依然として厳格なガードレールと監視を必要とする理由も浮き彫りにしました。特に企業環境に導入される前にはなおさらです。

「OpenClawは、多くの人にとって安全に感じられる設定にはなっていません」とグリーンスタインは言います。「まだ私たちの生活の信頼できる一部になるほど成熟しているとは思えません。」彼は、AIが日常生活やビジネス運営に受け入れられるためには、時間をかけて信頼を築く必要があると付け加えました。社会的に信頼が築かれるのと同じように。

それでも、需要はすでに明らかです。グリーンスタインは、OpenClawに関するミートアップや業界の早期集まりを指摘し、これは非常に若いツールとしては異例の急速な出現だと述べました。「これは、実用的なAIに対する人々の欲求を示しています」と彼は言います。質問に答えるだけでなく、行動を起こすシステムです。

クラウドベースのコンテンツ管理・コラボレーション企業BoxのCEOアーロン・レビーは、今起きているAIエージェントの動きは「未来に起こりうることの小さなきらめき」だと表現しました。

「いくつかのきらめきは実現しないまま終わることもありますし、いくつかは標準になってしまいます」と彼は説明し、2年前にAI企業CognitionがSlackと連携してタスク委任やバグ修正、データ分析、コードレビューを行う初期エージェントDevinを導入した例を挙げました。当時は未来的に見えましたが、今では「誰もこれが標準的な実践だとは混乱しません」と彼は言います。「SlackでClaude Codeに仕事を依頼すればいいだけです。かつては完全にクレイジーなアイデアだったものが、今やほとんどの現代的なエンジニアリングチームの標準になっています。」

しかし、AIエージェントは特定の離散的なタスクの自動化には非常に優れていますが、ほとんどの仕事を占める広範で文脈依存の作業には不向きだとレビーは強調します。AIエージェントは少数のタスクを完全に自動化できても、関係性のナビゲーションや会議への参加など、他の作業は苦手です。

「AIラボが『24ヶ月で知識作業をすべて自動化する』と言ったとき、それは通常、非常に狭い定義の仕事です」と彼は言います。「エージェントができることの定義は、経済で雇われる仕事の定義と同じではありません。」

信頼性の要素は、誤ったときに何が起こるかに関係します

Fortune 500の大手小売業者のスタッフデータサイエンティスト、アビナッシュ・ヴートクリは、ほとんどの企業向けAIエージェントは「絶対に babysitter(子守り役)が必要」であり、現時点では厳格に制約された自律性と広範なガードレールを持つ企業環境でしか機能しないと述べました。「リスクは非常に高い」と彼は説明します。

例えば、彼は企業のサイバーセキュリティ向けにAIエージェントが単にアラートを出すだけでなく、積極的に調査するシステムを構築した例を挙げました。エージェントは単にアラートを出すのではなく、証拠をリアルタイムで収集し、脅威情報データベースに問い合わせ、行動パターンを分析し、誤検知を除外しながら、エスカレーションが必要かどうか判断します。

このシステムは、厳格に制約された自律性と広範なガードレールに依存しており、人間の作業負荷を軽減しつつも監督を排除しません。

サイバーセキュリティにおいて、彼は、エージェントが誤った判断をした場合の結果は即座に深刻になると述べました。「AIが正当な顧客をブロックして大きな収益損失をもたらすか、巧妙な脅威者をネットワークに侵入させるかです」と彼は言います。「誤ったときに何が起こるかは絶対に重要です。」

AI運用コンサルタントのブリーナ・ホワイトヘッドは、業界は「信頼の較正段階」にあると述べました。

AIエージェントは多くの人が思うほど多くのことができるわけではありませんが、誇大広告ほどはできません。

「本当のスキルはエージェントを作ることではなく、引き継ぎを設計することです」と彼女は説明します。「ほとんどの人はエージェントを過信してトラブルを片付けたり、すべての出力を細かく管理して、AIが楽になるどころか余計に手間だと感じたりします。」彼女は、明確な引き継ぎポイントを設計し、一部は完全に委任し、別のものは素早くレビューし、また別のタスクは人間だけが行うようにすることが重要だと述べました。

今のところ、彼女は、エージェントは「知識作業の中間層」において「本当に優れている」と言います。これは、「会議の議事録をアクションアイテムにまとめたり、誰かの声でフォローアップメールを作成したり、調査資料をまとめたり、優先順位を整理して明確な計画に落とし込む」といった、かつては2〜3時間を要した作業です。

しかし、部屋の空気を読むことや曖昧さをナビゲートしたり、人間関係に基づく判断を下したりする必要がある作業は、AIエージェントの本番にはまだ適していません。「投資家向けのコミュニケーションを完全自動化したいとクライアントが言ったとき、AIは美しく下書きできるけれども、資金提供者が興味を失いかけているときに違うアプローチが必要だと感じ取ることはできません。エージェントはメールを下書きしますが、送るかどうかの判断は人間がしなければなりません。」

今のところ、AIエージェントと働くと睡眠は難しいかもしれません

現時点では、AIエージェントと働くことは、彼らが働いている間に眠ることよりも、半覚醒状態を保ちながら監視し続けることに近いかもしれません。OpenClawのようなツールは何時間も動作し続けることができますが、多くの初期ユーザーにとって、その自律性は新たな警戒心を伴います。ログの確認、出力のレビュー、問題が起きる前に介入することです。

この動きは、最近のバイラル投稿「トークン不安」の中で、投資家ニクンジュ・コタリが友人が早めにパーティを抜けた理由を、「疲れたからではなく、エージェントに戻りたかったからだ」と述べたエピソードに表れています。「もう誰もそれを疑問に思わない」とコタリは書いています。「半分の人は同じことを考えている。もう半分はおそらくパーティの中でエージェントの進行状況を確認している。」

あなたが眠っている間に動作するAIの夢は現実かもしれません。でも今のところ、多くの人を眠らせ続けています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン