概要研究者たちは、多層エンボディドメモリー(MEM)というシステムを開発しました。これによりロボットは短期記憶と長期記憶の両方を持ち、進捗を追跡しながら複雑なタスクを完遂できるようになります。これまでの孤立した動作の実行だけではなく、長時間にわたる作業を行うことが可能です。長年、真に役立つ家庭用ロボットの夢は、実は手の届きそうな距離にありました。ロボットはすでに「フライパンを洗う」「洗濯物を畳む」「サンドイッチを作る」といった命令に従うことができます。実験室環境では、これらのシステムは高い器用さと正確さを示しています。しかし、ロボットの基盤モデルの急速な進歩にもかかわらず、根本的に欠けているものがあります。それは記憶です。単一のタスクを実行できるロボットは、仕事を完遂できるロボットとは異なります。キッチン全体を掃除したり、料理を作ったり、レシピの材料を準備したりするには、孤立したスキルだけでは不十分です。継続性、すなわち既に行ったことを覚え、まだやるべきことを把握し、すべての場所を認識する能力が必要です。その物語の糸がなければ、最も有能なロボットでさえ意外と無能に見えてしまいます。この課題に対し、Physical Intelligenceの研究者たちは、新しいアーキテクチャ「多層エンボディドメモリー(MEM)」を提案しています。これは、ロボットに短期記憶と長期記憶の両方を持たせ、数分間にわたるタスクもこなせるようにするシステムです。その結果は重要な示唆を含んでいます。ロボット工学の未来は、より優れた機械的な手よりも、より優れた認知アーキテクチャに依存する可能性が高いのです。現代のロボットモデルはすでに驚くべき運動スキルのライブラリを持っています。壊れやすい物体をつかむ、道具を操作する、散らかった環境を移動することができます。しかし、全キッチンを掃除する、カウンターを拭く、食料品を片付ける、食器を洗う、道具を整理する、といった作業をロボットに頼むと、その限界がすぐに明らかになります。問題はスキルそのものではありません。問題は、それらのスキルの調整方法にあります。複雑な作業には持続的な意識が必要です。ロボットは、すでに開けたキャビネットや鍋の蓋を置いた場所、すでに洗った皿などを記憶しておく必要があります。また、視界から外れた物体を追跡し、新しい動作を行いながら環境のメンタルマップを維持しなければなりません。人間の認知はこれを無意識に行います。これまでの機械はそうではありませんでした。ロボットが見たすべての観察を数分、数時間保存し続けることは計算上不可能です。しかし、その情報を捨ててしまうと、混乱した行動や繰り返しのミス、忘れた手順、以前の決定と矛盾する行動が生じやすくなります。この課題は、ロボット研究では「因果の混乱」と呼ばれることもあります。過去の出来事を誤解し、誤った行動を強化してしまうのです。その結果、短いデモでは印象的に見えるロボットも、実際の現場ではタスクを完遂できないことが多いのです。## 物理的知性のためのメモリーシステムMEMアーキテクチャは、この問題に対処するために、多層の記憶構造を導入しています。すべてを平等に保存するのではなく、記憶を二つの補完的な形態に分けています。短期視覚記憶は、効率的なビデオエンコーディングアーキテクチャを用いて、最近の観察を捉えます。これにより、ロボットは動きを理解し、フレーム間の物体を追跡し、数秒前の出来事を記憶できるため、グリルドチーズサンドイッチをひっくり返す、皿をこすり洗いするなどの正確な動作に不可欠です。一方、長期概念記憶は、タスクの進行状況を自然言語で保存します。生の視覚データを無期限に記憶するのではなく、「鍋をシンクに置いた」「冷蔵庫から牛乳を取り出した」といった簡潔なテキストの「メモ」を書き留めます。これらの要約は、ロボットの推論過程の一部となります。つまり、ロボットは自分の物語を構築し、その中で次に何をすべきか、何を記憶すべきかを同時に決定します。この仕組みにより、従来のロボットのデモよりもはるかに長い15分間のタスク追跡が可能となります。MEMがもたらす最も興味深い能力の一つは、コンテキスト内適応です。ロボットはミスを犯します。これは避けられません。しかし、多くのロボットシステムは失敗を記憶していないため、同じミスを繰り返します。この違いは、簡単な実験で明らかです。あるテストでは、ロボットが平らな箸をつかもうとします。記憶がなければ、何度も同じ失敗を繰り返します。記憶があれば、失敗を覚え、別の方法を試し、最終的に成功します。別の例は冷蔵庫の扉を開ける動作です。視覚情報だけでは、扉がどちらに開くかすぐには判断できません。記憶のないシステムは、同じ動作を繰り返すだけです。記憶を持つロボットは、一方の方向を試し、失敗を覚え、反対側を試します。これらの小さな調整は、深遠な意味を持ちます。それは、タスク内で学習できる能力です。訓練データに頼るだけでなく、ロボットはその場で適応します。研究者たちは、記憶を持つシステムをより複雑なタスクで評価しました。最初の課題は、グリルドチーズサンドイッチを作ることでした。これは、タイミング管理や、パンをひっくり返す、盛り付けるといった繊細な物理的ステップを行うために短期記憶を必要としました。次に、レシピの材料を取り出すという物流的な課題です。ロボットは、すでに集めたアイテムや場所、引き出しやキャビネットの閉まり具合を記憶しなければなりません。最後に、最も難しいシナリオは、キッチン全体の掃除です。これには、物品の整理、皿洗い、カウンターの拭き掃除、すでに掃除済みの部分の追跡が含まれます。記憶を強化したモデルは、構造化された記憶を持たないバージョンよりもはるかに優れ、信頼性とタスク完了率を大きく向上させました。この違いは、ロボット工学における重要な転換点を示しています。孤立した動作の最適化から、持続的なワークフローを可能にするシステムの構築へと進化しているのです。## なぜ記憶がロボットの次のフロンティアなのかMEMの広範な意味は、ロボット工学が新たな段階に入ったことを示しています。数十年にわたり、分野は知覚と制御に焦点を当ててきました。すなわち、機械に世界を見させ、物体を操作させることです。最近では、大規模なマルチモーダルモデルの進歩により、指示の解釈や複雑な運動行動の実行能力が飛躍的に向上しています。しかし、その能力が成熟するにつれ、ボトルネックは変化しています。次の課題は認知的連続性です。長時間にわたり目標を見失わずに動作できる能力です。MEMのような記憶システムは、その連続性の土台を提供します。瞬間的に反応するのではなく、ロボットは自分の行動や決定、環境についての内部的な物語を維持できるのです。この物語こそが、複雑な行動の出現を可能にします。このアプローチが進化し続ければ、その応用範囲はキッチン掃除を超え、何時間、あるいは何日も続く指示を実行する未来のロボットへと広がるでしょう。例えば、家庭用アシスタントにこう頼むことを想像してください。「午後6時に帰宅します。夕食を用意して、水曜日には家を掃除してください。」このような長期的な指示を実行するには、長時間にわたる詳細な指示の解析、サブタスクの計画、進行状況の記憶、そして問題が起きたときの適応が必要です。すべての動作の生のビデオ履歴を長期間保存するのは不可能です。代わりに、ロボットは経験を圧縮し、より抽象的な表現に変換する階層的な記憶システムに頼ることになるでしょう。MEMは、そのアーキテクチャへの第一歩です。より有能なロボットの鍵は、より強力なモーターや高性能センサーではなく、より良い記憶と、それについて推論する能力にあることを示唆しています。ロボットがついに自分の行動を覚えられるようになれば、仕事を完了させることもついに可能になるのです。
Physical Intelligenceは、ロボットに実世界のタスクに必要な記憶を与えるために、MEMアーキテクチャを導入します
概要
研究者たちは、多層エンボディドメモリー(MEM)というシステムを開発しました。これによりロボットは短期記憶と長期記憶の両方を持ち、進捗を追跡しながら複雑なタスクを完遂できるようになります。これまでの孤立した動作の実行だけではなく、長時間にわたる作業を行うことが可能です。
長年、真に役立つ家庭用ロボットの夢は、実は手の届きそうな距離にありました。ロボットはすでに「フライパンを洗う」「洗濯物を畳む」「サンドイッチを作る」といった命令に従うことができます。実験室環境では、これらのシステムは高い器用さと正確さを示しています。しかし、ロボットの基盤モデルの急速な進歩にもかかわらず、根本的に欠けているものがあります。それは記憶です。
単一のタスクを実行できるロボットは、仕事を完遂できるロボットとは異なります。キッチン全体を掃除したり、料理を作ったり、レシピの材料を準備したりするには、孤立したスキルだけでは不十分です。継続性、すなわち既に行ったことを覚え、まだやるべきことを把握し、すべての場所を認識する能力が必要です。その物語の糸がなければ、最も有能なロボットでさえ意外と無能に見えてしまいます。
この課題に対し、Physical Intelligenceの研究者たちは、新しいアーキテクチャ「多層エンボディドメモリー(MEM)」を提案しています。これは、ロボットに短期記憶と長期記憶の両方を持たせ、数分間にわたるタスクもこなせるようにするシステムです。
その結果は重要な示唆を含んでいます。ロボット工学の未来は、より優れた機械的な手よりも、より優れた認知アーキテクチャに依存する可能性が高いのです。
現代のロボットモデルはすでに驚くべき運動スキルのライブラリを持っています。壊れやすい物体をつかむ、道具を操作する、散らかった環境を移動することができます。しかし、全キッチンを掃除する、カウンターを拭く、食料品を片付ける、食器を洗う、道具を整理する、といった作業をロボットに頼むと、その限界がすぐに明らかになります。
人間の認知はこれを無意識に行います。これまでの機械はそうではありませんでした。ロボットが見たすべての観察を数分、数時間保存し続けることは計算上不可能です。しかし、その情報を捨ててしまうと、混乱した行動や繰り返しのミス、忘れた手順、以前の決定と矛盾する行動が生じやすくなります。この課題は、ロボット研究では「因果の混乱」と呼ばれることもあります。過去の出来事を誤解し、誤った行動を強化してしまうのです。
その結果、短いデモでは印象的に見えるロボットも、実際の現場ではタスクを完遂できないことが多いのです。
物理的知性のためのメモリーシステム
MEMアーキテクチャは、この問題に対処するために、多層の記憶構造を導入しています。すべてを平等に保存するのではなく、記憶を二つの補完的な形態に分けています。
短期視覚記憶は、効率的なビデオエンコーディングアーキテクチャを用いて、最近の観察を捉えます。これにより、ロボットは動きを理解し、フレーム間の物体を追跡し、数秒前の出来事を記憶できるため、グリルドチーズサンドイッチをひっくり返す、皿をこすり洗いするなどの正確な動作に不可欠です。
一方、長期概念記憶は、タスクの進行状況を自然言語で保存します。生の視覚データを無期限に記憶するのではなく、「鍋をシンクに置いた」「冷蔵庫から牛乳を取り出した」といった簡潔なテキストの「メモ」を書き留めます。
これらの要約は、ロボットの推論過程の一部となります。つまり、ロボットは自分の物語を構築し、その中で次に何をすべきか、何を記憶すべきかを同時に決定します。この仕組みにより、従来のロボットのデモよりもはるかに長い15分間のタスク追跡が可能となります。
MEMがもたらす最も興味深い能力の一つは、コンテキスト内適応です。ロボットはミスを犯します。これは避けられません。しかし、多くのロボットシステムは失敗を記憶していないため、同じミスを繰り返します。
この違いは、簡単な実験で明らかです。あるテストでは、ロボットが平らな箸をつかもうとします。記憶がなければ、何度も同じ失敗を繰り返します。記憶があれば、失敗を覚え、別の方法を試し、最終的に成功します。
別の例は冷蔵庫の扉を開ける動作です。視覚情報だけでは、扉がどちらに開くかすぐには判断できません。記憶のないシステムは、同じ動作を繰り返すだけです。記憶を持つロボットは、一方の方向を試し、失敗を覚え、反対側を試します。
これらの小さな調整は、深遠な意味を持ちます。それは、タスク内で学習できる能力です。訓練データに頼るだけでなく、ロボットはその場で適応します。
研究者たちは、記憶を持つシステムをより複雑なタスクで評価しました。最初の課題は、グリルドチーズサンドイッチを作ることでした。これは、タイミング管理や、パンをひっくり返す、盛り付けるといった繊細な物理的ステップを行うために短期記憶を必要としました。
次に、レシピの材料を取り出すという物流的な課題です。ロボットは、すでに集めたアイテムや場所、引き出しやキャビネットの閉まり具合を記憶しなければなりません。最後に、最も難しいシナリオは、キッチン全体の掃除です。
これには、物品の整理、皿洗い、カウンターの拭き掃除、すでに掃除済みの部分の追跡が含まれます。
記憶を強化したモデルは、構造化された記憶を持たないバージョンよりもはるかに優れ、信頼性とタスク完了率を大きく向上させました。
この違いは、ロボット工学における重要な転換点を示しています。孤立した動作の最適化から、持続的なワークフローを可能にするシステムの構築へと進化しているのです。
なぜ記憶がロボットの次のフロンティアなのか
MEMの広範な意味は、ロボット工学が新たな段階に入ったことを示しています。数十年にわたり、分野は知覚と制御に焦点を当ててきました。すなわち、機械に世界を見させ、物体を操作させることです。最近では、大規模なマルチモーダルモデルの進歩により、指示の解釈や複雑な運動行動の実行能力が飛躍的に向上しています。
しかし、その能力が成熟するにつれ、ボトルネックは変化しています。次の課題は認知的連続性です。長時間にわたり目標を見失わずに動作できる能力です。MEMのような記憶システムは、その連続性の土台を提供します。瞬間的に反応するのではなく、ロボットは自分の行動や決定、環境についての内部的な物語を維持できるのです。この物語こそが、複雑な行動の出現を可能にします。
このアプローチが進化し続ければ、その応用範囲はキッチン掃除を超え、何時間、あるいは何日も続く指示を実行する未来のロボットへと広がるでしょう。例えば、家庭用アシスタントにこう頼むことを想像してください。
「午後6時に帰宅します。夕食を用意して、水曜日には家を掃除してください。」
このような長期的な指示を実行するには、長時間にわたる詳細な指示の解析、サブタスクの計画、進行状況の記憶、そして問題が起きたときの適応が必要です。
すべての動作の生のビデオ履歴を長期間保存するのは不可能です。代わりに、ロボットは経験を圧縮し、より抽象的な表現に変換する階層的な記憶システムに頼ることになるでしょう。
MEMは、そのアーキテクチャへの第一歩です。より有能なロボットの鍵は、より強力なモーターや高性能センサーではなく、より良い記憶と、それについて推論する能力にあることを示唆しています。ロボットがついに自分の行動を覚えられるようになれば、仕事を完了させることもついに可能になるのです。