Physical Intelligence 引入 MEM 架构,为机器人提供完成真实世界任务所需的记忆

简要概述

研究人员开发了多尺度具身记忆(Multi-Scale Embodied Memory,MEM)系统,为机器人提供短期和长期记忆,使其能够追踪进展并完成复杂任务,而不仅仅是执行孤立的动作。

Physical Intelligence Introduces MEM Architecture To Give Robots The Memory Needed For Real-World Tasks

多年来,真正有用的家用机器人梦想一直似乎触手可及。机器人已经可以遵循“洗平底锅”、“叠衣服”或“做三明治”等指令。在实验室环境中,这些系统展现出令人印象深刻的灵巧性和精确性。然而,尽管机器人基础模型取得了快速进展,仍缺少一个根本要素:记忆。

能够执行单一任务的机器人,与能够完成整个工作的机器人并不相同。清理整个厨房、烹饪一顿饭或准备食材,不仅需要孤立的技能,还需要连续性——记住已完成的步骤、还需完成的任务,以及所有物品的位置。没有这个叙事线索,即使是最有能力的机器人也会变得令人惊讶的无能。

这是物理智能(Physical Intelligence)研究人员目前试图通过一种名为多尺度具身记忆(MEM)的新架构解决的挑战——一种旨在赋予机器人短期和长期记忆的系统,使其能够执行持续数分钟而非数秒的任务。

结果暗示了一件重要的事:未来的机器人可能更依赖于更好的认知架构,而非更先进的机械手。

现代机器人模型已经拥有丰富的运动技能库。它们可以抓取脆弱物体、操作工具、在杂乱环境中导航。但当让机器人清理整个厨房——擦拭台面、收拾杂货、洗碗、整理餐具——时,限制很快就会显现。

问题不在技能本身,而在于这些技能的协调。复杂任务需要持续的意识。机器人必须记住已打开的橱柜、放置锅盖的位置,或是否已洗过碗。它还必须追踪视野之外的物体,并在执行新动作时维护环境的心理地图。

人类认知可以轻松做到这一点。机器直到最近还做不到。存储机器人观察到的每个细节数分钟或数小时在计算上是不可行的。但丢弃这些信息会导致行为混乱——重复错误、忘记步骤或采取与之前决策相矛盾的行动。在机器人研究中,这一挑战有时被描述为“因果混淆”,即系统误解过去的事件并强化错误的行为。

结果是:在短暂演示中看起来令人印象深刻的机器人,却难以完成真实世界中的任务。

物理智能的记忆系统

MEM架构通过引入多层次的记忆结构解决了这个问题。系统不对所有信息一视同仁,而是将记忆分为两种互补的形式:

短期视觉记忆利用高效的视频编码架构捕捉近期观察。这使机器人能够理解运动、跨帧追踪物体,并记住几秒前发生的事件——对于翻转烤面包或擦洗碗碟等精细操作至关重要。

长期概念记忆则以自然语言存储任务进展。机器人不会无限期地记住原始视觉数据,而是写下简短的文本“笔记”,描述已发生的事情——比如“我把锅放在水槽里”或“我从冰箱取出了牛奶”。

这些总结成为机器人推理过程的一部分。实际上,机器在构建自己的任务叙事。系统的推理引擎同时决定:下一步要执行什么动作,以及哪些信息值得记忆。这种结合使模型能够追踪持续长达十五分钟的任务——远远超过以往大多数机器人演示的时间。

MEM带来的一个最令人着迷的能力是上下文中的适应性。机器人会犯错,这是不可避免的。但大多数机器人系统会不断重复这些错误,因为它们没有记忆失败的能力。

在简单的实验中,这一差异变得尤为明显。在一次测试中,机器人试图用平底筷子夹取物体。没有记忆,机器人会反复尝试同样失败的抓握。启用记忆后,机器人会记住失败的尝试,尝试不同的方法,最终成功。

另一个例子是打开冰箱。从视觉数据来看,机器人无法立即判断门的开启方向。没有记忆的系统会一遍又一遍地重复相同的动作。启用记忆的机器人会尝试一个方向,记住失败,然后尝试相反的方向。

这些微调代表了某种深远的变化:在任务中学习的能力。机器人不再完全依赖训练数据,而是能在执行过程中进行适应。

研究人员在越来越复杂的任务中评估了带有记忆的系统。首先是一个相对简单的挑战:制作烤奶酪三明治。这需要短期记忆来管理时间,同时完成翻面和摆盘等细腻的物理步骤。

接下来是一个物流任务:取回食谱所需的食材。机器人必须记住已收集的物品、它们的位置,以及抽屉和橱柜是否已关闭。最后是最具挑战性的场景:清理整个厨房。

这意味着归还物品、洗碗、擦拭台面,并追踪已清洁区域。

带有记忆增强的模型在完成任务方面明显优于没有结构化记忆的版本,表现出更高的可靠性和任务完成率。

这一差异标志着机器人学的关键转变。研究人员不再只优化孤立的动作,而是在构建能够持续执行工作流程的系统。

为什么记忆是机器人学的下一个前沿

MEM的更广泛意义在于,机器人学正进入一个新阶段。几十年来,该领域专注于感知和控制:帮助机器“看见”世界和操控物体。近年来,大型多模态模型极大地提升了机器人理解指令和执行复杂运动的能力。

但随着这些能力的成熟,瓶颈也在转移。下一个挑战是认知连续性——让机器人在长时间内操作而不丢失目标。像MEM这样的记忆系统为这种连续性提供了支撑。机器人不再是瞬间反应,而是能维护关于其行为、决策和环境的内部叙事。这种叙事正是复杂行为得以出现的基础。

如果这一方法持续发展,其影响将远远超出清理厨房的范畴。未来的机器人可能需要遵循持续数小时甚至数天的指令。想象一下对家庭助理说:

“我晚上六点到家——请准备好晚餐,并在星期三打扫房子。”

执行这样的请求需要解析长时间的指令、规划子任务、记住进展,并在出现问题时进行调整。

长时间保持每个动作的原始视频记录几乎是不可能的。相反,机器人可能会依赖层级式的记忆系统,将经验压缩成越来越抽象的表征。

MEM是朝着这一架构迈出的早期一步。它暗示,更强的机器人可能不在于更强的马达或更敏锐的传感器,而在于更好的记忆——以及对其进行推理的能力。如果机器人最终能记住自己在做什么,它们也许就能真正完成任务。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论