你每天的待办事项清单可能相当简单:洗碗、买杂货和其他琐事。你不太可能写下“拿起第一个脏盘子”或“用海绵洗盘子”,因为家务中的每一个微小步骤都是直观的。虽然我们通常可以不加思考地完成每一步,但机器人需要一个复杂的计划,其中包括更详细的轮廓。
麻省理工学院的Improbable AI实验室是计算机科学与人工智能实验室(CSAIL)的一个小组,他们为这些机器提供了一个新的多模态框架:分层规划的组合基础模型(HiP),它利用三种不同基础模型的专业知识制定了详细、可行的计划。就像OpenAI的GPT-4 (ChatGPT和必应聊天的基础模型)一样,这些基础模型是在大量数据的基础上进行训练的,用于生成图像、翻译文本和机器人等应用。
与RT2和其他在成对的视觉、语言和动作数据上训练的多模态模型不同,HiP使用三种不同的基础模型,每种模型都在不同的数据模态上训练。每个基础模型捕获决策过程的不同部分,然后在做出决策的时候一起工作。HiP消除了访问成对的视觉、语言和动作数据的需要,这些数据很难获得。HiP还使推理过程更加透明。
被认为是人类日常琐事的事情可能是机器人的“长期目标”——一个包括首先完成许多小步骤的总体目标——需要足够的数据来计划、理解和执行目标。虽然计算机视觉研究人员试图为这个问题建立整体基础模型,但将语言、视觉和动作数据配对是昂贵的。相反,HiP代表了一种不同的、多模式的配方:廉价地将语言、物理和环境智能结合到机器人中。
“基础模型不必是单一的,”NVIDIA人工智能研究员吉姆·范(Jim Fan)说,他没有参与这篇论文。“这项工作将嵌入代理规划的复杂任务分解为三个组成模型:语言推理器、视觉世界模型和行动计划器。它使一个困难的决策问题变得更容易处理和透明。”
该团队认为,他们的系统可以帮助这些机器完成家务,比如把书放好或把碗放进洗碗机里。此外,HiP可以帮助完成多步骤的建造和制造任务,比如按照特定的顺序堆叠和放置不同的材料。
CSAIL团队在三个操作任务上测试了HiP的敏锐性,优于同类框架。该系统通过制定适应新信息的智能计划来进行推理。
首先,研究人员要求它将不同颜色的方块堆叠在一起,然后将其他方块放在附近。问题是:一些正确的颜色没有出现,所以机器人必须把白色的块放在一个颜色碗里来涂上它们。HiP经常准确地调整这些变化,特别是与Transformer BC和Action Diffuser等最先进的任务规划系统相比,它根据需要调整其堆叠和放置每个方块的计划。
另一个测试是:把糖果和锤子等物品放在一个棕色的盒子里,同时忽略其他物品。一些需要移动的物体很脏,所以HiP调整了计划,把它们放在一个清洁盒里,然后放进棕色的容器里。在第三次演示中,机器人能够忽略不必要的物体来完成厨房的子目标,比如打开微波炉,清理挡路的水壶,打开灯。一些提示的步骤已经完成,所以机器人通过跳过这些指示来适应。
三管齐下的层次结构
HiP的三管齐下的规划过程是一个层次结构,能够根据不同的数据集(包括机器人之外的信息)对每个组件进行预训练。在该顺序的底部是一个大型语言模型(LLM),它通过捕获所需的所有符号信息并开发抽象任务计划来开始构思。利用在互联网上找到的常识性知识,该模型将其目标分解为子目标。例如,“泡一杯茶”变成了“往一壶水里倒”、“把壶煮开”,以及随后需要的动作。
麻省理工学院电子工程与计算机科学系(EECS)博士生、CSAIL附属机构的阿努拉格·阿贾伊(Anurag Ajay)说:“我们想做的就是利用现有的预训练模型,让它们成功地相互连接。”“我们不是用一个模型来做所有的事情,而是结合多个模型来利用不同的互联网数据模式。当它们一起使用时,它们可以帮助机器人做出决策,并可能帮助完成家庭、工厂和建筑工地的任务。”
这些模型还需要某种形式的“眼睛”来理解它们所处的环境,并正确执行每个子目标。该团队使用了一个大型视频扩散模型来增强LLM完成的初始规划,LLM从互联网上的镜头中收集有关世界的几何和物理信息。反过来,视频模型生成观测轨迹计划,细化LLM的大纲,以纳入新的物理知识。
这个过程被称为迭代改进,允许HiP对其想法进行推理,在每个阶段接受反馈以生成更实用的大纲。反馈的流程类似于写一篇文章,作者可以将草稿发送给编辑,然后将这些修改纳入其中,出版商审查任何最后的修改并最终定稿。
在这种情况下,层次结构的顶端是一个以自我为中心的行动模型,或者是一系列第一人称图像,这些图像根据周围环境推断出应该发生哪些行动。在这一阶段,来自视频模型的观察计划被映射到机器人可见的空间上,帮助机器决定如何在长视界目标内执行每个任务。如果一个机器人使用HiP来泡茶,这意味着它将准确地绘制出茶壶、水槽和其他关键视觉元素的位置,并开始完成每个子目标。
然而,由于缺乏高质量的视频基础模型,多模式工作受到限制。一旦可用,它们可以与HiP的小规模视频模型接口,以进一步增强视觉序列预测和机器人动作生成。高质量的版本也将减少目前对视频模型的数据需求。
话虽如此,CSAIL团队的方法总体上只使用了一小部分数据。此外,HiP的训练成本很低,并展示了使用现成的基础模型来完成长期任务的潜力。“Anurag所展示的是概念验证,即我们如何将在单独任务和数据模式上训练的模型结合到机器人规划模型中。未来,HiP可以通过预先训练的模型来增强,这些模型可以处理触觉和声音,从而制定更好的计划,”麻省理工学院EECS助理教授、Improbable人工智能实验室主任、资深作者Pulkit Agrawal说。该团队还在考虑将HiP应用于解决现实世界中机器人领域的长期任务。
Ajay和Agrawal是一篇描述这项工作的论文的主要作者。麻省理工学院的教授和CSAIL的首席研究员Tommi Jaakkola, Joshua Tenenbaum和Leslie Pack Kaelbling也加入了他们的队伍;CSAIL研究分支机构和麻省理工学院- ibm人工智能实验室研究经理Akash Srivastava;研究生韩承旭和杜奕伦' 19;前博士后,现任华盛顿大学助理教授的Abhishek Gupta;以及23届博士研究生李爽。
该团队的工作得到了美国国家科学基金会、美国国防部高级研究计划局、美国陆军研究办公室、美国海军研究多学科大学研究计划办公室和麻省理工学院- ibm沃森人工智能实验室的部分支持。他们的研究结果在2023年神经信息处理系统会议(NeurIPS)上发表。
作者:Alex Shipps | MIT CSAIL
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:15264513609,邮箱:1027830374@qq.com
2024-01-15 13:14:22
Alex Shipps | MIT CSAIL