使用语言让机器人更好地掌握一个开放的世界

想象一下，你在国外拜访一个朋友，你在他们的冰箱里看什么可以做一顿美味的早餐。许多物品最初对你来说似乎很陌生，每件物品都用不熟悉的包装和容器包装。尽管存在这些视觉上的区别，但您开始了解每个单词的用途，并在需要时选择它们。

受人类处理不熟悉物体的能力的启发，麻省理工学院计算机科学与人工智能实验室(CSAIL)的一个小组设计了机器人操作特征场(F3RM)，这是一个将2D图像与基础模型特征混合到3D场景中的系统，以帮助机器人识别和抓取附近的物体。F3RM可以解释来自人类的开放式语言提示，使该方法在包含数千个对象的现实环境(如仓库和家庭)中非常有用。

F3RM为机器人提供了使用自然语言解释开放式文本提示的能力，帮助机器操作对象。因此，机器可以理解来自人类的不太具体的请求，并且仍然完成预期的任务。例如，如果用户要求机器人“拿起一个高杯子”，机器人可以定位并抓取最符合该描述的物品。

美国国家科学基金会人工智能与基础相互作用研究所和麻省理工学院CSAIL的博士后葛阳说:“制造能够在现实世界中进行泛化的机器人是非常困难的。”“我们真的很想弄清楚如何做到这一点，所以在这个项目中，我们试图推动一个积极的泛化水平，从只有三四个对象到我们在麻省理工学院斯塔塔中心找到的任何东西。”我们想学习如何让机器人像我们自己一样灵活，因为我们可以抓住和放置物体，即使我们以前从未见过它们。”

学习“看哪里是什么”

这种方法可以帮助机器人在不可避免的混乱和不可预测性的大型物流中心挑选物品。在这些仓库里，机器人通常会被告知需要识别的库存描述。无论包装如何变化，机器人都必须将提供的文字与物品相匹配，以便客户的订单能够正确发货。

例如，大型在线零售商的配送中心可能包含数百万件商品，其中许多是机器人以前从未遇到过的。为了在这样的规模上操作，机器人需要理解不同物品的几何形状和语义，其中一些是在狭窄的空间里。借助F3RM先进的空间和语义感知能力，机器人可以更有效地定位物体，将其放入垃圾箱，然后将其送去包装。最终，这将有助于工厂工人更有效地运送客户的订单。

Yang说:“F3RM经常让人们感到惊讶的是，同样的系统也可以在房间和建筑尺度上工作，并且可以用来构建机器人学习和大型地图的模拟环境。”“但在我们进一步扩大这项工作之前，我们想首先让这个系统工作得非常快。通过这种方式，我们可以将这种类型的表示用于更动态的机器人控制任务，希望是实时的，这样处理更多动态任务的机器人就可以使用它来进行感知。”

麻省理工学院的研究小组指出，F3RM理解不同场景的能力可以使其在城市和家庭环境中发挥作用。例如，这种方法可以帮助个性化的机器人识别和拾取特定的物品。该系统帮助机器人在物理上和感知上掌握周围环境。

麻省理工学院电子工程和计算机科学副教授、CSAIL首席研究员菲利普·伊索拉(Phillip Isola)说:“大卫·马尔(David Marr)将视觉感知定义为‘通过观看知道在哪里是什么’的问题。”“最近的基础模型已经非常擅长知道他们在看什么;它们可以识别数千种对象类别，并提供图像的详细文本描述。与此同时，亮度场在表示场景中物体的位置方面已经变得非常好。这两种方法的结合可以创建3D中的位置表示，我们的工作表明，这种组合对于需要在3D中操纵物体的机器人任务特别有用。”

创造“数字孪生”

F3RM开始用自拍杆来了解周围的环境。安装的摄像头以不同的姿势拍摄50张图像，使其能够建立神经辐射场(NeRF)，这是一种深度学习方法，可以将2D图像构建为3D场景。这种RGB照片拼贴创造了周围环境的“数字孪生”，以360度的形式呈现附近的事物。

除了高度详细的神经辐射场外，F3RM还构建了一个特征场，用语义信息增强几何形状。该系统使用CLIP，这是一种经过数亿张图像训练的视觉基础模型，可以有效地学习视觉概念。通过对自拍杆拍摄的图像重建2D CLIP特征，F3RM有效地将2D特征提升为3D表示。

保持开放性

在接受一些演示后，机器人应用它所知道的几何和语义来抓取它以前从未遇到过的物体。一旦用户提交文本查询，机器人就会在可能抓取的空间中搜索，以确定最有可能成功抓取用户请求的对象的空间。每个潜在的选项都是根据其与提示的相关性、与机器人训练的演示的相似性以及是否引起任何碰撞来评分的。然后选择得分最高的抓住并执行。

为了展示该系统解读人类开放式请求的能力，研究人员让机器人捡起了迪士尼电影《超能陆战队》(Big Hero 6)中的角色大白。虽然F3RM从未被直接训练过拿起卡通超级英雄的玩具，但它利用基础模型的空间意识和视觉语言特征来决定要抓住哪个物体以及如何拿起它。

F3RM还允许用户在不同层次的语言细节上指定他们希望机器人处理的对象。例如，如果有一个金属杯和一个玻璃杯，用户可以要求机器人提供“玻璃杯”。如果机器人看到两个杯子，其中一个装满了咖啡，另一个装满了果汁，用户可以要求“装咖啡的杯子”。嵌入在特征字段中的基础模型特征使这种程度的开放式理解成为可能。

“如果我教一个人如何拿起杯子的嘴唇，他们可以很容易地将这种知识转移到拿起类似几何形状的物体上，比如碗、量杯，甚至是卷尺。对于机器人来说，达到这种水平的适应性是相当具有挑战性的，”麻省理工学院博士生、CSAIL成员、共同主要作者威廉·沈说。“F3RM将几何理解与基于互联网规模数据训练的基础模型的语义相结合，仅通过少量演示就能实现这种程度的激进泛化。”

沈和杨在Isola的指导下完成了这篇论文，麻省理工学院教授和CSAIL首席研究员Leslie Pack Kaelbling和本科生Alan Yu和Jansen Wong是共同作者。该团队得到了亚马逊服务公司、美国国家科学基金会、空军科学研究办公室、海军研究多学科大学倡议办公室、陆军研究办公室、麻省理工学院- ibm沃森人工智能实验室和麻省理工学院智能探索项目的部分支持。他们的研究成果将在2023年机器人学习会议上发表。

作者：Alex Shipps b| MIT CSAIL

链接：https://news.mit.edu/2023/using-language-give-robots-better-grasp-open-ended-world-1102

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

声明：海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的，并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益，请作者与本网联系，我们将及时更正、删除，谢谢。电话：15264513609，邮箱：1027830374@qq.com

栏目

行业新闻

公司动态

时间

2023-11-07 12:45:48

作者

Alex Shipps b| MIT CSAIL