帮助机器人瞄准重要的物体

 

想象一下,要收拾一个凌乱的厨房,从一个堆满酱包的柜台开始。如果您的目标是清除计数器,则可以将数据包作为一个组进行清除。不过,如果你想先挑出几包芥末,然后再把其余的扔掉,你就可以根据酱料的种类进行更有区别的分类。如果在这些芥末中,你对Grey Poupon很感兴趣,那么找到这个特定的品牌就需要更仔细的搜索。

麻省理工学院的工程师已经开发出一种方法,使机器人能够做出类似的直觉,与任务相关的决定。

该团队的新方法被命名为Clio,它使机器人能够根据手头的任务识别出场景中重要的部分。在Clio系统中,机器人接受用自然语言描述的一系列任务,然后根据这些任务,确定解释周围环境所需的粒度级别,并“记住”场景中相关的部分。

在真实的实验中,从凌乱的小隔间到麻省理工学院校园里的五层建筑,该团队使用Clio根据自然语言提示中指定的一组任务,如“移动杂志架”和“拿急救箱”,自动分割不同粒度的场景。

该团队还在一个四足机器人上实时运行了Clio。当机器人探索一栋办公楼时,Clio只识别和绘制与机器人任务相关的场景部分(比如在忽略成堆的办公用品的同时取出狗玩具),让机器人抓住感兴趣的物体。

克利奥(Clio)以希腊历史女神的名字命名,因为它能够识别并记住特定任务中重要的元素。研究人员设想,Clio将在许多情况和环境中发挥作用,在这些情况和环境中,机器人必须在给定任务的背景下快速调查和理解周围环境。

麻省理工学院航空航天系(AeroAstro)副教授、信息与决策系统实验室(LIDS)首席研究员、麻省理工学院SPARK实验室主任卢卡·卡隆(Luca Carlone)说:“搜索和救援是这项工作的激励应用,但Clio也可以为家庭机器人和与人类一起在工厂车间工作的机器人提供动力。”“这真的是为了帮助机器人了解环境,以及为了执行任务它必须记住什么。”

该团队在今天发表在《机器人与自动化通讯》杂志上的一项研究中详细介绍了他们的研究结果。Carlone的合著者包括SPARK实验室的成员:Dominic Maggio、Yun Chang、Nathan Hughes和Lukas Schmid;以及麻省理工学院林肯实验室的成员:Matthew Trang, Dan Griffith, Carlyn Dougherty和Eric Cristofalo。

计算机视觉和自然语言处理领域的巨大进步使机器人能够识别周围的物体。但直到最近,机器人还只能在“封闭”的场景中做到这一点,在这种场景中,它们被编程在一个精心策划和控制的环境中工作,机器人被预先训练识别有限数量的物体。

近年来,研究人员采取了一种更“开放”的方法,使机器人能够在更现实的环境中识别物体。在开放集识别领域,研究人员利用深度学习工具建立了神经网络,可以处理来自互联网的数十亿张图像,以及每张图像的相关文本(比如朋友在Facebook上发布的一张狗的照片,标题是“认识我的新小狗!”)。

从数以百万计的图像-文本对中,神经网络从中学习,然后识别场景中具有特定术语特征的片段,例如狗。然后,机器人可以应用该神经网络在一个全新的场景中发现狗。

但是,如何以一种与特定任务相关的有用方式解析场景仍然是一个挑战。

Maggio说:“典型的方法会选择一些任意的、固定的粒度级别来决定如何将场景的片段融合成一个‘对象’。”“然而,你所说的‘对象’的粒度实际上与机器人必须做的事情有关。如果在不考虑任务的情况下就固定了这种粒度,那么机器人最终得到的地图可能对其任务毫无用处。”

通过Clio,麻省理工学院的团队旨在使机器人能够以一定的粒度级别解释周围环境,从而可以自动调整到手头的任务。

例如,给定一项将一摞书移动到书架上的任务,机器人应该能够确定整个一摞书是与任务相关的对象。同样,如果任务是只移动绿皮书,机器人应该将绿皮书作为一个单一的目标物体,而忽略场景的其余部分——包括书堆中的其他书。

该团队的方法结合了最先进的计算机视觉和由神经网络组成的大型语言模型,这些神经网络可以在数百万开源图像和语义文本之间建立联系。他们还结合了映射工具,自动将图像分割成许多小片段,这些小片段可以输入神经网络,以确定某些片段在语义上是否相似。然后,研究人员利用了经典信息论中一个被称为“信息瓶颈”的想法,他们利用这个想法来压缩大量的图像片段,以一种挑选和存储与给定任务在语义上最相关的片段的方式。

“比如,场景中有一堆书,我的任务就是拿到那本绿皮书。在这种情况下,我们推动所有这些信息的场景通过这个瓶颈,并最终与代表绿皮书的部分集群,”Maggio解释说。“所有其他不相关的部分只是被分组在一个集群中,我们可以简单地删除。这样我们就剩下了一个粒度合适的对象来支持我的任务。”

研究人员在不同的现实环境中演示了Clio。

“我们认为真正严肃的实验是在我的公寓里运行Clio,我事先没有做任何清洁,”Maggio说。

该团队列出了一系列自然语言任务,比如“移动一堆衣服”,然后将Clio应用于马乔杂乱公寓的图像。在这些情况下,Clio能够快速分割公寓的场景,并通过信息瓶颈算法将这些片段输入,以识别那些组成一堆衣服的片段。

他们还在波士顿动力公司的四足机器人Spot上运行了Clio。他们给机器人一份任务清单,让它完成任务。当机器人探索并绘制办公大楼内部的地图时,Clio会在安装在Spot上的车载电脑上实时运行,从地图上的场景中挑选出与给定任务相关的部分。该方法生成了一个只显示目标物体的叠加地图,然后机器人用它来接近识别的物体并完成物理任务。

“实时运行Clio是团队的一大成就,”Maggio说。“很多之前的工作可能需要几个小时才能完成。”

展望未来,该团队计划调整Clio,使其能够处理更高级别的任务,并在逼真的视觉场景表示方面取得最新进展。

Maggio说:“我们仍然给Clio一些具体的任务,比如‘找到一副牌’。”“对于搜救来说,你需要给它更多高级别的任务,比如‘寻找幸存者’或‘恢复供电’。”因此,我们希望对如何完成更复杂的任务有更人性化的理解。”

作者:麻省理工学院

链接:https://www.sciencedaily.com/releases/2024/09/240930160224.htm

著作权归作者所有。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com