设计家用机器人要有一点常识

从擦拭溢出物到端上食物,机器人正在学习执行越来越复杂的家务。许多这样的家庭机器人学员都是通过模仿来学习的;它们被编程为模仿人类在物理上引导它们的动作。

事实证明,机器人是优秀的模仿者。但是,除非工程师也给它们编程,让它们适应每一个可能的碰撞和轻推,否则机器人不一定知道如何处理这些情况,除非它们从头开始执行任务。

现在,麻省理工学院的工程师们的目标是让机器人在面对迫使它们偏离训练路线的情况时,拥有一点常识。他们开发了一种方法,将机器人运动数据与大型语言模型(llm)的“常识知识”联系起来。

他们的方法使机器人能够从逻辑上将许多给定的家庭任务解析为子任务,并在物理上适应子任务中的中断,这样机器人就可以继续前进,而不必返回并从头开始一项任务,也无需工程师在此过程中明确地为每一个可能的故障编写修复程序。

“模仿学习是家用机器人的主流方法。但如果一个机器人盲目地模仿人类的运动轨迹,微小的错误就会累积起来,最终破坏其余的执行,”麻省理工学院电子工程与计算机科学系(EECS)的研究生王艳伟(音译)说。“通过我们的方法,机器人可以自我纠正执行错误,提高整体任务的成功率。”

Wang和他的同事将在5月份的国际学习表征会议(ICLR)上详细介绍他们的新方法。该研究的共同作者包括EECS研究生王恒萱和毛嘉媛,麻省理工学院航空航天系博士后Michael Hagenow和麻省理工学院航空航天学H.N. Slater教授Julie Shah。

语言任务

研究人员用一个简单的家务来说明他们的新方法:从一个碗里舀出弹珠,倒进另一个碗里。为了完成这项任务,工程师们通常会让机器人在一个流体轨道上进行舀水和倒水的动作。他们可能会多次这样做,给机器人一些人类的示范来模仿。

“但人类的示范是一个漫长而连续的轨迹,”王说。

该团队意识到,虽然人类可能会一次完成一项任务,但该任务取决于一系列子任务或轨迹。例如,机器人必须先把手伸进碗里,然后才能舀起东西,在移动到空碗之前,它必须先舀起弹珠,等等。如果一个机器人在这些子任务中被推或轻推犯了错误,它唯一的办法就是停止并从头开始,除非工程师明确地标记每个子任务和程序,或者收集新的演示,让机器人从上述失败中恢复过来,使机器人能够自我纠正。

王说:“那种级别的规划非常乏味。”

相反,他和他的同事们发现其中一些工作可以由法学硕士自动完成。这些深度学习模型处理大量的文本库,用来建立单词、句子和段落之间的联系。通过这些联系,LLM可以根据它所学到的可能跟在最后一个单词后面的单词生成新的句子。

对于他们来说,研究人员发现,除了句子和段落,法学硕士还可以被提示生成一个与给定任务相关的子任务的逻辑列表。例如,如果要求列出将弹珠从一个碗舀到另一个碗中的动作,LLM可能会产生一系列动词,如“到达”、“舀”、“运输”和“倒”。

“法学硕士有一种方法,用自然语言告诉你如何完成任务的每一步。一个人的连续演示是这些步骤在物理空间中的体现,”王说。“我们想把两者连接起来,这样机器人就能自动知道它在任务中的哪个阶段,并能够自己重新规划和恢复。”

映射弹珠

对于他们的新方法,该团队开发了一种算法,可以自动将LLM用于特定子任务的自然语言标签与机器人在物理空间中的位置或编码机器人状态的图像连接起来。将机器人的物理坐标或机器人状态的图像映射到自然语言标签被称为“接地”。该团队的新算法旨在学习一个基本的“分类器”,这意味着它可以根据机器人的物理坐标或图像视图,学习自动识别机器人所处的语义子任务——例如,“到达”和“舀”。

王解释说:“接地分类器促进了机器人在物理空间中所做的事情与LLM对子任务的了解之间的对话,以及每个子任务中必须注意的约束。”

该团队在实验中用机械臂展示了这种方法,他们训练机械臂完成一项挖大理石的任务。实验人员通过物理引导来训练机器人完成以下任务:首先把手伸进碗里,舀起弹珠,把它们放到空碗上,然后倒进去。经过几次演示后,研究小组使用了一个预训练的LLM,并要求模型列出将弹珠从一个碗舀到另一个碗的步骤。然后,研究人员使用他们的新算法将LLM定义的子任务与机器人的运动轨迹数据联系起来。该算法自动学习将机器人在轨迹中的物理坐标和相应的图像视图映射到给定的子任务。

然后,研究小组让机器人使用新学习的接地分类器,自己完成挖地任务。在机器人完成任务的过程中,实验者把它推来推去,把它推离原来的路线,并在不同的地方把它勺子上的弹珠敲掉。机器人没有停下来重新开始,也没有在勺子上没有弹珠的情况下盲目地继续,而是能够自我纠正,并在进入下一个子任务之前完成每个子任务。(例如,它会确保在将弹珠运送到空碗之前成功地舀起弹珠。)

王说:“有了我们的方法,当机器人犯错时,我们不需要让人类编程,也不需要额外的演示如何从故障中恢复。”“这非常令人兴奋,因为现在人们正在努力用远程操作系统收集的数据来训练家用机器人。我们的算法现在可以将训练数据转换为强大的机器人行为,可以在外部干扰的情况下完成复杂的任务。”

作者:麻省理工学院

链接:https://www.sciencedaily.com/releases/2024/03/240325172439.htm

著作权归作者所有。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com