一种更快、更好的训练通用机器人的方法

在经典动画片《杰森一家》(the Jetsons)中,机器人女佣罗茜(Rosie)无缝切换,从吸尘到做饭再到倒垃圾。但在现实生活中,训练一个通用机器人仍然是一个重大挑战。

通常情况下,工程师会收集特定于某个机器人和任务的数据,然后用这些数据在受控环境中训练机器人。然而,收集这些数据既昂贵又耗时,而且机器人可能很难适应以前从未见过的环境或任务。

为了训练更好的通用机器人,麻省理工学院的研究人员开发了一种通用技术,将来自许多来源的大量异构数据结合到一个系统中,可以教任何机器人完成各种任务。

他们的方法包括将来自不同领域的数据,如模拟和真实机器人,以及多种模式,包括视觉传感器和机械臂位置编码器,整合成一种生成式人工智能模型可以处理的共享“语言”。

通过结合如此大量的数据,这种方法可以用来训练机器人执行各种任务,而不需要每次都从头开始训练。

这种方法可能比传统技术更快、更便宜,因为它需要的特定任务数据要少得多。此外,在模拟和现实世界的实验中,它比从头开始的训练高出20%以上。

“在机器人领域,人们经常声称我们没有足够的训练数据。但在我看来,另一个大问题是数据来自如此多不同的领域、模式和机器人硬件。我们的工作展示了如何将所有这些组合在一起训练机器人,”电子工程和计算机科学(EECS)研究生、该技术论文的主要作者王丽蕊说。

王的合著者包括EECS研究生赵家亮;Meta研究科学家陈鑫磊;资深作者何开明,华东理工学院副教授,计算机科学与人工智能实验室成员。这项研究将在神经信息处理系统会议上发表。

法学硕士启发

机器人的“策略”采用传感器观察,如相机图像或本体感知测量,跟踪机器人手臂的速度和位置,然后告诉机器人如何移动以及在哪里移动。

策略通常是通过模仿学习来训练的,这意味着一个人演示动作或远程操作一个机器人来生成数据,这些数据被输入到一个学习策略的人工智能模型中。由于这种方法使用了少量特定于任务的数据,当机器人的环境或任务发生变化时,机器人经常会失败。

为了开发更好的方法,Wang和他的合作者从像GPT-4这样的大型语言模型中获得灵感。

这些模型使用大量不同的语言数据进行预训练,然后通过向它们提供少量特定任务的数据来进行微调。在如此多的数据上进行预训练有助于模型适应各种任务。

“在语言领域,数据都只是句子。在机器人领域,考虑到数据的异质性,如果你想以类似的方式进行预训练,我们需要一种不同的架构,”他说。

机器人数据有多种形式,从相机图像到语言指令再到深度图。同时,每个机器人在机械上都是独一无二的,手臂、抓手和传感器的数量和方向都不同。此外,收集数据的环境差异很大。

麻省理工学院的研究人员开发了一种名为异构预训练变压器(HPT)的新架构,可以统一来自这些不同模式和领域的数据。

他们将一个被称为变压器的机器学习模型放在他们的架构的中间,该模型处理视觉和本体感觉输入。转换器是构成大型语言模型主干的同一类型的模型。

研究人员将来自视觉和本体感觉的数据整合到变压器可以处理的相同类型的输入中,称为标记。每个输入都用相同的固定数量的令牌表示。

然后,变压器将所有输入映射到一个共享空间,随着它处理和学习更多的数据,成长为一个巨大的预训练模型。变压器越大,性能就越好。

用户只需要向HPT提供关于机器人的设计、设置和他们希望它执行的任务的少量数据。然后,HPT将在预训练期间转换的知识转移到学习新任务。

实现灵巧的动作

开发HPT的最大挑战之一是建立大规模数据集来预训练变压器,该数据集包括四类52个数据集,其中包括人类演示视频和模拟,其中包括超过20万个机器人轨迹。

研究人员还需要开发一种有效的方法,将来自传感器阵列的原始本体感觉信号转化为变压器可以处理的数据。

“本体感觉是实现许多灵巧动作的关键。因为我们的建筑中代币的数量总是相同的,所以我们同样重视本体感觉和视觉,”王解释说。

当他们测试HPT时,与每次从头开始训练相比,它在模拟和现实世界任务中的表现提高了20%以上。即使任务与预训练数据非常不同,HPT仍然可以提高性能。

“本文提供了一种跨多个机器人实施例训练单个策略的新方法。这使得可以跨不同的数据集进行训练,使机器人学习方法能够显着扩展他们可以训练的数据集的大小。它还允许模型快速适应新的机器人实施例,这对于不断生产新的机器人设计很重要,”卡内基梅隆大学机器人研究所的副教授大卫·赫尔德说,他没有参与这项工作。

未来,研究人员希望研究数据多样性如何提高HPT的性能。他们还希望增强HPT,使其能够处理未标记的数据,如GPT-4和其他大型语言模型。

“我们的梦想是拥有一个通用的机器人大脑,你可以下载并为你的机器人使用,而无需任何训练。虽然我们还处于早期阶段,但我们将继续努力,希望规模能带来机器人政策的突破,就像大型语言模型一样。”

作者:Adam Zewe | MIT新闻

链接:https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028

著作权归作者所有。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com