新方法使用众包反馈来帮助训练机器人

为了教会人工智能代理一项新任务,比如如何打开橱柜,研究人员经常使用强化学习——一个反复试验的过程,在这个过程中,代理会因为采取了让它更接近目标的行动而得到奖励。

在许多情况下,人类专家必须仔细设计奖励函数,这是一种激励机制,赋予代理探索的动机。当智能体探索和尝试不同的动作时,人类专家必须迭代地更新奖励函数。这可能很耗时、效率低下,而且难以扩大规模,特别是当任务很复杂且涉及许多步骤时。

麻省理工学院(MIT)、哈佛大学(Harvard University)和华盛顿大学(University of Washington)的研究人员开发了一种新的强化学习方法,这种方法不依赖于专门设计的奖励功能。相反,它利用从许多非专业用户那里收集的众包反馈来指导智能体学习如何达到目标。

虽然其他一些方法也试图利用非专家反馈,但这种新方法使人工智能代理能够更快地学习,尽管来自用户的众包数据经常充满错误。这些嘈杂的数据可能会导致其他方法失败。

此外,这种新方法允许异步收集反馈,因此世界各地的非专业用户可以为教代理做出贡献。

“当今设计机器人代理最耗时、最具挑战性的部分之一是设计奖励功能。今天,奖励功能是由专家研究人员设计的——如果我们想教机器人许多不同的任务,这种模式是不可扩展的。我们的工作提出了一种通过众包奖励函数的设计来扩展机器人学习的方法,并使非专家提供有用的反馈成为可能,”麻省理工学院电子工程与计算机科学系(EECS)助理教授Pulkit Agrawal说,他领导着麻省理工学院计算机科学与人工智能实验室(CSAIL)的Improbable AI实验室。

在未来,这种方法可以帮助机器人快速学习在用户家中执行特定任务,而无需主人向机器人展示每项任务的物理示例。机器人可以自己探索,通过众包的非专家反馈来指导它的探索。

“在我们的方法中,奖励函数引导代理应该探索什么,而不是确切地告诉它应该做什么来完成任务。所以,即使人类的监督有些不准确和嘈杂,代理仍然能够探索,这有助于它更好地学习,”23岁的首席作者Marcel Torne解释说,他是Improbable AI实验室的研究助理。

与托恩一起撰写论文的还有他在麻省理工学院的导师阿格拉瓦尔;资深作者、华盛顿大学助理教授Abhishek Gupta;以及华盛顿大学和麻省理工学院的其他人。这项研究将在下个月的神经信息处理系统会议上发表。

嘈杂的反馈

为强化学习收集用户反馈的一种方法是向用户展示智能体所达到状态的两张照片,然后询问用户哪个状态更接近目标。例如,也许机器人的目标是打开一个橱柜。一张图片可能显示机器人打开了橱柜,而另一张可能显示它打开了微波炉。用户可以选择“较好”状态的照片。

之前的一些方法尝试使用这种众包的二元反馈来优化智能体用来学习任务的奖励函数。然而,因为非专家很可能会犯错误,奖励函数可能会变得非常嘈杂,所以代理可能会陷入困境,永远无法达到目标。

“基本上,代理会把奖励函数看得太认真。它会尝试与奖励功能完美匹配。所以,我们不是直接优化奖励功能,而是用它来告诉机器人应该探索哪些区域。”托恩说。

他和他的合作者将这个过程分解成两个独立的部分,每个部分由自己的算法指导。他们将这种新的强化学习方法称为HuGE (Human Guided Exploration)。

一方面,目标选择器算法根据众包的人类反馈不断更新。反馈不是用作奖励函数,而是用于指导代理的探索。从某种意义上说,非专业用户掉落的面包屑会逐渐引导代理实现其目标。

另一方面,智能体在目标选择器的引导下,以自我监督的方式进行自我探索。它收集它尝试的动作的图像或视频,然后将其发送给人类并用于更新目标选择器。

这缩小了智能体探索的范围,将其引向更接近目标的更有希望的区域。但如果没有反馈,或者反馈需要一段时间才能到达,智能体将继续自己学习,尽管以较慢的方式。这使得可以不频繁地异步收集反馈。

“探索循环可以继续自主进行,因为它只是在探索和学习新事物。当你得到更好的信号时,它会以更具体的方式进行探索。你可以让它们按照自己的节奏转动,”托恩补充道。

由于反馈只是温和地指导代理的行为,即使用户提供错误的答案,它最终也会学会完成任务。

更快的学习

研究人员在许多模拟和现实世界的任务中测试了这种方法。在模拟中,他们使用HuGE有效地学习具有长动作序列的任务,例如以特定顺序堆叠块或在大型迷宫中导航。

在现实世界的测试中,他们使用HuGE来训练机械手臂画字母“U”和拾取和放置物体。为了进行这些测试,他们从三大洲13个不同国家的109名非专业用户那里收集了数据。

在现实世界和模拟实验中,HuGE帮助智能体比其他方法更快地学习实现目标。

研究人员还发现,来自非专家的众包数据比由研究人员生成和标记的合成数据产生了更好的性能。对于非专业用户来说,标记30张图片或视频只需要不到两分钟的时间。

Torne补充道:“这使得这种方法在规模化方面非常有前途。”

在最近的机器人学习会议上,研究人员发表了一篇相关论文,他们对HuGE进行了改进,使人工智能代理可以学习执行任务,然后自主重置环境以继续学习。例如,如果代理学习打开机柜,该方法也会引导代理关闭机柜。

“现在我们可以让它完全自主地学习,而不需要人为重置,”他说。

研究人员还强调,在这种和其他学习方法中,确保人工智能代理与人类价值观保持一致是至关重要的。

在未来,他们希望继续改进HuGE,这样智能体就可以从其他形式的交流中学习,比如自然语言和与机器人的物理互动。他们也对应用这种方法同时教授多个智能体感兴趣。

这项研究的部分资金由麻省理工学院- ibm沃森人工智能实验室提供。


作者:麻省理工学院

链接:https://www.sciencedaily.com/releases/2023/11/231127132237.htm

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:15264513609,邮箱:1027830374@qq.com