西北大学的工程师们开发了一种专门为智能机器人设计的新的人工智能算法。通过帮助机器人快速、可靠地学习复杂技能,这种新方法可以显著提高机器人在一系列应用中的实用性和安全性,包括自动驾驶汽车、送货无人机、家庭助理和自动化。
该算法被称为最大扩散强化学习(MaxDiff RL),其成功之处在于它能够鼓励机器人尽可能随机地探索环境,以获得多样化的体验。这种“设计的随机性”提高了机器人收集周围环境数据的质量。而且,通过使用更高质量的数据,模拟机器人展示了更快、更有效的学习,提高了它们的整体可靠性和性能。
在与其他人工智能平台进行测试时,使用西北大学新算法的模拟机器人的表现始终优于最先进的模型。事实上,新算法运行得非常好,以至于机器人学会了新的任务,然后在一次尝试中成功地完成了这些任务——第一次就做对了。这与目前的人工智能模型形成鲜明对比,后者通过反复试验来实现较慢的学习速度。
这项研究将于周四(5月2日)发表在《自然机器智能》杂志上。
“其他人工智能框架可能有些不可靠,”西北大学的托马斯·贝鲁埃塔(Thomas Berrueta)说,他是这项研究的负责人。有时他们会完全完成一项任务,但有时他们会彻底失败。有了我们的框架,只要机器人有能力完成任务,每次你打开你的机器人,你都可以期望它完全按照要求去做。这使得解释机器人的成功和失败变得更加容易,这在一个越来越依赖人工智能的世界里至关重要。”
Berrueta是西北大学的校长研究员,也是麦考密克工程学院机械工程的博士候选人。机器人专家Todd Murphey是麦考密克大学的机械工程教授,也是Berrueta的顾问,他是这篇论文的资深作者。Berrueta和murphy与Allison Pinosky共同撰写了这篇论文,Allison Pinosky也是murphy实验室的博士候选人。
无实体的脱节
为了训练机器学习算法,研究人员和开发人员使用了大量的大数据,这些数据由人类仔细过滤和管理。人工智能从这些训练数据中学习,反复试验,直到达到最佳结果。虽然这个过程适用于无实体的系统,如ChatGPT和Google Gemini(前身为Bard),但它不适用于像机器人这样的有实体的人工智能系统。相反,机器人可以自己收集数据——没有人类管理员的奢侈。
墨菲说:“传统算法在两个不同的方面与机器人不兼容。“首先,无实体系统可以利用物理定律不适用的世界。第二,个人的失败没有后果。对于计算机科学应用程序来说,唯一重要的是它在大多数情况下都能成功。在机器人领域,一次失败可能是灾难性的。”
为了解决这个问题,Berrueta, murphy和Pinosky致力于开发一种新的算法,以确保机器人能够在移动中收集高质量的数据。MaxDiff RL的核心是命令机器人更加随机地移动,以收集有关其环境的全面、多样化的数据。通过自我策划的随机经验学习,机器人获得完成有用任务所需的技能。
第一次就做对
为了测试新算法,研究人员将其与当前最先进的模型进行了比较。通过计算机模拟,研究人员要求模拟机器人执行一系列标准任务。总的来说,使用MaxDiff RL的机器人比其他模型学习得更快。他们也比其他人更一致、更可靠地正确执行任务。
也许更令人印象深刻的是:使用MaxDiff RL方法的机器人通常能够在一次尝试中成功地正确执行任务。这还是在他们一无所知的情况下。
Berrueta说:“我们的机器人更快、更敏捷,能够有效地概括他们所学到的知识,并将其应用到新的情况中。”“对于现实世界的应用,机器人无法承受无尽的试验和错误,这是一个巨大的好处。”
由于MaxDiff RL是一种通用算法,因此它可用于各种应用程序。研究人员希望它能解决阻碍该领域发展的基本问题,最终为智能机器人的可靠决策铺平道路。
皮诺斯基说:“这并不仅仅适用于四处移动的机器人车辆。”“它也可以用于固定机器人,比如厨房里的机械臂,它可以学习如何装洗碗机。”随着任务和物理环境变得越来越复杂,在学习过程中,体现的作用变得更加重要。这是朝着能够完成更复杂、更有趣任务的真正系统迈出的重要一步。”
作者:西北大学
链接:https://www.sciencedaily.com/releases/2024/05/240502113808.htm
著作权归作者所有。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com
2024-05-06 08:36:47
西北大学