为了让残疾人更容易上网,俄亥俄州立大学的研究人员已经开始开发一种人工智能代理,它可以使用简单的语言命令在任何网站上完成复杂的任务。
自万维网首次进入公共领域以来的三十年里,它已经成为一个令人难以置信的复杂、动态的系统。然而,由于互联网功能如今已成为社会福祉不可或缺的一部分,它的复杂性也使得驾驭它变得相当困难。
今天,有数十亿个网站可以帮助人们获取信息或与他人交流,互联网上的许多任务可能需要十几个步骤才能完成。这就是为什么该研究的合著者、俄亥俄州立大学计算机科学与工程助理教授于苏说,他们的工作是朝着让数字世界变得不那么混乱的方向迈出的一步。他们使用从现场网站获取的信息来创建网络代理——在线人工智能助手。
苏说:“对一些人来说,尤其是那些残疾人,上网并不容易。”“我们在日常生活和工作中越来越依赖计算机世界,但进入计算机世界的障碍也越来越多,这在某种程度上扩大了差距。”
该研究于12月在第37届神经信息处理系统会议(NeurIPS)上发表,该会议是人工智能和机器学习研究的旗舰会议。
苏说,通过利用大型语言模型的力量,智能体的工作方式类似于人类在浏览网页时的行为。俄亥俄州立大学的研究小组表明,他们的模型仅利用处理和预测语言的能力,就能理解不同网站的布局和功能。
研究人员通过创建Mind2Web开始了这一过程,这是第一个面向多面手网络代理的数据集。虽然之前构建网络代理的努力主要集中在玩具模拟网站上,但Mind2Web完全接受了现实世界网站的复杂性和动态性,并强调了代理将其推广到从未见过的全新网站的能力。苏说,他们的成功很大程度上要归功于他们的经纪人处理互联网不断变化的学习曲线的能力。该团队从137个不同的现实世界网站中提取了2000多个开放式任务,然后他们用这些任务来训练人工智能。
其中一些任务包括预订单程和往返国际航班,在推特上关注名人账户,在Netflix上浏览1992年至2017年的喜剧电影,甚至在车管局安排汽车知识测试。许多任务非常复杂——例如,预订模型中使用的一个国际航班需要14个操作。苏说,这种毫不费力的多功能性允许在许多网站上进行不同的报道,并为未来的模型以自主的方式探索和学习开辟了新的领域。
苏说:“因为最近像ChatGPT这样的大型语言模型的发展,这样的事情才有可能做到。”自聊天机器人于2022年11月上市以来,数百万用户使用它来自动生成内容,从诗歌、笑话到烹饪建议和医疗诊断。
然而,由于一个网站可能包含数千个原始HTML元素,因此将如此多的信息提供给一个大型语言模型的成本太高。为了解决这一差距,该研究还引入了一个名为MindAct的框架,这是一个双管齐下的代理,使用小型和大型语言模型来执行这些任务。该团队发现,通过使用这种策略,MindAct显著优于其他常见的建模策略,并且能够在相当程度上理解各种概念。
该研究指出,如果进行更多的微调,该模型可能会与开放源代码和封闭源代码的大型语言模型(如Flan-T5或GPT-4)一起使用。然而,他们的工作确实凸显了在创造灵活的人工智能方面日益相关的伦理问题,苏说,虽然它肯定可以作为人类上网的有用代理,但该模型也可以用来增强像ChatGPT这样的系统,并将整个互联网变成一个前所未有的强大工具。
他说:“一方面,我们有很大的潜力来提高我们的效率,使我们能够专注于我们工作中最具创造性的部分。”“但另一方面,它也有巨大的潜在危害。”例如,能够将在线步骤转化为现实世界的自主代理可能会采取潜在的危险行动,例如滥用财务信息或传播错误信息,从而影响社会。
苏说:“我们应该对这些因素非常谨慎,并共同努力减轻它们。”但随着人工智能研究的不断发展,他指出,未来几年,社会可能会在商业用途和多面手网络代理的性能方面经历重大增长,尤其是在这项技术已经在公众眼中获得如此多的欢迎的情况下。
“在我的整个职业生涯中,我的目标一直是试图弥合人类用户和计算机世界之间的差距,”苏说。“也就是说,这个工具的真正价值在于它真的可以节省人们的时间,让不可能成为可能。”
这项研究得到了美国国家科学基金会、美国陆军研究实验室和俄亥俄超级计算机中心的支持。其他共同作者有邓翔、顾宇、郑博元、陈世杰、塞缪尔·史蒂文斯、王博时和孙欢,他们都来自俄亥俄州立大学。
作者:俄亥俄州立大学
链接:https://www.sciencedaily.com/releases/2024/01/240109170521.htm
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:15264513609,邮箱:1027830374@qq.com
2024-01-18 14:11:01
俄亥俄州立大学