人工智能中的推理和可靠性

为了使自然语言成为一种有效的交流形式，相关各方需要能够理解单词及其上下文，假设内容在很大程度上是善意共享的，并且是值得信赖的，对共享的信息进行推理，然后将其应用于现实世界的场景。在麻省理工学院- ibm沃森人工智能实验室实习的麻省理工学院博士生——22岁的Athul Paul Jacob, 23岁的Maohao Shen, 23岁的Victor Butoi和23岁的Andi Peng——正在努力攻克这个过程的每一步，这些步骤被融入到自然语言模型中，这样人工智能系统就可以为用户提供更可靠和准确的服务。

为了实现这一目标，Jacob的研究触及了现有自然语言模型的核心，利用博弈论来提高输出。他说，他的兴趣有两个方面:“一个是利用多智能体系统和语言理解的视角来理解人类的行为方式，第二个是‘你如何将其作为一种洞察力来构建更好的人工智能系统?他的工作源于棋盘游戏“外交”，他的研究团队在游戏中开发了一个系统，可以学习和预测人类的行为，并通过战略谈判实现理想的最佳结果。

“这是一款你需要建立信任的游戏;你需要用语言交流。你还需要同时与其他六名玩家比赛，这与人们过去处理的各种任务领域非常不同，”Jacob说，他指的是研究人员将扑克和围棋等其他游戏引入神经网络。“在这样做的过程中，有很多研究挑战。其中一个问题是，‘你如何模拟人类?你怎么知道人类什么时候会倾向于非理性行为?雅各布和他的研究导师——包括麻省理工学院电子工程与计算机科学系(EECS)的副教授雅各布·安德烈亚斯(Jacob Andreas)和助理教授加布里埃尔·法里纳(Gabriele Farina)，以及麻省理工学院- ibm沃森人工智能实验室的沈益康——将语言生成问题重新定义为一个双人游戏。

利用“生成器”和“鉴别器”模型，雅各布的团队开发了一个自然语言系统来生成问题的答案，然后观察答案并确定它们是否正确。如果是，AI系统就会得到一分;如果没有，就没有奖励。众所周知，语言模型容易产生幻觉，使它们不那么值得信赖;这种无悔学习算法协同采用自然语言模型，并鼓励系统的答案更加真实和可靠，同时保持解决方案接近预训练语言模型的先验。Jacob说，将这种技术与较小的语言模型结合使用，可能会使其与大许多倍的模型具有相同的性能。

一旦语言模型产生了结果，研究人员理想地希望它对生成的信心与其准确性保持一致，但情况往往并非如此。当模型报告的置信度应该很低时，可能会出现幻觉。沈茂豪和他的团队，与导师Gregory Wornell，住友电气工程学院教授，以及IBM研究院Subhro Das, Prasanna Sattigeri和Soumya Ghosh的实验室研究人员，正在寻求通过不确定性量化(UQ)来解决这个问题。“我们的项目旨在对语言模型进行校准，当它们校准不当时，”沈说。具体来说，他们关注的是分类问题。为此，Shen允许语言模型生成自由文本，然后将其转换为多项选择分类任务。例如，他们可能会要求模型解决一个数学问题，然后问它生成的答案是否正确，如“是、否或可能”。这有助于确定模型是过度自信还是缺乏自信。

将此自动化，团队开发了一种技术，可以通过预训练的语言模型来帮助调整置信度输出。为了使他们的系统能够纠正语言模型，研究人员使用真实信息训练了一个辅助模型。“如果你的模型对自己的预测过于自信，我们就能发现它并降低它的自信，反之亦然，”沈解释说。该团队在多个流行的基准数据集上评估了他们的技术，以显示它在重新调整语言模型预测的准确性和置信度方面对未知任务的泛化效果。“经过培训后，你就可以在没有任何其他监督的情况下将这项技术应用到新的任务中，”沈说。“你唯一需要的就是新任务所需的数据。”

Victor Butoi也提高了模型的能力，但相反，他的实验室团队——包括John Guttag, EECS计算机科学和电气工程Dugald C. Jackson教授;IBM研究院的实验室研究员Leonid Karlinsky和Rogerio Feris;波恩大学的Hilde k hne和格拉茨工业大学的Wei Lin正在创造技术，使视觉语言模型能够对他们所看到的东西进行推理，并正在设计提示以解锁新的学习能力和理解关键短语。

Butoi解释说，组合推理只是决策过程的另一个方面，我们要求机器学习模型执行，以便它们在现实世界的情况下有所帮助。Butoi说:“你需要能够综合考虑问题并解决子任务，比如，如果你说椅子在人的左边，你需要同时识别椅子和人。你需要了解方向。”一旦模型理解了“左”，研究小组希望模型能够回答其他涉及“左”的问题。

Butoi解释说，令人惊讶的是，视觉语言模型并不能很好地推断构图，但如果你愿意的话，可以使用一个可以“引导目击者”的模型来帮助它们。该团队开发了一个模型，该模型使用一种称为大型语言模型(LoRA)的低秩适应技术进行了调整，并在一个名为视觉基因组的注释数据集上进行了训练，该数据集具有图像中的对象和表示关系的箭头，如方向。在这种情况下，经过训练的LoRA模型将被引导说一些关于“左”关系的事情，然后这个标题输出将被用来提供上下文并提示视觉语言模型，使其成为一个“明显更容易的任务”，Butoi说。

在机器人领域，人工智能系统也通过计算机视觉和语言与周围环境互动。设置范围从仓库到家庭。安迪·彭和导师麻省理工学院航空航天学H.N.斯莱特教授朱莉·沙阿、实验室和马萨诸塞大学阿默斯特分校的创干，正专注于利用虚拟世界帮助身体受限的人。为此，彭的团队正在开发两个具体的人工智能模型——一个需要支持的“人类”和一个助手代理——在一个名为ThreeDWorld的模拟环境中。专注于人机交互，该团队利用大型语言模型捕获的语义先验来帮助辅助AI推断“人类”代理可能无法做到的能力以及“人类”行为背后的动机，使用自然语言。团队希望加强助手的顺序决策、双向沟通、理解物理场景的能力，以及如何最好地做出贡献。

“很多人认为人工智能程序应该是自主的，但我认为这个过程的一个重要部分是我们为人类制造机器人和系统，我们想要传达人类的知识，”彭说。“我们不希望一个系统以一种奇怪的方式做事;我们希望他们能以一种我们能理解的人类方式来做这件事。”

作者：Lauren Hinkel | MIT-IBM沃森人工智能实验室

链接：https://news.mit.edu/2024/reasoning-and-reliability-in-ai-0118

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

声明：海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的，并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益，请作者与本网联系，我们将及时更正、删除，谢谢。电话：15264513609，邮箱：1027830374@qq.com

栏目

行业新闻

公司动态

时间

2024-01-19 13:23:20

作者

Lauren Hinkel | MIT-IBM沃森人工智能实验室