更容易验证人工智能模型的反应

尽管具有令人印象深刻的功能，但大型语言模型远非完美。这些人工智能模型有时会产生“幻觉”，在响应查询时生成不正确或不受支持的信息。

由于这种幻觉问题，法学硕士的回答通常要经过人类事实核查员的验证，特别是当一个模型被部署在医疗保健或金融等高风险环境中时。然而，验证过程通常需要人们通读模型引用的长文档，这是一项非常繁重且容易出错的任务，可能会阻止一些用户首先部署生成人工智能模型。

为了帮助人类验证者，麻省理工学院的研究人员创建了一个用户友好的系统，使人们能够更快地验证法学硕士的反应。有了这个名为SymGen的工具，法学硕士就可以生成带有引用的响应，这些引用直接指向源文档中的位置，比如数据库中的给定单元格。

用户将鼠标悬停在其文本响应的高亮部分上，以查看模型用于生成特定单词或短语的数据。同时，未突出显示的部分向用户显示哪些短语需要额外注意检查和验证。

“我们让人们能够选择性地关注他们需要更担心的文本部分。最后，SymGen可以让人们对模型的反应更有信心，因为他们可以很容易地仔细观察，以确保信息得到验证，”电子工程和计算机科学研究生、SymGen论文的共同主要作者沈香农（Shannon Shen）说。

通过一项用户研究，沈和他的合作者发现，与手动程序相比，SymGen将验证时间加快了约20%。通过让人类更快、更容易地验证模型输出，SymGen可以帮助人们识别在各种现实情况下部署的法学硕士中的错误，从生成临床记录到总结金融市场报告。

与Shen一起撰写论文的还有共同第一作者、欧洲经济学院研究生Lucas Torroba Hennigen；EECS研究生Aniruddha“Ani”Nrusimha；Good Data Initiative总裁伯恩哈德·加普（Bernhard Gapp）；资深作者David Sontag， EECS教授，麻省理工学院Jameel诊所成员，计算机科学与人工智能实验室（CSAIL）临床机器学习小组负责人；EECS助理教授、CSAIL成员Yoon Kim。这项研究最近在语言建模会议上发表。

象征性的引用

为了帮助验证，许多法学硕士被设计为生成引用，这些引用指向外部文档，以及基于语言的响应，以便用户可以检查它们。然而，这些验证系统通常是事后才设计的，没有考虑到人们在大量引用中进行筛选所需要付出的努力，沈说。

“生成式人工智能旨在减少用户完成任务的时间。如果你需要花几个小时阅读所有这些文件来验证模型是否说得合理，那么在实践中进行几代人的研究就没有多大帮助。”

研究人员从将要从事这项工作的人的角度来解决验证问题。

SymGen用户首先向LLM提供可在其响应中引用的数据，例如包含篮球比赛统计数据的表。然后，研究人员执行中间步骤，而不是立即要求模型完成任务，比如从这些数据中生成游戏摘要。它们提示模型以符号形式生成响应。

有了这个提示，每当模型想要在其响应中引用单词时，它必须从包含它所引用的信息的数据表中写入特定的单元格。例如，如果模型希望在其响应中引用短语“Portland Trailblazers”，它将用包含这些词的数据表中的单元格名称替换该文本。

“因为我们有这个中间步骤，有符号格式的文本，我们能够有真正细粒度的参考。我们可以说，对于输出中的每一个文本跨度，这正是它在数据中对应的位置，”Torroba Hennigen说。

然后，SymGen使用基于规则的工具解析每个引用，该工具将数据表中的相应文本复制到模型的响应中。

“通过这种方式，我们知道这是一份逐字拷贝，所以我们知道在与实际数据变量对应的文本部分不会有任何错误，”沈补充说。

简化验证

这个模型可以产生象征性的反应，因为它是如何训练的。大型语言模型从互联网上获得大量数据，一些数据以“占位符格式”记录，其中代码取代了实际值。

当SymGen提示模型生成符号响应时，它使用类似的结构。

Shen补充说：“我们以一种特定的方式设计了提示符，以利用LLM的功能。”

在一项用户研究中，大多数参与者表示，SymGen使验证法学硕士生成的文本变得更容易。他们验证模型反应的速度比使用标准方法快20%左右。

然而，SymGen受到源数据质量的限制。法学硕士可能会引用一个不正确的变量，而人工验证者可能对此一无所知。

此外，用户必须有结构化格式的源数据，如表，以提供给SymGen。目前，该系统只能处理表格数据。

展望未来，研究人员正在增强SymGen，使其能够处理任意文本和其他形式的数据。有了这个功能，它可以帮助验证人工智能生成的法律文件摘要的部分内容。他们还计划让医生对SymGen进行测试，研究它如何识别人工智能生成的临床总结中的错误。

作者：Adam Zewe | MIT新闻

链接：https://news.mit.edu/2024/making-it-easier-verify-ai-models-responses-1021

著作权归作者所有。

声明：海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的，并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益，请作者与本网联系，我们将及时更正、删除，谢谢。电话：152 6451 3609，邮箱：1027830374@qq.com

栏目

行业新闻

公司动态

时间

2024-10-22 08:34:38

作者

Adam Zewe | MIT新闻

行业新闻

更容易验证人工智能模型的反应

栏目

相关

时间

作者