校准方法可以防止AI模型对错误答案过于自信

从翻译文章到识别金融欺诈,人们使用大型语言模型来完成大量任务。然而,尽管这些模型具有令人难以置信的能力和多功能性,但它们有时会产生不准确的响应。

最重要的是,模型可能对错误的答案过于自信,对正确的答案缺乏信心,这使得用户很难知道什么时候可以信任模型。

研究人员通常会校准机器学习模型,以确保其置信度与其准确性保持一致。一个校准良好的模型应该对错误的预测不那么有信心,反之亦然。但是,由于大型语言模型(llm)可以应用于看似无穷无尽的各种任务集合,传统的校准方法是无效的。

现在,来自麻省理工学院和麻省理工- ibm沃森人工智能实验室的研究人员已经推出了一种针对大型语言模型量身定制的校准方法。他们的方法被称为温度计,包括建立一个较小的辅助模型,该模型运行在一个大型语言模型之上,以对其进行校准。

温度计比其他方法更有效——需要更少的耗电计算——同时保持模型的准确性,并使其能够对以前从未见过的任务产生更好的校准响应。

通过对各种任务的LLM进行有效校准,温度计可以帮助用户精确定位模型对错误预测过于自信的情况,最终防止他们在可能失败的情况下部署该模型。

电气工程与计算机科学(EECS)研究生沈茂豪(音译)是一篇关于温度计的论文的主要作者,他说:“有了温度计,我们想为用户提供一个明确的信号,告诉他们模型的反应是准确还是不准确,以一种反映模型不确定性的方式,这样他们就知道模型是否可靠。”

Gregory Wornell是住友工程教授,领导着电子研究实验室的信号、信息和算法实验室,也是麻省理工学院- ibm沃森人工智能实验室的成员;麻省理工学院- ibm沃森人工智能实验室的研究人员、资深作者Soumya Ghosh;以及麻省理工学院和麻省理工- ibm沃森人工智能实验室的其他人。这项研究最近在国际机器学习会议上发表。

由于传统的机器学习模型通常是为执行单一任务而设计的,因此校准它们通常涉及一种特定于任务的方法。另一方面,由于llm具有执行许多任务的灵活性,因此使用传统方法为一个任务校准该模型可能会损害其在另一个任务上的性能。

校准LLM通常涉及多次从模型中采样以获得不同的预测,然后将这些预测汇总以获得更好的校准置信度。然而,由于这些模型有数十亿个参数,这些方法的计算成本很快就会增加。

“从某种意义上说,大型语言模型是通用的,因为它们可以处理各种任务。因此,我们需要一种通用的校准方法,它也可以处理许多不同的任务。”

通过温度计,研究人员开发了一种通用技术,利用一种称为温度缩放的经典校准方法来有效地校准LLM以完成新任务。

在这种情况下,“温度”是一个缩放参数,用于调整模型的置信度,使其与预测精度保持一致。传统上,人们使用特定任务示例的标记验证数据集来确定正确的温度。

由于llm经常应用于新任务,因此几乎不可能获得标记的数据集。例如,想要部署LLM来回答客户关于新产品的问题的用户可能没有包含此类问题和答案的数据集。

研究人员没有使用标记数据集,而是训练了一个辅助模型,该模型在LLM上运行,以自动预测校准这项新任务所需的温度。

他们使用一些代表性任务的标记数据集来训练温度计模型,但是一旦它被训练好,它就可以推广到类似类别的新任务,而不需要额外的标记数据。

在多项选择题数据集上训练的温度计模型,可能包括一个代数问题和一个医学问题,可以用来校准一个法学硕士,它将回答几何或生物学等问题。

高希说:“我们的理想目标是让它在任何任务上都能工作,但我们还没有完全实现。”

温度计模型只需要访问法学硕士内部工作的一小部分,就可以预测正确的温度,从而根据特定任务的数据点校准其预测。

有效的方法

重要的是,该技术不需要多次训练,只会略微减慢LLM的速度。此外,由于温度缩放不会改变模型的预测,因此温度计保持了其准确性。

当他们将温度计与多个任务的几个基线进行比较时,它始终产生更好校准的不确定性测量,同时需要更少的计算。

“只要我们在足够多的任务上训练温度计模型,它应该能够很好地概括任何新任务,就像一个大型语言模型一样,它也是一个通用模型,”沈补充说。

研究人员还发现,如果他们为一个较小的LLM训练一个温度计模型,它可以直接应用于校准同一家族中的一个较大的LLM。

在未来,他们想让温度计适应更复杂的文本生成任务,并将该技术应用于更大的llm。研究人员还希望量化训练温度计模型所需的标记数据集的多样性和数量,以便它可以推广到新的任务。

作者:Adam Zewe | MIT新闻

链接:https://news.mit.edu/2024/thermometer-prevents-ai-model-overconfidence-about-wrong-answers-0731

著作权归作者所有。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com