人工智能代理帮助解释其他人工智能系统

解释经过训练的神经网络的行为仍然是一个引人注目的难题,特别是随着这些模型的规模和复杂性的增长。就像历史上的其他科学挑战一样,对人工智能系统的工作方式进行逆向工程需要大量的实验:做出假设,干预行为,甚至解剖大型网络来检查单个神经元。迄今为止,大多数成功的实验都涉及大量的人为监督。解释GPT-4甚至更大的模型中的每一个计算几乎肯定需要更多的自动化——甚至可能使用人工智能模型本身。

为了促进这一及时的努力,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种新的方法,使用人工智能模型在其他系统上进行实验并解释它们的行为。他们的方法使用预训练语言模型构建的代理,对训练网络内的计算产生直观的解释。

该策略的核心是“自动解释性代理”(AIA),旨在模仿科学家的实验过程。可解释性代理在其他计算系统上计划和执行测试,其范围可以从单个神经元到整个模型,以便以各种形式产生对这些系统的解释:系统做什么和哪里失败的语言描述,以及再现系统行为的代码。与现有的被动分类或总结示例的可解释性程序不同,AIA积极参与假设形成、实验测试和迭代学习,从而实时完善对其他系统的理解。

补充AIA方法的是新的“函数解释和描述”(FIND)基准,这是一个类似于经过训练的网络内部计算的函数测试平台,以及对其行为的描述。评估真实世界网络组件的描述质量的一个关键挑战是,描述只能与其解释能力一样好:研究人员无法获得单元的真值标签或学习计算的描述。FIND通过提供评估可解释性程序的可靠标准来解决这个领域中长期存在的问题:函数的解释(例如,由AIA产生)可以根据基准中的函数描述进行评估。

例如,FIND包含用于模仿语言模型中真实神经元行为的合成神经元,其中一些神经元对诸如“地面运输”之类的单个概念具有选择性。人工智能被赋予黑盒访问合成神经元和设计输入(如“树”、“幸福”和“汽车”)的权限,以测试神经元的反应。在注意到合成神经元对“汽车”的响应值高于其他输入后,AIA可能会设计更细粒度的测试,以区分神经元对汽车和其他交通工具(如飞机和船只)的选择性。当AIA产生诸如“该神经元对公路运输有选择性,而不是空中或海上运输”的描述时,该描述将根据FIND中合成神经元的真实描述(“对地面运输有选择性”)进行评估。然后可以使用基准测试将aia的功能与文献中的其他方法进行比较。

萨拉·施韦特曼博士是CSAIL的一名研究科学家,也是一篇关于这项新工作的论文的共同主要作者,她强调了这种方法的优势。“人工智能自主假设生成和测试的能力可能能够揭示科学家难以发现的行为。值得注意的是,当语言模型配备了探测其他系统的工具时,它能够进行这种类型的实验设计,”Schwettmann说。“干净、简单的基准和真实的答案一直是语言模型中更通用能力的主要驱动力,我们希望FIND可以在可解释性研究中发挥类似的作用。”

自动化可解释性

大型语言模型仍然保持着它们作为科技界热门名人的地位。法学硕士最近的进步突出了他们在不同领域执行复杂推理任务的能力。CSAIL的团队认识到,给定这些功能,语言模型可以作为实现自动可解释性的通用代理的骨干。“可解释性在历史上一直是一个非常多方面的领域,”Schwettmann说。“没有放之四海而皆准的方法;大多数程序都是针对系统的个别问题,以及像视觉或语言这样的个别模式。现有的在视觉模型中标记单个神经元的方法需要在人类数据上训练专门的模型,而这些模型只执行这一单一任务。由语言模型构建的可解释性代理可以为解释其他系统提供通用接口——综合实验结果,整合不同的模式,甚至在非常基础的层面上发现新的实验技术。”

当我们进入这样一种制度,即模型本身就是黑盒子,对可解释性方法的外部评估变得越来越重要。该团队的新基准通过一组具有已知结构的函数来满足这一需求,这些函数是根据在野外观察到的行为建模的。FIND中的功能跨越了多个领域,从数学推理到字符串的符号操作,再到由单词级任务构建的合成神经元。对交互函数数据集进行了程序化构建;通过添加噪声、组合函数和模拟偏差,将现实世界的复杂性引入到简单函数中。这允许在转换为实际性能的设置中比较可解释性方法。

除了功能数据集之外,研究人员还引入了一种创新的评估协议来评估AIAs和现有自动可解释性方法的有效性。该协议涉及两种方法。对于需要在代码中复制函数的任务,评估直接比较人工智能生成的估计和原始的基本真值函数。对于涉及函数的自然语言描述的任务,评估变得更加复杂。在这些情况下,准确地测量这些描述的质量需要对其语义内容的自动理解。为了应对这一挑战,研究人员开发了一种专门的“第三方”语言模型。该模型经过专门训练,以评估人工智能系统提供的自然语言描述的准确性和一致性,并将其与基础真值函数行为进行比较。

FIND使评估表明,我们离完全自动化的可解释性还很远;尽管AIAs优于现有的可解释性方法,但它们仍然无法准确描述基准测试中几乎一半的功能。该研究的共同主要作者、CSAIL的博士后Tamar Rott Shaham指出:“虽然这一代aia在描述高级功能方面很有效,但它们仍然经常忽略更细的细节,特别是在带有噪声或不规则行为的功能子域。这可能是由于这些地区取样不足造成的。一个问题是,AIAs的有效性可能会受到其初始探索性数据的阻碍。为了解决这个问题,我们尝试通过使用特定的、相关的输入来初始化ai的搜索,从而大大提高了解释的准确性。”这种方法结合了新的AIA方法和先前的技术,使用预先计算的例子来启动解释过程。

研究人员还在开发一个工具包,以增强人工智能在黑盒和白盒设置下对神经网络进行更精确实验的能力。该工具包旨在为ai提供更好的工具,用于选择输入和改进假设测试能力,以进行更细致和准确的神经网络分析。该团队还在应对人工智能可解释性方面的实际挑战,专注于在现实世界中分析模型时确定正确的问题

观察观察者

该团队设想有一天开发出几乎自主的人工智能,可以审核其他系统,由人类科学家提供监督和指导。先进的人工智能可以开发新的实验和问题,可能超出人类科学家最初的考虑范围。重点是扩展人工智能的可解释性,以包括更复杂的行为,如整个神经回路或子网络,并预测可能导致不良行为的输入。这一发展代表了人工智能研究向前迈出的重要一步,旨在使人工智能系统更易于理解和可靠。

哈佛大学计算机科学教授马丁·瓦滕伯格(Martin Wattenberg)没有参与这项研究,他说:“一个好的基准是解决困难挑战的有力工具。”“很高兴看到这个复杂的可解释性基准,这是当今机器学习中最重要的挑战之一。我对作者创建的自动可解释性代理印象特别深刻。这是一种可解释性柔术,让人工智能回归自身,以帮助人类理解。”

Schwettmann, Rott Shaham和他们的同事在12月的NeurIPS 2023上展示了他们的工作。其他麻省理工学院的共同作者,CSAIL和电气工程与计算机科学系(EECS)的所有附属机构,包括研究生Joanna Materzynska,本科生Neil Chowdhury, Shuang Li博士23,助理教授Jacob Andreas和Antonio Torralba教授。东北大学助理教授David Bau是另一位合著者。

这项工作得到了麻省理工学院- ibm沃森人工智能实验室、开放慈善事业、亚马逊研究奖、现代NGV、美国陆军研究实验室、美国国家科学基金会、祖克曼STEM领导力项目和维特比奖学金的部分支持。


作者:瑞秋·戈登|麻省理工学院CSAIL

链接:https://news.mit.edu/2024/ai-agents-help-explain-other-ai-systems-0103

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:15264513609,邮箱:1027830374@qq.com