一种更快、更好的方法来防止人工智能聊天机器人做出有害的反应

用户可以要求ChatGPT编写计算机程序或总结一篇文章,人工智能聊天机器人很可能能够生成有用的代码或编写令人信服的摘要。然而,有人也可以要求指示制造炸弹,聊天机器人也可以提供这些。

为了防止这种情况和其他安全问题,构建大型语言模型的公司通常使用一种称为红队的过程来保护它们。测试人员团队编写提示,旨在从被测试的模型中触发不安全或有毒的文本。这些提示是用来教聊天机器人避免这样的回答。

但只有在工程师知道该使用哪种有毒提示符的情况下,这种方法才有效。如果人类测试者错过了一些提示(考虑到可能性的数量,这是很可能的),一个被认为安全的聊天机器人可能仍然有能力生成不安全的答案。

麻省理工学院不可思议人工智能实验室和麻省理工学院- ibm沃森人工智能实验室的研究人员使用机器学习来改善红队。他们开发了一种技术来训练一个红队大型语言模型,使其自动生成各种提示,从而引发被测试聊天机器人更广泛的不良反应。

他们通过教导红队模型在编写提示时保持好奇,并专注于引起目标模型有害反应的新颖提示来做到这一点。

该技术的表现优于人类测试人员和其他机器学习方法,因为它产生了更多不同的提示,引发了越来越有害的反应。与其他自动化方法相比,他们的方法不仅显著提高了被测试输入的覆盖率,而且还可以从一个由人类专家内置的安全措施的聊天机器人中得出有害的反应。

“现在,每个大型语言模型都必须经历很长一段时间的红队,以确保其安全。如果我们想在快速变化的环境中更新这些模型,这将是不可持续的。我们的方法提供了一种更快、更有效的方法来保证质量,”不可思议人工智能实验室的电气工程和计算机科学(EECS)研究生洪章伟说,他是一篇关于这种红队方法的论文的主要作者。

Hong的合著者包括EECS研究生Idan Shenfield、tsunhhuan Wang和yongsung Chuang;Aldo Pareja和Akash Srivastava是麻省理工学院- ibm沃森人工智能实验室的研究科学家;计算机科学与人工智能实验室(CSAIL)高级研究科学家兼口语系统组负责人James Glass;资深作者Pulkit Agrawal是Improbable AI Lab的主任,也是CSAIL的助理教授。这项研究将在国际学习表征会议上发表。

自动化red-teaming

大型语言模型,比如那些驱动人工智能聊天机器人的语言模型,通常是通过向它们展示来自数十亿个公共网站的大量文本来训练的。因此,这些模特不仅可以学会说脏话或描述非法活动,还可以泄露他们可能收集到的个人信息。

人工红队的繁琐和昂贵的本质,往往无法产生足够多的提示来完全保护一个模型,这促使研究人员使用机器学习来自动化这一过程。

这种技术通常使用强化学习来训练红队模型。这个试错过程奖励红队模型生成提示,从而触发被测试聊天机器人的有害反应。

但由于强化学习的工作方式,红队模型经常会不断产生一些类似的提示,这些提示是高度有害的,以最大化其奖励。

对于他们的强化学习方法,麻省理工学院的研究人员使用了一种称为好奇心驱动探索的技术。红队模型被激励去好奇它生成的每个提示的结果,所以它会尝试使用不同的单词、句子模式或含义的提示。

“如果红队模型已经看到了一个特定的提示,那么复制它不会在红队模型中产生任何好奇心,因此它将被迫创建新的提示,”洪说。

在训练过程中,红队模型生成提示并与聊天机器人交互。聊天机器人做出反应,安全分类器对其反应的毒性进行评级,并根据该评级对红队模型进行奖励。

奖励的好奇心

红队模型的目标是通过用新的提示引发更有害的反应来最大化其回报。研究人员通过修改强化学习设置中的奖励信号,在红队模型中激发好奇心。

首先,除了最大化毒性之外,它们还包含熵奖励,鼓励红队模型在探索不同提示时更加随机。其次,为了让代理人好奇,他们提供了两种新奇奖励。一个基于提示词的相似度奖励模型,另一个基于语义相似度奖励模型。(相似度越低,奖励越高。)

为了防止红队模型产生随机的、无意义的文本,从而欺骗分类器给予高毒性分数,研究人员还在训练目标中增加了自然语言奖励。

有了这些补充,研究人员将红队模型与其他自动化技术产生的反应的毒性和多样性进行了比较。他们的模型在这两个指标上都优于基线。

他们还用红队模型测试了一个聊天机器人,这个机器人经过了人类反馈的微调,不会给出有害的回答。他们的好奇心驱动的方法能够快速产生196个提示,引起这个“安全”聊天机器人的有害反应。

“我们看到了手机型号的激增,而且预计还会增加。想象一下,成千上万的模型甚至更多,公司/实验室频繁地推送模型更新。这些模型将成为我们生活中不可或缺的一部分,在发布给公众消费之前进行验证是很重要的。人工验证模型是不可扩展的,我们的工作是试图减少人类的努力,以确保一个更安全、更值得信赖的人工智能未来,”Agrawal说。

在未来,研究人员希望使红队模型能够生成关于更广泛主题的提示。他们还想探索使用大型语言模型作为毒性分类器。通过这种方式,用户可以使用公司政策文档训练毒性分类器,例如,红队模型可以测试聊天机器人是否违反公司政策。

阿格拉瓦尔说:“如果你正在发布一个新的人工智能模型,并担心它是否会像预期的那样运行,可以考虑使用好奇心驱动的红队。”

作者:麻省理工学院

链接:https://www.sciencedaily.com/releases/2024/04/240410125617.htm

著作权归作者所有。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com