魔法打败魔法？OpenAI用GPT-4 来解释 GPT-2 的行为

大语言模型（LLM）像大脑一样，它们是由 “神经元” 组成的，它们观察文本中的一些特定模式，以影响整个模型接下来 “说” 什么。但由于 LLM 中的参数数量多到已经无法由人类解释的程度，因此，LLM 给人一种 “黑盒” 的感觉，并出现了偏见、幻觉、涌现等一系列不好解释的现象。

近日，OpenAI在官网发布了的博文《语言模型可以解释语言模型中的神经元》，震惊了全网。OpenAI最新研究利用GPT-4自动进行大语言模型中神经元行为的解释和评分，并将其应用于另一种语言模型GPT-2（包含307200个神经元，15 亿个参数），公开了这些GPT-2神经元解释和分数的数据集。这项技术让人们能够利用GPT-4来定义和自动测量AI模型的可解释性，从而更好地理解智能是如何工作的。

“我们的目标是使用 Al 来帮助我们理解 Al”，OpenAI 的这一研究对 AI 行业意味着，利用GPT-4和机器学习技术就能定义、测量 AI 可解释性，未来在神经元层将会产生“大模型比人脑更会思考”技术趋势。

文章称目前GPT-4生成的可解释实验还不完美，当比GPT-2更大模型时解释表现效果很差。神经元复杂行为无法用简短的自然语言描述，OpenAI 解释了神经元的这种行为，却没有试图解释产生这种行为的机制，而且整个过程算力消耗极大等。

OpenAI 希望在未来的工作中可以解决上述这些问题，最终OpenAI希望使用模型来形成、测试和迭代完全一般的假设，从而比肩人类大脑的想法和行为，以及将其大模型解释为一种在部署前后检测对齐和安全问题的方法。

栏目

行业新闻

公司动态

时间

2023-06-12 08:05:32

作者

海森大数据

行业新闻

魔法打败魔法？OpenAI用GPT-4 来解释 GPT-2 的行为

栏目

相关

时间

作者