虽然早期的语言模型只能处理文本,但当代的大型语言模型现在可以在不同类型的数据上执行高度多样化的任务。例如,法学硕士可以理解多种语言,生成计算机代码,解决数学问题,或回答有关图像和音频的问题。
麻省理工学院的研究人员探索了法学硕士的内部工作原理,以更好地了解它们是如何处理这些分类数据的,并发现了它们与人类大脑有一些相似之处的证据。
神经科学家认为,人类大脑的前颞叶有一个“语义中枢”,可以整合来自各种形式的语义信息,比如视觉数据和触觉输入。这个语义集线器连接到特定于模态的“辐条”,这些辐条将信息路由到集线器。麻省理工学院的研究人员发现,法学硕士使用类似的机制,以一种集中的、一般化的方式抽象地处理来自不同模式的数据。例如,一个以英语为主导语言的模型将依赖英语作为中心媒介来处理日语输入或对算术、计算机代码等进行推理。此外,研究人员证明,即使模型正在处理其他语言的数据,他们也可以通过使用模型主导语言的文本来改变其输出,从而干预模型的语义中心。
这些发现可以帮助科学家培养未来能够更好地处理各种数据的法学硕士。
“法学硕士是一个大黑盒子。它们取得了令人印象深刻的成绩,但我们对它们的内部工作机制知之甚少。我希望这是更好地了解它们是如何工作的早期步骤,这样我们就可以在需要的时候改进它们,更好地控制它们,”电气工程和计算机科学(EECS)研究生、该研究论文的主要作者吴兆峰说。
他的合著者包括南加州大学(USC)的研究生Xinyan Velocity Yu;南加州大学副教授Dani Yogatama;苹果公司(Apple)研究科学家陆佳森(Jiasen Lu);麻省理工学院EECS助理教授、计算机科学与人工智能实验室(CSAIL)成员、资深作者Yoon Kim。这项研究将在国际学习表征会议上发表。
整合多种数据
研究人员基于先前的研究,暗示以英语为中心的法学硕士使用英语进行各种语言的推理过程。
吴和他的合作者扩展了这个想法,对法学硕士用来处理不同数据的机制进行了深入研究。
LLM由许多相互连接的层组成,它将输入文本分割成称为令牌的词或子词。该模型为每个标记分配一个表示,这使它能够探索标记之间的关系,并在序列中生成下一个单词。在图像或音频的情况下,这些标记对应于图像的特定区域或音频剪辑的部分。
研究人员发现,该模型的初始层以其特定的语言或模态处理数据,就像人脑中特定模态的辐条一样。然后,当LLM在其内部层中对它们进行推理时,它将令牌转换为与形态无关的表示,类似于大脑的语义中心如何整合各种信息。
该模型为具有相似含义的输入分配相似的表示,而不考虑它们的数据类型,包括图像、音频、计算机代码和算术问题。尽管图像及其文本标题是不同的数据类型,但由于它们具有相同的含义,LLM将为它们分配相似的表示。
例如,一个以英语为主的法学硕士在生成中文输出之前,会先“思考”用英语输入的中文文本。该模型对计算机代码、数学问题甚至多模态数据等非文本输入具有类似的推理倾向。
为了验证这一假设,研究人员通过模型传递了两组意思相同但用两种不同语言写成的句子。他们测量了模型对每个句子的表示的相似程度。
然后,他们进行了第二组实验,在实验中,他们用另一种语言(比如中文)输入以英语为主导的模型文本,并测量其内部表征与英语和中文的相似程度。研究人员对其他数据类型进行了类似的实验。
他们一致发现,对于意义相似的句子,模型的表征是相似的。此外,在许多数据类型中,模型在其内层中处理的令牌更像是以英语为中心的令牌,而不是输入数据类型。
吴说:“许多输入数据类型似乎与语言截然不同,所以我们非常惊讶,当模型处理数学或编码表达式时,我们可以探测到英语标记。”
利用语义中心
研究人员认为法学硕士可能会在训练中学习这种语义中心策略,因为它是处理各种数据的一种经济方式。
“世界上有数千种语言,但很多知识是共享的,比如常识性知识或事实性知识。该模型不需要跨语言复制这些知识,”吴说。
研究人员还尝试在模型处理其他语言时,使用英语文本干预模型的内层。他们发现他们可以预测地改变模型输出,即使这些输出是用其他语言进行的。
科学家可以利用这一现象来鼓励模型在不同的数据类型中共享尽可能多的信息,从而潜在地提高效率。
但另一方面,有些概念或知识可能无法跨语言或数据类型进行翻译,比如特定于文化的知识。在这些情况下,科学家可能希望llm具有一些特定于语言的处理机制。
“你如何尽可能最大化地分享,同时又允许语言有一些特定于语言的处理机制?这可以在未来的模型架构工作中探索,”吴说。
此外,研究人员可以利用这些见解来改进多语言模型。通常,以英语为主导的模型在学习说另一种语言时,会在英语中失去一些准确性。他说,更好地了解法学硕士的语义中心可以帮助研究人员防止这种语言干扰。
“理解语言模型如何处理跨语言和模态的输入是人工智能的一个关键问题。“这篇论文与神经科学有一个有趣的联系,并表明所提出的‘语义中心假设’在现代语言模型中成立,在模型的中间层中创建了不同数据类型的语义相似表示,”特拉维夫大学计算机科学学院助理教授Mor Geva Pipek说,他没有参与这项工作。“假设和实验很好地联系和扩展了以前的研究结果,可能对未来的研究产生影响,以创建更好的多模态模型,并研究它们与人类大脑功能和认知之间的联系。”
作者:Adam Zewe b| MIT新闻
链接:https://news.mit.edu/2025/large-language-models-reason-about-diverse-data-general-way-0219
著作权归作者所有。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com
2025-03-24 10:30:02
Adam Zewe b| MIT新闻