与机器人进行头脑风暴

一位研究人员刚刚写完一篇科学论文。她知道她的工作可以从另一个角度受益。她是不是忽略了什么?或者也许她的研究有一个她没有想到的应用。如果有第二个人来帮忙就好了,但即使是最友好的合作者也可能没有时间去阅读所有必要的背景出版物。

Kevin Yager是美国能源部布鲁克海文国家实验室科学用户设施办公室功能纳米材料中心(CFN)电子纳米材料小组的负责人,他设想了人工智能(AI)和机器学习(ML)的最新进展如何有助于科学头脑风暴和创意。为了实现这一目标,他开发了一个具有他所从事的各种科学知识的聊天机器人。

人工智能和机器学习的快速发展已经让位于能够生成创造性文本和有用软件代码的程序。这些通用聊天机器人最近引起了公众的广泛关注。现有的聊天机器人——基于大型、多样的语言模型——缺乏科学子领域的详细知识。通过利用文档检索方法,Yager的机器人在纳米材料科学领域具有其他机器人所不具备的知识。这个项目的细节以及其他科学家如何利用这个人工智能同事来完成他们自己的工作,最近发表在《数字发现》上。

机器人的崛起

目前,它正在帮助我们快速识别、编目和选择样品、自动化实验、控制设备和发现新材料。CFN电子纳米材料小组的科学家Esther Tsai正在开发一种人工智能伴侣,以帮助加快国家同步加速器光源II (NSLS-II)的材料研究实验。NSLS-II是布鲁克海文实验室的另一个能源部科学用户设施办公室。

在CFN,已经有很多关于人工智能/机器学习的工作,可以通过使用自动化、控制、机器人和分析来帮助推动实验,但有一个擅长科学文本的程序是研究人员没有深入探索的。能够快速记录、理解和传达关于实验的信息可以在很多方面提供帮助——从打破语言障碍到通过总结更大的工作来节省时间。

注意你的语言

为了构建一个专门的聊天机器人,该程序需要特定于领域的文本——取自机器人打算关注的领域的语言。在这种情况下,文本是科学出版物。特定领域的文本帮助AI模型理解新的术语和定义,并将其引入前沿科学概念。最重要的是,这组精心策划的文档使人工智能模型能够使用可信的事实来进行推理。

为了模仿自然的人类语言,人工智能模型在现有的文本上进行训练,使它们能够学习语言的结构,记忆各种事实,并发展一种原始的推理。Yager没有费力地重新训练人工智能模型学习纳米科学文本,而是让它能够在一组精心设计的出版物中查找相关信息。为它提供一个相关数据库只是战斗的一半。为了准确有效地使用这些文本,机器人需要一种方法来解读正确的上下文。

“语言模型面临的一个共同挑战是,有时它们会‘幻觉’出听起来似乎合理但不真实的东西,”Yager解释说。“对于用于研究的聊天机器人来说,这是一个需要解决的核心问题,而不是像写诗这样的机器人。我们不希望它捏造事实或引用。这个问题需要解决。解决这个问题的办法是我们称之为‘嵌入’的东西,一种在幕后快速分类和链接信息的方式。”

嵌入是将单词和短语转换为数值的过程。由此产生的“嵌入向量”量化了文本的含义。当用户向聊天机器人提问时,它也会被发送到ML嵌入模型来计算其向量值。这个向量用于搜索预先计算的数据库,其中包含类似嵌入的科学论文中的文本块。然后,机器人使用它找到的与问题在语义上相关的文本片段来更全面地理解上下文。

用户的查询和文本片段被组合成一个“提示”,发送给一个大型语言模型,这是一个以自然人类语言为模型创建文本的扩展程序,生成最终的响应。嵌入确保被提取的文本与用户的问题相关。通过提供可信文档主体中的文本块,聊天机器人生成事实性和来源性的答案。

“这个项目需要像一个参考图书管理员,”Yager说。“它需要严重依赖文件来提供来源答案。它需要能够准确地解释人们的问题,并能够有效地将这些问题的背景拼凑起来,以检索最相关的信息。虽然答案可能还不完美,但它已经能够回答具有挑战性的问题,并在规划新项目和研究时引发一些有趣的想法。”

机器人赋予人类力量

CFN正在开发人工智能/机器学习系统,作为一种工具,可以解放人类研究人员,使他们能够研究更具挑战性和有趣的问题,并在有限的时间内获得更多,而计算机则在后台自动执行重复性任务。这种新的工作方式仍有许多未知之处,但这些问题是科学家们正在进行的重要讨论的开始,以确保人工智能/机器学习的使用是安全和合乎道德的。

“像这样一个特定领域的聊天机器人可以从科学家的工作量中清除许多任务。分类和组织文档,总结出版物,指出相关信息,以及在一个新的主题领域加快速度只是一些潜在的应用,”Yager说。“不过,我很高兴看到这一切的发展方向。三年前,我们从来没有想象过我们现在的处境,我很期待三年后我们的处境。”


作者:能源部/布鲁克海文国家实验室

链接:https://www.sciencedaily.com/releases/2023/12/231201123612.htm

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:15264513609,邮箱:1027830374@qq.com