人机共享化学知识

结构式表明化合物是如何构成的,也就是说,它们由哪些原子组成,这些原子在空间上是如何排列的,以及它们是如何连接的。化学家可以从结构式中推断出哪些分子可以相互反应,哪些分子不能,如何合成复杂的化合物,或者哪些天然物质由于与细胞中的目标分子相结合而具有治疗效果。

19世纪发展起来的分子结构式表法经受住了时间的考验,至今仍在每本化学教科书中使用。但是,让人类凭直觉理解化学世界的,只是软件的一组黑白像素。耶拿大学分析化学、化学信息学和化学计量学教授Christoph Steinbeck解释说:“为了使结构公式中的信息在数据库中可用,可以自动搜索,它们必须被翻译成机器可读的代码。”

图像变成了代码

这正是使用人工智能工具“DECIMER”可以做到的,该工具是由Steinbeck教授和他的同事、威斯特伐利亚应用科学大学的Achim Zielesny教授领导的团队开发的。DECIMER代表“化学图像识别的深度学习”。它是一个开放源代码平台,可以免费提供给互联网上的每个人,并且可以在标准的web浏览器中使用。包含化学结构式的科学文章可以通过拖拽上传,人工智能工具将立即开始工作。

“首先,在整个文档中搜索图像,”斯坦贝克解释说。然后,该算法识别包含的图像信息,并根据它是化学结构式还是其他图像对其进行分类。最后,将识别到的结构式翻译成化学结构代码或显示在结构编辑器中,以便进一步处理。“这一步是项目的核心,也是真正的成就,”Steinbeck补充道。

这样,咖啡因分子的化学结构式就变成了机器可读的结构代码:CN1C=NC2=C1C(=O)N(C(=O)N2C)C。然后,这可以直接上传到数据库中,并与分子的进一步信息相关联。

为了开发DECIMER,研究人员使用了最近才建立起来的现代人工智能方法,例如,在目前备受讨论的大型语言模型(如ChatGPT)中也使用了这些方法。为了训练其人工智能工具,该团队从现有的机器可读数据库中生成结构公式,并将其用作训练数据——迄今为止约有4.5亿个结构公式。除了研究人员,公司也已经在使用人工智能工具,例如将专利说明书中的结构公式转移到数据库中。

几年前,Steinbeck和Zielesny提出了开发一种人工智能工具来解码化学图像的想法。这两位化学家对开发与千年历史的亚洲棋盘游戏围棋相关的人工智能方法很感兴趣。2016年,他们与世界各地的数百万人一起观看了当时最好的围棋选手韩国人李世石(Lee Sedol)与计算机软件“阿尔法狗”(AlphaGo)之间的精彩比赛,最终机器以4:1获胜。

斯坦贝克回忆道:“这是一个晴天霹雳,让我们看到了人工智能的强大之处。在此之前,人们一直认为,在这个游戏中,算法可以与人类的创造力和直觉相媲美,这几乎是不可想象的。“不久之后,当一个人工智能工具不像AlphaGo那样,经过无数次人类游戏的艰苦训练,而只是通过系统一次又一次地与自己对弈,并在此过程中优化其打法,就发展出了近乎超人的棋力时,我们意识到,这些新方法也可以用足够的训练数据来解决其他非常复杂的问题。我们希望将其用于我们的研究领域。”

使科学信息持续可用

有了DECIMER, Steinbeck和他的团队希望在某个时候能够机器读取所有他们感兴趣的化学文献,追溯到20世纪50年代,并将其翻译成开放的数据库。毕竟,作为德国国家化学研究数据基础设施(National Research Data Infrastructure for Chemistry)的协调员,Steinbeck最关心的是如何持续地保护现有知识,并将其提供给全球科学界。

DECIMER AI工具可在:https://decimer.ai下获得


作者:Friedrich-Schiller-Universitaet Jena

链接:https://www.sciencedaily.com/releases/2023/08/230822111634.htm

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:15264513609,邮箱:1027830374@qq.com