MIT推出Boltz-1:生物分子预测模型的新里程碑

2024年11月18日,麻省理工学院(MIT)的研究团队宣布了一项在生物分子预测领域的重大突破——推出开源模型Boltz-1。这一模型不仅旨在准确模拟复杂的生物分子相互作用,更是第一个完全商业化的开源模型,在预测生物分子复合物的3D结构方面达到了AlphaFold3级别的精度。

自2020年AlphaFold2证明深度学习模型可以在蛋白质结构预测上达到实验精度以来,生物分子结构预测领域取得了显著进展。然而,对于生物分子复合物在3D空间中的建模,仍然是一个巨大的挑战。近年来,深度生成模型,如DiffDock,已经显示出在模拟不同生物分子间相互作用方面的潜力,而AlphaFold3更是进一步推动了这一领域的发展,实现了前所未有的准确度。

在这一背景下,MIT的研究团队推出了Boltz-1,不仅继承了AlphaFold系列的优秀性能,还通过一系列创新,进一步提升了模型的预测能力。Boltz-1的开发团队包括MIT的Ph.D Gabriele Corso,他在第一时间通过推特分享了这一开源事件,受到了广泛的关注和祝贺。

Boltz-1的核心优势在于其开源和商业化的双重特性。通过MIT许可,训练和推理代码、模型权重、数据集和基准都免费向全球研究人员开放。这意味着,无论是在学术界还是工业界,研究人员都可以利用这一模型进行实验、验证和创新,从而推动生物分子结构预测领域的进一步发展。

在具体的技术层面,Boltz-1遵循了Abramson团队提出的通用框架和架构,但在此基础上进行了多项创新。例如,新算法可以更高效、更稳健地处理多序列比对(MSA)、训练时的裁剪结构以及用户定义的绑定口袋上的条件预测。同时,Boltz-1还更改了架构中的表示流程以及扩散训练和推理程序,并修订了置信度模型,以提高预测的准确性和可靠性。

在与Chai-1(AlphaFold3的第一个闭源但公开可用的复制品)的性能对比中,Boltz-1展现出了卓越的表现。在CASP15数据集上的评估结果显示,Boltz-1在蛋白质-配体和蛋白质-蛋白质性能上表现尤为突出,LDDT-PLI达到65%,而Chai-1仅为40%。此外,在DockQ>0.23的比例上,Boltz-1也达到了83%,高于Chai-1的76%。

尽管Boltz-1在性能上表现出色,但研究团队也指出了其存在的局限性。在对模型输出的目视检查中,他们发现了一些幻觉现象,如将整个链直接叠放在一起。这些现象可能源于数据中的重叠链和配体,以及训练裁剪大小不足等问题。为了缓解这些问题,研究团队计划在未来迭代中探索替代训练或微调策略。

此次开源发布标志着Boltz-1将成为全球研究人员在生物分子结构预测领域的重要工具。研究人员可以基于这一模型进行进一步的构建和创新,共同推进对生物分子相互作用的集体理解,并加速药物设计、结构生物学等领域的发现。MIT的研究团队在报告中表示,他们正在进行重大改进以增强Boltz-1对复杂交互进行建模的能力,并计划在未来几个月内发布这些改进。

Boltz-1的推出无疑是生物分子结构预测领域的一大里程碑。它不仅为研究人员提供了一个强大的工具,更为整个科学界带来了无限的可能性。随着越来越多的研究人员利用这一模型进行实验和创新,我们有理由相信,在不久的将来,我们将迎来更多关于生物分子结构和功能的重大发现。