【佳作推荐】Eastern Finland大学Ina P.小组JCIM论文:机器学习增强分子对接技术实现超级化学库的高效虚拟筛选


以下文章来源于ComputArt计算有乐趣 ,作者ComputArt




随着化合物库的不断扩大,基于传统分子对接的虚拟筛选策略在计算资源方面面临着巨大挑战。因此,我们迫切需要一种更快速、更高效的方法来筛选超大规模数据库。最近出现的一些加速虚拟筛选的策略依赖于利用机器学习的迭代方法进行模型训练,然后通过模型预测数据库中化合物的对接分数。经过机器学习加速的筛选方法可以在更短的时间内处理超大型库,从而为探索广阔的十亿级化学库的化学空间提供机会。

最新发表的代表性工作,来自Eastern Finland大学Ina Pöhner小组的研究成果。他们成功地运用Chemprop模型,通过迭代方法训练出名为HASTEN(macHine leArning booSTEd dockiNg)的机器学习模型,以预测分子对接评分。在十亿级数据库中,以抗菌蛋白SurA和抗病毒激酶蛋白GAK两个靶标为例,HASTEN模型能够快速且稳定地召回得分最高的化合物。同时对失败化合物或其对接分数的有效处理可以进一步提高虚拟筛选的召回率。这一卓越表现充分展示了HASTEN模型在超级筛选库所覆盖的广阔化学空间中发现药物的巨大潜力。相关工作以“Machine Learning-Boosted Docking Enables the Efficient StructureBased Virtual Screening of Giga-Scale Enumerated Chemical Libraries”为题发表在美国化学会出版的JCIM期刊(DOI:10.1021/acs.jcim.3c01239)【1】。

作者使用快速Glide高通量虚拟筛选流程将Enamine REAL类先导化合物库中15.6亿化合物与两个代表性靶标(抗菌蛋白SurA和抗病毒激酶蛋白GAK)进行分子对接,作为后续比较的基线结果。大致流程如下:1)首先使用Schrödinger软件 LigPrep工具对化合物库进行预处理,并将预处理的Enamine REAL类先导化合物库数据将对外公开(https://doi.org/10.23729/2de314bb-59af-452a-955c-c2ff0c5ea57f)。2)使用Schrodinger中的Protein Preparation Wizard工具对蛋白SurA (PDB:1M5Y )、GAK(PDB:4Y8D)文件进行准备。 3)使用Receptor Grid Generation在蛋白的结合口袋处生成对接格点文件。4)将准备好的化合物库在两个靶点HTVS模式下进行Glide对接。并进一步公开Enamine REAL库在SurA和GAK两个靶点上完整的对接结果(https://doi.org/10.23729/2170dc9c-4905-43c3-aeeea574d360737f)。

接着,作者对机器学习增强的HASTEN模型进行训练。在第一次迭代训练中,作者从15.6亿个化合物中随机选择0.1%(156万个化合物)化合物作为起始数据进行常规分子对接。当在常规分子对接运行中没有获得对接分数的化合物有两种处理方式:1)给它一个任意失败分数+5.0或者0.0。2)直接将该化合物从训练集排除。使用Chemprop模型中回归的默认参数来预测对接分数,然后根据预测分数对化合物进行排序,并加载前0.1%化合物进行分子对接。在下一次迭代中,将这部分排名靠前的0.1%化合物的对接分数添加到训练数据中。该过程重复进行九次,最终的训练数据集总量达到整个虚拟库的1%(图1)。



图1 基于机器学习HASTEN促进大规模虚拟筛选的工作流程

本次训练使用召回率定义模型的好坏,我们将召回率定义为根据分子对接结果进行排名,并使用机器学习模型预测得分排名对前100、1000和10000化合物进行排名,然后计算它们所占的比例。对于SurA靶标包含失败得分为+5.0的化合物的情况下,观察到得分排名靠前的100、1000和10000个化合物出色的召回率分别为95%、90%和85%(图2),对应GAK靶标其召回率分别为70%、67%和59%(图2)。而导致召回率相对较低的原因可能在于GAK数据集里存在过多的分子对接失败的分子。




图2 排名前1000个得分靠前的化合物中对预测失败的化合物采取不同处理方式的结果召回曲线

接着,为了提高GAK数据集的召回率尝试调整失败分数参为0.0,以减少训练过程中对失败化合物的强调,与失败分数+5.0相比,召回率提高了9 - 13%(图2),对SurA使用同样的方法召回率无明显提高。最后将所有无法打分的化合物从训练数据中排除再次评估, GAK靶点打分排名前100、1000和10000的召回率达到94%、90%和84%与SurA靶点最初结果相似,这说明排除失败得分的化合物可以明显的改善召回率从而提高模型质量。




图3 进行三次重复实验的召回曲线

接着进一步评估HASTEN模型的稳定性,随机进行三次机器学习增强的虚拟筛选实验,两个靶标在初始迭代过程中会出现一些变化,但在后续迭代中召回率趋于稳定并聚合在一起,总的来说这两个靶标三次运行的召回率非常相似(图3)。因此,单次运行HASTEN已经足够,在不同的初始随机选择下重复实验也无法获得更好的召回率。最后,我们对HASTEN模型进行了实战,使用Enamine REAL类先导化合物库(15.6亿个化合物)在SurA和GAK两个靶点上进行了虚拟筛选。仅对整个库的1%进行分子对接后,我们观察到在两个靶点上,与实际对接得分排名前1000个化合物相比,预测结果的召回率达到了90%。同时,分子对接的数量减少了99%,从而显著缩短了筛选时间。

总之,根据HASTEN在本次两个靶标案例中的表现,说明它是一种可行的机器学习增强分子对接技术。需要强调的是HASTEN经过在十亿规模级别化合物库基准测试,目前还没有其他工具可以在如此大规模的对接基础上进行测试。因此,将HASTEN应用于大规模虚拟筛选具有一定的潜力。

参考文献

【1】Sivula T, Yetukuri L, Kalliokoski T, Käsnänen H, Poso A, Pöhner I. Machine Learning-Boosted Docking Enables the Efficient Structure-Based Virtual Screening of Giga-Scale Enumerated Chemical Libraries. J Chem Inf Model. 2023 Sep 25;63(18):5773-5783.