在固态化学的广阔领域中,晶体多晶型是一个引人入胜且至关重要的方面,其在制药、农业科学、营养保健品、电池和航空工业中均展现出深远的影响。然而,多晶型研究的发展步伐相对缓慢,尤其在制药行业,这一领域的问题尤为突出。近期,纽约薛定谔公司主导的一项研究,提出了一种全新的晶体结构预测(CSP)方法,该方法不仅在准确性上取得了显著提升,同时在效率上也实现了重大突破。
该研究以「A robust crystal structure prediction method to support small molecule drug development with large scale validation and blind study」为题,于 2025 年 3 月 5 日刊登于《Nature Communications》。
多晶型现象的重要性与挑战
晶体多晶型,指的是同一化合物在不同结晶条件下形成多种晶体结构的现象。这些不同的多晶型物往往具有截然不同的物理化学性质,如溶解度、熔点、稳定性等。在制药行业中,迟发多晶型物的出现尤为棘手,它们可能在长时间储存或生产条件变化后意外形成,导致原有晶体形式的消失,从而迫使企业重新设计生产过程。因此,设计小分子药物的临床制剂时,全面的多晶型筛选和放大研究是必不可少的步骤,但这一过程往往耗时且成本高昂。
薛定谔公司的新CSP方法
薛定谔公司的新CSP方法,通过结合一种新颖的系统晶体填充搜索算法和机器学习力场(MLFF)在分层晶体能量排序中的应用,成功地在准确性和效率上实现了双重飞跃。该方法在一个包含66个分子和137种实验已知多晶型形式的大型数据集中得到了验证,结果令人瞩目。
新方法的搜索策略采用了分而治之的方法,根据空间群对称性将参数空间分解为多个子空间,然后依次搜索每个子空间。这种策略显著降低了搜索复杂度,提高了搜索效率。在能量排序阶段,该方法结合了使用经典力场(FF)的分子动力学(MD)模拟、结构优化以及使用MLFF的重新排序,最后通过长距离静电和色散相互作用以及周期密度泛函理论(DFT)计算对最终候选名单进行排名。这种多层次的能量排序方法确保了预测结果的准确性和可靠性。
图 1:计算多晶型预测方法概述。(图源:论文)
方法验证与优势
为了全面验证新方法的准确性和可靠性,研究团队编译了一套包含不同复杂度分子的数据集。该数据集按照之前的CCDC CSP盲测定义分为三层,涵盖了从简单到复杂的各种分子类型。测试结果显示,在已知实验结构匹配的候选结构中,80%的候选结构在相对能量小于1.0kcal/mol的预测中排名前10,最稳定的已知多晶型物和最低能量预测结构之间的能隙仅为约0.5kcal/mol。这表明广泛的实验筛选可能已经确定了这些分子最稳定的多晶型物。
此外,新方法在预测未知低能多晶型物方面也表现出色。通过与现有CSP方法和协议的比较,新方法在预测分子晶体多晶型物方面具有显著优势。它不仅以足够的精度预测了不同多晶型物的相对稳定性,而且大幅减少了昂贵的周期性DFT计算的数量。例如,在预测PF-998245和rotigotine的多晶型物时,新方法的CPU成本分别为22.6千小时和26.5千小时,而之前的方法则分别需要约200千小时和125千小时。
图 2:用于晶体结构预测(CSP)回顾性验证的 66 个分子的 2D 图和通用名称。(图源:论文)
应用前景与未来展望
薛定谔公司的新CSP方法已经在多个领域展现出了广泛的应用前景。例如,在拜耳作物科学开发的杀虫剂上,新方法的预测结果与实验结果高度一致,进一步验证了其可靠性和准确性。未来,团队计划扩展该方法以支持更复杂和/或多组分的系统,并计划将其与其他计算工具集成,以便能够从结构、稳定性、功能和性能方面对多晶型物进行全面分析。
总的来说,薛定谔公司的新CSP方法为多晶型预测领域带来了革命性的变化。它不仅提高了预测的准确性和效率,而且为制药、农业科学等领域的研究提供了强有力的支持。随着该方法的不断完善和拓展,相信它将在未来发挥更加重要的作用,推动相关领域的持续发展和进步。
2025-03-13 08:27:10
海森大数据