在材料科学的广阔领域中,新材料的发现一直是推动科技进步和应对全球性挑战的关键。然而,这一过程往往伴随着大量的数字运算、属性研究和模拟实验,耗费了科学家们大量的时间和精力。传统方法,如反复试验和基于经验的计算方法,在探索化学空间时显得力不从心。近年来,人工智能(AI)技术的兴起为材料科学带来了革命性的变化,通过更高效地探索化学空间,加速了新材料的发现与设计。然而,一个显著的障碍在于缺乏公开的数据集和开放的预训练模型,限制了AI技术的广泛应用。
为了解决这一问题,Meta公司近日推出了名为「Open Materials 2024」(OMat24)的大型开放数据集和配套的预训练模型。这一举措旨在彻底改变AI驱动的材料发现进程,通过提供大量优质、可访问的数据,推动材料科学的快速发展。OMat24数据集包含了超过1.1亿个结构密度泛函理论(DFT)计算,重点关注结构和成分的多样性,成为该领域最大的公开数据集之一。
相关研究以「Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models」为题,发布在预印平台 arXiv 上。
DFT计算是研究材料稳定性和性质的重要工具,但计算成本高昂,限制了其在大型材料搜索空间中的应用。OMat24数据集的推出,不仅提供了大量的DFT计算结果,还涵盖了广泛的元素分布和物理上重要的非平衡结构,确保了训练的模型在动力学和远离平衡的特性上具有出色的适应性。
除了数据集,Meta还展示了在OMat24上训练的最先进的图神经网络(GNN)模型——EquiformerV2。该模型在Matbench Discovery排行榜上实现了卓越的性能,能够高精度地预测基态稳定性和形成能,F1得分高于0.9,精度达到20 meV/atom。这一成果不仅展示了AI技术在材料发现中的巨大潜力,也证明了OMat24数据集在训练高性能模型方面的有效性。
剑桥大学分子建模教授Gábor Csányi对此表示,Meta决定公开其数据集比AI模型本身更为重要。他指出,与其他科技公司如谷歌和微软相比,Meta的开源举措为材料科学界提供了更多的选择和可能性。这些公司虽然也发布了看似具有竞争力的模型,但这些模型是在保密的数据集上训练的,限制了其广泛应用和进一步发展。
OMat24数据集和模型的推出,对于加速新材料的发现具有重要意义。新材料的发现对于应对气候变化、推动下一代计算硬件的进步等应用至关重要。然而,由于材料搜索空间巨大,现有的计算和实验方法在有效探索广阔的化学空间方面存在很大局限。OMat24数据集和模型的开源,为材料科学家提供了强大的工具,使他们能够更高效地探索化学空间,发现具有优异性能的新材料。
此外,OMat24数据集和模型的开源版本还允许研究界在现有基础上继续发展,进一步增强AI在新材料发现中的作用。这不仅可以推动材料科学的快速发展,还可以促进跨学科合作,为其他领域带来创新性的解决方案。
总之,Meta推出的OMat24数据集和模型代表了AI辅助材料科学的重大飞跃。这些模型能够以高精度预测关键属性,对于加速材料发现非常有用。更重要的是,开源版本为材料科学界提供了更多的选择和可能性,推动了AI技术在材料发现中的广泛应用和进一步发展。随着OMat24数据集和模型的不断完善和更新,我们有理由相信,AI驱动的材料发现将迈向一个新的纪元。
2024-10-24 08:32:10
海森大数据