DGCL：双图神经网络对比学习引领分子性质预测新篇章

在化学领域，分子性质的预测一直是研究的热点与难点。随着人工智能技术的不断发展，尤其是图神经网络（GNN）和自监督学习（SSL）的兴起，这一难题正逐步被攻克。近日，中山大学邹青松教授团队在Briefings in Bioinformatics上发表了一项重要成果——DGCL模型，该模型通过双图神经网络对比学习，实现了对分子性质的精准预测，为化学研究注入了新的活力。

在化学分子数据集中，未标记数据占据了绝大多数，而标记数据则相对稀缺。这一特点限制了监督学习方法在分子性质预测任务上的直接应用。为了克服这一难题，自监督学习（SSL）逐渐成为研究者的关注焦点。其中，对比学习（CL）作为一种有效的SSL范式，在各个领域都展现出了卓越的能力。然而，现有的分子表示CL方法仍存在表征信息重叠、缺乏鲁棒策略等局限性。

针对这些问题，邹青松教授团队提出了DGCL模型。DGCL模型结合了双图神经网络（Dual-GNN）和混合分子指纹（MFP），通过创新的对比学习策略，实现了对分子性质的精准预测。该模型包含两个阶段：预训练阶段和下游任务训练阶段。

在预训练阶段，DGCL模型采用了两个不同的GNN作为编码器，即图同构网络（GIN）和图注意力网络（GAT）。这两种网络具有不同的优势，GIN在识别图之间的拓扑差异方面表现出色，而GAT则通过其多头注意机制增强了模型的表达能力。通过这两种网络，DGCL模型能够从同一分子中提取出不同的特征表示，并将这些表示作为正样本进行对比分析。同时，该模型还将同一批中其他样本的表示视为负样本，从而构建了一个丰富的对比学习框架。

在下游任务训练阶段，DGCL模型将预训练阶段提取的特征与混合分子指纹（MFP）相结合，以预测分子性质。MFP是一种融合了多种分子指纹信息的复合表示，能够提供更全面、更准确的分子特征。通过与GNN提取的特征相结合，MFP进一步增强了DGCL模型的预测能力。

实验结果表明，DGCL模型在多个化学分子数据集上均取得了显著优于现有方法的性能。在分类任务和回归任务上，DGCL模型均展现出了卓越的表现。这一成果不仅验证了DGCL模型的有效性，也为其在化学研究领域的广泛应用奠定了坚实基础。

DGCL模型的成功在于其独特的双图神经网络对比学习策略。通过采用不同的GNN编码器，该模型能够充分利用分子固有的结构信息，捕捉分子的多维特征。同时，通过构建丰富的正负样本对，DGCL模型增强了模型对分子表征的区分能力，避免了过拟合的风险。此外，混合分子指纹的引入也为模型提供了更准确、更全面的分子特征表示。

除了性能上的优势外，DGCL模型还具有较好的泛化能力。在预训练阶段，该模型只需要相对较小的数据集即可实现良好的性能。这一特点使得DGCL模型在化学研究领域具有更广泛的应用前景。例如，在药物研发领域，DGCL模型可以用于筛选具有特定性质的候选药物分子，从而加速药物的研发进程。

综上所述，DGCL模型是一项具有创新性和实用性的研究成果。通过双图神经网络对比学习和混合分子指纹的结合，该模型实现了对分子性质的精准预测，为化学研究注入了新的活力。随着技术的不断发展，相信DGCL模型将在更多领域展现出其独特的优势和价值。

栏目

行业新闻

公司动态

时间

2024-11-14 08:33:08

作者

海森大数据

行业新闻

DGCL：双图神经网络对比学习引领分子性质预测新篇章

栏目

相关

时间

作者