

无机材料在科学和工业应用中发挥着重要作用,从芯片、电池到光伏材料,这些技术的进步都依赖于新材料的发现。然而,传统寻找新材料的试错方法成本高昂,限制了新材料的快速发现。近年来,得益于深度学习在各个领域取得了显著的进展,深度学习也有望在材料科学领域发挥重要的作用。
鉴于此,近日来自美国谷歌公司Deepmind的 Amil Merchant和Ekin Dogus Cubuk领导的研究团队在Nature上以Scaling deep learning for materials discovery为题发表重磅文章,探讨了基于大规模和多样化第一性原理计算训练的图神经网络(GNNs)如何助力无机材料的发现。通过结合深度学习与材料科学,文章展示了GNNs如何提高材料发现的效率,并揭示了深度学习系统在自然科学中的能力。
图1. GNoME能够实现新材料的高效发现。
图源: Nature 624, 80–85 (2023).
深度学习是机器学习的一个子领域,它基于人工神经网络,通过对大量数据的分析,以识别复杂的模式和关系。深度学习的目标是让机器能够学习并模拟人类的认知和决策过程。
深度学习的概念源于人工神经网络的研究。早在20世纪50年代,科学家们就开始尝试模拟人类神经系统的行为,创建人工神经网络。然而,早期的神经网络由于规模和计算能力的限制,无法处理复杂的任务。随着计算机技术的发展,尤其是GPU的出现,使得人工神经网络的处理能力大大增强。如今,深度学习已经广泛应用于图像识别、语音识别、自然语言处理、推荐系统、医疗诊断等众多领域。
深度学习的核心是神经网络,它由多个神经元组成,每个神经元接收输入信号并产生输出信号。神经网络的学习过程是通过调整神经元之间的连接权重来实现的。深度神经网络的特点在于其深度,也就是神经元层的数量。层数越多,网络越能够捕捉到数据的复杂特征。在训练过程中,网络通过反向传播算法调整权重,以最小化预测错误。一旦网络被训练好,它就可以用于预测新的数据。
但是在材料科学领域,由于可能存在的材料的空间太大,深度学习往往无法进行无偏采样。在没有可靠模型以低成本近似候选者能量的情况下,传统研究者们通过利用化学直觉限制生成,通过替换类似离子或列举原型来指导搜索。虽然这提高了搜索效率,但这种策略从根本上限制了材料候选者的多样性。通过使用神经网络指导搜索,研究人员能够使用更多样化的方法生成候选者并进行更广泛的晶体空间探索,同时不牺牲效率。
为了生成和过滤候选者,本文使用了两个框架,如图1a所示。首先,通过修改现有晶体生成结构候选者。然后通过调整离子替换概率来增强替换集,以优先发现并使用新提出的对称感知部分替换(SAPS),以有效地实现不完整的替换。这种扩展在积极学习过程中产生了超过109个候选者。这些结构随后通过GNoME进行过滤,使用基于体积的测试时间增强和通过深度集成的不确定性量化。最后,对结构进行聚类,并对多晶型体进行DFT评估和排名。在第二个框架中,成分模型在不考虑结构信息的情况下预测稳定性。输入是减少的化学公式。通过氧化状态平衡生成往往过于严格。使用放宽的约束,本文的研究人员使用GNoME过滤成分并初始化100个随机结构以通过从头算随机构型搜索(AIRSS)进行评估。在这两个框架中,模型提供了能量的预测,并根据相对稳定性(分解能量)选择了阈值。
图2.深度学习所发现的稳定晶体总结。
图源: Nature 624, 80–85 (2023).
同时,谷歌的研究人员讨论了如何通过大规模主动学习来扩展机器学习在材料探索中的应用,从而产生能够准确预测稳定性的模型,进而指导材料发现。
文章采用了两大支柱方法:一是建立生成多样化候选结构的方法,包括新的对称性感知部分替换(SAPS)和随机结构搜索;二是使用最先进的图神经网络(GNNs),以改善给定结构和成分时的材料属性建模。
在一系列轮次中,这些用于材料探索的图网络(GNoME)在可用数据上进行训练,并用于过滤候选结构。被过滤的候选者的能量通过DFT计算,既验证了模型的预测,又作为数据飞轮为训练提供动力。
这一方法的核心是利用机器学习来预测材料的稳定性,这是通过大规模主动学习实现的。主动学习是一种机器学习方法,它允许算法查询领域专家(在本文中是根据密度泛函理论DFT计算的结果)以获取关于模型预测不确定性的信息,从而在数据收集过程中做出选择。这大大减少了需要查询专家的问题数量,提高了效率。
在文章的上下文中,机器学习模型的训练是通过一系列的迭代过程进行的,这些过程包括从DFT计算中获取数据,训练模型,然后使用该模型过滤候选结构。被过滤的结构的能量再次通过DFT计算来验证模型的预测。这个过程反复进行,直到模型达到所需的准确性和稳定性。
框架中的一个核心步骤是主动学习,它能够加速新材料的发现。在结构和成分的框架中,使用GNoME过滤后的候选结构将使用来自Material Project的标准设置的DFT计算进行评估。经过松弛处理的结构的能量不仅验证了晶体结构的稳定性,而且还被纳入到主动学习的迭代工作流程中,作为额外的训练数据和候选结构生成。
尽管结构和成分框架的命中率最初分别低于6%和3%,但通过六轮主动学习,性能稳步提高。最终的GNoME模型集合将预测误差降低到11 meV/atom,命中率超过80%和33%,这明显展示了规模的优势。关于最终GNoME命中率的更多分析如图1d所示。
GNoME模型的测试损失性能随着数据的增加而以幂律形式提高,这与深度学习中的神经比例定律相符,并表明进一步的数据可以继续提高模型的泛化能力。
在材料科学中,研究人员可以不断地生成数据并发现稳定的晶体,这些晶体可以被重复利用来扩展模型,这使得GNoME模型能够继续扩展。研究人员通过测试在随机搜索中产生的晶体上训练的结构模型来展示其对分布外任务的泛化能力,这些例子往往是高能量局部最小值,与结构管道中生成的数据分布不同。
尽管如此,研究人员还是观察到了明显的规模效益。这些结果表明,最终的GNoME模型能够通过深度学习处理各种不同的材料结构。GNoME模型发现了220万个相对于Material Project稳定的晶体结构。
图3. 缩放学到的原子间势能。
图源: Nature 624, 80–85 (2023).
总而言之,这篇文章主要讨论了基于大规模和多样化第一性原理计算训练的图神经网络(GNNs)如何能够有效地发现无机材料,并使稳定晶体的数量增加一个数量级以上。相关数据集增强了机器学习原子间势的能力,为未见过的块体材料提供了准确且稳健的分子动力学模拟。
GNoME模型已经发现了220万个相对于以前工作稳定的晶体,并为材料科学家提供了以前不可能的建模能力。然而,在将发现转化为实际应用方面,仍然存在一些挑战性问题,包括通过竞争多态性对相变有更深入的理解,由振动轮廓和配置熵引起的动态稳定性,以及最终材料的可合成性。尽管如此,作者认为预训练、通用的GNoME模型将作为在各种应用中从根本上加速材料发现的强大工具而被广泛使用。
参考文献:Merchant, A., Batzner, S., Schoenholz, S.S. et al. Scaling deep learning for materials discovery. Nature 624, 80–85 (2023).
https://doi.org/10.1038/s41586-023-06735-9