AI颠覆材料学！DeepMind重磅研究登Nature，预测220万晶体结构赢人类800年

陶哲轩一直看好，ChatGPT将颠覆数学证明，而如今，AI在化学领域的潜力同样深不可测。

今天，220万种晶体结构完全被AI预测出来了。

这是什么概念？相当于近800年的知识价值。

谷歌DeepMind开发全新AI工具GNoME，能够预测新材料的稳定性，大大提高了发现的速度和效率，论文今天刊发在了Nature上。

论文链接：https://www.nature.com/articles/s41586-023-06735-9

在220万个晶体预测中，有38万种特性是最稳定的，有潜力成为未来变革性技术的材料，为超导体、电动汽车电池研发，以及超算供电等领域提供动力。

更进一步的是，全世界各地的科学家已经在GNoME的辅助之下，着手将AI发现的新材料进行了合成。

美国劳伦斯国家实验室和DeepMind合作，在Nature上刊发了另一篇论文，展示了如何利用GNoME的预测进行自主材料合成。

17天自主合成了41种新材料。

论文链接：https://www.nature.com/articles/s41586-023-06734-w

AI对于基础科学的推动作用，可能会让人类文明从此驶上快车道！

如果说，OpenAI是人类在奔向AGI道路上的领航员，DeepMind就是一把人类在科学领域不断突破自身极限的利剑。

利用 AI 加速材料发现

过去，科学家们通过调整已知晶体或试验新的元素组合来寻找新的晶体结构。

这是一个昂贵且耗时的试错过程。通常需要几个月的时间才能得到有限的结果。

在过去的十年中，全世界各国的科学家通计算机模拟的方法发现了28000种新材料。

加上人类利用传统实验的方法发现的大约20000种稳定性材料，在使用AI辅助材料发现之前，人类发现的稳定晶体数量总共达到了48000个。

而DeepMind使用AI材料发现工具GNoME，预测出了220万种新的晶体，其中38万种具有稳定的结构。

而在GNoME预测的新的稳定结构中，有736种是和其他科学家独立发现的稳定材料是一致的，说明新发现的材料是客观真实的。

自此，人类发现的稳定晶体数量一下子被提升了接近9倍！

而这些材料中，有52000种类似于石墨烯的新型层状化合物，其中1000种是已经被之前的研究所发现的。

如果在这些材料中能发现有更强超导特性的材料，有可能彻底颠覆电子学。

利用GNoME，科学家还发现了528种潜在的锂离子导体，是之前研究成果的25倍。

这些材料都有可能用来提高电池的性能，从而改变人类的能源结构。

DeepMind将会在未来发布这38万种稳定材料的预测结构。

利用GNN进行材料探索

GNoME采用两条工作流（管道）来发现稳定材料：

「结构管道」创建具有与已知晶体结构相似的候选物，而「成分管道」则采用遵循基于化学式的更随机的方法。

之后，使用密度泛函理论计算来评估两条工作流的输出，并将这些结果添加到GNoME数据库中，为下一轮主动学习提供信息。

GNoME是一种最先进的图神经网络（GNN）模型，可以预测晶体总能量。

GNN的输入数据采用图的形式，跟原子之间的连接很像，这使得GNN特别适合发现新的晶体材料。

模型的输入通过元素的单次嵌入转换成图。采用消息传递公式，其中聚合投影是具有非线性特性的浅层多层感知器（MLP）。

对于结构模型，重要的是通过整个数据集原子的平均邻接关系，对从边到节点的信息进行归一化。

GNoME的初始模型是在2018年Materials Project（约69000种材料）上训练的，研究人员改进了之前工作中，对这项任务设置的平均绝对误差（MAE）。

GNoME使用晶体结构及其稳定性的数据进行训练，这些数据可通过Materials Project公开获得。

研究人员使用GNoME来生成新的候选晶体，并预测它们的稳定性。

为了评估模型在训练周期中的预测能力，研究人员使用被称为密度泛函理论（DFT）的成熟计算技术，反复检查模型输出的结果。

DFT被广泛用于物理、化学和材料科学中，帮助人们理解原子的结构，对于评估晶体的稳定性有重要的作用。

研究人员使用了一种称为「主动学习」的训练过程，极大地提高了GNoME的性能。

「主动学习」是一种扩展模型的技术，模型首先在小型专用数据集上训练，然后，开发人员可以引入新的目标，允许模型在人工协助下标记新数据。

GNoME会对新型的、稳定的晶体结构进行预测，然后使用DFT进行测试，并将生成的高质量训练数据反馈到模型训练中。

GNoME的出现，将材料稳定性预测的发现率从50%左右提高到80%（50%是之前的SOTA）。

另外，GNoME的效率也有很大提升，将发现率从低于10%提高到了80%以上，——效率的提高会大大节约每次发现所需的计算量。

「AI配方」新材料

GNoME的目的是降低发现新材料的成本。

研究人员在完成了这项工作后，检索了科学文献，发现了由世界各地的实验室独立创造的736种新材料，与GNoME预测的结果一致。

这证明GNoME对稳定晶体的预测与客观现实相符。

上图给出了其中六个例子，从碱土类金刚石光学材料（一排中间）到潜在的超导体（一排右边）。

DeepMind已经向研究界发布了新发现的晶体数据库——通过向科学家提供新材料的「AI配方」，DeepMind希望帮助科学家们进行测试，并制造出最好的配方。

而利用晶体数据库中的「AI配方」，科学家可以快速开发新材料。

在美国劳伦斯国家实验室发表的一篇论文中，研究人员展示了，机器人实验室可以通过自动合成技术快速制造新材料。

利用Materials Project（MP）中的材料，和GNoME对稳定性的见解，实验室创造了晶体结构的新配方，并成功合成了超过41种新材料，为人工智能驱动的材料合成开辟了新的可能性。

上图是以58种新化合物为目标进行合成的结果。箭头表示接近零的数值。

我们可以看到共有41个目标成功合成（蓝色条），而其余17个目标失败（红色条）。

带有斜杠的目标表示使用了主动学习。每个条形图上方的散点表示针对每个目标尝试配方的结果，按执行顺序从上到下排列。

插入的饼图分别展示了成功目标（左）和配方（右）的比例。

上图分析了实验室无法合成的17种目标材料，每种材料都按使其合成复杂化的特征进行了分类。

除去亚稳态的，其余16个稳定目标所面临的挑战可分为两类：实验障碍（蓝色，13个）和计算障碍（绿色，3个）。

这些障碍又可分为四种不同的失败模式：反应动力学缓慢、前体易挥发、产物非晶化以及在0 K条件下进行的DFT计算的局限性。

论文细节

发现能量上有利的无机晶体是固态化学的基本科学和技术兴趣所在。

几十年来，实验方法已在无机晶体结构数据库（ICSD）中收录了 20,000 个计算稳定结构（总条目数为 200,000 个）。然而，由于成本、吞吐量和合成复杂性等原因，这种策略无法推广。

而材料计划（MP）、开放量子材料数据库（OQMD）、AFLOWLIB20 和 NOMAD21 所倡导的计算方法采用基于密度泛函理论（DFT）的第一性原理计算作为物理能量的近似值。

根据我们自己的重新计算（见方法），将 ab initio 计算与简单的替换相结合，研究人员已将计算稳定的材料提高到 48000 种。尽管人们一直在寻求有助于进一步发现材料的数据驱动方法，但迄今为止，机器学习技术在估算相对于竞争相能量凸壳（convex hull of energies）的稳定性（分解能）方面表现一直不好。

研究人员通过大规模主动学习扩大了机器学习在材料探索中的应用，首次建立了可准确预测稳定性的模型，从而为材料探索提供指导。

研究人员的方法依赖于两大支柱：

首先，他们建立了生成多种候选结构的方法，包括新的对称感知部分置换（SAPS）和随机结构搜索。

其次，研究人员采用了最先进的图神经网络（GNN），该网络可根据结构或成分改进材料特性建模。

在一系列回合中，这些用于材料探索的图神经网络（GNoME）根据现有数据进行训练，并用于过滤候选结构。

通过DFT计算筛选出的候选结构的能量，既可验证模型预测，又可作为数据飞轮，在下一轮主动学习中在更大的数据集上训练更稳健的模型。

通过这种迭代程序，GNoME模型已经发现了220多万种与以前的工作相比稳定的结构，特别是包含计算和实验结构的聚合数据集。

鉴于已发现的材料在稳定性方面存在竞争，更新后的凸壳包含381000个新条目，总计421000个稳定晶体，与之前发现的所有晶体相比有了数量级的扩展。

与其他机器学习领域的观察结果一致，研究人员发现神经网络的预测结果与数据量成幂律关系。

最终的GNoME模型可以准确预测，并将稳定预测的精确度（命中率）提高到80%以上（结构预测）和33%以上（仅成分预测），而之前的工作只有1%。

此外，这些网络还发展了分布外泛化。

例如，GNoME能够准确预测含有5个以上独特元素的结构（尽管在训练中省略了这些元素），为有效探索这一化学空间提供了首批策略之一。

研究人员将预测结果与实验和更高保真的 r2SCAN计算结果进行了比较，从而验证了研究结果。

最后，研究人员证明了在GNoME发现过程中产生的数据集为下游应用释放了新的建模能力。

这些结构提供了一个庞大而多样的数据集，可用于训练学习的等变原子间位势，具有前所未有的准确性和零样本泛化能力。

通过分子动力学模拟估算离子电导率，研究人员展示了这些电位在材料性质预测方面的前景。

候选材料的生成和过滤

可能的材料空间太大，无法以无偏见的方式进行采样。

由于没有可靠的模型来低成本地估算候选材料的能量，研究人员只能通过化学直觉来限制候选材料的生成，具体做法是替换相似的离子或列举原型。

这种策略虽然提高了搜索效率，但从根本上限制了候选物质的多样性。

通过使用神经网络引导搜索，研究人员能够使用多样化的方法生成候选体，并在不影响效率的前提下对晶体空间进行更广泛的探索。

为了生成和筛选候选晶体，研究人员使用了两个框架，如下图所示。

首先，通过修改现有晶体生成结构候选体。不过，研究人员通过调整离子取代概率来优先发现候选结构，并使用新提出的对称性感知部分取代（SAPS）来有效实现不完全取代，从而有力地扩展了取代集。

在主动学习过程中，这种扩展会产生超过109个候选结构；产生的结构会通过GNoME进行过滤，使用基于体积的测试时间扩展，并通过深度集合进行不确定性量化。

最后，对结构进行聚类，并对多形态进行排序，以便用DFT进行评估。

在第二个框架中，成分模型在没有结构信息的情况下预测稳定性。输入是还原化学式。通过氧化态平衡生成的模型往往过于严格。利用宽松的约束条件，研究人员使用GNoME筛选成分，并初始化100个随机结构，通过ab initio随机结构搜索（AIRSS）进行评估。

在这两个框架中，模型提供能量预测，并根据相对于竞争相的相对稳定性（分解能）选择阈值。

评估是通过在维也纳Ab initio仿真软件包（VASP）中进行的DFT计算来完成的，与Materials Project（MP）相比，研究人员同时测量了发现的稳定材料的数量和预测的稳定材料的精确度（命中率）。

GNoME已经发现了380000种稳定的晶体，这些晶体具有开发更环保技术的潜力——从用于电动汽车的电池到用于更高效计算的超导体。

DeepMind的GNoME，以及伯克利实验室、谷歌研究院和世界各地团队的合作者的研究，显示了使用人工智能来指导材料发现、实验和合成的潜力。

希望GNoME与其他AI工具，能够影响和改变这个领域，指引我们的未来。

网友热议

有网友根据GNoME预测新材料的能力生成了下面这张图：

不得不说，还挺形象的。

也有网友把LK-99拿出来鞭尸了：

「还记得LK-99吗？Google DeepMind最新的AI工具GNoME刚刚通过识别220万种新材料树立了新的标杆，重新定义了我们对材料科学的理解。这一发现超越了以前的努力，提供了具有多种应用的新晶体目录。」

当我们期盼看到Google的产品可以正面刚ChatGPT的时候，却发现Google把技能点用到了别的地方。

对此有网友表示：

「当人们对聊天机器人失去理智时，真正的人工智能在DeepMind」。

当然，也有阴谋论玩家表示：

「想象一下，科学家们已经根据这样的研究秘密合成了什么。我敢打赌，DeepMind并不是唯一一家进行此类模拟的实验室。」