230页长文，涵盖5大科学领域，微软团队使用GPT-4探索LLM对科学发现的影响

前不久，微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划，旨在通过 AI 系统优化技术实现科学发现。

11 月 13 日，微软团队在 arXiv 预印平台发表题为《大型语言模型对科学发现的影响：使用 GPT-4 的初步研究》（「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」）的文章。

文章篇幅长达 230 页。

论文链接：https://arxiv.org/abs/2311.07361

近年来，自然语言处理领域的突破性进展在强大的大型语言模型（LLM）的出现中达到了顶峰，这些模型在众多领域展示了非凡的能力，包括自然语言的理解、生成和翻译，甚至扩展到语言处理之外的任务。

在本报告中，微软研究人员深入研究了 LLM 在科学发现/研究背景下的表现，重点关注最先进的语言模型 GPT-4。研究涵盖多个科学领域，包括药物发现、生物学、计算化学（DFT 和 MD）、材料设计和偏微分方程 (PDE)。

评估 GPT-4 的科学任务对于发掘其在各个研究领域的潜力、验证其特定领域的专业知识、加速科学进步、优化资源配置、指导未来模型开发和促进跨学科研究至关重要。探索方法主要包括专家驱动的案例评估，它为模型对复杂科学概念和关系的理解提供定性见解，并且偶尔进行基准测试，它定量评估模型解决明确定义的特定领域问题的能力。

初步探索表明，GPT-4 在各种科学应用中展现出广阔的潜力，展示了其处理复杂问题解决和知识整合任务的能力。研究人员对 GPT-4 在上述领域（例如药物发现、生物学、计算化学、材料设计等）的性能进行了分析，强调了其优点和局限性。从广义上评价 GPT-4 的知识基础、科学理解能力、科学数值计算能力和各种科学预测能力。

在生物学和材料设计方面，GPT-4 拥有广泛的领域知识，可以帮助满足特定要求。在药物发现等其他领域，GPT-4 显示出强大的特性预测能力。然而，在计算化学和偏微分方程等研究领域，虽然 GPT-4 有望帮助研究人员进行预测和计算，但仍需要进一步努力来提高其准确性。尽管其功能令人印象深刻，但 GPT-4 还可以针对定量计算任务进行改进，例如需要进行微调以实现更好的准确性。

研究人员希望这份报告能够为那些寻求利用 LLM 的力量进行科学研究和应用的研究人员和从业者，以及那些对推进特定领域科学任务的自然语言处理感兴趣的人提供宝贵的资源。需要强调的是，LLM 和大规模机器学习领域正在迅速发展，该技术的未来几代可能拥有本报告中强调的功能之外的其他功能。值得注意的是，LLM 与专业科学工具和模型的整合，以及基础科学模型的开发，代表了两条有希望的探索途径。

药物发现

药物发现是制药行业的重要组成部分，在推进医学科学方面发挥着至关重要的作用。药物发现涉及复杂的多学科过程，包括靶点识别、先导化合物优化和临床前测试，最终导致安全有效药物的开发。

评估 GPT-4 在药物发现方面的能力具有巨大的潜力，例如加速发现过程、降低搜索和设计成本、增强创造力等。在本章中，研究人员首先通过定性测试研究 GPT-4 关于药物发现的知识，然后通过对多个关键任务的定量测试来研究其预测能力，包括药物-靶标相互作用/结合亲和力预测、分子性质预测和逆合成预测。

第一个示例是生成给定药物名称的化学式、IUPAC 名称和 SMILES，这是名称和药物其他表示形式之间的翻译。以 Afatinib 作为输入药物。GPT-4 正确输出化学式为 C24H25ClFN5O3，IUPAC 名称也正确，这意味着 GPT-4 知道药物 Afatinib。然而，SMILES 并不正确。因此，研究人员给予指导，让 GPT-4 再次生成 SMILES。不幸的是，虽然明确要求 GPT-4 「注意每种原子类型的原子数量」并基于正确的 IUPAC 和化学式生成，但在几次试验中生成的 SMILES 序列仍然不正确。

图 1：药物名称和药物其他表示形式之间的翻译。（来源：论文）

生物

在本章中，研究人员深入探讨了 GPT-4 在生物学研究领域的能力，主要关注其理解生物语言、利用内置生物知识进行推理的熟练程度，以及设计生物分子和生物实验。观察表明，GPT-4 通过展示其处理复杂生物语言、执行生物信息任务、甚至作为生物设计的科学助手的能力，展现出为生物学领域做出贡献的巨大潜力。GPT-4 对生物学概念的广泛掌握及其作为设计任务中的科学助手的巨大潜力凸显了其在推进生物学领域的重要作用。

首先评估了 GPT-4 处理生物序列序列符号和文本符号的能力。

研究人员要求 GPT-4 在生物序列及其文本符号之间进行转换：1）输出给定蛋白质序列的蛋白质名称。2) 输出给定名称的蛋白质序列。在执行每个任务之前，都会重新启动会话以防止信息泄露。结果表明，GPT-4 知道序列到文本符号转换的过程，但它不能自己直接查找（也称为 BLAST 序列）。同时，GPT-4 更喜欢生物序列的文本标记（包括蛋白质和 DNA，后者未显示）。当给出文本符号时，它提供了更丰富的信息，这可能是由于其设计理念。需要指出的是，还注意到，生成序列可能会导致 GPT-4 的灾难性行为。如下图所示，虽然 GPT-4 返回了正确的 UniProt ID，但在生成序列时遇到了困难。序列生成因尝试的几种不同提示而崩溃。

图 2：序列符号和文本符号之间的转换。（来源：论文）

计算化学

计算化学是一个跨学科领域，利用计算方法和技术来解决化学中的复杂问题。长期以来，它一直是分子系统研究中不可或缺的工具，提供了对原子级相互作用的见解并指导实验工作。计算化学在微观和宏观层面上理解分子结构、化学反应和物理现象方面发挥着至关重要的作用。

在本章中，研究了 GPT-4 在计算化学各个领域的功能，包括电子结构方法和分子动力学模拟，并展示了 GPT-4 从不同角度服务的两个实际示例。总之，GPT-4 能够以多种方式帮助计算化学研究人员。

研究从评估 GPT-4 解释量子化学和物理概念的能力开始。评估涵盖了该领域常用的方法，如密度泛函理论（DFT）和波函数理论（WFT）。

图 3：密度泛函理论的概念检验。（来源：论文）

在以上例子中，GPT-4 很好地理解了密度泛函理论、KohnSham 密度泛函理论和无轨道密度泛函理论的概念。

材料设计

在本章中，研究了 GPT-4 在材料设计领域的功能。研究人员设计了一套全面的任务，涵盖材料设计过程中的各个方面，从最初的概念化到随后的验证和合成。目标是评估 GPT-4 的专业知识及其在实际应用中生成有意义的见解和解决方案的能力。设计的任务涵盖各个方面，包括背景知识、设计原则、候选识别、候选结构生成、属性预测和合成条件预测。通过解决整个设计过程，目标是对 GPT-4 在材料设计方面的熟练程度进行整体评估，特别是对于结晶无机材料、有机聚合物以及金属有机框架 (MOF) 等更复杂的材料。

值得注意的是，评估主要侧重于对 GPT-4 在这一专业领域的能力进行定性评估，而只有在可行的情况下才能获得统计分数。

研究人员首先询问目前固体电解质的分类，其分类标准有不同的要求，例如一般化学和阴离子类型。还要求提供基于分类标准的示例。如图 4 所示，这里的所有答案都是事实，而且大部分都是正确的。由于这些分类标准在文献中没有得到很好的体现，GPT-4 应该对化学的含义有一个相对清晰的理解。

图 4：无机固体电解质的分类。（来源：论文）

偏微分方程

偏微分方程 (PDE) 是数学领域中一个重要且高度活跃的研究领域，在物理、工程、生物学和金融等各个学科中具有深远的应用。偏微分方程在建模和理解各种现象（从流体动力学和传热到电磁场和群体动力学）方面发挥着至关重要的作用。

在本章中，研究了 GPT-4 在偏微分方程的几个方面的技能：理解偏微分方程的基础知识、求解偏微分方程以及协助 AI 进行偏微分方程研究。研究人员在不同形式的 PDE 上评估模型，例如线性方程、非线性方程和随机 PDE。研究表明 GPT-4 能够以多种方式帮助研究人员。

第一个问题是关于偏微分方程的定义和形式，GPT-4 对偏微分方程提供了很好的解释，如图 5 所示。在用户的提示下，GPT-4 给出了偏微分方程的清晰概念以及线性或非线性、椭圆形、抛物线形或双曲形的类别。该领域的新手将从这些概念和分类中受益。

图 5：PDE 的基本概念介绍。（来源：论文）

未来展望

在该研究中，研究人员探索了 LLM 在各个自然科学领域的能力和局限性，涵盖了各种任务。研究的主要目标是对最先进的 LLM GPT-4 及其对科学发现做出贡献的潜力提供初步评估，为多个领域的研究人员提供宝贵的资源和工具。

通过广泛的分析，研究强调了 GPT-4 在众多科学任务中的熟练程度，从文献综合到属性预测和代码生成。尽管其功能令人印象深刻，但必须认识到 GPT-4（以及类似的 LLM）的局限性，例如处理特定数据格式的挑战、响应的不一致以及偶尔的幻觉。

研究人员相信，该探索是理解和认识 GPT-4 在自然科学领域潜力的关键第一步。通过详细概述其优点和缺点，旨在帮助研究人员在将 GPT-4（或其他 LLM）纳入日常工作时做出明智的决定，确保最佳应用，同时注意其局限性。

此外，鼓励 GPT-4 和其他 LLM 的进一步探索和发展，旨在提高其科学发现能力。这可能涉及完善培训过程、合并特定领域的数据和架构，以及集成针对不同科学学科量身定制的专业技术。

随着人工智能领域的不断发展，像 GPT-4 这样的复杂模型的集成将在加速科学研究和创新方面发挥越来越重要的作用。

最后，研究总结了 LLM 在科学研究方面需要改进的方面，并讨论加强 LLM 或在此基础上推动科学突破的潜在方向。