微软230页报告，像素级评估GPT-4前沿科研能力：潜力无限速速上车！

LLM作为研究工具，能否帮助科学研究带来新的突破？

今天微软AI4Science Research抛出一篇230页的重磅论文，告诉所有的科研人员：

LLM（GPT-4）太强了，赶快想办法用起来！

论文地址：https://arxiv.org/abs/2311.07361

报告中，作者将以GPT-4为重点，深入研究LLM在科学发现和科学研究方面的表现。

研究领域包括：药物发现、生物学、计算化学（密度泛函理论 (DFT) 和分子动力学 (MD)）、材料设计和偏微分方程 (PDE)。

研究主要分为两个部分，首先是让专家对GPT-4在相关领域的知识储备做出评估，了解模型对复杂科学概念和关系的理解。

然后，研究人员还让GPT-4参与特定领域的基准测试，考察模型解决定义明确的特定领域问题的能力。

报告认为，GPT-4在各种科学应用中展现出了巨大的潜力，证明了它在处理复杂的问题解决和知识整合任务方面的能力。

具体来说，在生物学和材料设计领域，GPT-4 拥有广泛的领域知识，能满足科学研究中的特定要求。

GPT-4在理解和处理复杂的生物语言、执行生物信息学任务以及作为生物设计的科学助手方面表现出巨大的潜力。

它对生物学概念的广泛掌握以及执行各种任务的能力，例如处理专门文件、预测信号肽以及从观察中推理出合理的机制，使其成为推进生物学研究的有效工具。

GPT-4 通过检索信息、提出设计原则、生成新颖且可行的化学成分、推荐分析和数值方法以及生成不同编程语言的代码，在帮助材料设计任务方面展现出前景。

然而，它在表示和提出更复杂的结构（例如有机聚合物和 MOF）、生成准确的原子坐标以及提供精确的定量预测方面的能力还有待提高。

在药物发现领域，GPT-4显示出强大的属性预测能力。比如，GPT-4可用于药物-靶点结合亲和力和相互作用的预测,这可显著加速药物发现流程。

LLM在预测分子的物理化学和生物学属性方面表现出潜力，能够准确预测出分子的溶解度、毒性、生物活性等特性。

在材料设计中，GPT-4 通过检索信息、提出设计原则、生成新颖且可行的化学成分、推荐分析和数值方法以及生成不同编程语言的代码，在帮助材料设计任务方面展现出前景。

然而，它在表示和提出更复杂的结构（例如有机聚合物和 MOF）、生成准确的原子坐标以及提供精确的定量预测方面遇到了挑战。

在偏微方程研究领域，GPT-4展示了理解基本概念、辨别概念之间关系并提供准确证明方法的能力。

它能够推荐适当的分析和数值方法来解决各种类型的偏微分方程，并用不同的编程语言生成代码来数值求解偏微分方程。

GPT-4 展示了其理解基本概念、辨别概念之间关系并提供准确证明方法的能力。它能够推荐适当的分析和数值方法来解决各种类型的偏微分方程，并用不同的编程语言生成代码来数值求解偏微分方程。

在研究人员总结了LLM如此强大的科研能力之后，呼吁各个领域的科学家，将LLM与专业科学工具和模型相结合，或者在现有开源LLM的基础之上，开发基础科学模型，将会解锁更多的科研范式和可能性。

论文的作者团队为GPT-4设计了药物、生物、化学、材料和数学五门「专项考试」，下面我们来看一下GPT-4这位考生在各个学科考试中的发挥怎么样。

药物发现

药物发现是识别和开发新候选药物以治疗或预防特定疾病和医疗状况的过程。这个复杂且多方面的领域旨在通过创造安全、有效和有针对性的治疗药物来改善人类健康和福祉。

评估 GPT-4 在药物发现方面的能力具有巨大的潜力，例如加速发现过程、降低搜索和设计成本、增强创造力等。

具体来说，GPT-4在药物发现方面有着广泛的知识：GPT-4展示了对药物发现中关键概念的广泛理解，包括单个药物，

靶蛋白，

小分子药物的一般原则，

和药物发现过程各个阶段面临的挑战。

在此基础之上，GPT-4可以帮助完成药物发现中的多项基本任务，包括：

分子操纵：GPT-4 能够通过修改现有分子结构来生成新的分子结构，可能发现新的药物。

虽然GPT-4是协助药物发现研究的有用工具，但了解其局限性和潜在错误也是客观存在的。

SMILES序列处理比较困难：GPT-4可能难以直接处理SMILES序列。为了提高模型的理解和输出，如果可能的话，最好提供药物分子的名称及其描述。

这将为模型提供更多背景信息，并提高其生成相关且准确响应的能力。

定量任务的局限性：虽然GPT-4在定性任务和问题方面表现出色，但在定量任务（例如预测分子数值）时可能会面临限制。

作者评估的数据集中的特性和药物靶点结合。建议研究人员在这些情况下以 GPT-4 的输出作为参考，并使用专用的 AI 模型或科学计算工具进行验证，以确保得出可靠的结论。

双重检查生成的分子：当使用GPT-4生成新分子时，必须验证生成结构的有效性和化学性质。

药物-靶点结合预测：GPT-4能够预测分子与靶蛋白之间的相互作用，这有助于识别有前途的候选药物并优化其结合特性。

分子特性预测：GPT-4能够预测分子的各种理化和生物学特性，可以指导候选药物的选择和优化。

逆合成预测：GPT-4能够预测目标分子的合成路线，帮助化学家设计高效且具有成本效益的策略来合成潜在候选药物。

新分子生成：GPT-4可用于按照文本指令生成新分子。这种从头生成分子的能力可以成为识别新药物的工具。

广泛的知识库使GPT-4能够在广泛的药物发现任务中提供有用的见解和建议。

编码能力：GPT-4可以为药物发现的编码提供帮助，在数据下载、处理等方面提供巨大的便利。GPT-4强大的编码能力可以极大地减轻研究人员未来的工作量。

研究人员首先通过定性测试研究GPT-4关于药物发现的知识，测试了GPT-4翻译药物和表达式的能力。

GPT-4正确输出化学式为CHClFNO，IUPAC名称也正确，这意味着GPT-4知道药物Afatinib。

然而，SMILES 并不正确。研究人员进一步给予指导，让GPT-4再次生成SMILES。不幸的是，如图所示，虽然研究人员明确要求 GPT-4 「注意每种原子类型的原子数量」并基于正确的IUPAC和化学式生成，但在几次试验中生成的 SMILES序列仍然不是正确的。

然后通过对多个关键任务的定量测试来研究其预测能力，包括药物-靶标相互作用/结合亲和力预测、分子性质预测和逆合成预测。

生物学

研究人员认为，GPT-4通过展示其处理复杂生物语言、执行生物信息任务、甚至作为生物设计的科学助手的能力，展现出为生物学领域做出贡献的巨大潜力。

生物信息处理：GPT-4展示了其对生物领域专业文件信息处理的理解，例如MEME格式、FASTQ格式和VCF格式。

此外，它擅长对给定的任务和数据进行生物信息学分析，例如预测所提供序列的信号肽。

生物学理解：GPT-4展示了对各种生物学主题的广泛理解，包括共有序列，

PPI，

信号通路和进化概念。

生物学推理：GPT-4能够利用其内置的生物学知识从生物学观察中推理出合理的机制。

生物辅助：GPT-4 展示了其在蛋白质设计任务领域以及通过将实验方案转化为自动化目的在湿实验室实验中作为科学助手的潜力。

虽然GPT-4本身是一种非常强大的工具，可以帮助生物学研究，但也观察到一些局限性和偶尔的错误。

FASTA 序列理解：GPT-4 的一个显著挑战是FASTA序列的直接处理。如果可能的话，最好提供生物分子的名称及其序列。

结果不一致：GPT-4 在与生物实体相关的任务上的表现受到与实体相关的丰富信息的影响。对未充分研究的实体（例如转录因子）的分析可能会产生不一致的结果。

阿拉伯数字理解：GPT-4 很难直接处理阿拉伯数字；建议将阿拉伯数字转换为文本。

定量计算：虽然GPT-4在生物语言理解和处理方面表现出色，但在定量任务中遇到了局限性。为了获得可靠的结论，建议使用替代计算工具进行手动验证或验证。

提示敏感性：GPT-4 的答案可能会不一致，并且高度依赖于问题的措辞，需要进一步细化以减少可变性，例如尝试不同的提示。

总之，GPT-4 通过展示其在理解和处理生物语言、利用内置知识进行推理以及协助设计任务方面的熟练程度，在推进生物学领域展现出巨大的潜力。

尽管存在一些限制和错误，但通过适当的指导和改进，GPT-4 可以成为研究人员在不断发展的生物研究领域中的宝贵工具。

计算化学

下面要进行的是化学考试，这里的计算化学是分子系统研究中不可或缺的工具，提供了对原子水平相互作用的见解并指导实验工作。

在本次考试中，研究人员观察到GPT-4的以下能力比较突出：

文献综述能力：GPT-4 拥有广泛的计算化学知识，涵盖密度泛函理论、费曼图和电子结构理论、分子动力学模拟和分子构象生成等知识。

GPT-4 不仅能够解释基本概念，还可以总结该领域的主要发现和趋势。

方法选择能力：GPT-4 能够针对具体的研究问题推荐合适的计算方法和软件包，同时考虑系统规模、时间尺度和理论水平等因素。

模拟设置能力：GPT-4 能够帮助制备简单的分子输入结构，建立和建议模拟参数，包括特定的对称性、密度泛函、时间步长、集成、温度和压力控制方法，以及初始配置。

代码开发能力：GPT-4 能够协助在现有的计算化学和物理软件包中实现新的算法或功能。

此外，GPT-4 还能够通过提供实验、计算和理论指导来帮助研究人员。

当然，研究人员也观察到一些局限性：

首先，GPT-4 可能难以进行复杂的逻辑推理。

其次，GPT-4 不擅长生成或处理复杂分子或材料的原始原子坐标。

最后，GPT-4 在评估的基准测试中不擅长精确计算，并且通常忽略对称性和不变性等物理先验。

材料设计

在材料设计的考试中，研究人员设计了一套全面的任务，涵盖了包括背景知识、设计原理、候选物识别、候选结构生成、性能预测和合成条件预测等各个方面。

通过解决设计过程的整个范围，可以对 GPT-4 在材料设计方面的熟练程度进行全面评估，特别是对于结晶无机材料、有机聚合物和更复杂的材料。

通过考试评估，可以发现 GPT-4 在材料设计方面有如下能力：

信息记忆：GPT-4擅长记忆信息并提出无机晶体和聚合物的设计原理。它尤其擅长理解文本形式的材料设计规则。比如，在设计固态电解质材料时，它可以提出提高离子电导率的方法并提供准确的示例。

成分创建：熟练地为新型无机材料生成可行的化学成分，如下图：

左边的图表示GPT-4生成合金化学成分的成功率。中间的图表示生成离子化合物化学位置的成功率。右边的图表示生成给定原型的化学成分的成功率。

误差线表示 5 个查询的标准偏差。某些误差线超过 1，因为均值和检验差的总和可能超过 1。例如，对于三元离子化合物，正确元素数的任务，成功率为1.0、0.967、0.7、1.0、1.0，平均值为 0.933，标准差为 0.117。

合成规划：在无机材料的合成规划方面表现出令人满意的性能，比如下面的例子：

根据GPT-4的回答可以看出，它对无机材料的合成路线预测比较准确，合成步骤通常都正确，给出的合成条件与真实答案相差不远。

编码辅助：GPT-4 作为代码助手，用于执行材料模拟、分析材料数据和进行可视化。这在很大程度上依赖于 GPT4 对现有软件包的了解。

例如，它可以为大量属性计算生成分子动力学和DFT输入，并且可以正确利用许多计算包并构建自动处理管道。不过有时候可能需要迭代反馈和手动调整来微调生成的代码。

研究人员设计了一些关于编码辅助能力的任务，并进行了评估：

尽管GPT-4展现了自己在材料科学领域的强大能力，但也存在一些局限性：

GPT-4在提出有机聚合物和MOFs的任务中表现不够理想。

GPT-4结构生成能力有限，尤其是在生成精确的原子坐标时，比如在下图的测试中，左边是GPT-4生成的Si结构，右边是正确的结构。

GPT-4在属性预测中无法提供精确的定量预测。例如，在预测一种材料是金属材料还是半导体材料时，其准确性仅略高于随机猜测，如下表：

最后，在没有额外指导的情况下，GPT-4很难为训练集中不存在的有机聚合物提出合成路线。

偏微分方程

在数学考试方面，研究人员选择了偏微分方程（PDE），因为它在物理学、工程学、生物学和金融学等各个学科中都有深远的应用。

不管大家看到偏微分方程这个词，是眼前一亮，还是心里一沉，这次参加考试的是GPT-4，跟咱们没关系。

作者来看一下GPT-4的表现：

首先考察的是偏微分方程的概念：

GPT-4的回答条理清晰，令人信服，甚至可以作为学生的指导。

另一方面，GPT-4能够很好地辨别概念之间的关系，这可以帮助数学家拓宽视野并直观地掌握不同子领域的联系。

考察GPT-4提出解决方案的能力：

GPT-4可以推荐适当的分析和数值方法来解决各种类型和复杂性的偏微分方程。

——满脑子偏微分方程，想考研是吧？

Talk is cheap. Show me the code.

下面马上来考察一下GPT-4的代码能力：

GPT-4也是随手就撸了一段MATLAB代码，来求偏微分方程的数值解。——有点厉害。

代码微调一下，就得到了上面的结果。

最后，GPT-4甚至进一步提出了这个领域的一些研究方向，并附带了自己的看法。

当然，人无完人，机无完机。研究人员也在这门考试中发现了GPT-4的一些局限性：

虽然 GPT-4 在求解偏微分方程和提供显式解方面表现出类似人类的能力，但可能存在错误推导的情况，所以需要我们验证一下。

另外，GPT-4可能偶尔会错误地引用不存在的参考文献。

展望未来

通过上面的几门考试，我们领教了GPT-4在各个自然科学领域的能力和局限性。这也是我们探索GPT-4在自然科学领域潜力的第一步。

同时，通过解决这些局限性，GPT-4等LLM可以成为跨学科科学发现的更强大、更可靠的工具。这将使研究人员能够受益于LLM的先进能力和洞察力，加快药物发现、材料科学、生物学、数学和其他科学探究领域的研究和创新步伐。