人工智能有能力彻底改变科学研究

人工智能(AI)是一门涉及计算机科学、数学、心理学、语言学等多个学科的交叉学科，它旨在创造能够模拟或超越人类智能的系统和应用。AI的发展经历了几个阶段，从早期的符号主义、联结主义，到近年来的统计学习、深度学习等，不断地突破了理论和技术的限制，实现了许多令人惊叹的成就，如图像识别、自然语言处理、语音识别、机器翻译、机器人、自动驾驶等。AI不仅在计算机科学领域有着重要的贡献，也在其他科学领域有着广泛的应用，如生物学、医学、化学、物理学、社会科学等。

AI在科学中的应用，不仅可以帮助科学家解决一些复杂的问题，提高研究的效率和质量，也可以引发一些新的问题，挑战一些既有的假设，促进一些新的发现，推动一些新的创新。AI在科学中的作用，可以说是革命性的，它有能力彻底改变科学的面貌和未来。

12月15日，由Stefano Bianchini, Moritz Müller, Pierre Pelletier三位作者共同撰写的学术论文《Integrating New Technologies into Science: The case of AI》发表在arxiv，这是一篇关于人工智能在科学中的应用和影响的研究论文。这篇论文使用了收集了超过2.3亿篇科学文章的数据源的OpenAlex数据库来识别和分析AI在科学中的采用的数据，论文使用了一个合适的匹配方法，来控制一些共同的因素，如AI技术本身和未观察到的人力资本和偏好。使用了一个条件对数回归模型来分析匹配对的数据，以及科学家采用AI的影响因素。

这是第一篇系统地研究AI在科学中的采用的文章，它使用了一个全面和深入的数据源来提供一个有力的证据和视角。美中不足的是它只能分析AI在科学中的采用的现象，而不能解释AI在科学中的采用的机制，也不能评估AI在科学中的采用的效果和价值。

1.人工智能的概念和科学研究

人工智能(AI)研究目的是通过探索智慧的实质，扩展人类智能——促使智能主体会听(语音识别、机器翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、专家系统等)、会学习(知识表示，机器学习等)、会行动(机器人、自动驾驶汽车等)。一个经典的AI定义是：“ 智能主体可以理解数据及从中学习，并利用知识实现特定目标和任务的能力。(A system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation)”

在人工智能的发展过程中，不同时代、学科背景的人对于智慧的理解及其实现方法有着不同的思想主张，并由此衍生了不同的学派，影响较大的学派及其代表方法有下面几种。

“符号主义”(Symbolicism)，又称逻辑主义、计算机学派，认为认知就是通过对有意义的表示符号进行推导计算，并将学习视为逆向演绎，主张用显式的公理和逻辑体系搭建人工智能系统。

“联结主义”(Connectionism)，又叫仿生学派，笃信大脑的逆向工程，认为认知就是通过神经元之间的连接和信号传递，并将学习视为神经网络的自组织，主张用隐式的权重和激活函数构建人工智能系统。

“行为主义”(Behaviorism)，又称控制论学派，认为认知就是通过对外部环境的感知和反应，并将学习视为行为的调整，主张用显式的规则和反馈机制构建人工智能系统。

人工智能与科学研究

科学进步的步伐与我们与新技术的融合是直接相关的，过去的显微镜和望远镜等仪器都是如此，最近的计算机和互联网也是如此。今天的焦点集中在 AI上，它正在科学领域迅速崛起，作为一种具有巨大发现潜力的工具，一种新的“通用发明方法”，曾经无法思考、甚至无法表述的问题现在每天都会出现。例子包括预测蛋白质的 3D 结构、调节托卡马克构型中的核聚变等离子体、预测宇宙结构的形成，并创建小昆虫的大脑图谱。几乎所有科学学科和研究过程的不同阶段都在探索人工智能加速和推进科学发现的潜力。

随着人工智能在科学领域的潜力不断增长，了解哪些资源对于科学家在整个科学系统中成功采用这项技术至关重要。论文通过比较采用人工智能的领域科学家与未采用人工智能的领域科学家的资源禀赋来解决这个问题。

《自然》杂志最近对全球 1,600 多名研究人员进行了一项调查，询问已经尝试过人工智能的科学家有哪些障碍阻止他们更多地使用人工智能，并得到了以下答复：“缺乏技能或熟练的研究人员”(80 %)、“缺乏培训资源”(70%)、“缺乏资金”(50%)、缺乏计算资源(35%)、“缺乏数据”(30%) 和其他(18%)。相比之下，没有人工智能经验的科学家大多宣称他们认为人工智能对他们的研究没有用。因此很明显，人工智能的采用至少与对该技术在特定领域的潜力、个人技能以及计算能力和数据的可访问性了解不足有着千丝万缕的联系，关于应用人工智能中科学团队的组成，表明领域科学家缺乏技能通常可以通过与计算机科学家一起进行跨学科研究来弥补，而且这种跨学科努力在以下方面也是成功的：收到的引用。然而并非所有科学家都有能力实施甚至考虑这种合作策略。那么哪些(其他)资源有利于人工智能的采用? 此外，并非所有尝试人工智能的科学家都打算在他们的研究中持续采用它——在我们的样本中，这一比例约为 50%。阻碍这些科学家将人工智能融入他们的研究的障碍是什么?

与我们的研究问题特别相关的是科学技术人力资本理论(STHC)，因为它抓住了这样一个观点，即科学家的行为不仅取决于他们自己的人力资本——即人类“内部”的各种知识和技能。个人——而且还依赖于他们工作关系中的更大的资源库。科学家并不存在于社会真空中，科学知识的生产本质上是一项社会事业，就像我们在本文中所说的将新技术融入科学实践一样。

在这里我们考虑 STHC 的三个维度，它们可以影响科学家在各自领域采用人工智能的决定：(i) 他们个人已有的知识、技能和实验品味; (ii) 研究合作者的知识和专业知识; (iii) 研究人员所处的机构环境。社会关系的相关性在于，通过合作科学家可以获得并利用互补的技能和技术资源，以在孤立的背景下不可能实现的方式创造和转化知识和思想。机构设置是另一个重要因素，因为它塑造了组织内“做科学”的实践——从运行物理基础设施和筹集资金到科学行为的道德规范——并最终塑造其成员的研究轨迹。

2. 人工智能在科学中的传播和应用

AI是一种具有变革性的新技术，它需要科学家具备相应的人力资本和外部资源，才能有效地融入科学研究。论文作者发现AI的扩散和再利用受到社会机制的强烈驱动，这些机制组织了与技术相辅相成的人力资本的部署和创造。他们认为AI是一种不仅是科学工具，也是科学方法，甚至是科学范式，它将促进科学的整合、创新和社会化。

分析人工智能(AI)作为一种新技术如何影响科学的发展和变革，论文的第二段是文献综述，回顾了AI的定义、特点、应用和影响，以及科学和技术人力资本(STHC)的理论框架。第三段是研究方法，介绍了数据来源、样本选择、变量定义和统计模型。第四段是研究结果，报告了AI的扩散和再利用的影响因素，如人力资本、合作网络、机构特征和高性能计算(HPC)。

论文作者运用了STHC的理论框架，利用了大规模的出版物数据，系统地分析了AI在科学中的扩散和再利用的影响因素。同时提供了一些有意义的发现，如AI的先驱者是具有探索精神的领域科学家，他们嵌入在一个富有计算机科学家、经验丰富的AI科学家和早期职业研究者的网络中，他们也来自于具有高引用影响力和相对强大的AI出版历史的机构。他们运用了STHC的理论框架，来解释科学家在科学研究中采用AI的动机和条件。论文提出了一些有意义的假设，如社会资本和关于知识对AI采用的促进作用，以及合作网络和机构同事对AI采用的影响。

论文认为科学家通过与AI领域的专家合作和交流，可以获得和传播关于知识或连接知识，来认识到AI在他们的领域中的潜力和价值。他们提出了两个假设，即与AI相关人力资本的先前联系和与机构同事的社会互动，都会增加领域科学家采用AI的可能性。同时还讨论了导师和新人之间的知识传递，认为新一代的科学家可能会给他们的导师带来AI方面的技能和知识。

他们将人工智能在研究论文制作中的采用建模为人工智能技术和 STHC 的结合。人工智能研究技术的一个重要方面是它不是一个整体、单一的技术。相反它应该被视为正在经历特定发展并与不同程度的科学专业相关的各种技术的集合。因此他们允许人工智能技术的状态 (A) 不仅随时间 t 变化，而且随焦点个体的科学专业变化，记为 s(i)，并写作 As(i),t。

为了在研究中有效地应用人工智能，焦点科学家 i 可以建立在其在时间 t − 1, Hi,t−1 之前积累的 STHC 禀赋的某些方面。请注意，H 是一个包含焦点科学家的组织资本、社会(网络)资本和个人人力资本的向量。

科学家不一定会利用他所拥有的所有 STHC(即 Hi,t−1)来发表个人论文。因此，我们还考虑了给定论文 p 中采用的已实现的 STHC，表示为 Hp(i),t。已实现的 STHC (Hp(i),t) 在很大程度上将成为过去 STHC 捐赠 (Hi,t−1) 的一部分，但一些资本可能在 t 年的研究过程中获得，而一些资本可能会随着时间的推移而损失。

为了固定思路，我们假设一个简单的人工智能论文生产函数 F(·)，强调人工智能技术与资本各个方面之间的互补性(或相互作用)：

论文中作者详细介绍了科学和技术人力资本(STHC)的理论框架，以及用它来分析科学家在科学研究中采用AI的影响因素的假设。并且主要探讨科学家的内部资源，如认知技能、科学和技术知识和情境技能对AI采用的影响。他们认为科学家需要具备一定的认知能力，如创造性、灵活性和批判性思维，来适应AI的变化和挑战。论文认为科学家需要具备一定的科学和技术知识，如领域专业知识、AI相关知识和跨学科知识，来有效地使用AI的工具和方法。科学家需要具备一定的情境技能，如沟通、协作和领导力，来与AI领域的专家和其他领域的科学家合作和交流。然后提出了三个假设，即认知技能、科学和技术知识和情境技能，都会增加领域科学家采用AI的可能性。

科学家采用AI的决策受到他们的人力资本和内部资源，以及他们对AI的认知和态度的影响。论文认为科学家需要具备一定的认知能力，如创造性、灵活性和批判性思维，来适应AI的变化和挑战。科学家需要具备一定的科学和技术知识，如领域专业知识、AI相关知识和跨学科知识，来有效地使用AI的工具和方法。科学家需要具备一定的情境技能，如沟通、协作和领导力，来与AI领域的专家和其他领域的科学家合作和交流。

图 2：STHC 框架。

左图：制度环境潜在地提供与人工智能相关的信息、引导注意力、提供资源(计算设施、人力资本);此外，机构还拥有一定程度的声誉和卓越的科学成就。中图：先前的合著者网络提供与焦点科学家领域、计算分析和/或人工智能相关的人力资本。右图：焦点科学家的人力资本是通过她过去的研究成果在科学内容、质量和国际性方面来描述的。这些变量在论文第 3.2 节中有详细描述。

3. 人工智能在科学中的传播和应用的趋势和模式

论文作者使用了OpenAlex数据库，它包含了超过2.3亿篇科学文章的信息，如标题、摘要、作者、机构、期刊等。论文选择了2012年到2020年期间，在非计算机科学领域首次使用AI的科学家作为样本，观察他们在采用AI前后的人力资本和外部资源的变化。使用了一些变量来测量科学家的人力资本和外部资源，如合作网络、机构环境、计算资源、科学背景、探索倾向等。论文也使用一些统计模型来检验假设，如Logit模型、Poisson模型、负二项模型等。

OpenAlex数据库显示，人工智能在科学中的采用的数量和比例呈现出一个快速增长的趋势，从2010年的约5万人次，增长到2020年的超过20万人次，占总科学家人数的约5%。这一趋势与人工智能在科学中的发展和应用的增长相一致，表明人工智能在科学中的重要性和影响力不断提升。这一趋势也反映了人工智能技术的进步和普及，以及科学家对人工智能技术的认可和接受。

人工智能在科学中的采用的领域和年代分布呈现出一定的异质性和差异性，不同的领域和年代的科学家采用人工智能的动机和条件有所不同。作者发现，人工智能在科学中的采用主要集中在生命科学、工程科学和物理科学等领域，而在数学、社会科学和人文科学等领域则相对较少。人工智能在科学中的采用主要集中在中期和早期的科学家，而在晚期的科学家则相对较少。他们认为，这些差异可能与人工智能技术的适用性、可用性、可接受性等因素有关。这些差异也反映了不同领域和年代的科学家对人工智能技术的需求和态度的不同。

人工智能在科学中的采用的重复使用率呈现出一个相对稳定的水平，约为54%。这意味着，有一半以上的科学家在首次采用人工智能后，会在后续的研究中继续使用人工智能。这一水平可能与人工智能技术的复杂性、成本、风险等因素有关，他们认为提高人工智能在科学中的采用的重复使用率，是促进人工智能在科学中的传播和应用的一个重要目标。这一水平也反映了科学家对人工智能技术的信任和依赖的程度。

他们建立一个简单的AI论文生产函数，强调了AI技术和人力资本的各个方面之间的互补性或相互作用。论文使用对数变换和对数回归模型来估计一个论文使用AI的概率，以及AI技术和人力资本的参数。论文作者使用一个匹配方法来匹配同一领域和同一年代的科学家，但有不同的AI采用行为，从而消除了一些共同的因素，如AI技术本身和未观察到的人力资本和偏好。

4.人工智能在科学中的采用的影响因素和异质性效应

机构因素对人工智能在科学中的采用有着显著的影响，包括机构的人工智能专业化、机构的引文影响力、机构的高性能计算资源等。这些因素对首次采用人工智能和重复使用人工智能的科学家都有着正向的促进作用，表明机构的环境和资源对人工智能在科学中的采用是有利的。这些因素在不同的领域和年代有着不同的效应，表明机构的条件和需求对人工智能在科学中的采用是有差异的。这些因素也反映了机构对人工智能技术的支持和投入的程度。

社会因素对人工智能在合作网络的规模、结构、组成等科学中的采用也有着显著的影响，他们发现，这些因素对首次采用人工智能和重复使用人工智能的科学家都有着正向的促进作用，表明合作网络的质量和数量对人工智能在科学中的采用是有利的。他们还发现，这些因素在不同的领域和年代也有着不同的效应，表明合作网络的特征和动力对人工智能在科学中的采用是有差异的。社会因素也反映了科学家之间的交流和合作的程度。

个人因素对人工智能在科学中的采用也有着显著的影响，个人的成就、国际化、探索倾向、人工智能接近度等都是个人因素，这些因素对首次采用人工智能和重复使用人工智能的科学家有着不同的作用，表明个人的能力和偏好对人工智能在科学中的采用是有影响的。论文指出这些因素在不同的领域和年代也有着不同的效应，表明个人的背景和机会对人工智能在科学中的采用是有差异的。

5.总结和展望

人工智能在科学中的采用还有许多未知的方面，需要进一步的探索和研究。例如，人工智能在科学中的采用的机制是什么?人工智能在科学中的采用的效果和价值是什么?人工智能在科学中的采用的影响因素和异质性效应的深层原因是什么?人工智能在科学中的采用的社会和伦理的影响是什么?这些问题都需要更多的数据和方法，以及更多的理论和实证，来进行更深入和全面的分析和讨论。

人工智能在科学中的采用是一个既有机遇又有挑战的问题，需要政策制定者和科学管理者的关注和支持。例如，政策制定者可以通过提供更多的资金和资源，来促进人工智能在科学中的发展和应用;科学管理者可以通过提供更多的培训和指导，来提高科学家对人工智能的认知和能力;政策制定者和科学管理者还可以通过制定更多的规范和标准，来保障人工智能在科学中的采用的质量和安全。这些措施都可以有助于人工智能在科学中的采用的更好的进行和发展。

人工智能是一门具有革命性的技术，它有能力彻底改变科学的面貌和未来。我们希望通过分析三位科学家的论文能够为人工智能在科学中的采用的研究和实践提供一些有用的信息和启示，也希望能够激发更多的兴趣和热情，来探索和发现人工智能在科学中的更多的可能性和奥秘。