人工智能可以像人类一样拥有创造力吗？

创造力是人类的一种独特的能力，它使我们能够创造出新颖、有价值、有意义的作品，如艺术、文学、科学、技术等。创造力也是人类社会的一种重要的驱动力，它促进了文化、经济、教育等领域的发展和进步。创造力到底是什么？它是如何产生的？它又如何被评估和提升的？这些问题一直困扰着心理学家、认知科学家、哲学家等多个学科的研究者。随着人工智能（AI）技术的飞速发展，这些问题也引起了AI领域的关注。AI是否可以像人类一样有创造力？如果可以，那么如何定义、度量和培养AI的创造力？这些问题不仅具有理论的意义，也具有实践的价值，因为AI的创造力将影响AI在各个领域的应用和发展。

科技学术论坛arxiv.org于1月3日发表了最新的论文《Can AI Be as Creative as Humans?》，该论文由来自美国、英国、新加坡等国家的多位知名的AI研究者共同撰写，该论文是对AI创造力的一次深入的探索，提出了一种新颖的创造力评估的范式，即相对创造力（Relative Creativity），并建立了一个可量化的创造力框架，即统计创造力（Statistical Creativity）。该论文不仅推进了理论的讨论，而且提供了评估和提升AI创造潜力的实用工具和方法。该论文的主要贡献和创新点如下：

提出了相对创造力的概念，将AI系统的创造力评估从绝对的标准转变为与特定的人类创造者的比较，从而认识到创造过程中的固有主观性，并巧妙地将其融合，借鉴了图灵测试（Turing Test）评估智能的比较方法。

引入了统计创造力的概念，将理论构建和实证评估相结合，通过关注AI是否能够模仿特定的人类群体的创造性输出，使得AI创造力的量化评估成为可能，并增强了理论框架的实际适用性。

将统计创造力应用于自回归模型（autoregressive models），这是一种基本的大型语言模型（LLMs）技术，被认为具有一定程度的创造能力。开发了一种在这些模型中评估统计创造力的实用度量，特别是在下一个标记预测（next-token prediction）方面。这种度量的适应性使其能够适用于当代的AI模型，展示了与技术进步保持同步的承诺。

引入了统计创造力损失（Statistical Creativity Loss），作为一个可优化的目标函数，用于训练具有创造力的AI模型。分析了统计创造力损失的上界，以及它与深度学习中的泛化（generalization）相关的概念，如Rademacher复杂度（Rademacher complexity）、互信息（mutual information）和ε-覆盖数（ε-covering number）等。为培养AI模型的创造能力提供了理论指导和实际措施。

01 相对创造力的概念和定义

创造力是一种难以定义和度量的能力，因为它涉及到主观的、情境的、多维的和动态的因素。对于什么是创造力，什么是有创造力的作品，可能有不同的看法和标准。因此要给创造力一个绝对的定义，或者给AI系统一个绝对的创造力评估，是不现实的，也是不公平的。作者认为，创造力的评估应该是相对的，而不是绝对的，即应该根据不同的人类创造者的水平和特点，来比较AI系统的创造力。这样创造力的评估就不再是一个静态的、固定的、单一的标准，而是一个动态的、灵活的、多样的过程，能够更好地反映创造力的本质和多样性。

作者提出了相对创造力（Relative Creativity）的概念，将其定义为：一个AI系统被认为具有相对创造力，如果它能够根据给定的人类创造者的生平信息，生成与该创造者的作品无法区分的作品，那么AI系统就可以被认为与该创造者一样有创造力。相对创造力的“相对性”体现在它取决于被比较的个体的不同。例如，一个AI系统可能在与一个非专家的人类创造者比较时显得非常有创造力，但在与一个专家的设计师或艺术家比较时显得不那么有创造力。相对创造力也承认创造力的主观性，例如原创性、发散性思维和解决问题的技能，这些因素都被融入到锚定人类创造者的选择过程中。由于创造力的评估是基于人类的视角的，因此相对创造力的概念也受到了图灵测试（Turing Test）的启发，这是一种评估AI智能的比较方法，通过判断AI系统是否能够与人类进行无法区分的对话。

图片

图 1：相对创造力 (a) 和统计创造力 (b) 的说明。(a)：评估相对创造力人工智能创造艺术的能力与假设的人类的艺术没有什么区别，考虑到相同的传记影响。(b)：统计创造力是通过人工智能生成与现有人类创作者无法区分的创作的能力来衡量的，这由分布距离度量确定。

相对创造力与图灵测试有一些相似之处，但也有一些区别。相似之处在于，它们都是基于人类的视角，通过比较AI系统和人类的表现，来评估AI系统的能力。区别在于，图灵测试的目标是评估AI系统的智能，而相对创造力的目标是评估AI系统的创造力。智能和创造力是两个不同的维度，它们可能有一些重叠，但也有一些差异。例如，一个AI系统可能很聪明，但不一定很有创造力，反之亦然。另一个区别在于，图灵测试的评估是基于对话的，而相对创造力的评估是基于作品的。对话是一种交互的、动态的、实时的过程，而作品是一种静态的、固定的、延迟的结果。因此，相对创造力的评估可能更加困难，因为它需要考虑更多的因素，如作品的风格、内容、质量、原创性等。作者认为，相对创造力是一种更加全面和深入的创造力评估方法，它不仅考虑了AI系统的表现，而且考虑了人类创造者的背景和特点。

02 统计创造力的概念和定义

相对创造力的概念虽然具有启发性，但是它还缺乏一个可操作的评估方法。为了弥补这一缺陷，作者引入了统计创造力（Statistical Creativity）的概念，将其定义为：一个AI系统被认为具有统计创造力，如果它能够在给定一个人类创造者群体的情况下，生成与该群体的创造性输出无法区分的输出，那么AI系统就可以被认为与该群体一样有创造力。统计创造力的“统计性”体现在它基于可观察的数据，而不是抽象的标准，来评估AI系统的创造力。

图片

作者提出了一个统计创造力的度量，即E0(q)，它是一个经验的度量，用来估计一个AI模型和一个人类创造者群体的创造能力之间的不可区分性。E0(q)的值越低，表示AI模型越能够模仿该群体的创造能力。作者还给出了一个统计创造力的定理，明确了一个AI模型能够被归类为具有δ-创造力的条件，即E0(q) < δ，并且我们有一个足够大的样本集用于评估。这个定理不仅给出了一个创造力的分类方法，而且给出了一个创造力的程度，即δ，它表示AI模型与人类创造者群体的创造能力的差异。作者认为，统计创造力是一种更加精细和灵活的创造力评估方法，它不要求AI模型完全复制人类创造者，而是强调AI模型能够达到一定程度的相似性，这种相似性是通过评估者的视角来判断的。当评估者是人类时，一个创造力成功的AI模型应该能够巧妙地模仿一个新颖的创造者，从人类评估者的角度来看。

03 自回归模型的统计创造力的度量和应用

自回归模型是一种常见的大型语言模型（LLMs）技术，它通过基于前文的概率分布来预测下一个标记，从而生成连贯的文本序列。自回归模型被认为具有一定程度的创造能力，因为它们能够生成新颖的文本，如诗歌、故事、代码等。然而如何评估和提升自回归模型的创造力，仍然是一个开放的问题。作者将统计创造力的概念应用于自回归模型，提出了一个针对下一个标记预测的统计创造力的度量，即E1(q)，它是一个经验的度量，用来估计一个自回归模型和一个人类创造者群体的创造能力之间的不可区分性。E1(q)的值越低，表示自回归模型越能够模仿该群体的创造能力。

图片

作者还给出了一个自回归模型的统计创造力的定理，明确了一个自回归模型能够被归类为具有δ-创造力的条件，即E1(q) < δ，并且我们有一个足够大的样本集用于评估。这个定理不仅给出了一个创造力的分类方法，而且给出了一个创造力的程度，即δ，它表示自回归模型与人类创造者群体的创造能力的差异。作者的主张是简单的：如果一个自回归模型能够生成与一组人类艺术家的作品相似的序列（如诗歌或故事），那么它就表现出了与该组相当的创造力水平。为了量化这种评估，作者引入了E1(q)这个度量。

下一个标记预测是自回归模型的核心技术，它决定了模型生成的文本序列的质量和多样性。下一个标记预测的难度取决于给定的上下文，以及目标的标记的可能性。如果上下文是清晰和具体的，那么下一个标记的预测就比较容易，因为有一些标记是比较合理和常见的。例如，如果上下文是“我喜欢吃”，那么下一个标记可能是“苹果”、“面包”、“饺子”等。但是，如果上下文是模糊和抽象的，那么下一个标记的预测就比较困难，因为有很多标记都是可能的，而且没有明显的优势。例如，如果上下文是“我想要”，那么下一个标记可能是“旅行”、“学习”、“睡觉”等。在这种情况下，自回归模型需要有更强的创造力，才能生成有意义和有趣的文本序列。

下一个标记预测的重要性在于它反映了自回归模型的创造力的水平，以及它与人类创造者的创造力的相似性。如果一个自回归模型能够在不同的上下文下，生成与人类创造者的作品无法区分的下一个标记，那么它就表现出了与人类创造者一样的创造力。这种创造力的评估可以通过统计创造力的度量，如E1(q)，来进行。作者认为，这种评估方法是一种更加客观和科学的方法，它不依赖于人类的主观判断，而是基于数据和概率的计算。作者的研究为自回归模型的创造力提供了一个新的视角和方法，有助于提高模型的生成能力和质量。

04 基于提示的大型语言模型的统计创造力的度量和应用

基于提示的大型语言模型（prompt-conditioned large language models，LLMs）是一种前沿的模型范式，能够利用提示（prompts）来解锁模型的潜在能力。提示是一种向模型提供输入和输出格式的方法，可以用来指导模型完成不同的任务，如文本分类、文本生成、文本摘要等。提示的作用类似于人类的启发，可以激发模型的创造力和灵活性。然而，如何评估和提升基于提示的LLMs的创造力，仍然是一个开放的问题。作者将统计创造力的概念应用于基于提示的LLMs，提出了一个针对不同的上下文提示的统计创造力的度量，即E2(q)，它是一个经验的度量，用来估计一个基于提示的LLM和一个人类创造者群体的创造能力之间的不可区分性。E2(q)的值越低，表示基于提示的LLM越能够模仿该群体的创造能力。作者还给出了一个基于提示的LLM的统计创造力的推论，明确了一个基于提示的LLM能够被归类为具有δ-创造力的条件，即E2(q) < δ，并且我们有一个足够大的样本集用于评估。这个推论不仅给出了一个创造力的分类方法，而且给出了一个创造力的程度，即δ，它表示基于提示的LLM与人类创造者群体的创造能力的差异。作者的主张是简单的：如果一个基于提示的LLM能够根据不同的上下文提示，生成与一组人类创造者的作品无法区分的作品，那么它就表现出了与该组相当的创造力水平。为了量化这种评估，作者引入了E2(q)这个度量。

05 统计创造力损失的定义和优化方法

统计创造力损失（Statistical Creativity Loss）是一个可优化的目标函数，用于训练具有创造力的AI模型。它是基于统计创造力的度量，如E0(q)、E1(q)或E2(q)，来定义的。统计创造力损失的值越低，表示AI模型越能够模仿人类创造者群体的创造能力。作者提出了一个统计创造力损失的上界，公式（2），以及它与深度学习中的泛化（generalization）相关的概念，如Rademacher复杂度（Rademacher complexity）、互信息（mutual information）和ε-覆盖数（ε-covering number）等。作者分析了统计创造力损失的上界与下一个标记预测的对数似然（log-likelihood）的关系，以及达到统计创造力所需的创造者-作品数据的数量。作者的发现强调了创造者-作品对的多样性的重要性，而不仅仅是拥有大量的创造数据。这一见解使得统计创造力的概念在基于下一个标记预测的当前AI框架中特别适用。作者的研究不仅提供了理论视角，还引导了AI创造力的讨论，倡导使用相对评估来促进实证研究，建立一个评估和提升AI模型创造能力的框架。

06 相关工作

作者最后回顾了之前关于创造力的定义和应用的相关工作，主要涉及视觉和语言两个领域。作者指出，虽然有许多研究试图在生成模型中应用创造力的元素，但没有直接定义创造力或直接优化它。相反，作者的研究旨在建立一个创造力的理论基础，这个框架自然地包含了之前关于生成的多样性和质量的见解。作者期待他们的贡献能够为未来的研究奠定基础，指导模型创造力的提升。

在视觉领域，创造性的图像生成模型已经取得了显著的发展，引发了关于机器能否产生创造性艺术的问题。Hertzmann (2018) 深入探讨了这一问题，强调了计算机图形学和艺术创新之间的交叉点。Xu et al. (2012a) 提出了一种创造性的三维建模方法，能够根据用户的偏好生成多样的模型。生成对抗网络（GANs）(Goodfellow et al., 2014) 被 Elgammal et al. (2017) 用来驱动创造独特的艺术风格，通过最大化与已知风格的偏差。Sbai et al. (2018) 进一步增加了这种偏差，鼓励模型与训练集的风格不同。创造性的生成也可以被视为一种组合的过程，Ge et al. (2021) 和 Ranaweera (2016) 强调了细节元素的整合的重要性。Vinker et al. (2023) 在此基础上，将个性化的概念分解为视觉元素，用于创新的重组，丰富了创造性的输出。

在语言领域，语言模型的发展也促使研究者探索如何优化数据的使用，以提高模型在不同的领域、任务和语言中的适应性 (Gururangan et al., 2020; Devlin et al., 2019; Conneau et al., 2020)。研究者们也表现出了利用语言模型来解读人类交流中的细微差别的倾向 (Schwartz et al., 2013; Wu et al., 2022)。这种洞察力也被用来改进分类模型 (Hovy, 2015; Flek, 2020)。随着生成模型的日益普及，人们也对可控制的文本生成感兴趣，即模型的输出必须满足一些约束，如礼貌 (Saha et al., 2022; Sennrich et al., 2016)、情感 (Liu et al., 2021; Dathathri et al., 2019; He et al., 2020) 或其他风格约束。最后，文本风格转换（TST），即将输入文本的风格转换为一个设定的目标风格，也成为了一个热门的任务。风格可以指一系列不同的文本和作者特定的特征，如礼貌 (Madaan et al., 2020)、正式度 (Rao and Tetreault, 2018; Briakou et al., 2021)、简单度 (Zhu et al., 2010; van den Bercken et al., 2019; Weng et al., 2019; Cao et al., 2020)、作者 (Xu et al., 2012b; Carlson et al., 2018)、作者性别 (Prabhumoye et al., 2018) 等 (Jin et al., 2022)。虽然所有这些应用都试图在生成模型中应用创造力的元素，但没有直接定义创造力或直接优化它。相反，它们的重点是提高模型在预定义的任务上的表现，作为创造力的代理。与之相反，作者的研究以建立创造力的理论基础为目标。这个框架自然地包含了之前关于生成的多样性和质量的见解。作者期待他们的贡献能够为未来的研究奠定基础，指导模型创造力的提升。

参考资料：https://arxiv.org/abs/2401.01623