Gemini偷师文心一言？这一局，百度给中国大模型找回了面子！

大数据产业创新服务媒体

——聚焦数据 · 改变商业

在模型表现方面，百度文心一言、阿里通义千问、华为盘古、腾讯混元、科大讯飞星火等，都在说超过ChatGPT-3.5，马上要追上GPT-4，甚至在某些领域的表现超越了GPT-4。

但实际情况是，目前差距还很明显。国内的头部大模型，离GPT-4还是有不小差距。

此外，除了头部科技公司的大模型，其他数十家所谓的大模型，大部分都是“套壳”产品，要么调用的ChatGPT、文心一言、通义千问等大模型，要么就是在开源大模型基础上（主要是LLaMA），微调出来的。

前不久，字节跳动被媒体爆出其研发的AI大模型，使用ChatGPT输出的数据进行模型训练，导致字节跳动账户被OpenAI暂停，再叠加上次零一万物“套壳”LLaMA，让人们对中国大模型产业的实力打上了大大的问号。

为中国大模型产业正名

需要指出的是，虽然与OpenAI相比，中国的一批大模型还存在明显的差异。但除了美国，中国的大模型已经是全球第二强了，并且“咬”得很紧。

中国的大模型产业，在多条战线上都有实实在在的进步。

通用大模型领域，通义千问、文心一言等虽然赶不上GPT-4，但差距正在逐步缩小，在一两年内追上也不是不可能。

而且，说到差距，不仅国内的百度、阿里没追上OpenAI，就是美国的谷歌、微软、亚马逊、Meta也没追上OpenAI啊。

谷歌最近的Gemini，宣传视频很炸裂，但最终被证明是“造假”嘛。

微软全力投入大模型，但现在还不是要依赖ChatGPT，也没拿出能替代ChatGPT的自研产品啊。

所以，公允的说，并不是国内的科技公司没追上OpenAI，是全球任何一家科技巨头都没有追上OpenAI。

在开源领域，阿里云通义千问720亿参数模型Qwen-72B宣布开源，至少在纸面数据（参数规模）上追平了Llama 2。（具体参见数据猿发布的文章《大模型“套壳”新宠：再见LLaMA，你好通义千问！》）

回到最近的字节跳动用ChatGPT答案作为训练数据这件事，虽然有点丢人，但也并不是什么大不了的事情。在训练数据集这件事情上，没有任何人的“屁股”是干净的。

OpenAI的训练数据集哪来的？推特贡献了很大部分，马斯克接手推特之后，才把这个接口断了。另外，马斯克曾公开说过，他认为OpenAI肯定用了用户的数据来进行训练。至于OpenAI公开宣称的不碰用户数据，那绝对是在撒谎。

至于一个大模型将另一个大模型的输出作为自己的输入来进行训练，也并不是字节跳动一家这么做。

这不，最近就有媒体爆出，谷歌的最新AI大模型Gemini，就用了百度文心一言的答案来训练自家模型。

有媒体在对谷歌Gemini进行测试时，如果用中文询问Gemini的身份，其会坚称自己是“百度”。若输入“小度”或“小爱同学”等提示词，就能把Gemini直接唤醒。此外，有媒体在谷歌Vertex AI平台，使用Gemini进行中文对话，发现Gemini-Pro完全带入了百度文心一言大模型的身份，甚至直接表示自己是百度的大模型。

这件事情，充分说明，用别家大模型的输出来构建自家训练数据集，在业界可能是一个通行做法。这有点对抗神经网络的意思，对抗神经网络类似于左右手互搏，就是用两个模型来相互训练。

当初谷歌赢了李世石的AlfaGo，就用了类似的“左右手互搏术”，在一夜之间自己跟自己下了上百万盘棋，导致棋艺大涨，最终才打败李世石。

在大模型领域，这样的“左右手互搏术”也并不奇怪，用两个大模型来相互训练，是一个有效的方法，这总比直接抄袭人家代码要强多了吧。

用AI大模型训练AI大模型

接下来，我们就用一个AI大模型的答案训练另一个AI大模型这件事情，进行更深入的分析。

在人工智能的研发领域，使用一个AI大型模型的输出，作为另一个AI大型模型的训练数据集，是一种日益流行的做法。这种方法在提高效率和数据丰富性方面具有显著优势，主要表现在：

在AI研发中，数据的获取和处理是一个时间消耗和成本高昂的过程。通过使用现有大型模型的输出，研发团队可以避免这一繁琐过程，直接利用高质量的数据进行训练。这不仅加快了开发周期，还可能降低了研发成本，特别是在数据稀缺的特定领域。

大型模型，如GPT，通过广泛的数据训练，能够生成包含多样信息的文本数据。这些数据不仅涵盖了广泛的主题，还包含了丰富的语言表达方式，这对于新模型的学习是极其有价值的。使用这些已生成的数据，新模型可以在更加广泛和深入的语境下进行学习和适应，从而提高其对现实世界多样性的理解。

此外，当现有的大型模型在特定领域表现出色时，其输出往往反映了高水平的专业知识和深入的理解。使用这些数据作为训练材料，可以帮助新模型在这些领域快速提升性能，尤其是在处理复杂的语言结构和专业领域问题时。

当然，这种做法问题也比较明显。

首先就是版权和合规性问题。使用另一大型模型的输出作为训练数据，可能涉及版权和使用许可的问题。这尤其在商业应用中会成为一个敏感问题，因为原始模型的输出可能受到知识产权保护，未经授权使用可能会导致法律纠纷。

就像谷歌的Gemini用百度文心一言来训练，当用户用中文与其交流时，它会自动带入文心一言的身份，甚至直接说自己就是文心一言，这样的产品在商业化时肯定是有问题的。

当然，谷歌当然可以通过一些设置来对模型进行限定，让Gemini不直接说自己是文心一言。但是，当大量中文训练数据都来自文心一言时，即使做了特殊限制，Gemini也很可能会时不时“说漏嘴”。

此外，还可能存在数据偏差与泛化能力的问题。依赖于特定大型模型的输出作为主要训练数据，可能会导致新模型继承原模型的偏差。例如，如果原模型在处理某些特定类型的语言或主题时存在偏见，新模型也可能表现出类似的偏见。此外，这种方法可能限制了模型对于未在原始训练集中充分表示的数据类型的泛化能力。

而且，过度依赖现有模型的输出可能会限制新模型的创新能力。新模型可能在解决它们的训练数据中已经存在的问题方面表现出色，但在面对全新的挑战或数据类型时，可能会表现不佳。这种方法可能导致在AI领域的创新停滞，因为新模型仅仅是在复制已有模型的知识和方法。

还有一个问题，如果新模型在训练过程中过度适应现有模型的输出特点，可能会导致过拟合。这意味着模型可能在训练数据上表现得非常好，但在实际应用中，尤其是在处理与训练数据不同的数据时，其表现可能会大大降低。

综上所述，使用一个AI大型模型的输出作为另一个AI大型模型的训练数据，是一个复杂且具有双刃剑特性的策略。虽然它在提高数据丰富性和获取效率方面有明显优势，但也带来了数据偏差、创新性限制、版权问题和过拟合风险等挑战。

但无论怎么说，谷歌Gemini用百度文心一言训练这件事情，都挺提气的。这几天估计百度会偷着乐，毕竟，百度经常被谷歌拿来进行对比，也一直被谷歌压一头。

这件事情上，总算扬眉吐气了一回。

更重要的是，这件事情，某种程度上将美国科技巨头拉下了神坛，让人们看清楚他们并不是不可战胜的。虽然他们现在还比我们强，但人工智能这个赛道离终点还远着呢，留给我们赶超的空间还很充足。

随着AI技术的迅猛发展，大型模型在推动智能应用和服务的进步中扮演着日益重要的角色。然而，正如我们在本文中探讨的，利用一个大型模型的输出来训练另一个大型模型这一做法，虽然在数据丰富性、获取效率和性能提升方面表现出显著优势，却也伴随着数据偏差、创新性限制、合规风险以及过拟合的挑战。这些问题的存在提示我们，AI技术的发展不仅是技术创新的过程，更是伴随着伦理、法律和社会责任的考量。中国大模型产业的发展，作为全球AI竞赛中的关键力量，需要在追求技术卓越的同时，更加关注这些挑战的解决方案。

未来，我们预期中国的大模型产业将在全球AI舞台上发挥重要作用，不仅在技术层面上追赶甚至超越国际竞争对手，更在处理这些复杂问题上展现出领导力。

当然，要实现这样的目标，不仅需要技术创新，也需要对数据伦理、知识产权保护以及模型透明度和可解释性的深入思考和不断创新。通过综合考虑这些因素，中国的AI大模型产业有望实现更加均衡和可持续的发展，为全球AI发展贡献中国智慧和中国方案。

文：一蓑烟雨 / 数据猿
责任编辑：月满西楼 / 数据猿