【AIGC】警惕大模型的原创性稀释

一、学习素材重复引用的隐患

二、涉及到的问题

三、缓解的办法

四、进一步的技术干预

味同嚼蜡。

如果大模型的学习素材，反复被使用，拉出来又吃回去，如此往复，会怎么样？

我在前面已经讨论过了，有大模型A接了大模型B，来训练自己的数据。

这不算什么问题。此外，不知道大家注意到没有，百度的文心一言大模型，这几天升级，将答案的来源，都列到了下面。叫做参考。一是声明了内容的来源和出处，二是便于用户深度去阅读原文，特别是知识文献。当然，也给源站点带来了流量，隐含的商业模式就出来了。

那么我们可以去思考：如果我用AIGC写的文章，发表在CSDN，或者某乎。大模型进行了学习，在没有人为监督和标注的情况下，又有人用了相同的提示词，AIGC再次利用这些资料生成答案，如此循环下去，哪里还有原创，如果文章中有微小的错误，那么将永远没有被改正的机会，而且会不断的被放大。

一、学习素材重复引用的隐患

错误的更加错误：如果大模型主要依赖于机器生成的文章作为学习素材，而这些文章本身存在错误或偏见，那么大模型可能会放大这些错误和偏见。这可能导致信息的不准确和误导性内容的传播。然而，要注意的是，大模型通常也会结合其他来源的数据和信息进行训练，而不仅仅是机器生成的文章。此外，随着技术的进步，大模型也在不断改进和优化，以提高其准确性和可靠性。

人类的权威原创越来越少：AIGC和大模型的发展确实可能对人类的原创性产生一定影响。机器可以迅速生成大量内容，这可能使一些人更倾向于使用机器生成的文章而不是自己进行思考和创作。然而，人类的思维、创造力和独特观点是无法被机器完全替代的。人类的原创性在各个领域仍然具有重要价值，包括文学、艺术、科学等。因此，尽管机器生成的内容可能增加，但人类的权威原创仍然会占据一席之地。

二、涉及到的问题

数据偏差（Data Bias）：当训练数据包含某种固有的偏见或不平衡时，模型可能会学习到这些偏见，并在生成内容时反映出来。如果大模型主要使用机器生成的文章作为训练数据，而这些文章本身带有错误或偏见，那么大模型可能会放大这些偏差。

模型泛化（Model Generalization）：指的是模型对未见过的数据的预测能力。如果模型过度拟合训练数据（包括其中的错误），它可能无法很好地泛化到新的、不同的数据上。

原创性稀释（Dilution of Originality）：这不是一个标准的学术名词，但可以用来描述当大量机器生成的内容充斥在信息环境中时，人类原创性内容可能相对减少或被淹没的现象。

人工智能伦理（AI Ethics）：这是一个更广泛的领域，涉及到机器学习和人工智能如何影响社会、文化和个人权益的问题。您提出的问题涉及到AI伦理中关于内容真实性、原创性和信息质量的讨论。

三、缓解的办法

提高数据质量：确保大模型使用的学习素材具有准确性和多样性，避免依赖于存在错误或偏见的数据源。引入人工审核：对于机器生成的内容，可以引入人工审核机制，以确保其准确性和可靠性。人工审核可以纠正错误、消除偏见，并提供更高质量的内容。鼓励原创性：通过奖励机制、版权保护等方式，鼓励人们进行原创性思考和创作。这可以激发人类的创造力和独特观点，促进文化和科学的进步。

四、进一步的技术干预

数据质量管理：在机器学习和数据科学领域，数据质量被认为是模型性能的关键因素。清理、验证和增强数据集是标准做法，以确保模型学习到准确和有用的信息。

人机协作（Human-in-the-Loop, HITL）：这是一种将人类判断引入自动化系统的方法。在内容生成和审核的上下文中，HITL可以用来纠正机器的错误、提供额外的训练数据或验证机器生成的输出的质量。

信息可信度和真实性：在新闻传播、社交媒体分析和信息科学领域，有大量研究关注如何评估和维持信息的可信度和真实性。这包括开发算法来检测误导性内容和偏见，以及设计政策和实践来促进高质量信息的传播。

知识产权和激励机制：法律、经济和社会科学领域的研究探讨了如何通过知识产权法、奖励系统和市场机制来鼓励原创性和创新。

我曾经写过文章，专门讨论 AIGC的版权问题。【AIGC】猴子拍照版权是谁的：一文读懂AIGC和版权问题_猴子拍照享不享有著作权-CSDN博客

原则上讲，用AIGC生成的图片，等同于你用PS创作，用了工具而已，都是有版权的。文字也一样，但是问题实际也接踵而至，如何保护“真正”传统意义上的原创者，变得更有挑战性。