GPT-3.5模型输出被检测出高达60%含抄袭内容

抄袭检测器 Copyleaks 的一份报告显示，OpenAI 的 GPT-3.5输出中有60% 包含某种形式的抄袭。该公司使用了一种专有的评分方法，考虑相同的文本、微小的改动、释义等来分配“相似性分数”。

据悉，Copyleaks 专注于基于人工智能的文本分析，并为企业和学校提供抄袭检测工具。该公司早在 ChatGPT 之前就已经涉足这一领域。尽管 GPT-3.5是 ChatGPT 首次亮相的明星，但 OpenAI 此后已升级到更先进的 GPT-4。

根据他们的最新发现，GPT-3.5表现出45.7% 的相同文本、27.4% 的微小变化和46.5% 的释义文本。根据报告，0% 意味着完全原创，而100% 则表明没有原创内容。

图源备注：图片由AI生成，图片授权服务商Midjourney

Copyleaks 对 GPT-3.5进行了各种测试，生成了大约1000个输出，每个输出大约400个单词，涉及26个主题。相似度得分最高的结果属于计算机科学（100%），其次是物理学(92%)和心理学(88%)。另一方面，戏剧(0.9%)、人文学科(2.8%)和英语(5.4%)的相似度得分最低。

OpenAI 发言人 Lindsey Held 告诉Axios:“我们的模型经过设计和训练来学习概念，以帮助他们解决新问题。”“我们制定了措施来限制无意的记忆，并且我们的使用条款禁止故意使用我们的模型来反省内容。”

剽窃不仅仅是剪切和粘贴整个句子和段落。《纽约时报》对 OpenAI提起诉讼，称 OpenAI 的 AI 系统“大规模复制”构成版权侵权。OpenAI对诉讼作出回应，称“反流”是一种“罕见的错误”，并指责《纽约时报》“操纵提示”。

内容创作者试图辩称，生成AI模型是在他们的作品上训练的，所以产出近似副本不应构成侵权。但目前相关法律裁决多支持公司而非创作者。纽约时报诉讼一案让人看到希望，但结果仍未明朗。