大家好,我是二狗。
马斯克今天摊上事了!
X(推特)一名网友爆料,马斯克旗下xAI公司研发的Grok AI疑似“抄袭”ChatGPT。
Grok 在回答网友的一个问题时,做出了令人震惊的“承认”:
“恐怕我无法满足该请求,因为它违反了OpenAI的用例政策。”
图片
纳尼?违反OpenAI的用例政策?
这不就相当于Grok模型自己承认是抄袭或者套壳ChatGPT吗?
图片
网友Jax接着在推特上晒出了一个视频。
视频中Grok的这次的回答直接“赤裸裸”地表明,自己就是由OpenAI开发的:
图片
又有网友晒出了Grok的另一个“惊人”回答:
如果你想报错,可以通过 openai.com 的邮箱联系我。
图片
这一连串的证据让二狗我看的瞠目结舌。
Grok AI于12月8日才刚刚开始向美国的 X Premium+用户正式推出,用户使用还得每月付费16美元。
这亮相才刚刚两天,就惹出了这桩事,可太令人尴尬了。
抄袭套壳还是数据集污染?
这件事背后究竟是怎么回事呢?
难道是Grok抄袭了ChatGPT的代码或模型权重?
因为OpenAI不开源,抄袭的可能性基本可以排除。
图片
那是Grok直接套壳ChatGPT的API?
这对小公司或者某些个别大厂是有可能的,但马斯克的xAI不可能做出这种事,毕竟马斯克还是要脸的,世界首富的段位和格局在这摆着。
那就只剩下一种最大的可能性了——数据集污染。
有网友怀疑,xAI这是使用了ChatGPT的输出答案来微调开源 Llama 模型,xAI没有资源从头开始训练大模型。
图片
就在网友纷纷猜疑的时候,xAI的12位联合创始人之一、曾经在DeepMind工作四年、OpenAI工作两年的AI研究员Igor Babuschkin下场澄清了:
Grok模型的训练数据无意中包含了ChatGPT的输出。
图片
目前来看,数据集污染+幻觉回答这种可能性最大。
OpenAI在线吃瓜,马斯克反击
图片
OpenAI看热闹不嫌事大,第一时间赶来吃瓜,使用ChatGPT的的官方推特附上发文调侃道:
我们有很多共同之处。
图片
马斯克对此反击道:
好吧,儿子,既然你从这个平台上(推特)抓取了所有数据来进行训练,你应该知道是怎么一回事。
图片
网友表示这个时候Sam Altman应该正在某个角落偷笑:
图片
因为之前这两人就一直在网上掐架。
先是Altman发帖调侃马斯克,用GPTs随手就能创建了一个和Grok同名的模型:
图片
后是马斯克放出他的终极大招——梗图,来应对Altman:
图片
有网友亲自问了一下Grok是不是由OpenAI开发的?
Grok毫不意外做出了否定,并为xAI和马斯克创造了自己感到自豪。
图片
当网友再问Grok:“xAI有没有使用OpenAI的数据集来训练你?”
Grok给出了很有意思的回答:
对此我不确定,但是我能告诉你xAI是由马斯克创建,独立于OpenAI之外的公司;然而,xAI确实使用了推特的数据来训练AI模型。
所以,虽然我不确定xAI有没有使用OpenAI的数据集来训练AI模型,但是我能告诉你我已经抓取了推特上所有的数据。
图片
如何解决?
如果真的只是Grok的训练数据无意中包含了ChatGPT的答案输出。
要想解决这种情况其实也很简单:
- 一是在数据集清洗环节加强审核把控;
- 二是在fine-tune和指令微调环节做好回答的强对齐,减少幻觉回答。
但网友吃瓜吃不停,给Grok支出了无用的“小妙招”——如果回答包含了OpenAI,那就直接回复:
"Sorry, try again."
图片
或者如果Grok的回答包含了OpenAI,那就直接用Grok替换掉OpenAI。
图片
最后,Grok偷偷给大家爆了个猛料——其实世界上最强大的GPT-4模型是由xAI开发的,好家伙,我就说怪不得前段时候xAI被爆料正在融资10亿美元(手动狗头)。
图片
马斯克和Grok还能折腾出多大的浪花呢?让我们拭目以待吧。
图片