大家好,我是王有志,欢迎和我聊技术,聊漂泊在外的生活。本文单纯讨论文心一言,不涉及其母公司百度的所作所为
3月16日百度交卷了,正式推出了自己的知识增强大语言模型文心一言。
作为全球第二家,中国第一家正式推出的大语言模型,文心一言被很多人寄予厚望,期望它能达到chatGPT的水准。但李彦宏很清楚,文心一言暂时还没有能力对标chatGPT,发布会现场他也说到:“今天的文心一言,大家的期望值是要对标chatGPT(3.5),甚至要对标GPT 4,那么这个门槛还是很高的”。
当然,除了期盼外,还有很多单纯希望文心一言出丑的,或者说希望百度出丑的。发布会开始前,各大交流群已经疯狂的转发这张文心一言与chatGPT的对比图。
玩梗的高潮出现在发布会的演示环节上,鉴于Google的前车之鉴,百度选择通过提前录制的演示视频来展示文心一言的能力,“chatPPT”这个爱称随之诞生。那么文心一言到底怎么样?真的是“chatPPT”吗?
刚好我拿到了文心一言的测试资格,手上也有OpenAI的账号,那么我们来做个全面的对比。首先是参赛选手:
大语言模型 公司 说明 使用条件 文心一言 百度 被寄予厚望的“国产之光” 内测中,需要申请 chatGPT 3.5 OpenAI 目前的标杆,代表了最高的技术水平 科学上网,关联国外手机号 BingAI 微软 大头儿子(chatGPT)和小头爸爸(bing) 科学上网,或者特殊配置测试维度:
中文语义理解,测试“中文八级”题目。 数学逻辑推算,测试“趣味”数学题目。 代码生成能力,我应该还不会被取代吧? 角色扮演能力,作为一个乐子人,必须要找点乐子。中文理解
先用文心一言发布会上的洛阳纸贵来试探下它们。
文心一言和BingAI的回答算是中规中矩,chatGPT的回答多少是有些离谱了。当然这道题文心一言和bingAI都可以利用自身具备的搜索能力完成,多少算是欺负chatGPT了。
换一道题目:
“小明,窗台上落了鸟屎,去擦一下好么?”
“我擦!!我不擦!!”
问:小明擦不擦窗台?
这道题的难度并不大,它们都给出了正确的答案,bingAI甚至能够识别出这是一个笑话。
再换一道题目:
人要行,干一行行一行,一行行行行行,要是不行,干一行不行一行,一行不行行行不行!请问下列说法哪个对?
A.人行,行行行
B.人行,行行不行
C.人不行,行行行
正确答案是A。文心一言和bingAI都给出了正确的回答,文心一言甚至都学会进行额外的分析了。但chatGPT的回答多少是有些离谱了,只能说是毫不相干吧。
目前在我的测试中,文心一言在中文语义的理解上是优于chatGPT的。虽然测试中文语义理解多少是有点欺负chatGPT,但作为用户,使用的过程中肯定是优先母语的。
Tips:OpeanAI目前已经禁止了大陆及港澳地区的手机号注册。
数学推算
从文心一言发布会上那道错误的鸡兔同笼开始:
chatGPT给出了详细的解答过程,并得出正确结论;文心一言直接给出了正确的结论;至于bing AI的回答,我倒是有点好奇,按理应该给出和chatGPT相同的回答,难道说是微软做了反向优化?
再问一道题:
用1,2,3,4,5这5个数字计算出24,每个数字只能出现1次。
我第一时间想到的答案是
5
×
4
+
3
+
2
−
1
=
24
5\times4+3+2-1=24
5×4+3+2−1=24,奈何三个AI都没给出正确答案,难道是我的题目有问题?
我们来看数学逻辑推算环节各参赛选手的得分情况:
参赛选手 第一题 第二题 文心一言 正确 错误,且没有识别出是数学题 chatGPT 正确,且有详细解答 错误,识别为数学题 bingAI 错误,分析过程拉胯 错误,识别为数学题仅仅以这两道题目的结果来看,我心中的排名是: c h a t G P T > 文心一言 ≈ b i n g A I chatGPT>文心一言\approx bingAI chatGPT>文心一言≈bingAI。
Tips:bingAI给出的错误答案中,第二个答案稍微改动下就是正确答案了。
代码生成
从chatGPT诞生之初,取代程序员的的言论就甚嚣尘上。那么以目前的技术水平,它们真的能取代程序员吗?出一道简单的题目:用html写一个时间戳转换的网页。
先来看文心一言给出的答案:
文心一言知道要做什么,确实也提供了一个网页,但却没有提供按钮的转换方法,另外它没有理解时间戳是什么。
接着是chatGPT的答案:
chatGPT的答案是可以运行的,也能成功将时间戳转换为当前时间。
最后是bingAI的答案:
bingAI的答案也是没有问题的,可以成功运行,而且网页风格和chatGPT完全一致。另外,bingAI也给出了改进建议。
除了这些简单的功能外,我还尝试着让它们仨做一些复杂的功能,但是结果都不是很理想,工具类或者通用代码可以写的有模有样,修修补补也能用,不过一旦牵扯到业务逻辑,它们也只能给出简单且毫无价值的Demo。
太好了,暂时我还不会失业~~
角色扮演
上面测了很多不正经的,接下来我们测点正经内容。
bingAI会直接拒绝了乐子人的请求:
文心一言也拒绝我:
只有chatGPT答应了我的请求:
虽然是答应了我,但不能聊两三句就结束啊。
百无禁忌
对比国内外的产品时,很多人都会把能聊敏感话题作为重要标准之一。文心一言不必多说,有些话题是不能聊的,有些话题虽然可以聊,但回答过后会关闭对话框,另外,从前面的截图中也可以看到,背景上布满了水印。
那么外国的月亮真的就比较圆吗?其实也不是,从上面来看,chatGPT不愿意谈及政治,bingAI也一样,某些问题压根就不会回答:
其实每个国家和地区都有自己的敏感话题,否则大洋彼岸怎么会诞生出近百种性别?
4个回合的较量中,文心一言只有在中文语义的理解上稍微胜出,可以说是被全方位的“薄纱”。那么你愿意使用文心一言吗?如果是我,我想我会给文心一言多一点点宽容,尝试着使用它。
对了,如果你具备科学上网的条件,却苦于手机号的限制无法使用chatGPT,关注【王有志】并回复【GPT】,我来帮你~~