目录
前言 百度内测申请 天工内测申请 申请方式 内测体验 登录界面 运行体验 内测对比 基本问答 事实性问答 科普文写作 小红书文案 项目计划撰写 古文理解 模型的常识能力和反事实推理 代码理解 法律相关 广告话术 数字排序 数值计算 推理解题 跨语言能力 文生图 总结 其它资料下载前言
3月16日,百度于北京总部召开新闻发布会,主题围绕新一代大语言模型、生成式AI产品文心一言。百度创始人、董事长兼首席执行官李彦宏现场展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。官方表示,文心一言大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等,这让百度在中文语言的处理上,能够处于独一无二的位置。作为革新生产力工具,文心一言某种程度上具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。
4月17日下午,昆仑万维的首席执行官方汉发布了公司的大型中文语言模型——天工3.5。这款模型是国内为数不多已经进行过内测的中文语言模型之一,如“文心一言”、“360智脑”等。在发布会现场,天工大型模型展示了写周报、写招聘岗位、写代码以及回答网友奇怪提问等功能。
百度内测申请
关于百度内测资格详细申请方式详见我的另外一篇博客:
百度生成式AI产品文心一言邀你体验AI创作新奇迹:百度CEO李彦宏详细透露三大产业将会带来机遇
天工内测申请
申请方式
发送申请邮件到邮箱:neice@kunlun-inc.com
正文需包括以下内容:
姓名:
公司:
职务:
电话:
申请理由:
大概经过10多天的排队,博主收到了内测通过的邮件。如下:
内测体验
登录内测网址
输入申请时候的手机号码
输入邀请码:
输入手机验证码:
登录界面
运行体验
感觉天工生成答案,不是那么连续,中途会经常暂停,然后生成下一句话。这点不知道是不是网速原因,还是说系统设置了一些时间缓冲,也有可能近期内测人数太多,导致平台缓慢。
内测对比
说明:以下所有测评内容非专业测评,仅为个人使用测评,仅供大家体验参考。其中ChatGPT大多使用ChatGPT3.5模型,除非特别说明为GPT-4模型。
基本问答
百度文心一言 天工 ChatGPT三者在基本问答这块,基本没有任何问题。
事实性问答
百度
天工
ChatGPT
这一部分,三者回答都没有问题,但百度、天工回答会相对更详细。
科普文写作
百度
天工
ChatGPT
这一部分,天工、百度、ChatGPT回答各有千秋。
小红书文案
百度
天工
ChatGPT
感觉文案方面大家都还可以,不过关于手机的参数细节,都会有一些和真实情况不符。另外天工并没有加入emoji,总体来说,百度会略胜一筹。
项目计划撰写
百度
天工
ChatGPT
项目计划撰写这块,天工除了显示有一点问题外,从项目计划细节、时间上都比较完善。百度有点套用模板的感觉,ChatGPT时间上出了问题,但项目计划等都还是不错。
不过GPT-4下的回答,应该算是完美!
GPT-4古文理解
百度
天工
ChatGPT
这部分,百度要略强于天工和ChatGPT,只是部分字未识别出来。
模型的常识能力和反事实推理
百度
天工
ChatGPT
这一部分,百度文心一言是最完美的答案(以前测评百度发现过也和天工基本一样,但应该是更新过模型了,后面回答完美了),但天工则直接套用模板,回答错误。
代码理解
百度
天工
ChatGPT
没想到,天工的代码理解能力也是不错的,百度稍弱。
法律相关
百度
天工
ChatGPT
这部分,天工非常详细地提供了更多的建议,可以说是天工完胜。
广告话术
百度天工
ChatGPT
GPT-4
不得不说,GPT-4是非常完美的一个广告话术,百度和天工更像是套用相关模板生成的,缺乏吸引力。
数字排序
百度天工
ChatGPT
这部分,就可以看出天工的数理能力还是较差,ChatGPT和百度都能最后输出正确答案,而天工仅给出一段python代码,基本没有回答到问题的关键点。
数值计算
百度
天工
ChatGPT
关于数值计算这部分,仅有百度最后显示出正确答案,而ChatGPT显示出计算过程,但关于乘法计算显示出错误答案,天工则全部错误。
推理解题
百度
天工
ChatGPT
这一部分,百度算是完胜,不仅显示了正确答案,还显示了推理过程。ChatGPT最终答案是正确的,但是推理过程出现了一点小问题,把多了和少了给反复推理了一次。而天工则推导错误。
跨语言能力
百度天工
ChatGPT
三者在跨语言模型理解上,基本都没有什么问题。
文生图
目前三者中,只有百度文心一言能直接生图,ChatGPT和天工只能使用免费图片数据库进行生图,例如使用Unsplash,全球最大的免费图片数据库之一,图片有免费版权可商用,而且开放了API接口,这就为ChatGPT和天工生成Unsplash图片提供了基础条件。
百度天工
ChatGPT
总结
整体上百度文心一言模型比天工还是要更强一点,天工在数理这块劣势明显,但语义理解等文本那块还是可以。
虽然在国内外模型综合比较中,我们国内的GPT模型整体水平还有一点差距,特别是和GPT-4模型相比会有明显的差距,但是我们坚信这个差距会逐渐缩小。总有一天,国产大模型能够与OpenAI的大模型同台竞技,甚至超越它们。
其它资料下载
如果大家想继续了解人工智能相关学习路线和知识体系,欢迎大家翻阅我的另外一篇博客《重磅 | 完备的人工智能AI 学习——基础知识学习路线,所有资料免关注免套路直接网盘下载》
这篇博客参考了Github知名开源平台,AI技术平台以及相关领域专家:Datawhale,ApacheCN,AI有道和黄海广博士等约有近100G相关资料,希望能帮助到所有小伙伴们。