目录
前言:老程序员聊聊AI和国产大模型
第一关:代码质量和可用性——写个可运行的游戏代码
第二关:需求理解和记忆能力——多轮对话下的任务能力
总结
前言:老程序员聊聊AI和国产大模型
大家好,我是一名老程序员了,大模型出来后我算是一直在尝试各种AI工具,尤其是AI辅助研发的方向(可能有点焦虑?),包括上个月的AI程序员Devin发布我也在关注,大模型的能力发展太快了,我还是想努力跟上。
我个人一直支持国产大模型,也算文心一言的老用户啦,去年3月刚内测的时候就在用了,那时候特振奋,想着国内终于有一款大模型了,刚开始用的时候很坎坷啊,用起来一直达不到预期。
不过文心一言的模型能力还是在肉眼可见地变好,我现在的情况是付费使用文心一言4.0模型(免费的3.5模型基本不用了),我的感官是文心一言4.0模型对比3.5在各个方面是有明显提升的,迭代速度也更快(可能是商业化后会存在训练资源倾斜?),我看各大平台很少有一言4.0模型的测评,所以今天专门写一篇。
图片由文心一言4.0生成,图个乐
我平时用的最多的还是代码和文本生成(周报写文档你懂的),偶尔玩玩文生图,今天主要给大家测一测文心一言4.0模型的代码能力!
大模型的代码能力可以拆解的维度很多,我今天主要关注的是代码生成质量和可用性,需求理解能力和记忆能力2个方面。
第一关:代码质量和可用性——写个可运行的游戏代码
废话不多说,我们先看看代码的生成质量和可用性——写一个五子棋吧:
我去测试AI的代码能力的use case是——我会让AI写个小游戏,底层逻辑是AI需要理解游戏的规则,并且转译成代码,还必须是可运行的代码,这可能是程序员视角下的“多模态”能力吧,哈哈。
所以我让文心一言4.0模型帮我写一个能跑起来的【五子棋】游戏代码,我们看看生成的代码质量(对话截图参考下方)
那么关键来了,是否可以运行呢?
我们直接copy下来在开发环境中运行,运行起来没问题,定义好了2个棋手交替下棋,一方到5个棋子后游戏判定结束,可以看下方视频截屏。
五子棋
第一关,代码质量和可用性,文心一言4.0模型测试通过~
第二关:需求理解和记忆能力——多轮对话下的任务能力
下面我们看文心一言4.0模型的需求理解能力和记忆能力,测试开启:
很多时候我们在AI代码生成上不是一问一答就结束了,最常见的情况反而是——要求AI不断调整生成的代码,这对AI的记忆和需求理解能力提出要求,下面我会模拟这个情景:
我们看看4.0模型能不能帮我写一个【机器学习代码】,简单来说是对【单层感知机】做一个正负向分类的训练,prompt+回复截图参考下方截图:
我向大模型提问有没有更好的方式实现我的诉求,这考验4.0模型是否真的理解我在做什么,以及对机器学习的了解,我们接着往下看:
文心一言提出了有神经网络和支持向量机2种方法,给出的说明说明很具体很有信息量,说明对我的需求理解程度是在线的,以及展示了对复杂机器学习算法问题的解决能力。
那我们下面让4.0模型直接按照【支持向量机】再帮我写一个新的代码呢?4.0模型还会记得住我们在讨论什么吗?
代码基本可用,因为数据集太小,还专门提示我没必要拆分训练集和测试集(大数据集下通常会做拆分),算是比较贴心了。
所以第二关,需求理解和记忆能力,4.0模型通过!
总结
整体看下来,文心一言4.0模型在代码生成质量和可用性,需求理解能力和记忆能力2个方面表现不错,我自己用的时候基本能满足我的代码诉求,当然我自己还会用4.0模型帮我写一些工作汇报和其他工作文档,中文能力也很不错,中文能力也确实一直是文心一言的核心竞争力啦。
最近文心一言付费会员还上线了【工具版】,上线了Agent框架下的复杂任务的规划、调用工具的能力,算是一个亮点,下次再和大家分享。
如果大家也想快速使用文心一言4.0模型,可以👉👉点击开通文心一言4.0模型,或扫描下面这个二维码开通哦👇👇