文心一言、Kimi等4款AI大模型测评对比及推荐（AI大模型训练）

现在，国内已经有海量大模型诞生，那么，哪款大模型的表现会更好？这篇文章里，作者站在自媒体人的角度，对四款大模型做了评估和对比，一起来看一下。

说到AI，很多人会想到ChatGPT，而我们现在也有许多好用的国产AI大模型。

在2023年的中国，8个月内诞生了238个大模型，阿里、华为、腾讯、京东、字节、360、科大讯飞等一众大厂纷纷下场，还有复旦、清华等高校机构加速研究，以及智谱AI、月之暗面等黑马出现。

这些海量AI大模型里，子木挑选了4款市面上反响比较好的、也是我常用的AI大模型进行评估对比，帮助你选择适合自己的国产AI大模型。

本文评估的4个AI大模型

文心一言4.0、通义千问、kimiAI、天工AI。

一、大语言模型的5个评估维度

对于AI大模型的评估，目前还没有权威、统一的评估维度，我根据文案创作的需求、使用习惯，建立了自己的AI大模型内容创作评估维度：

1. 语言质量与创意性

这是用AI创作中最关注的部分，体现AI写出来的内容质量。

它包括：

文本流畅度，用来评估AI生成的文案是否自然流畅，语法正确，符合人类日常交流习惯，我会用主题文章、简历撰写这两个题目来进行测试评估；

个性化内容，用来评估AI是否可以根据我们输入的个性化要求，比如语气、风格等等来定制文案，满足不同的创作需求，我会用不同人物介绍同一个事物的2个问题来进行测试评估。

2. 领域适应性

用来评估AI模型是否具备特定行业或领域的专业知识，能否生成相关性强、准确无误的文案内容，我比较关注的是新媒体、教育培训行业，所以我一般会用这两个行业的代表性问题来进行测试评估，这一块每个行业的问题不一样，大家可以根据自己的行业来设计问题。如果有需要的话，也可以提问或联系我交流。

3. 逻辑性

用来评估AI创作内容的逻辑性，我会用公务员考试常用的逻辑推理题，和故事的续写这两个问题来测试评估，逻辑推理题是看它的推理过程，结果是否正确，而故事的续写，看情节是否合理、人物的行为是否符合逻辑。

4. 时效性

时效性决定了AI生成内容时是否能用到最新的案例或事件、我们在用AI寻找资讯时是否能给到最新的信息。我会用最新的热点事件、1个月前、3个月前的3个不同问题，来评估测试AI的时效性。

5. 成本与易用性

AI作为一个辅助工具，是不是方便使用、使用成本如何，也是我们需要考虑的点。

二、4款国产大模型对比

1. 大模型简介

文心一言4.0：是百度推出的知识增强大语言模型，可以输出文本内容，也可以生成图片。
通义千问：是阿里云发布的千亿级参数大模型，可以分析文档，提炼文档的关键信息。
KimiAI：月之暗面开发的大模型，可以上传PDF、word、ppt、图片等多种格式的文档，还可以分析网页内容，比较有意思的是，还能直接访问小红书的链接，抓取内容进行总结。
天工AI：昆仑万维开发的双千亿级大语言模型，它的语言能力也很不错。

2. 文本流畅度对比

我把4个大模型写的“一花独放不是春”命题作文内容，给中学语文老师看了，满分60分，可以打到40分以上的程度，整体表现都还不错。

文心一言4.0的文笔流畅度更高，文彩也更好。对于主题的整体理解更加准确，没有什么逻辑问题，可以算得上是一篇文采不错的作文。

通义千问的流畅度也还不错，但是行文手法不如文心一言老练，比较中规中矩，相对文心一言4.0弱一些。

kimiAI的语言流畅度跟通义千问类似，但对于主题的理解相对弱一些，文章的整体性相对最弱，有一些段落偏离了题目本身的意思。

天工AI的行文流畅、老练，只是有一两个段落显得有些生搬硬套，前后意思不一致，有意思的是，天工AI表现出了比较强的政治素养，写出来的内容不像高考作文，而更像申论作文，做政务公文类的可以优先考虑天工AI。

打分：

文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐

3. 个性化内容对比

四个AI大模型都能够区分不同的口吻，同时，也能够区分不同的身份角色对于同一件事情所关注的不同的方面。

从8岁女孩的角度来介绍一辆新能源车，4个大模型都会把重点放在了车子是用电的、很神奇的描述上，也都用到了小孩子能理解的语言，用打比方的、形象化的描述来讲这个车子。其中，kimi AI对于角色年龄的把握比其他三个大模型稍微弱一点。

而从男企业家的角度来介绍新能源车，4个大模型都选择了将新能源车定义为这个企业家自己的产品，从更宏观的角度开始介绍这辆车，都表达了对于“未来出行”的创新和积极探索，侧重从技术的角度来介绍。

所以在个性化内容方面，4个大模型表现差不多，kimiAI要稍微弱一些。

打分：

文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐ ⭐ ⭐

4. 逻辑性对比

AI思考逻辑测试，内容是一道经典的公务员考试的行测问题。

4个AI都在很短的时间内给出正确答案，AI参加公务员考试，估计能秒杀99.9%的人。

在回答的内容中，文心一言给到的思路最详尽、看起来条理也相对最清晰，而天工AI给到的思路最简略，没有描述太多的思考过程，我认为这是相对欠缺的。

AI续写逻辑测试，内容一个故事的续写。

我在故事里设计了3个人物，发现藏宝地图的小明、他的好朋友小帅、妹妹小美，而故事也是围绕着寻宝的冒险之旅展开，这样，就能考察AI对于人物的设定，是否符合逻辑，以及故事线是否符合逻辑。

在这个测试中，文心一言的表现相对较好，发挥了较强的对于人物风格的把控能力，能够在故事中写人物对话，对话的风格也符合3个人物的性格设定，故事内容更长，相对更细致。

而通义千问则发挥了更多的创造力，赋予了人物更多不同的特点，不过内容更概括简短。

kimi的表现与通义千问相似，也是通过赋予人物不同特点来塑造人物，对故事的描述更加细节一些，内容也稍长一点。

天工AI的内容则更加简短，没有把控不同的人物风格、也没有赋予人物不同的特点，表现相对是最弱的。

打分：

文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐

5. 时效性对比

这是我非常非常看重的方面，在内容的创作中，引用时下的热点资讯，对于自媒体运营而言，是一种重要的能力，所以我们会需要时效性强的AI。我用最新、一个月前、三个月前的三个问题来进行测试。

在这一轮测试中，表现最弱的，反而是曾经的搜索巨头百度所开发的文心一言。

对于2月29日前的最新热点“董宇辉为什么清空微博”这件事情的解释上，通义千问、kimi、天工三个大模型都给出了正确答案，只有文心一言给出的答案不正确。

对于一个月前哈尔滨的热点、三个月前的双十一销售额，则4个大模型都给出了正确答案。

同时，文心一言、kimi AI都给出了答案所引用的参考资料，但文心一言给的参考资料，主要都来自百度系自己的内容，主要是好看视频、百家号，但这里存在一个bug：大语言模型不能解析视频内容，所以对于董宇辉为什么清空微博这件事情，文心一言虽然根据视频的标题，找到了好看视频中的参考资料，但是因为不能解析视频内容，找到参考资料也看不懂，就像找到一份天书，仍然只能根据自己的逻辑编造一个回答。

而同样给出了参考资料的kimi AI，对于董宇辉清空微博的事件，则引用了更新的、也更全面的资讯。它引用了最近1天的内容链接，引用来源包括腾讯网、知乎、澎湃媒体等，搜索来源比文心一言更广。

我在使用kimi AI搜索AI相关的内容时，它能给到的参考资料范围也很广、很精准，除了主要来源知乎之外，还会给到包括GitHub、人民数据、中国通信院，和一些可以公域访问的数据报告的链接，搜索能力和时效性是比较强的。

另外2个AI大模型，通义千问和天工AI虽然没有给到引用链接，但对3个问题的回答都是准确的。

所以在时效性上，kimiAI最强，它不仅能比较大范围地搜索到相关资讯，并且能给出引用链接，让我们能够直接通过链接，去判断这个内容的有效性、是否正确，通义千问和天工AI相对较弱，因为不能给出引用链接，对我们判断起来相对更困难一点，最弱的是文心一言。

打分：

文心一言4.0 ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐ ⭐

6. 成本易用性对比

目前，4个AI大模型都能直接通过网页链接访问到，kimiAI、文心一言、天工AI都能在微信小程序里使用，非常方便，通义千问虽然没有官方的小程序入口，但是使用网页端也是比较方便的。在成本上，除了文心一言4.0需要49.9元的月费，或588.8元的年费，其他3款都是暂时免费。

打分：

文心一言4.0 ⭐ ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐ ⭐ ⭐

三、总结

在实际使用中，我一般会选择文心一言4.0加kimi AI的组合。

用kimiAI搜索资料、拓展内容，它是我目前比较喜欢用的搜索方式，在向kimiAI提问时，我会先看它给的回答，然后看它给的参考资料，其中有哪些资料是权威、官方的，比如数据报告等，在这些资料中找一找是否有新的信息。这样的搜索方式，比百度、小红书、微信搜索更加精准快速。

文本创作时，我会倾向于用文心一言4.0，它生成的内容更加流畅、符合逻辑，内容质量相对更高。

既然大模型现在这么火热，各行各业都在开发搭建属于自己企业的私有化大模型，那么势必会需要大量大模型人才，同时也会带来大批量的岗位？“雷军曾说过：站在风口，猪都能飞起来”可以说现在大模型就是当下风口，是一个可以改变自身的机会，就看我们能不能抓住了。

那么，我们该如何学习大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线

学习大型人工智能模型，如GPT-3、BERT或任何其他先进的神经网络模型，需要系统的方法和持续的努力。既然要系统的学习大模型，那么学习路线是必不可少的，下面的这份路线能帮助你快速梳理知识，形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别：AI大模型API应用开发工程

L3级别：大模型应用架构进阶实践

L4级别：大模型微调与私有化部署

一般掌握到第四个级别，市场上大多数岗位都是可以胜任，但要还不是天花板，天花板级别要求更加严格，对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。

以上的AI大模型学习路线，不知道为什么发出来就有点糊，高清版可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

总结

### 文章总结
#### 国内大模型发展现状
- 2023年中国8个月内诞生了238个大模型，涵盖了各大科技公司和高校研究机构，展示了国内在AI领域的快速发展。
#### 四个大模型评估对比
**1. 模型简述**：
- **文心一言4.0**（百度）: 知识增强大语言模型，支持文本和图像生成。
- **通义千问**（阿里）: 千亿级参数大模型，擅长文档分析。
- **kimiAI**（月之暗面）: 可以处理多种格式文档，并访问外部链接内容。
- **天工AI**（昆仑万维）: 双千亿级大语言模型，展现较强政治素养。
**2. 评估维度**：
- 语言质量与创意性、领域适应性、逻辑性、时效性和成本与易用性。
**3. 综合评价**：
- 文心一言4.0和kimiAI在多个维度上均表现出色，各有特色。文心一言文本质量高，kimiAI在时效性上超越其他模型。通义千问和天工AI也有其独特之处，但在某些评估维度上表现稍弱。
#### 实用建议
- 作者倾向于使用文心一言4.0进行文本创作，因其内容流畅、符合逻辑；']))同时选择kimiAI搜索资料，因其搜索能力强、引用链接准确。
- 文章也提出了大模型学习和应用的后续建议，包括一套详细的学习路线、包含640份报告的AI大模型合集、经典PDF籍资源以及大模型商业化落地方案。
#### 大模型时代与职业机会
- 文章最后提到了当前大模型发展的火爆，建议读者紧抓机遇，通过系统学习和实践不断提高自身技能和认知水平，以应对新的就业挑战和创造更多职业机会。同时，不忘倡导责任感和伦理意识，为人工智能的健康发展贡献力量。

大模型参考资料语言模型大语言模型人工智能 pdf 个性化个性化内容易用性 ai搜索 gpt 小程序文本创作内容质量企业家逻辑推理商业化自媒体视频内容 bert