阿里通义千问大模型Qwen2-72B-Instruct通用能力登顶国内第一！

前言：

中国互联网协会副秘书长裴玮近日在2024中国互联网大会上发布《中国互联网发展报告(2024)》。《报告》指出，

在人工智能领域，2023年我国人工智能产业应用进程持续推进，核心产业规模达到5784亿元。

截至2024年3月，我国人工智能企业数量超过4500家，

已有714个大模型完成生成式人工智能服务备案。

中国人工智能领域的论文产出数量位列全球第二，专利申请量超129万件，占比高达64%

今天就来看看国内大模型的翘楚

阿里通义千问大模型Qwen2-72B-Instruct

通用能力登顶国内第一！

全球开源大模型No.1

在Hugging Face 发布的开源大模型排行中阿里云开源的通义千问（Qwen）指令微调模型 Qwen2-72B 在开源模型排行榜上荣登榜首。其联合创始人兼首席执行 Clem Delangue，也在X上对中国开源大模型表示了肯定。

我们再来看一组国内的基准测评数据。

在中文大模型测评基准 SuperCLUE 的总榜单中，阿里通义千问的开源模型成为排名第一的中国大模型，也是全球最强的开源模型。

在开源排行榜单中 Qwen2-72B毫无疑问直接干到了第一名的位置。

Qwen2系列包含5个尺寸的预训练和指令微调模型。Qwen2-7B-Instruct和Qwen2-72B-Instruct均实现了长达128K tokens上下文长度的支持。

另外在针对大模型泛化性的问题上，Qwen2特别针对除了中英文之外的27种语言进行了增强，显著提升了Qwen2在多语言上的能力。

这是官方发布的Qwen2-72B和其它两个同量级开源大模型以及自身前代版本的测试。

从结果上来看，我们能清晰的看到Qwen2-72B在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型。

Qwen2-72B-Instruc（指令微调），可以理解为Qwen2-72B 的一个特化版本，它在指令遵循、代码理解、数学解题以及多语言处理方面进行了优化和提升。

所以，我们再来看一下优化后的版本对比

看这数据，依旧超过同等开源大模型甚至比更大规模的模型还要强，直接就是一个降维打击。

需要特别指出的是Qwen2-72B尤其在代码和数学能力上得到了显著的提升。在python、js、java、c++等编程语言上去全面优于之前号称地标最强的Llama3-70B 。数学能力就不多说了，同样是吊打。

再来看看大海捞针的测试。

有的小伙伴可能不太了解什么是大海捞针："大海捞针"测试是指在大量数据中寻找特定的信息或模式。在大模型领域，"大海捞针"测试通常是一个比喻，用来形象地描述在海量数据中找到特定信息点的难度和复杂性。这种测试可以用于评估大型语言模型（LLMs）在处理和检索大量文本数据时的性能。

从图中我们不难看出，Qwen2-72B-Instruct模型在所有测试的上下文长度中，无论是事实检索还是文档深度检索，都展现出了较高的准确性，特别是在较短的上下文长度下。

Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。

当然其他几个模型的也不差：Qwen2-57B-A14B-Instruct能处理64k的上下文长度；而该系列中的两个较小模型则支持32k的上下文长度。

今天的分享到这里就结束啦~

Qwen2-72B-Instruct的发布，是中国大模型语言首次登顶全球no1（尽管是开源）。这款由阿里巴巴推出的模型，在多项性能指标上超越了当前领先的开源模型，尤其在代码理解、数学解题和多语言处理方面表现出色。

目前Qwen2已经在Hugging Face和ModelScope上开源，有感兴趣的小伙伴们可以去试一下~

总结

### 文章总结
近日，《中国互联网发展报告(2024)》由中国互联网协会副秘书长裴玮在大会上发布，指出我国在人工智能领域的显著成就：2023年产业核心规模达5784亿元，企业数量超4500家，大模型服务备案714个，论文及专利申请均居全球前列。特别值得一提的是，阿里巴巴推出的通义千问大模型Qwen2-72B-Instruct在国内及全球开源模型测评中登顶第一，彰显了中国AI技术的领先实力。
#### 主要亮点：
1. **行业领先**：
- **全球开源榜首**：阿里云的通义千问指令微调模型Qwen2-72B在Hugging Face排行榜上夺冠，成为全球开源大模型的NO.1。
- **国内中文第一**：在中文大模型SuperCLUE总榜单中也名列榜首，且被认为是全球最强开源模型。
2. **多元能力提升**：
- **支持多语言**：针对除中英文外的27种语言进行了优化，提升了多语言处理能力。
- **全面优势**：在自然语言理解、知识问答、代码理解、数学解题等多项任务上超越其他模型，特别是代码（Python、JS、Java、C++等）和数学能力尤为突出。
- **“大海捞针”能力强**：在处理大规模数据时表现卓越，无论是事实检索还是文档深度检索均展现出高准确性。
3. **模型规模与定制化**：
- **尺寸系列化**：Qwen2系列包括多种尺寸，支持最长达128K的文本处理长度，满足多样化需求。
- **指令微调优化**：Qwen2-72B-Instruct针对特定指令、代码理解和多语言处理等方面进行了特化提升。
4. **开放共享**：
- **已开源**：该模型已在Hugging Face和ModelScope上公开，方便全球开发者和研究人员共同学习使用，促进技术交流与合作。
此次阿里通义千问大模型的成功不仅体现了我国在AI领域的技术进步和创新能力，更为全球大模型发展贡献了中国力量，预示了我国在大规模智能处理方面的新纪元。