全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2^[1]，全球最强开源 MoE 模型来了。

DeepSeek-V2 是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由 236B 个参数组成，其中 21B 个参数用于激活每个标记。与 DeepSeek 67B 相比，DeepSeek-V2 性能更强，同时节省了 42.5% 的训练成本，减少了 93.3% 的 KV 缓存，最大生成吞吐量提高到 5.76 倍。

DeepSeek 是一家探索通用人工智能（AGI）本质的公司，并致力于将研究、工程和商业三者融为一体。

DeepSeek-V2 的综合能力

在目前大模型主流榜单中，DeepSeek-V2 均表现出色：

中文综合能力（AlignBench）开源模型中最强：与 GPT-4-Turbo，文心 4.0 等闭源模型在评测中处于同一梯队
英文综合能力（MT-Bench）处于第一梯队：英文综合能力（MT-Bench）与最强的开源模型 LLaMA3-70B 处于同一梯队，超过最强 MoE 开源模型 Mixtral 8x22B
知识、数学、推理、编程等榜单结果位居前列
支持 128K 上下文窗口

全新的模型结构

当 AI 的潜力被不断挖掘，我们不禁要问：什么是推动智能进步的关键？DeepSeek-V2 给出了答案 —— 创新架构与成本效益的完美结合。

DeepSeek-V2，以 236B 的总参数和 21B 激活，大致达到了 70B~110B Dense 模型的能力，同时显存消耗仅为同级别模型的 1/5~1/100。在8卡H800机器上，每秒可处理超过 10 万tokens 的输入，输出超过每秒 5 万 tokens。这不仅是技术上的飞跃，更是成本控制的革命。

在 AI 技术飞速发展的今天，DeepSeek-V2 的出现，不仅代表了技术的突破，更预示着智能应用的普及化。它将 AI 的门槛降低，让更多企业和个人能够享受到高效智能服务。

中文能力 VS 价格

在中文能力方面，DeepSeek-V2 在 AlignBench 排名中全球领先，同时提供极具竞争力的 API 价格。

模型和论文双开源

DeepSeek-V2，不只是一款模型，它是通往更智能世界的钥匙。它以更低的成本，更高的性能，开启了 AI 应用的新篇章。DeepSeek-V2 的开源，是对这一信念的最好证明，它将激发更多人的创新精神，共同推动人类智能的未来。

模型权重：https://huggingface.co/deepseek-ai
开源地址：https://github.com/deepseek-ai/DeepSeek-V2

在 AI 不断进化的今天，你认为 DeepSeek-V2 将如何改变我们的世界？让我们拭目以待，感兴趣的话，可以访问 chat.deepseek.com 亲自体验 DeepSeek-V2 带来的技术变革。

参考资料

[1]

DeepSeek-V2: https://www.deepseek.com/zh

开源模型人工智能 token 参考资料智能模型 huggingface git llama chat 上下文大模型 ai 应用智能应用 ai 技术 github api 语言模型 gpt gpt-4 成本控制