无需GPU，手机芯片也能运行多模态模型！面壁智能发布MiniCPM，性能超过Mistral-7B！

2月1日,面壁智能发布了旗舰端侧模型 MiniCPM，它以小博大的性能超越了 Mistral-7B，并在 MT-Bench 等榜单上表现出色。

MiniCPM 是一款能说会看、具备编程能力、拥有多模态能力的端侧模型。它不仅在性能上优秀，而且具有极低的成本，支持 CPU 推理。MiniCPM 开源，并已在主流移动操作系统上进行了适配和测试。

在终端硬件厂商加速产品AI化的趋势下，面壁智能认为，成本是大模型的隐形竞争力，“比起size，我们更在意成本”。

以搭载了骁龙855芯片的OPPO手机为例，MiniCPM每秒能处理7.5 Tokens，运行5年后报废，成本为600元，由此可得170万Tokens的推理成本仅1元——MiniCPM的推理成本仅Mistral的1/100，GPT-4的1/360。

据介绍，目前MiniCPM-2B在CPU（比GPU计算吞吐量低）上就能跑起来，相较于用GPU才能运行的大模型，能够降低推理成本。与此同时，即便将大小压缩75%，MiniCPM的性能也能做到基本无损耗。

在性能上，MiniCPM-2B的中文知识能力、代码能力、数学能力已经超过Mistral-7B，而英文知识能力、逻辑能力和常识问答能力还存在一定差距。而在测试模型接近人的程度的评测榜单MT-Bench上，MiniCPM-2B的表现超过了Llama 2-70B-Chat。

图片

面壁智能团队目前验证了MiniCPM使用手机芯片进行推理的可行性。据悉，进行Int4量化后，MiniCPM只占2GB空间，具备在端侧手机进行模型部署的条件。

其中，对于Android、Harmony系统，使用开源框架MLC-LLM进行模型适配，支持文本模型、多模态模型；对于iOS，使用开源框架LLMFarm进行模型适配，仅支持文本模型。

MiniCPM让手机上具备了无需联网、无需搜索也能识图解答的能力。

图片

“此前尚未有工作尝试在手机上部署多模态大模型。我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性，能够正常输入输出，但也存在图片处理时间较长的问题，需要进一步优化。”

下图是测试的手机型号、系统和处理器信息。

图片

目前代码已开源：https://github.com/OpenBMB/MiniCPM

此外，据介绍面壁还开源了一个多模态模型 OmniLMM，展现出了实时动作识别和精准理解等能力。

图片

在发布会上，面壁智能演示了 Gemini 发布时同款的石头剪刀布 demo。用英文向 AI 提问：我正在玩什么游戏？大模型会回答：石头剪子布。

据了解，面壁智能源于清华 NLP 实验室，是在国内较早开展大模型研究的团队之一，其在 2018 年发布了全球首个基于知识指导的预训练模型 ERNIE。2022 年 8 月开始公司化运作的面壁智能，去年经历了两轮融资，其推出的应用「面壁露卡」也拿到了网信办第二批大模型备案。

目前，面壁智能已经组建起 100 余人的科研团队，其中 80% 人员来自清北，平均年龄 28 岁。

面壁智能正在构建“大模型 + Agent”的双引擎战略，希望能构建出更小规模、更快速度、更低成本的解决方案。

此外，面壁智能联合创始人还做了一个剧透：“我们会在春节之后不断发布 MiniCPM 的新版本，性能还会进一步提升。我们要给大家春节的休息时间。”