中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

可以说，AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。

7 月 19 日，Meta 终于发布了免费可商用版本 Llama 2，让开源大模型领域的格局发生了巨大变化。

Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体，相比上一代的训练数据增加了 40%，在包括推理、编码、精通性和知识测试等许多外部基准测试中展示出了优越的表现，且支持多个语种。

美中不足的是，Llama 2 语料库仍以英文（89.7%）为主，而中文仅占据了其中的 0.13%。这导致 Llama 2 很难完成流畅、有深度的中文对话。

中文版 Llama2 开源大模型创下社区「首个」

好消息是，在 Meta Al 开源 Llama 2 模型的次日，开源社区首个能下载、能运行的开源中文 LLaMA2 模型就出现了。该模型名为「Chinese Llama 2 7B」，由国内 AI 初创公司 LinkSoul.Al 推出。

仅仅两周时间，该项目在 Hugging Face 上收获过万次下载，并在 GitHub 上获得了 1200 Stars。

据项目介绍，Chinese-Llama-2-7b 开源的内容包括完全可商用的中文版 Llama2 模型及中英文 SFT 数据集，输入格式严格遵循 llama-2-chat 格式，兼容适配所有针对原版 llama-2-chat 模型的优化。

项目地址：

https://github.com/LinkSoul-AI/Chinese-Llama-2-7b

目前，普通用户可以在线体验「Chinese Llama-2 7B Chat」。

试用地址：

https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b

比如你能够以英文提问，并让它用中文回答：

或者直接中文对话，它也能以中文实现准确、流畅的回答：

主打的就是一个中英文灵活切换：

有人已上手，表示运行良好：

图源：https://twitter.com/roya10x7/status/1682781475458957315?s=20

语言模型之外，继续开源两个中文多模态大模型

在推出首个开源 Llama2 中文语言大模型之后，LinkSoul.AI 团队将目光投向了目前全球尚外于发展初期的语音文本多模态大模型和图文大模型，并再次率先开源了相关的模型，提供国内开发者免费下载、自由商用。

本次开源的两个中文多模态大模型，包括如下：

由 LinkSoul.Al 团队牵头，北京智源人工智能研究院、北京大学、零一万物等国内头部顶尖人工智能团队通力合作的第一个支持中英双语、语音到文本的多模态开源对话模型 (LLaSM)

第一个基于 Llama 2 的支持中英文双语视觉到文本的多模态模型 (Chinese-LLaVA)

两个模型都基于 Apache-2.0 协议开源，完全可商用。

LinkSoul.Al 开发团队负责人史业民表示，「放眼全球，目前如何让『模型听世界、看世界』仍然没有可靠的开源模型可用。我们希望能够尽微薄之力，让中国大模型生态距离国际领先标准再近一些。」

语音到文本多模态开源对话模型 (LLaSM)

LinkSoul.AI 开源了可商用的中英文双语语音 - 语言助手 LLaSM 以及中英文语音 SFT 数据集 LLaSM-Audio-Instructions。LLaSM 是首个支持中英文语音 - 文本多模态对话的开源可商用对话模型。

相较以往的传统方案，LLaSM 能够通过便捷的语音输入的交互方式，大幅改善过往以文本为输入的大模型的使用体验，同时有效避免基于 ASR 解决方案的繁琐流程以及可能引入的错误。

项目地址：https://github.com/LinkSoul-AI/LLaSM

数据集: https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions

下面是 LLaSM 的一个语音 - 文本对话示例。

LLaSM 也有相应的文献介绍。

模型、代码和数据地址：

https://huggingface.co/spaces/LinkSoul/LLaSM

图像到文本多模态开源对话模型 (Chinese LLaVA)

LinkSoul.AI 开源了可商用的中英文双语视觉 - 语言助手 Chinese-LLaVA 以及中英文视觉 SFT 数据集 Chinese-LLaVA-Vision-Instructions，支持中英文视觉 - 文本多模态对话的开源可商用对话模型。

项目地址：https://github.com/LinkSoul-AI/Chinese-LLaVA

数据集: https://huggingface.co/datasets/LinkSoul/Chinese-LLaVA-Vision-Instructions

下面是 Chinese LLaVA 的一个视觉 - 文本对话示例。

模型、代码和数据地址：

https://huggingface.co/spaces/LinkSoul/Chinese-LLaVa

多模态模型统一架构解读

大语言模型在很多方面展现了强大的能力，也在一定程度上让人们看到了实现通用人工智能（AGI）的希望。多模态模型提供了不同模态之间信息交互的渠道，使得视觉信息、语音信息等能和文本语义信息互为补充，让大语言模型能听到世界、看到世界，从而向 GI 又前进一步。

因此，训练多模态模型的重点是如何融合互补不同模态间的信息，并充分利用现有大语言模型能力。LinkSoul.AI 开源的语音 - 语言多模态模型和视觉 - 语言多模态模型统一采用下图所示框架。

首先通过模态编码器编码不同模态数据特征，紧接着在多模态特征对齐的预训练阶段学习模态适配器（Adaptor），将不同模态的输入特征与大语言模型对齐。

然后在端到端的有监督微调（SFT）阶段使用不同模态的指令数据集对模态适配器和大语言模型进行微调。在有监督微调阶段，同时使用跨模态（cross-modal）指令数据和仅文本（text-only）指令数据进行多任务训练。LinkSoul.AI 团队认为多任务训练有助于避免模型产生模态依赖和偏见，并且可以自然地用一个模型实现多种模态。

LinkSoul.AI 团队接下来的工作会把语音 - 视觉 - 文本进一步融合，让大语言模型同时支持语音和视觉模态。

预训练阶段

预训练阶段将模态编码器和大语言模型参数都冻结，使用跨模态的语音 / 视觉 - 文本对进行 Adaptor 的训练，优化目标为对输入的指令（instructions）生成相应的回复（responses）。

具体来讲，对于语音模态，采用 Whisper 作为特征编码器，冻结 Whisper [5] 并提取音频输入的特征。使用公开的中英文自动语音识别（ASR）数据集 Aishell [1]、 LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。

对每个数据样本（audio、text_label）依据对应语言随机从预训练语音指令表（见第三节数据部分）中选取一个指令，组成（audio，instruct，text_label）格式的数据，并在训练过程中预测 text_label。

对于视觉模态，采用 CLIP [6] 作为图片特征提取器，并使用 mBART [8] 对 LLaVA [7] 开源的视觉预训练数据进行翻译汉化，生成中文图片文本对。在预训练阶段同时使用中英文数据进行训练，从而让模型更好的支持中文。

有监督微调

预训练阶段将不同模态的特征和大语言模型对齐，有监督微调阶段则仅冻结模态编码器权重，将模态适配器和大语言模型参数打开，使用跨模态指令数据进行微调。

针对目前几乎没有公开语音多模态指令数据这一问题，基于公开数据集 WizardLM [9]、ShareGPT [10]、GPT-4-LLM [11] 构造语音 - 文本多模态指令数据集 LLaSM-Audio-Instructions。以语音输入作为指令，并预测对应的文本输出。

对于视觉模态，同样先通过 mBART [8] 对 LLaVA [7] 开源的视觉指令数据集进行翻译汉化，生成中文的视觉指令数据集，然后类似地进行训练。

数据集

模态转换预训练数据集

先来看 Audio。语音多模态预训练数据集采用公开中英文自动语音识别（ASR）数据集 Aishell [1]、LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。

同时构造如下指令集，对每个（audio、text_label）样本依据对应语言随机选择一条指令构造数据样本（instruction、audio、text_label）。

表 1：英文简单指令集

表 2：中文简单指令集

然后是 Vision。对于视觉模态，采用 LLaVA [7] 开源的视觉预训练数据，通过 mBART [8] 翻译进行汉化，生成中文图片文本对，以提升模型的中文能力。

指令微调数据集

同样先来看 Audio。在构建音频数据集的过程中，首先仔细过滤所有对话数据，通过删除那些不适合发声的对话，包括代码、符号、URL 和其他不可读的文本。然后，为确保数据质量，每轮对话中聊天机器人的答案再次被过滤，那些不包含有价值信息的内容将被丢弃。最后，使用 Microsoft Azure [12] 语音合成 API 来生成语音数据。

然后是 Vision。对于视觉模态，采用 LLaVA [7] 开源的视觉指令数据集，通过 mBART [8] 进行汉化，生成中文多模态指令数据，使得模型能够具有中文视觉指令执行能力。

为了便于开源社区快速感受多模态大模型的能力，以及共同推进多模态大模型的研究进展，训练用到的数据在项目中开源，并提供 Hugging Face 仓库下载。

对于 LinkSoul.AI 团队而言，这两个开源可商用的多模态大模型不仅为大模型生态带来了语音和视觉多模态能力，也在大模型多语言方面做出了贡献。

此外在商用场景上，该团队推出的模型都允许完全免费商用，这对于国内个人开发者和初创公司也具有非凡的价值。

参考文献：

[1] Aishell: https://www.openslr.org/33/

[2] LibriSpeech: https://huggingface.co/datasets/librispeech_asr

[3] Magicdata: https://openslr.org/68/

[4] Primewords: https://openslr.org/47/

[5] Whisper: https://huggingface.co/openai/whisper-large-v2

[6] CLIP: https://huggingface.co/openai/clip-vit-large-patch14

[7] LLaVA: https://llava-vl.github.io/

[8] mBART: https://arxiv.org/pdf/2001.08210.pdf, https://huggingface.co/facebook/mbart-large-50-one-to-many-mmt

[9] WizardLM: https://github.com/nlpxucan/WizardLM

[10] ShareGPT: https://sharegpt.com/

[11] GPT-4-LLM: https://arxiv.org/abs/2304.03277

[12] Microsoft Azure 语音合成 API：https://azure.microsoft.com/en-us/products/ai-services/ai-speech