震撼发布！阿里通义FunAudioLLM：重塑自然语音交互新纪元，开源引领语音处理革命！

近年来，人工智能的进步如 GPT-4o 和 Gemini-1.5极大地改变了人与机器的互动方式，2023这种转变在语音处理领域尤为明显。

阿里巴巴通义实验室近日发布并开源了 FunAudioLLM，这是一个旨在增强人与大型语言模型（LLMs）之间自然语音交互的框架，代表了语音处理领域的最新进展。

这一框架的核心是两个创新模型：SenseVoice 和 CosyVoice。这两个模型不仅在多语言语音识别、情感识别、音频事件检测和自然语音生成方面表现出色，还展示了极高的成熟度和广泛的应用潜力。

介绍

本报告介绍了 FunAudioLLM，这是一个旨在增强人类与大型语言模型 (LLM) 之间的自然语音交互的模型系列。其核心是两个创新模型：

SenseVoice，用于处理多语言语音识别、情感识别和音频事件检测；

CosyVoice，用于促进自然语音生成，并控制多种语言、音色、说话风格和说话者身份。

SenseVoice-Small 为 5 种语言提供极低延迟的 ASR，SenseVoice-Large 支持 50 多种语言的高精度 ASR，而 CosyVoice 在多语言语音生成、零样本上下文学习、跨语言语音克隆和指令跟踪功能方面表现出色。与 SenseVoice 和 CosyVoice 相关的模型已在 Modelscope 和 Huggingface 上开源，相应的训练、推理和微调代码已在 GitHub 上发布。 FunAudioLLM 将这些模型与 LLM 相结合，实现了语音到语音翻译、情感语音聊天、互动播客和富有表现力的有声读物旁白等应用，从而突破了语音交互技术的界限。

内容简介

方法

CosyVoice 概述

推理阶段 CosyVoice 模型概览。总之，CosyVoice 由一个自回归变换器（用于为输入文本生成相应的语音标记）、一个基于 ODE 的扩散模型、流匹配（用于从生成的语音标记重建梅尔频谱）和一个基于 HiFTNet 的声码器（用于合成波形）组成。虚线模块在特定模型用途中是可选的，例如跨语言、SFT 推理等。

SenseVoice 概述

SenseVoice 模型概览。SenseVoice 是一个语音基础模型，具有多种语音理解功能，包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一个仅编码器的语音基础模型，可实现快速语音理解；SenseVoice-Large 是一个编码器-解码器语音基础模型，可实现更准确的语音理解，并且支持更多语言。

语音到语音翻译

通过整合 SenseVoice、LLM 和 CosyVoice，我们可以轻松进行语音到语音翻译 (S2ST)。请注意，原始录音以粗体突出显示。

情感语音聊天

通过整合SenseVoice、LLMs和CosyVoice，我们可以开发一个情感语音聊天应用程序。在下面的示例中，用户和助手的内容均由CosyVoice合成。

互动播客

通过整合 SenseVoice（一个基于 LLM 且具有实时世界知识的多智能体系统）和 CosyVoice，我们可以创建一个交互式播客。

富有表现力的有声读物

通过 LLM 的分析能力来构建和识别书中的情感，并将其与 CosyVoice 相结合，我们实现了表现力增强的有声读物。

效果

多语言语音识别

我们在开源基准数据集（包括 AISHELL-1、AISHELL-2、Wenetspeech、Librispeech 和 Common Voice）上对比了 SenseVoice 和 Whisper 的多语言识别性能和推理效率。推理效率评估使用 A800 机器进行。SenseVoice-small 采用非自回归端到端架构，推理延迟极低，比 Whisper-small 快 7 倍，比 Whisper-large 快 17 倍。

SenseVoice 与 Whisper 在多语言语音识别基准上的比较。

语音情感识别

SenseVoice 还可用于离散情绪识别。支持快乐、悲伤、愤怒和中性。我们在 7 种流行的情绪识别数据集上对其进行了评估。即使没有对目标语料库进行微调，SenseVoice-Large 也可以在大多数数据集上接近或超过 SOTA 结果。

7种情绪识别数据集上的加权平均准确率 (WA(%)) 比较。EmoBox 是基于自监督模型和 Whisper 的最新语音情绪识别基准。HF 上的模型代表 HuggingFace 上最流行的语音情绪识别模型。

总结

### 文章总结：阿里巴巴FunAudioLLM推动语音处理边界
在2023年，人工智能的进步特别是像GPT-4及Gemini-1.5等大型语言模型（LLMs）的发展，显著改变了人机交互模式，尤其在语音处理领域展现了前所未有的创新。阿里巴巴通义实验室发布的FunAudioLLM框架，成为了该领域的一个重要里程碑，致力于强化人与大型语言模型间的自然语音交流体验。
FunAudioLLM由两个核心模型——SenseVoice与CosyVoice构成。SenseVoice专注于多语言语音识别（ASR）、情感识别（SER）和音频事件检测（AED），展现了卓越的处理能力与高效率，尤其是其低延迟和高语言支持数的版本。而CosyVoice则在多语言语音生成方面表现亮眼，不仅能精准控制语音的音色、风格和说话者身份，还具备跨语言和指令跟踪的强大能力。
### 关键特点与创新：
- **SenseVoice**：分Small与Large两种版本，Small版本以低延迟、五种语言的ASR著称；Large版本则实现超过50种语言的高精度识别。
- **CosyVoice**：利用先进的自回归变换器、扩散模型和声码器，确保生成的语音不仅自然且可定制化强。
- **开源共享**：SenseVoice和CosyVoice已在Modelscope、Huggingface等平台开源，促进了整个AI社区的交流与进步。
- **语音应用新高度**：整合上述模型与大语言模型后，实现了包括语音到语音翻译、情感化语音聊天、互动式播客以及富表现力有声读物在内的多样应用场景，打破了语音技术的传统边界。
### 实验成果：
- 在多项开源数据集上的测试结果显示，SenseVoice不仅在识别准确率上达到了领先水平，尤其在多语言环境中的处理效率和精确度方面超越了同类型工具，如Whisper。
- 情感识别方面，SenseVoice也在多种数据集上实现了优异的表现，证明了其情绪分析能力的高效和可靠性。
FunAudioLLM的成功发布不仅彰显了阿里巴巴在语音处理技术上的领先地位，也为未来人机语音交互开启了更加广阔的想象空间，预示着一个更加自然、智能的交流时代即将到来。

llm 多语言数据集 whisper 语音处理语音识别 asr 情感识别语言模型自然语音情绪识别有声读物语音翻译语音交互语音生成语音聊天大型语言模型 github git llms