近年来,人工智能的进步如 GPT-4o 和 Gemini-1.5极大地改变了人与机器的互动方式,2023这种转变在语音处理领域尤为明显。
阿里巴巴通义实验室近日发布并开源了 FunAudioLLM,这是一个旨在增强人与大型语言模型(LLMs)之间自然语音交互的框架,代表了语音处理领域的最新进展。
这一框架的核心是两个创新模型:SenseVoice 和 CosyVoice。这两个模型不仅在多语言语音识别、情感识别、音频事件检测和自然语音生成方面表现出色,还展示了极高的成熟度和广泛的应用潜力。
相关链接
Demo展示:https://fun-audio-llm.github.io
代码地址:https://github.com/FunAudioLLM上
介绍
本报告介绍了 FunAudioLLM,这是一个旨在增强人类与大型语言模型 (LLM) 之间的自然语音交互的模型系列。其核心是两个创新模型:
SenseVoice,用于处理多语言语音识别、情感识别和音频事件检测;
CosyVoice,用于促进自然语音生成,并控制多种语言、音色、说话风格和说话者身份。
SenseVoice-Small 为 5 种语言提供极低延迟的 ASR,SenseVoice-Large 支持 50 多种语言的高精度 ASR,而 CosyVoice 在多语言语音生成、零样本上下文学习、跨语言语音克隆和指令跟踪功能方面表现出色。与 SenseVoice 和 CosyVoice 相关的模型已在 Modelscope 和 Huggingface 上开源,相应的训练、推理和微调代码已在 GitHub 上发布。 FunAudioLLM 将这些模型与 LLM 相结合,实现了语音到语音翻译、情感语音聊天、互动播客和富有表现力的有声读物旁白等应用,从而突破了语音交互技术的界限。
内容简介
方法
CosyVoice 概述
推理阶段 CosyVoice 模型概览。总之,CosyVoice 由一个自回归变换器(用于为输入文本生成相应的语音标记)、一个基于 ODE 的扩散模型、流匹配(用于从生成的语音标记重建梅尔频谱)和一个基于 HiFTNet 的声码器(用于合成波形)组成。虚线模块在特定模型用途中是可选的,例如跨语言、SFT 推理等。
SenseVoice 概述
SenseVoice 模型概览。SenseVoice 是一个语音基础模型,具有多种语音理解功能,包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一个仅编码器的语音基础模型,可实现快速语音理解;SenseVoice-Large 是一个编码器-解码器语音基础模型,可实现更准确的语音理解,并且支持更多语言。
语音到语音翻译
通过整合 SenseVoice、LLM 和 CosyVoice,我们可以轻松进行语音到语音翻译 (S2ST)。请注意,原始录音以粗体突出显示。
情感语音聊天
通过整合SenseVoice、LLMs和CosyVoice,我们可以开发一个情感语音聊天应用程序。在下面的示例中,用户和助手的内容均由CosyVoice合成。
互动播客
通过整合 SenseVoice(一个基于 LLM 且具有实时世界知识的多智能体系统)和 CosyVoice,我们可以创建一个交互式播客。
富有表现力的有声读物
通过 LLM 的分析能力来构建和识别书中的情感,并将其与 CosyVoice 相结合,我们实现了表现力增强的有声读物。
效果
多语言语音识别
我们在开源基准数据集(包括 AISHELL-1、AISHELL-2、Wenetspeech、Librispeech 和 Common Voice)上对比了 SenseVoice 和 Whisper 的多语言识别性能和推理效率。推理效率评估使用 A800 机器进行。SenseVoice-small 采用非自回归端到端架构,推理延迟极低,比 Whisper-small 快 7 倍,比 Whisper-large 快 17 倍。
SenseVoice 与 Whisper 在多语言语音识别基准上的比较。
语音情感识别
SenseVoice 还可用于离散情绪识别。支持快乐、悲伤、愤怒和中性。我们在 7 种流行的情绪识别数据集上对其进行了评估。即使没有对目标语料库进行微调,SenseVoice-Large 也可以在大多数数据集上接近或超过 SOTA 结果。
7种情绪识别数据集上的加权平均准确率 (WA(%)) 比较。EmoBox 是基于自监督模型和 Whisper 的最新语音情绪识别基准。HF 上的模型代表 HuggingFace 上最流行的语音情绪识别模型。
总结
### 文章总结:阿里巴巴FunAudioLLM推动语音处理边界在2023年,人工智能的进步特别是像GPT-4及Gemini-1.5等大型语言模型(LLMs)的发展,显著改变了人机交互模式,尤其在语音处理领域展现了前所未有的创新。阿里巴巴通义实验室发布的FunAudioLLM框架,成为了该领域的一个重要里程碑,致力于强化人与大型语言模型间的自然语音交流体验。
FunAudioLLM由两个核心模型——SenseVoice与CosyVoice构成。SenseVoice专注于多语言语音识别(ASR)、情感识别(SER)和音频事件检测(AED),展现了卓越的处理能力与高效率,尤其是其低延迟和高语言支持数的版本。而CosyVoice则在多语言语音生成方面表现亮眼,不仅能精准控制语音的音色、风格和说话者身份,还具备跨语言和指令跟踪的强大能力。
### 关键特点与创新:
- **SenseVoice**:分Small与Large两种版本,Small版本以低延迟、五种语言的ASR著称;Large版本则实现超过50种语言的高精度识别。
- **CosyVoice**:利用先进的自回归变换器、扩散模型和声码器,确保生成的语音不仅自然且可定制化强。
- **开源共享**:SenseVoice和CosyVoice已在Modelscope、Huggingface等平台开源,促进了整个AI社区的交流与进步。
- **语音应用新高度**:整合上述模型与大语言模型后,实现了包括语音到语音翻译、情感化语音聊天、互动式播客以及富表现力有声读物在内的多样应用场景,打破了语音技术的传统边界。
### 实验成果:
- 在多项开源数据集上的测试结果显示,SenseVoice不仅在识别准确率上达到了领先水平,尤其在多语言环境中的处理效率和精确度方面超越了同类型工具,如Whisper。
- 情感识别方面,SenseVoice也在多种数据集上实现了优异的表现,证明了其情绪分析能力的高效和可靠性。
FunAudioLLM的成功发布不仅彰显了阿里巴巴在语音处理技术上的领先地位,也为未来人机语音交互开启了更加广阔的想象空间,预示着一个更加自然、智能的交流时代即将到来。