第1,2,3部分,介绍、概览、预训练
第4部分,后训练
第5部分,结果
第6部分,推理
第7部分,视觉实验
8 Speech Experiments
我们进行了实验来研究将语音功能集成到Llama 3中的组合方法,类似于我们用于视觉识别的方法。在输入端,一个编码器,连同一个适配器,被并入处理语音信号。在Llama 3中,我们利用系统提示符(文本)来实现不同的语音理解操作模式。如果没有提供系统提示,则该模型作为通用的语音对话模型,可以以与纯文本版本Llama 3一致的方式有效地响应用户的语音。引入对话历史作为提示前缀,提升多轮对话体验。我们还试验了能够使用Llama 3进行自动语音识别(ASR)和自动语音翻译(AST)的系统提示。Llama 3的语音接口支持多达34种语言它还允许文本和语音的交错输入,使该模型能够解决高级音频理解任务。
我们还实验了一种语音生成方法,其中我们实现了一个流式文本到语音(TTS)系统,该系统在语言模型解码期间实时生成语音波形。我们基于专有的TTS系统为Llama 3设计了语音生成器,并且没有对语音生成的语言模型进行微调。相反,我们专注于通过在推理时利用Llama 3嵌入来提高语音合成延迟、准确性和自然性。语音接口如图28和29所示。
8.1 Data
8.1.1 Speech Understanding
训练数据可以分为两类。预训练数据包含大量未标记语音,用于自监督方式初始化语音编码器。所述监督微调数据包括语音识别、语音翻译和语音对话数据;当与大型语言模型集成时,这些数据用于解锁特定的能力。
预训练的数据。为了预训练语音编码器,我们策划了一个包含大量语言的大约1500万小时语音记录的数据集。我们使用语音活动检测(VAD)模型过滤音频数据,并选择VAD阈值大于0.7的音频样本进行预训练。在语音预训练数据中,我们也注重保证PII的不存在。我们使用Presidio Analyzer来识别此类PII。
语音识别和翻译数据。我们的ASR训练数据包含23万小时的人工转录语音记录,涵盖34种语言。我们的AST训练数据包含两个方向的90K小时的翻译:从33种语言到英语和从英语到33种语言。该数据包含使用NLLB工具包生成的监督数据和合成数据(NLLB Team et al, 2022)。合成AST数据的使用使我们能够提高低资源语言的模型质量。我们数据中的语音片段的最长长度为60秒。
口语对话数据。为了调整语音适配器&#x
总结
以下是针对您提供的文章结构及第8部分“Speech Experiments”内容的总结:---
### 文章总结
本文章详细介绍了将语音功能集成到Llama 3大型语言模型中的研究过程及其实验结果。文章首先通过引言(第1-3部分)建立了背景,概述了研究目的和方法论中涉及的预训练技术。随后,文章深入探讨了语音功能的后训练流程(第4部分)及实验结果(第5部分),进一步通过推理分析(第6部分)和视觉实验(第7部分)巩固了研究成果。
关键部分是第8章“Speech Experiments”,其中详细描述了针对Llama 3进行的一系列语音实验,涵盖了语音理解和生成两大方向。
- **语音理解实验**:研究团队在Llama 3基础上设计了编码器与适配器集成的方式,以处理语音信号。通过系统提示(文本),实现了语音理解的多样化功能,如通用语音对话、多轮对话体验优化、自动语音识别(ASR)和自动语音翻译(AST)。该系统支持多达34种语言,并可接受文本与语音的交错输入,从而解决了复杂的音频理解任务。
- **数据集**:为构建高效的语音编码器,预训练采用了包含1500万小时未标记语音的大型数据集,并通过VAD过滤确保数据质量。ASR和AST训练数据则涵盖23万和90K小时的人工转录及翻译语音记录,支持34种语言,且使用了合成数据提升低资源语言的质量。
- **语音生成实验**:实现了一种流式文本到语音(TTS)系统,该系统在Llama 3解码过程中实时生成语音波形,未对语音生成语言模型进行微调,而是利用Llama 3嵌入提高合成的延迟性、准确度和自然度。
### 结论与展望
通过将语音理解与生成技术集成到Llama 3模型中,研究人员展示了该大型语言模型在复杂语音任务中的潜力。未来的研究方向可能包括进一步深化模型在各应用领域的能力,如语音情感的识别与合成,以及优化语音生成的自然度和流畅度。
---
此总结涵盖了文章的主要内容和实验细节,希望对您有所帮助。