当前位置:AIGC资讯 > AIGC > 正文

深入了解 Whisper 的架构、用法以及在语音识别领域的应用和性能特征

Whisper: 通用语音识别模型详解

概述

Whisper 是一个基于 Transformer 序列到序列模型的通用语音识别系统,经过训练可以执行多语种语音识别、语音翻译和语言识别任务。本文将深入介绍 Whisper 的工作原理、设置方法、可用模型及其性能评估。

方法

Whisper 使用 Transformer 序列到序列模型,同时支持多语种语音识别、语音翻译、语种识别和语音活动检测等任务。这些任务被联合表示为解码器需要预测的一系列标记,使得单个模型可以替代传统语音处理流水线的多个阶段。多任务训练格式使用一组特殊的标记作为任务标识符或分类目标。

设置

我们使用 Python 3.9.9 和 PyTorch 1.10.1 对模型进行训练和测试,但代码库预计与 Python 3.8-3.11 和最近的 PyTorch 版本兼容。依赖于一些 Python 包,尤其是 OpenAI 的 tiktoken 用于快速的分词器实现。您可以通过以下命令下载安装或更新到最新版本的 Whisper:

pip install -U openai-whisper

如果需要安装到最新的提交版本,请使用以下命令:

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

此外,Whisper 还依赖于命令行工具 ffmpeg,您可以通过以下方式在不同平台上安装:

# Ubuntu 或 Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

# MacOS 使用 Homebrew
brew install ffmpeg

# Windows 使用 Chocolatey
choco install ffmpeg

# Windows 使用 Scoop
scoop install ffmpeg

在某些情况下,您可能需要安装 Rust,以便于 tiktoken 为您的平台提供预构建的轮子。如果在安装过程中出现错误,请参考 Rust 开发环境的安装指南。

可用模型与语言

Whisper 提供了五种模型尺寸,其中四种是仅英文的版本,提供了速度和准确性之间的平衡。以下是可用模型的名称及其对应的内存需求和相对于大型模型的推理速度:

tiny:39M 参数,约需 1GB VRAM,推理速度约为大型模型的32倍。 base:74M 参数,约需 1GB VRAM,推理速度约为大型模型的16倍。 small:244M 参数,约需 2GB VRAM,推理速度约为大型模型的6倍。 medium:769M 参数,约需 5GB VRAM,推理速度约为大型模型的2倍。 large:1550M 参数,约需 10GB VRAM,基准速度。

对于英文应用,特别是对于 tiny.en 和 base.en 模型,性能表现更优。然而,对于 small.en 和 medium.en 模型,性能差距较小。

Whisper 的性能

Whisper 的性能因语言而异。下图显示了在 Common Voice 15 和 Fleurs 数据集上评估的大型-v3 和大型-v2 模型的词错误率(WER)或字符错误率(以斜体显示)。其他模型和数据集的评估指标可以在论文的附录中找到。

命令行用法

以下命令将使用 medium 模型转录音频文件:

whisper audio.flac audio.mp3 audio.wav --model medium

默认设置(选择 small 模型)适用于英文转录。如果要转录包含非英语言音频的文件,可以使用 --language 选项指定语言:

whisper japanese.wav --language Japanese

添加 --task translate 将语音翻译为英文:

whisper japanese.wav --language Japanese --task translate

运行以下命令查看所有可用选项:

whisper --help
Python 使用示例

您也可以在 Python 中执行转录:

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

内部地,transcribe() 方法会读取整个文件,并在每个 30 秒的滑动窗口上执行自回归序列到序列预测。

使用 whisper.detect_language() 和 whisper.decode() 提供了更低级别的访问方式,可以访问模型的功能。

import whisper

model = whisper.load_model("base")

# 加载音频并填充/修剪以适合 30 秒
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# 生成对数梅尔频谱图并移动到与模型相同的设备
mel = whisper.log_mel_spectrogram(audio).to(model.device)

# 检测语音的语种
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# 解码音频
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# 打印识别的文本
print(result.text)

通过上述介绍,您可以深入了解 Whisper 的架构、用法以及在语音识别领域的应用和性能特征。这些信息将帮助您更好地理解和应用 Whisper 项目。

总结

**Whisper通用语音识别模型总结**
**概述**:
Whisper是基于Transformer序列到序列模型的通用语音识别系统。它不仅用于语音识别,还能支持多语种语音识别、语音翻译和语种识别等任务。通过多任务学习的方式,它用一个模型替代了传统语音处理流水线的多个阶段,提高了效率。
**方法**:
采用Transformer架构,将多种任务联合为一组标记,使得一个模型可以涵盖多个语言相关任务。这减少了开发和维护的复杂性,并通过共同学习提高了模型的泛化能力。
**设置**:
Whisper支持Python 3.9.9及以上和PyTorch 1.10.1及更新的版本,并且通过pip命令可以轻松安装。此外,为了处理音频文件,还需要安装命令行工具ffmpeg。
**可用模型与语言**:
提供五种不同尺寸的模型,满足不同速度和准确性的需求。其中四种仅用于英文,而大型模型支持多语言。对于英文应用,小型模型表现出更好的性价比。
**性能**:
Whisper的性能通过Common Voice 15和Fleurs数据集进行了评估,大型-v3和大型-v2模型在多语言环境中展现了出色的识别能力。
**用法示例**:
1. **命令行**:易于使用的命令行工具支持直接转录音频文件,同时也支持语种检测和翻译等功能。
2. **Python API**:提供了Python库供用户越过命令行直接使用,可以加载模型,进行转录、语种检测和音频解码等操作,为用户提供了更高级的控制能力。
**总结**:
Whisper作为一种通用语音识别系统,凭借多任务训练的Transformer架构,不仅提供了高效的语音识别能力,还能执行语种识别和翻译等任务,为语音识别领域带来了新的便利和应用可能。无论是命令行还是Python API,都为开发者提供了简洁且功能强大的使用途径。

更新时间 2024-07-20