如何一键生成字幕，如何快速处理生肉资源？借助whisper语音识别系统生成.srt字幕文件手把手教学在Windows、CPU版本下whisper的安装与使用，快速上手！

一.前言二.本机环境三.安装步骤：步骤1：下载Git并添加环境变量步骤2：下载ffmpeg并添加环境变量步骤3：安装pytorch 步骤4：安装whisper 四.whisper的应用应用1：识别mp3歌曲中的歌词应用2：识别mp4视频文件，以MV歌曲和英文TED演讲为例进行测试 ① whisper识别MV歌曲 ② whisper识别TED英文演讲应用3：whisper识别生成文件.srt字幕的使用五.结语

一.前言

Whisper是Open AI开源的语音识别网络，支持98中语言，用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别，将无字幕的视频资源自动生成字母，极大方便了用户。同时，whisper可以在本地运行，充分保障了个人隐私。在识别方面也具有较准确的识别能力。
因此想通过本文对whisper的安装和使用进行说明，希望能对正在学习的伙伴给予参考。

二.本机环境

本设备基于Python环境：3.8.1，pip：23.0.1，torch：2.0.0+cpu

三.安装步骤：

步骤1：下载Git并添加环境变量

1.在以下网址进行安装Git：

https://git-scm.com/download/win

安装过程只需无脑点next，直至安装成功。

win+R进入cmd控制台输入git，若显示如下，则表示安装成功！

若显示’git’ 不是内部或外部命令，也不是可运行的程序，则未安装成功

2.找到git.exe所在的位置，一般在bin下，本机为：

D:\Program Files\Git\bin

3.将git添加到环境变量中
win+R输入Sysdm.cpl进入环境变量配置

双击path

新建一个环境变量路径，填入所找到的git.exe所在的路径

步骤2：下载ffmpeg并添加环境变量

下载地址：

https://github.com/BtbN/FFmpeg-Builds/releases

1.选择 ffmpeg-master-latest-win64-gpl-shared.zip 版本点击下载

2.找到ffmpeg.exe所在的位置，一般在bin下，本机为：

D:\ffmpeg\ffmpeg-master-latest-win64-gpl-shared\bin

3.将ffmpeg添加到环境变量中
win+R输入Sysdm.cpl进入环境变量配置

步骤3：安装pytorch

进入PyTorch官方网站：

https://pytorch.org/

选择cpu版本，最下面一行会提供一个pip命令用于安装torch

这里有个注意点：在原命令基础上加入参数 -i [镜像源地址]，即可把国外的源换成国内源，可以极大程度上加快下载速度，命令如下：

pip3 install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

步骤4：安装whisper

在以上步骤均完成后，即可安装whisper，分别执行以下命令：

pip install git+https://github.com/openai/whisper.git

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

至此，whisper的安装步骤就全部结束了。

四.whisper的应用

应用1：识别mp3歌曲中的歌词

在音频所在文件夹的空白处按住shift，然后鼠标右键单击，打开powershell窗口，如图：

进入PowerShell后，输入命令：whisper + [你需要识别的音频]，就可以开始识别了，首次识别时会先下载模型文件，如图：

这里以识别歌曲爱在天际.mp3 为例，在PowerShell中输入：

whisper 爱在天际.mp3

识别结果如下：

需要注意的是，在不添加任何参数的情况下，whisper默认以其small模型进行训练。官方的模型有以下几种，分别为tiny、base、small、medium、large。各模型的大小以及速度对比如下图所示：

我们该如何选择其他模型进行语音识别呢？只需在命令后面加入参数即可，如我们要用medium模型识别爱在天际.mp3，只需在PowerShell中输入：

whisper 爱在天际.mp3 --model medium

同样，在首次使用模型的情况下，会先自动下载模型文件，再对音频进行识别

那我们下载的模型会存储在哪里呢？具体位置为

C:\Users[你的用户名].cache\whisper

以本机为例，在以下目录下即可找到所下载的模型文件：

当语音识别完成以后会在相应的目录下生成.vtt .json .str .tsv .txt 文件，其中 .srt 为字幕文件：

对.json .tsv .txt .vtt 文件进行对比：

应用2：识别mp4视频文件，以MV歌曲和英文TED演讲为例进行测试

① whisper识别MV歌曲

识别的操作和命令与.mp3文件的识别无异，命令均为 whisper + [待识别的文件名]
MV：念风及你.mp4识别结果如下：

同样，识别结束后生成了以下文件

② whisper识别TED英文演讲

识别结果可以看出，英文的识别也是毫无压力，识别准确率高：

应用3：whisper识别生成文件.srt字幕的使用

我们对音频识别产生的字幕文件该如何使用呢？
这里借助一个视频软件PotPlayer，该视频软件可以方便的读取.srt文件，在双击文件后就能自动将字幕与原视频对应上。PotPlayer下载地址：

http://potplayer.tv/?lang=zh_CN

PotPlayer安装完成后，接下来只需直接双击.srt文件即可。最后我们来看看字幕效果吧！

爱在天际.mp3

念风及你.mp4

TED演讲：如何有效地学习.mp4

五.结语

从不同的测试结果可以看到，whisper的识别效果还是不错的，最后的字幕的显示结果也讨人欢喜。小伙伴们在使用的过程中也可以尝试使用whisper不同大小的模型进行识别，来提高识别的准确率哦！
当然在具体安装和配置环境的过程中，我还是遇到了不少的问题的，感兴趣的小伙伴可看看我的上一篇博客的踩坑点，希望可以有效的帮助到大家。博客链接我放在下面啦。
最后，特别感谢我同学zeyu对我的帮助！
当然，也感谢大家的大力支持，你们的支持是我前进的最大动力，欢迎大家在评论区积极讨论哦~

链接<点击进入>：我的上一篇博客之whisper踩坑与解决

如何一键生成字幕，如何快速处理生肉资源？借助whisper语音识别系统生成.srt字幕文件 手把手教学在Windows、CPU版本下whisper的安装与使用，快速上手！

目录