1.最好用python3.9以上的版本
2.安装whisper库
pip install -U openai-whisper
输入whisper查看是否安装成功
3.下载ffmpeg并添加环境变量
Releases · BtbN/FFmpeg-Builds (github.com)
下载成功后,配置环境变量,右键我的电脑->属性->高级系统设置->环境变量->系统变量->Path
将bin目录的地址添加进来
然后检查是否成功 win+R cmd,输入ffmpeg,显示如下,则安装成功
3.Whisper主要是基于Pytorch实现,所以需要在安装有pytorch的环境中使用。
安装pytorch
pip3 install torch torchvision torchaudio
4.安装zhconv,将繁体字转换为简体字
pip install zhconv
5.测试
写一段代码
import whisper
import zhconv
model = whisper.load_model("base", "cpu")
mps_path = r"1.mp3"
result = model.transcribe(mps_path, fp16=False, language='Chinese')
s = result["text"]
s1 = zhconv.convert(s, 'zh-cn')
print(s1)
运行,报错,错误信息:
FileNotFoundError: [WinError 2] 系统找不到指定的文件。
参考https://blog.csdn.net/zdm_0301/article/details/133854913?spm=1001.2014.3001.5506
感谢这位博主,成功解决这个给问题,把参数改为true后,重启电脑,运行成功
没有做分词操作,后续继续处理,总体识别还是不错的。
总结
本文是一篇技术操作指南,主要介绍了如何配置环境以使用OpenAI的Whisper库,一个基于Pytorch开发的语音识别模型,以及如何处理中文语音识别过程中的一些常见问题。以下是对文章的总结:### 环境需求与设置
1. **Python版本**:推荐使用Python 3.9及以上版本来确保兼容性。
2. **安装Whisper库**:
- 使用`pip install -U openai-whisper`命令来安装最新的OpenAI Whisper库。
- 安装完成后,通过命令行输入`whisper`检查是否安装成功。
3. **配置ffmpeg**:
- 从GitHub (btbN/FFmpeg-Builds) 下载ffmpeg的适配版本,并解压。
- 配置环境变量,将ffmpeg的`bin`目录添加到系统的Path环境变量中。
- 在命令提示符输入`ffmpeg`检查是否配置成功。
4. **安装Pytorch**:
- 使用`pip3 install torch torchvision torchaudio`命令来安装Pytorch以及相关的视觉和音频库,确保能在支持的环境中运行Whisper。
5. **安装zhconv库**:
- 使用`pip install zhconv`命令安装zhconv库,以便后续将识别出的繁体字转换为简体字。
### 测试语音识别
1. **编写测试代码**:
- 导入whisper和zhconv库。
- 加载基础模型至CPU(或GPU,取决于硬件配置)。
- 指定待识别的音频文件路径。
- 使用模型进行转录,并指定语言为中文。
- 将识别出的文本从繁体字转换为简体字并打印。
2. **处理常见错误**:
- 遇到`FileNotFoundError`错误时,确保音频文件路径正确无误。
- 根据错误提示和参考文章,调整参数并重启电脑后,成功执行代码。
### 实验结果与后续处理
- 识别效果总体不错,但需要进一步进行分词操作以提高处理后的文本质量。
- 文章还提到了感谢某博主提供的解决方案帮助解决了`FileNotFoundError`问题。
### 结论
本文通过详细的步骤指导用户如何配置环境、安装必要的库,以及如何通过Whisper库来实现中文语音识别,并提供了解决常见错误的方法。整个过程涵盖了从基础环境搭建到实际测试的全过程,同时也提出了后续处理的建议。