上一篇文章介绍了怎么用OpenAI的翻译模型whisper实现语音转中字的基本操作,在文章中也明确了该操作存在的三个问题:
处理速度慢。 存在幻听现象,字幕准确度不太理想。 要安装比较多的环境才能运行,对一般用户不太友好。本篇文章将逐一介绍解决这些遗留问题的方法,并把整个项目开源。
对于编程小白,可以直接跳到文章的最后下载作者打包好的语言转中字软件玩一玩。
1. 优化处理速度
在前面的文章中我们使用的whisper版本是OpenAI开源的原版,其处理速度确实也就那样。基础篇的测试中,在一台配置为CPU 5900X、GPU 4090的PC上使用几个不同的模型将一集接近24分钟的《工作细胞》(日语语音)转为英语字幕所花的时间如下表所示:
使用模型 tiny base small medium large GPU识别速度(s) 240.86 252.37 193.85 224.00 291.68 CPU
识别速度(s) 1599.76 太慢了不测了 太慢了不测了 太