当前位置:AIGC资讯 > AIGC > 正文

神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---提高篇(附带打包好的程序)

上一篇文章介绍了怎么用OpenAI的翻译模型whisper实现语音转中字的基本操作,在文章中也明确了该操作存在的三个问题:

处理速度慢。 存在幻听现象,字幕准确度不太理想。 要安装比较多的环境才能运行,对一般用户不太友好。

本篇文章将逐一介绍解决这些遗留问题的方法,并把整个项目开源。

对于编程小白,可以直接跳到文章的最后下载作者打包好的语言转中字软件玩一玩。

1. 优化处理速度

在前面的文章中我们使用的whisper版本是OpenAI开源的原版,其处理速度确实也就那样。基础篇的测试中,在一台配置为CPU 5900X、GPU 4090的PC上使用几个不同的模型将一集接近24分钟的《工作细胞》(日语语音)转为英语字幕所花的时间如下表所示:

使用模型 tiny base small medium large GPU
识别速度(s) 240.86 252.37 193.85 224.00 291.68 CPU
识别速度(s) 1599.76 太慢了不测了 太慢了不测了 太

更新时间 2023-11-25