最近chatGPT很火,就去逛了一下openai的github项目。发现了这个项目。
这个项目可以识别视频中的音频,转换出字幕。
带着一颗好奇的心就尝试自己去部署玩一玩
跟着这篇文章一步步来进行安装,并且跟着这篇文章解决途中遇到的问题。
途中还会遇到几个问题:总结一下:
1、下载cuDNN时会提示叫你登录Navia的账号,我登录的时候发现内地、香港、新加坡的IP登录不了nvdia-develop的官网,换成美国IP则很顺利。这。。。。
2、Ptyhton版本别使用太高的,防止后续pip找不到相关的版本。我原本使用的3.11,后面因为提示找不到相应的版本,换成3.10解决
3、pip运行whisper还会提示缺少一些依赖,直接pip install相关依赖来解决问题
使用效果:
自己的电脑不知道为啥运算很慢,只有百来K每秒,尝试使用CPU或者GPU的参数,速度始终提不上去。CPU以及GPU的利用率也很低很低。我使用的cuda版本为11.8.
识别效果,简单的用了下tiny模式,发现虽然识别有错误,但是的确识别出来了。静等openai更新后续版本再试试效果
![在这里插入图片描述](https://img-blog.csdnimg.cn/0438698ab3c942189a5dad7bf9860f89.png#pic_center