当前位置:AIGC资讯 > AIGC > 正文

不到百行代码,使用Whisper进行视频字幕生成。

前言

  最近在学习视频剪辑的时候,希望找一款软件进行翻译;发现大多数是调用某云的Api进行翻译。通过查询资料,打算使用Whisper进行本地视频语音的识别,然后进行字幕文件的编辑(srt),最后通过ffmpeg添加到视频中。
  Whisper 是 OpenAI 构建的通用语音识别模型。它于 2022 年底正式向公众发布,现已成为最先进的语音识别模型之一。可以进行多语言语音识别、语言翻译和语言识别。
  废话不多说,上代码。

一、安装

  Whisper需要用到英伟达显卡进行翻译,所以需要安装pytorch的cpu版本。

pip install torch --index-url https://download.pytorch.org/whl/cu118

安装openai-whisper模块

pip install -U openai-whisper

二、Whisper

根据自己显卡的显存大小,选择不同的whisper模型。

模型 要求的显存 速度 tiny 大于1GB ~32x base 大于1GB ~16x small 大于2GB ~6x medium 大于5GB ~2x large 大于10GB ~1x

1.下载模型

下载base模型到C:\Users\用户.cache\whisper

import whisper

model = whisper.load_model("base")

也可以指定下载路径

import whisper

model = whisper.load_model("base", download_root="路径")

2.视频语音识别

# 视频路径
video_path = "./Who are you.mp4"

更新时间 2024-03-10