概述
到目前,GPT只能去接收文本的输入,但是在现实的生活当中,会有语音的需求 GPT也有相关的能力接入,我们就需要一个能够将语音内容转换成文本的能力 当然其他第三方的软件或者接口也是支持这个功能 在 Open AI 有一个语音转文本的模型叫做 whisper 在 Open AI 它的官方网站当中,在左侧可以看到有一个 Audio 关于音频的API 文档: https://platform.openai.com/docs/api-reference/audio/create-transcription 接口: https://api.openai.com/v1/audio/transcriptions 可以看到它的参数 file 参数,必选,file类型,支持 mp3,mp4,mpeg,mpga,m4a,wav,or webm. model 参数,必选,string 类型,目前仅支持 whisper-1 prompt 参数,可选,string 类型 response_format 参数,可选,string 类型 temperature 参数,可选,number 类型 默认 0 language 参数,可选,string 类型 … 与其他的音频转文本的方法或者工具不同的是 Open AI 允许我们去输入 Prompt 这个 Prompt 就是对于我们音频的一个介绍 举个例子,我们的音频是计算机相关的论文,或者法学,医学相关的论文 在这些论文当中,可能会有很多的特有的专业的名词 如果我们按照正常行的音频翻译的话,有可能得到的并不是我们想要的结果 但是 Open AI 不一样,我们在进行 whisper 调用的时候,可以去向它发送 Prompt 这里 Prompt 就是对音频的介绍,我们可以清晰的告诉 GPT,我们的音频是哪个领域,哪个方向 然后研究是的是什么的内容等,这样可辅助GPT对音频的内容进行分析转换成较准确的相关的文本,提升转换的质量 response_format 是对于输出进行一个格式化,默认是 Json 这是和音频相关的接口代码
whisper_example.py
# -*- coding: utf-8
import os
import openai
openai.api_key = "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"
openai.proxy="http://127.0.0.1:7890"
audio_file = open("test.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file, prompt=r"这是一篇机器学习相关的公开课")
print(transcript['text'])