当前位置:AIGC资讯 > AIGC > 正文

Whisper-Dictation:基于OpenAI语音转文本模型的开源录音转文字应用

Whisper-Dictation:基于OpenAI语音转文本模型的开源录音转文字应用

whisper_dictation Fast! Offline, privacy-focused, hands-free voice typing, 2-way AI voice chat, with images, voice control, in under 4 GiB of VRAM. 项目地址: https://gitcode.com/gh_mirrors/wh/whisper_dictation

1. 项目目录结构及介绍

Whisper-Dictation项目遵循标准的Python项目组织结构,并且包含了必要的配置文件与脚本。以下是其主要目录结构及各部分简要说明:

├── .gitignore           # Git忽略文件配置
├── LICENSE               # 许可证文件
├── README.md             # 项目的主要读我文件,包含概述和快速入门指南
├── pyproject.toml        # Python项目的配置文件,用于依赖管理和工具设置
├── poetry.lock           # 使用Poetry时的锁定文件,记录确切的依赖版本
├── requirements.txt      # 项目所需第三方库列表,非Poetry用户安装依赖所用
├── run.sh                # 脚本文件,用于运行应用程序
└── whisper-dictation.py  # 主程序入口文件,实现录音转换成文本的核心逻辑

2. 项目的启动文件介绍

项目的核心在于whisper-dictation.py文件,此文件作为应用的主入口。通过执行该脚本可以启动基于OpenAI Whisper ASR模型的实时或离线语音识别功能。用户可以通过命令行参数来定制化配置,例如选择不同的Whisper模型大小(如'base', 'large'等)、修改触发录音的热键组合以及指定识别语言等。

启动示例(使用大型模型,自定义热键为右Command+Shift,并设定语言为英语):

python whisper-dictation.py -m large -k cmd_r+shift -l en

3. 项目的配置文件介绍

Whisper-Dictation项目未直接提供一个传统意义上的独立配置文件。然而,配置项主要是通过命令行参数进行设置的,这可以视为一种灵活的“即时配置”方式。用户若需经常更改配置,可以通过编辑run.sh脚本来间接实现固定的配置加载,或者在调用whisper-dictation.py时手动添加参数。

尽管如此,对于环境依赖和版本管理,项目利用了pyproject.tomlpoetry.lock文件来标准化依赖的安装和环境的构建,这些是现代Python项目中的关键“隐形”配置文件,确保了项目的环境一致性。

通过上述介绍,开发者和用户能够清楚地了解到如何操作这个项目,从理解基本架构到启动应用再到定制个性化配置,每一个步骤都变得清晰易行。

whisper_dictation Fast! Offline, privacy-focused, hands-free voice typing, 2-way AI voice chat, with images, voice control, in under 4 GiB of VRAM. 项目地址: https://gitcode.com/gh_mirrors/wh/whisper_dictation

总结

**Whisper-Dictation项目总结**
**项目简介**:
Whisper-Dictation是一款基于OpenAI语音转文本模型的开源录音转文字应用,专注于快速、离线、隐私保护的免提语音输入,支持双向AI语音聊天、图像集成及语音控制,且对系统资源要求极低,仅需不到4GB的VRAM即可运行。
**核心特点**:
- **快速**:实时或离线语音识别,提升工作效率。
- **离线与隐私保护**:用户数据不依赖云端处理,确保隐私安全。
- **免提操作**:支持通过语音控制及自定义热键进行无接触操作。
- **灵活配置**:通过命令行参数轻松调整模型大小、触发键和语言设置。
- **资源优化**:轻量级设计,适应不同配置的设备。
**项目目录结构**:
- **.gitignore**:Git版本控制忽略文件列表。
- **LICENSE**:项目许可证文件。
- **README.md**:项目概述、功能介绍及快速入门指南。
- **pyproject.toml**:Python项目配置文件,管理依赖和工具设置。
- **poetry.lock**:依赖版本锁定文件,确保环境一致性。
- **requirements.txt**:非Poetry用户依赖列表。
- **run.sh**:运行脚本,方便一键启动应用。
- **whisper-dictation.py**:主程序入口,实现录音转文字的核心功能。
**启动与配置**:
- 通过执行`whisper-dictation.py`脚本启动应用,支持多种命令行参数以定制功能,如模型大小、触发热键和识别语言。
- 虽然没有传统意义上的独立配置文件,但可通过编辑`run.sh`脚本或手动添加命令行参数来实现配置固定化。
- 利用`pyproject.toml`和`poetry.lock`确保项目依赖和环境的一致性。
**项目地址**:
- [https://gitcode.com/gh_mirrors/wh/whisper_dictation](https://gitcode.com/gh_mirrors/wh/whisper_dictation)
**总结**:
Whisper-Dictation为开发者和用户提供了一款高效、便捷、隐私保护的语音转文字工具,通过灵活的配置选项和轻量级设计,满足了多种使用场景的需求。无论是个人笔记、会议记录还是创意激发,都能享受到前所未有的语音输入体验。

更新时间 2024-09-13