whisper 第2页 - AIGC资讯

AI 音频/文本对话机器人：Whisper+Edge TTS+OpenAI API构建语音与文本交互系统（简易版）

文章目录前言思路：环境配置代码 1. 加载Whisper模型 2. 使用Whisper语音转文本 3. 使用OpenAI API生成文本进行智能问答 4. 实现文本转语音功能 5. 合并音频文件 6. 构建Gradio界面注意总...

生成式AI 2024-09-11 人工智能

1876阅读

TaskWhisperer 使用教程

TaskWhisperer 使用教程 taskwhispererTaskwhisperer is a extension for TaskWarrior Application https://taskwarrior.org. It is to dis...

生成式AI 2024-09-10 人工智能

1096阅读

openai whisper使用

whisper使用介绍 Whisper是一种通用的语音识别模型。它是在大量不同音频数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。 GitHub：https://github.com/openai/whisper...

生成式AI 2024-09-10 人工智能

1221阅读

开源项目 PaperWhisperer 指南

开源项目 PaperWhisperer 指南 paperwhispererAutomatic voice-synthetised summaries of latest research papers on arXiv项目地址:https://gitc...

人工智能 2024-09-09 人工智能

1043阅读

本地搭建和运行Whisper语音识别模型小记

搭建本地的Whisper语音识别模型可以是一个非常有用的项目，尤其是在需要离线处理语音数据的情况下。Whisper是OpenAI开发的一个开源语音识别模型，支持多语言和高效的转录能力。以下是详细的步骤来本地搭建和运行Whisper语音识别模型： 1....

人工智能 2024-09-07 人工智能

1627阅读

了解BitWhisper窃密技术：跨越气隙的隐秘数据窃取手段

在网络安全领域，气隙（Air-Gap）被视为保护敏感数据的终极防线。通过将计算机或网络物理隔离，使其无法连接到其他网络（尤其是互联网），气隙被广泛应用于保护极为敏感的信息，如军事指挥系统、金融系统、以及工业控制系统。然而，近年来出现了一种名为BitWhis...

大数据 2024-09-05 人工智能

1045阅读

HID-Joy-Con-Whispering 项目使用教程

HID-Joy-Con-Whispering 项目使用教程 HID-Joy-Con-WhisperingTalk to Joy-Con from a PC because it's cool项目地址:https://gitcode.com/gh_mir...

人工智能 2024-09-05 人工智能

1028阅读

如何在复杂对话中准确识别每位说话人的声音？OpenAI Whisper系统带来新突破，尽管在面对重叠声音时仍需进一步优化。

在复杂对话中准确识别每位说话人的声音是一个挑战，尤其是在面对重叠声音的情况下。OpenAI的Whisper系统虽然在自动语音识别（ASR）方面取得了显著进展，但在处理重叠声音时仍需进一步优化。 Whisper系统通过利用大规模预训练模型和弱监督学习来提取...

生成式AI 2024-09-05 人工智能

1009阅读

WhisperX: 带时间戳的自动语音识别及说话人分离

WhisperX: 带时间戳的自动语音识别及说话人分离 whisperXm-bain/whisperX: 是一个用于实现语音识别和语音合成的 JavaScript 库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的 API，...

大数据 2024-09-05 人工智能

2009阅读

使用OpenAI Whisper的说话人识别管道

使用OpenAI Whisper的说话人识别管道 whisper-diarizationAutomatic Speech Recognition with Speaker Diarization based on OpenAI Whisper项目地址:...

AIGC 2024-09-05 人工智能

1347阅读

大模型之二十七-语音识别Whisper实例浅析

Whisper简介 Whisper是OpenAI于2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而large-v3的标注数据超过了500万小时，其...

AIGC 2024-09-05 人工智能

2707阅读

Distil-Whisper 开源项目教程

Distil-Whisper 开源项目教程 distil-whisperDistilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1% wor...

AIGC 2024-09-04 人工智能

1105阅读

震撼发布！阿里通义FunAudioLLM：重塑自然语音交互新纪元，开源引领语音处理革命！

近年来，人工智能的进步如 GPT-4o 和 Gemini-1.5极大地改变了人与机器的互动方式，2023这种转变在语音处理领域尤为明显。阿里巴巴通义实验室近日发布并开源了 FunAudioLLM，这是一个旨在增强人与大型语言模型（LLMs）之间...

人工智能 2024-09-04 人工智能

1159阅读

推荐项目：Hugo Whisper 文档主题

推荐项目：Hugo Whisper 文档主题 hugo-whisper-themeWhisper is a minimal documentation theme for Hugo.项目地址:https://gitcode.com/gh_mirrors...

生成式AI 2024-09-04 人工智能

955阅读

探秘Whispers：守护代码安全的静态分析工具

探秘Whispers：守护代码安全的静态分析工具 whispersIdentify hardcoded secrets in static structured text项目地址:https://gitcode.com/gh_mirrors/wh/wh...

大数据 2024-09-03 人工智能

976阅读

WhisperX：革命性的自动语音识别工具

WhisperX：革命性的自动语音识别工具 whisperXm-bain/whisperX: 是一个用于实现语音识别和语音合成的 JavaScript 库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的 API，支持多种语音...

人工智能 2024-09-03 人工智能

1752阅读

Distil-Whisper：高效快速的语音识别模型

Distil-Whisper：高效快速的语音识别模型 distil-whisperDistilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1...

大数据 2024-09-02 人工智能

972阅读

WhisperX

文章目录一、关于 WhisperX 新闻 ? 二、设置⚙️ 1、创建Python3.10环境 2、安装PyTorch，例如Linux和Windows CUDA11.8： 3、安装此repo 4、Speaker Diarization 三、...

生成式AI 2024-08-31 人工智能

2063阅读

如何本地搭建Whisper语音识别模型

如何本地搭建Whisper语音识别模型如何本地搭建Whisper语音识别模型 1. 引言 Whisper模型简介本地搭建的意义和应用场景应用场景包括但不限于： 2. 环境准备系统要求 Python环境安装依赖库安装 3. 安...

AIGC 2024-08-31 人工智能

2676阅读

探索音频转文字的高效之道：whisper-rs项目解析与应用

探索音频转文字的高效之道：whisper-rs项目解析与应用 whisper-rsRust bindings to https://github.com/ggerganov/whisper.cpp项目地址:https://gitcode.com/gh_...

大数据 2024-08-30 人工智能

1221阅读

Whisper-TikTok 使用指南

Whisper-TikTok 使用指南 Whisper-TikTokFrom AI tools to TikTok video creation using FFMPEG, Microsoft Edge read aloud and OpenAI Wh...

人工智能 2024-08-29 人工智能

1324阅读

ubuntu系统编译whisper.cpp/talk-llama

1. 项目克隆到本地 git clone https://github.com/ggerganov/whisper.cpp 2. 编译 CPU 版本： sudo apt-get install libsdl2-dev cd whisper.cpp...

AIGC 2024-08-28 人工智能

933阅读

Whisper-Streaming：实时语音转写与翻译的革命性工具

Whisper-Streaming：实时语音转写与翻译的革命性工具 whisper_streamingWhisper realtime streaming for long speech-to-text transcription and transl...

AIGC 2024-08-28 人工智能

1725阅读

whisper安装

安装Whisper 首先需要下载ffmpeg并添加环境变量。打开网站：https://github.com/BtbN/FFmpeg-Builds/releases，选择压缩包并下载到本地。解压后，找到bin文件夹下的“ffmpeg.exe”，将它复...

AIGC 2024-08-28 人工智能

1265阅读

推荐使用：openai-whisper-talk —— 您的个人声音助手

推荐使用：openai-whisper-talk —— 您的个人声音助手 openai-whisper-talkopenai-whisper-talk is a sample voice conversation application powered...

AIGC 2024-08-25 人工智能

1003阅读

标题：微调Whisper模型，打造超高效语音识别利器！

标题：微调Whisper模型，打造超高效语音识别利器！ Whisper-FinetuneFine-tune the Whisper speech recognition model to support training without timesta...

AIGC 2024-08-25 人工智能

1130阅读

智能语音生成会议纪要的神器

嘿，技术爱好者们，今天我想分享一个令人兴奋的智能语音项目。它巧妙地结合了faster-whisper、Pyannote以及一系列先进的大语言模型，旨在为会议纪要的自动化生成带来新的可能。开发了一个智能语音生成会议纪要的神器在线体验：智能语音...

生成式AI 2024-08-24 人工智能

1724阅读

摩尔线程开源音频理解大模型MooER：38小时训练5000小时数据

快科技8月23日消息，摩尔线程官方宣布，音频理解大模型MooER”（摩耳）已经正式开源，并公布在GitHub上：https://github.com/MooreThreads/MooER 目前开源的内容包括推理代码，以及5000小时数据训练的模型，后续还将...

大数据 2024-08-24 人工智能

905阅读

WhisperS2T：加速语音转文本的高效解决方案

WhisperS2T：加速语音转文本的高效解决方案 WhisperS2TAn Optimized Speech-to-Text Pipeline for the Whisper Model Supporting Multiple Inference E...

生成式AI 2024-08-24 人工智能

1092阅读

WhisperX 安装与使用指南

WhisperX 安装与使用指南 whisperXm-bain/whisperX: 是一个用于实现语音识别和语音合成的 JavaScript 库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的 API，支持多种语音识别和语音...

AIGC 2024-08-23 人工智能

2509阅读

介绍 Whisper 模型

介绍 Whisper 模型 Whisper 是一个通用的语音识别模型。它在大规模多样化的音频数据集上进行训练，并且能够执行多任务处理，包括多语言语音识别、语音翻译和语言识别。核心方法 Whisper 使用的是 Transformer 序列到序列...

AIGC 2024-08-23 人工智能

1543阅读

使用Faster Whisper：提升你的音频处理效率和质量

使用Faster Whisper：提升你的音频处理效率和质量 faster-whisper项目地址:https://gitcode.com/gh_mirrors/fas/faster-whisper 该项目，，是一个开源的Python库，专为优化对...

大数据 2024-08-22 人工智能

1312阅读

Whisper Burn 开源项目教程

Whisper Burn 开源项目教程 whisper-burnA Rust implementation of OpenAI's Whisper model using the burn framework项目地址:https://gitcode.c...

AIGC 2024-08-22 人工智能

1137阅读

Whisper Android 项目使用教程

Whisper Android 项目使用教程 whisper_androidOffline Speech Recognition with OpenAI Whisper and TensorFlow Lite for Android项目地址:https...

人工智能 2024-08-22 人工智能

2249阅读

本地部署，Whisper: 开源语音识别模型

目录简介特点应用使用方法总结 GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak SupervisionRobust Speech Reco...

AIGC 2024-08-21 人工智能

1507阅读

本地化AI语音聊天voicechat2；改进版的Whisper模型，速度快50%；多代理创建儿童图画书

✨ 1: voicechat2 voicechat2是一款使用WebSockets进行快速、本地化AI语音聊天的软件。 Voicechat2 是一个快速、完全本地化的AI语音聊天系统，采用WebSockets技术。它运行在高性能硬件上，例如...

大数据 2024-08-19 人工智能

1023阅读

whisper+speaker.diarization.3.1实现根据说话人转文本

主要目的是复盘一下自己的第一个本地部署的代码。起因是老师布置的任务，想实现一个有关于教育场景的进行语音转录的模型。任务交给了本小白......好吧硬着头皮上，这篇博客也主要是记录自己的遇见的各种问题，以及对一些代码的改进。需要的小伙伴可以借鉴。一,语音...

AIGC 2024-08-17 人工智能

4398阅读

SenseVoice多语言语音理解模型之最新部署落地经验

SenseVoice是阿里云通义实验室开发的一款多语言音频基础模型，专注于高精度多语言语音识别、情感辨识和音频事件检测。 SenseVoice支持超过50种语言的识别，并且在中文和粤语上的识别效果优于Whisper模型，提升了50%以上。 SenseV...

AIGC 2024-08-16 人工智能

4291阅读

体验 Whisper ，本地离线部署自己的 ASR 语音识别服务

需求背景最近看视频，过几天后经常忘记内容，所以有了把重点内容总结提炼到自己知识库的需求，这涉及到了提取视频中的音频数据、离线语音识别等功能。提取视频中的音频数据，可以使用格式工厂或 FFmpeg 等工具， FFmpeg 可以使用命令 ffmpeg...

生成式AI 2024-08-16 人工智能

2525阅读

Whisper JAX 深度使用指南

Whisper JAX 深度使用指南 whisper-jaxJAX implementation of OpenAI's Whisper model for up to 70x speed-up on TPU.项目地址:https://gitcode....

AIGC 2024-08-14 人工智能

1432阅读

微调 Whisper 语音大模型

1.准备环境 #创建环境 conda create -n whisper python=3.10 -y source activate whisper #安装环境 conda install pytorch==2.1.0...

AIGC 2024-08-11 人工智能

1223阅读

阿里开源新语音模型，比OpenAI的Whisper更好！

阿里巴巴在Qwen-Audio基础之上，开源了最新语音模型Qwen2-Audio。 Qwen2-Audio一共有基础和指令微调两个版本，支持使用语音向音频模型进行提问并识别内容以及语音分析。例如，让一位女生说一段话，然后识别她的年纪或解读她的心情;发布一...

人工智能 2024-08-10 人工智能

1517阅读

【xinference】（3）：在autodl上，使用xinference部署whisper-tiny音频模型，并成功将语音转换成文本，测试成功，还支持音频直接翻译成英文

1，视频地址 https://www.bilibili.com/video/BV1Z7421K7vL/ 【xinference】（3）：在autodl上，使用xinference部署whisper-tiny音频模型，并成功将语音转换成...

生成式AI 2024-08-09 人工智能

2185阅读

基于Whisper+SparkAI+Pyttsx3实现全流程免费的语音交互

实现前后端语音交互的Demo 在现代Web应用中，语音交互越来越受到关注。它不仅能提升用户体验，还能为特定人群提供更多便利。本文将介绍如何实现一个前后端语音交互的Demo，涵盖音频录制、语音识别、语言模型生成回复和语音合成等步骤。文章目录...

AIGC 2024-08-08 人工智能

1346阅读

AI日报：GPT-4o新版本上线；面壁智能开源手机版“GPT-4V”；华为推3D数字人新框架EmoTalk3D；阿里上线奥运时刻海报工作流

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、开发者狂喜!GPT-4o新版本...

大数据 2024-08-07 人工智能

1044阅读

智能语音问答机器人本地部署win10--2024最新版（faster-whisper + Qwen1.5 + ChatTTS）

目录一、整体介绍 1.主要模块介绍 2.部署步骤概述二、语音识别-faster-whisper 1.安装faster-whisper 2.下载模型 3.准备一段语音文件 4.调用faster-whisper完成语音识别 5.接口分析（...

AIGC 2024-08-06 人工智能

2798阅读

比OpenAI的Whisper快50%，最新开源语音模型

生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa，推理效率比OpenAI开源的Whisper快50%。 aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法，允许模型在每个推理步骤中预测多个t...

人工智能 2024-08-04 人工智能

1033阅读

导出 Whisper 模型到 ONNX

前言在语音识别领域，Whisper 模型因其出色的性能和灵活性备受关注。为了在更多平台和环境中部署 Whisper 模型，导出为 ONNX 格式是一个有效的途径。ONNX（Open Neural Network Exchange）是一个开放格式...

AIGC 2024-08-03 人工智能

2035阅读

AI日报：谷歌推Gemini 1.5 Pro实验版本0801；图像生成开源模型FLUX1横空出世；极速3D图像生成模型Stable Fast 3D发布；阿里语音合成模型CosyVoice更新

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、谷歌推超强多模态模型实验版Ge...

大数据 2024-08-02 人工智能

976阅读

SenseVoice 实测，阿里开源语音大模型，识别效果和效率优于 Whisper，居然还能检测掌声、笑声！5分钟带你部署体验

前段时间，带着大家捏了一个对话机器人：手把手带你搭建一个语音对话机器人，5分钟定制个人AI小助手（新手入门篇）其中语音识别（ASR）方案，采用的是阿里开源的 FunASR，这刚不久，阿里又开源了一个更强的音频基础模型，该模型具有如下能力：语音识别...

人工智能 2024-08-01 人工智能

3365阅读