asr - AIGC资讯

开源语音实时交互新突破：LLaMA-Omni实现大语言模型无缝语音交互

像 GPT-4o 这样的模型通过语音实现了与大型语言模型（LLMs）的实时交互，与基于文本的传统交互相比，显著提升了用户体验。然而，目前在如何构建基于开源 LLMs 的语音交互模型方面仍缺乏探索。为了解决这个问题，我们提出了 LLaMA-Omni，这是一个...

生成式AI 2024-10-04 人工智能

1741阅读

中科院提出GPT-4o实时语音交互的开源对手：Llama-Omni

论文：LLaMA-Omni: Seamless Speech Interaction with Large Language Models地址：https://arxiv.org/pdf/2409.06666 研究背景研...

生成式AI 2024-10-01 人工智能

1390阅读

Insanely Fast Whisper CLI 项目教程

Insanely Fast Whisper CLI 项目教程 insanely-fast-whisper-cli The fastest Whisper optimization for automatic speech recognition a...

AIGC 2024-10-01 人工智能

1463阅读

Whisper ASR Webservice 使用教程

Whisper ASR Webservice 使用教程 whisper-asr-webserviceOpenAI Whisper ASR Webservice API项目地址:https://gitcode.com/gh_mirrors/wh/whis...

AIGC 2024-09-30 人工智能

1855阅读

Insanely Fast Whisper CLI 使用教程

Insanely Fast Whisper CLI 使用教程 insanely-fast-whisper-cli The fastest Whisper optimization for automatic speech recognition a...

人工智能 2024-09-27 人工智能

1914阅读

Whisper-CPP：CPU-AI语音识别的天才，CosyVoice - 阿里最新开源语音克隆、文本转语音项目一键整合包下载，GPT-4o实时语音方案Livekit开源voice agent音视频

Whisper-CPP：CPU-AI语音识别的天才，CosyVoice - 阿里最新开源语音克隆、文本转语音项目一键整合包下载，GPT-4o实时语音方案Livekit开源voice agent音视频。使用Streamlit和wheaster.CP...

生成式AI 2024-09-25 人工智能

1603阅读

AIGC实践——asr识别FunASR手把手部署流程

? 大家好，我是可夫小子，《小白玩转ChatGPT》专栏作者，关注AIGC、互联网和自媒体。 FunASR是什么？ FunASR 是一个基本的语音识别工具包，提供多种功能，包括语音识别 (ASR 、语音活动检测 (VAD 、标点符号恢复、语言模型...

AIGC 2024-09-15 人工智能

4344阅读

如何在复杂对话中准确识别每位说话人的声音？OpenAI Whisper系统带来新突破，尽管在面对重叠声音时仍需进一步优化。

在复杂对话中准确识别每位说话人的声音是一个挑战，尤其是在面对重叠声音的情况下。OpenAI的Whisper系统虽然在自动语音识别（ASR）方面取得了显著进展，但在处理重叠声音时仍需进一步优化。 Whisper系统通过利用大规模预训练模型和弱监督学习来提取...

生成式AI 2024-09-05 人工智能

1008阅读

使用OpenAI Whisper的说话人识别管道

使用OpenAI Whisper的说话人识别管道 whisper-diarizationAutomatic Speech Recognition with Speaker Diarization based on OpenAI Whisper项目地址:...

AIGC 2024-09-05 人工智能

1347阅读

Distil-Whisper 开源项目教程

Distil-Whisper 开源项目教程 distil-whisperDistilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1% wor...

AIGC 2024-09-04 人工智能

1105阅读

震撼发布！阿里通义FunAudioLLM：重塑自然语音交互新纪元，开源引领语音处理革命！

近年来，人工智能的进步如 GPT-4o 和 Gemini-1.5极大地改变了人与机器的互动方式，2023这种转变在语音处理领域尤为明显。阿里巴巴通义实验室近日发布并开源了 FunAudioLLM，这是一个旨在增强人与大型语言模型（LLMs）之间...

人工智能 2024-09-04 人工智能

1159阅读

WhisperX：革命性的自动语音识别工具

WhisperX：革命性的自动语音识别工具 whisperXm-bain/whisperX: 是一个用于实现语音识别和语音合成的 JavaScript 库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的 API，支持多种语音...

人工智能 2024-09-03 人工智能

1751阅读

WhisperX

文章目录一、关于 WhisperX 新闻 ? 二、设置⚙️ 1、创建Python3.10环境 2、安装PyTorch，例如Linux和Windows CUDA11.8： 3、安装此repo 4、Speaker Diarization 三、...

生成式AI 2024-08-31 人工智能

2063阅读

摩尔线程开源音频理解大模型MooER：38小时训练5000小时数据

快科技8月23日消息，摩尔线程官方宣布，音频理解大模型MooER”（摩耳）已经正式开源，并公布在GitHub上：https://github.com/MooreThreads/MooER 目前开源的内容包括推理代码，以及5000小时数据训练的模型，后续还将...

大数据 2024-08-24 人工智能

904阅读

AI日报：新壹视频大模型2.0发布；LivePortrait支持用图片控制动画；OpenAI推GPT-4o模型微调功能；免费无水印！AI视频Hotshot最长可生成10秒

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、新壹视频大模型2.0发布:支持...

人工智能 2024-08-21 人工智能

1003阅读

whisper+speaker.diarization.3.1实现根据说话人转文本

主要目的是复盘一下自己的第一个本地部署的代码。起因是老师布置的任务，想实现一个有关于教育场景的进行语音转录的模型。任务交给了本小白......好吧硬着头皮上，这篇博客也主要是记录自己的遇见的各种问题，以及对一些代码的改进。需要的小伙伴可以借鉴。一,语音...

AIGC 2024-08-17 人工智能

4397阅读

SenseVoice多语言语音理解模型之最新部署落地经验

SenseVoice是阿里云通义实验室开发的一款多语言音频基础模型，专注于高精度多语言语音识别、情感辨识和音频事件检测。 SenseVoice支持超过50种语言的识别，并且在中文和粤语上的识别效果优于Whisper模型，提升了50%以上。 SenseV...

AIGC 2024-08-16 人工智能

4289阅读

体验 Whisper ，本地离线部署自己的 ASR 语音识别服务

需求背景最近看视频，过几天后经常忘记内容，所以有了把重点内容总结提炼到自己知识库的需求，这涉及到了提取视频中的音频数据、离线语音识别等功能。提取视频中的音频数据，可以使用格式工厂或 FFmpeg 等工具， FFmpeg 可以使用命令 ffmpeg...

生成式AI 2024-08-16 人工智能

2523阅读

The Llama 3 Herd of Models 第8部分语音实验部分全文

第1,2,3部分，介绍、概览、预训练第4部分，后训练第5部分，结果第6部分，推理第7部分，视觉实验 8 Speech Experiments 我们进行了实验来研究将语音功能集成到Llama 3中的组合方法，类似于我们用于...

生成式AI 2024-08-13 人工智能

913阅读

SenseVoice 实测，阿里开源语音大模型，识别效果和效率优于 Whisper，居然还能检测掌声、笑声！5分钟带你部署体验

前段时间，带着大家捏了一个对话机器人：手把手带你搭建一个语音对话机器人，5分钟定制个人AI小助手（新手入门篇）其中语音识别（ASR）方案，采用的是阿里开源的 FunASR，这刚不久，阿里又开源了一个更强的音频基础模型，该模型具有如下能力：语音识别...

人工智能 2024-08-01 人工智能

3365阅读

Linux系统上部署Whisper。

Whisper是一个开源的自动语音识别（ASR）模型，最初由OpenAI发布。要在本地Linux系统上部署Whisper，你可以按照以下步骤进行： 1. 创建虚拟环境为了避免依赖冲突，建议在虚拟环境中进行部署。创建并激活一个新的虚拟环境：如果不...

生成式AI 2024-07-31 人工智能

2113阅读

音频转文字哪家强？faster-whisper还是paddlespeech,我的折腾吐槽记录

前言作为一个魔武双修的python程序员，面对产品小姐姐提出的需求。我只能迎难而上。目前开源的音频转文字都有哪些？效果如何？速度怎么样？带着这一连串的问题，我在github的海洋里畅游良久。接下来我把我的发现都记录如下。 1. paddles...

人工智能 2024-07-29 人工智能

1452阅读

快速微调 Whisper 模型：LoRA 加速版

快速微调 Whisper 模型：LoRA 加速版简述在当今的AI世界中，模型的大小和复杂性已成为性能的关键驱动力。然而，这也带来了新的挑战：如何在有限的资源下对大型模型进行有效且高效的微调？现在，借助开源项目——Faster Whisper Fine...

AIGC 2024-07-23 人工智能

1345阅读

阿里开源语音大模型：SenseVoice 识别，语音识别效果和性能强于 Whisper，还能检测掌声、笑声、咳嗽等！

阿里开源语音大模型：语音识别效果和性能强于 Whisper，还能检测掌声、笑声、咳嗽等！原创 kakuqo AI真好玩 2024年07月06日 10:21 福建语音识别技术在人工智能（AI）领域扮演着至关重要的角色，它不仅是人机交互的基石，也是推动...

人工智能 2024-07-22 人工智能

2350阅读

【小沐学AI】Python实现语音识别（whisperX）

文章目录 1、简介 1.1 whisper 1.2 whisperX 2、安装 2.1 安装cuda 2.2 安装whisperX 结语 1、简介 1.1 whisper https://arxiv.org/pdf/2...

AIGC 2024-07-05 人工智能

1337阅读

AI日报：GPTs靠边站！Claude推全新功能Projects；Figma大更新！AI设计几秒成稿；阿里Qwen-2稳夺全球开源大模型榜首

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、Claude推类GPTs功能P...

AIGC 2024-06-27 人工智能

903阅读

开源项目推荐：openai-whisper-talk —— 智能语音对话新时代

开源项目推荐：openai-whisper-talk —— 智能语音对话新时代项目地址:https://gitcode.com/supershaneski/openai-whisper-talk 在语音交互的前沿领域，有一颗璀璨的新星正在升起——op...

AIGC 2024-06-24 人工智能

1181阅读

Whisper-AT：抗噪语音识别模型（Whisper）实现通用音频事件标记（Audio Tagger）

本文介绍一个统一音频标记（Audio Tagger）和语音识别（ASR）的模型：Whisper-AT，通过冻结Whisper的主干，并在其之上训练一个轻量级的音频标记模型。Whisper-AT在额外计算成本不到1%的情况下，可以在单次前向传递...

大数据 2024-06-18 人工智能

1408阅读

Whisper.cpp本地化：Windows端部署详解与实操

简介什么是Whisper？ OpenAI的Whisper是一个自动语音识别（ASR）系统，它经过了大量多语言和多任务的监督数据训练，能够进行多语言语音识别、语音翻译和语言识别等任务。Whisper模型使用了一个编码器-解码器的Transforme...

人工智能 2024-06-18 人工智能

2190阅读

AI绘画数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源！

最近在搞克隆人，发现一个很好的声音克隆项目，测试了一下，效果真不错，可以直接用，也可以微调后使用，好了废话不多说，直接上干活，哈哈~~ 首先这次直接说项目工具：GPT-SoVITS （安装包下载请看文末扫描获取）项目功能介绍：零样本文本到语音...

人工智能 2024-06-17 人工智能

1592阅读

探秘Whisper Diarization：语音转文字与对话分割的新锐工具

探秘Whisper Diarization：语音转文字与对话分割的新锐工具项目地址:https://gitcode.com/MahmoudAshraf97/whisper-diarization 项目简介 Whisper Diarization 是...

生成式AI 2024-06-15 人工智能

1386阅读

【V831】智能语音对话：语音识别、文心一言回答、语音合成

1、实验设备 01科技的V831 2、总体概述按下按键，蓝灯亮起，开始定时录音，录音结束，蓝灯熄灭。接着，通过百度的语音识别API进行语音转文字，得到文字后通过百度的文心一言API进行回答，得到的回答通过百度的语音合成API把回答的文字合成为音...

人工智能 2024-06-15 人工智能

1188阅读

开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（一）

一、前言语音转文本技术具有重要价值。它能提高信息记录和处理的效率，使人们可以快速将语音内容转换为可编辑、可存储的文本形式，方便后续查阅和分析。在教育领域，可帮助学生更好地记录课堂重点；在办公场景中，能简化会议记录工作。同时，该技术也为残障人士提...

AIGC 2024-06-06 人工智能

818阅读

开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（二）

一、前言语音转文本技术具有重要价值。它能提高信息记录和处理的效率，使人们可以快速将语音内容转换为可编辑、可存储的文本形式，方便后续查阅和分析。在教育领域，可帮助学生更好地记录课堂重点；在办公场景中，能简化会议记录工作。同时，该技术也为残障人士提...

AIGC 2024-06-06 人工智能

931阅读

利用 NVIDIA Riva 快速部署企业级中文语音 AI 服务并进行优化加速

一、Riva 概览 1. Overview Riva 是 NVIDIA 推出的一款 SDK，用于实时的 Speech AI 服务。它是一个高度可定制的工具，并且使用 GPU 进行加速。NGC 上提供了很多预训练好的模型，这些模型开箱即用，可以直接使用...

大数据 2024-06-05 人工智能

1073阅读

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 - 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某...

生成式AI 2024-06-03 人工智能

840阅读

助力全球人工智能伦理建设马上消费AI防伪大模型成功入选联合国ITU AI for Good 全球案例集

随着Chat GPT等生成式人工智能技术快速发展，如何更加高效地使用以及监管AI应用，已成为全球科技界关注的核心议题之一。近日，联合国旗下国际电信联盟（ITU）在瑞士日内瓦召开2024人工智能向善全球峰会AI for Good，公布全球TOP40案例...

大数据 2024-05-31 人工智能

929阅读

Spring Boot与百度AI语音识别API集成实践

本专题系统讲解了如何利用SpringBoot集成音频识别技术，涵盖了从基础配置到复杂应用的方方面面。通过本文，读者可以了解到在智能语音填单、智能语音交互、智能语音检索等场景中，音频识别技术如何有效提升人机交互效率。无论是本地存储检索，还是云服务的集成，丰...

AIGC 2024-05-31 人工智能

1200阅读

在树莓派上运行语音识别和LLama-2 GPT!

目前，绝大多数大模型运行在云端服务器，终端设备通过调用api的方式获得回复。但这种方式有几个缺点：首先，云api要求设备始终在线，这对于部分需要在无互联网接入的情况运行的设备很不友好；其次，云api的调用需要消耗流量费，用户可能不想支付这部分费用；最后，如...

人工智能 2024-05-28 人工智能

1109阅读

换了30多种方言，我们竟然没能考倒中国电信的语音大模型

不管你来自哪个城市，相信在你的记忆中，都有自己的「家乡话」:吴语柔软细腻、关中方言质朴厚重、四川方言幽默诙谐、粤语古雅潇洒…… 某种意义上说，方言不只是一种语言习惯，也是一种情感连接、一种文化认同。我们「上网冲浪」遇到的新鲜词汇中，有不少就是来自各地方言。...

人工智能 2024-05-27 人工智能

927阅读

基于Whisper语音识别的实时视频字幕生成 (一): 流式播放视频帧和音频帧

Whishow 一款基于python的音视频在线播放器 1. 安装 pip install whishow 2. 用法示例 1: 简单上手 cmd: python -m whishow <video_path_...

人工智能 2024-05-26 人工智能

860阅读

FastGPT 调用本地Whisper模型进行语音转文字

目录一、部署Whisper模型。二、oneapi配置三、修改镜像中的webservice.py文件，开放跨域请求。四、修改FastGPT代码修改 FastGPT地址:https://github.com/labring/FastGP...

AIGC 2024-05-25 人工智能

2229阅读

蚂蚁多模态团队在视频多模态方向的技术探索

一、概述视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向，一个是视频-文本的语义检索，另外一个是视频-视频的同源检索。视频-文本的语义检索方向旨在通过文本检索与其语义相近的视频，其检索文本未必在检索到的视频描述中直接出现，但检...

大数据 2024-05-21 人工智能

897阅读

谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

今年 2 月，谷歌上线了多模态大模型 Gemini1.5，通过工程和基础设施优化、MoE 架构等策略大幅提升了性能和速度。拥有更长的上下文，更强推理能力，可以更好地处理跨模态内容。本周五，Google DeepMind 正式发布了 Gemini 1.5...

人工智能 2024-05-20 人工智能

823阅读

网易集团高级副总裁胡志鹏：AI 游戏新链路，端侧大模型大有可为

5月7日，MediaTek天玑开发者大会2024（MDDC2024）在深圳召开，本届MDDC 大会的主题为“AI予万物”，众多资深行业先驱、技术专家齐聚一堂，深入探讨了Al 技术在各个领域的应用和发展，以及AI 赋予终端侧的更多可能性。在MDDC天玑高峰...

AIGC 2024-05-07 人工智能

971阅读

Android 手机部署whisper 模型

Whisper 是什么？ “Whisper” 是一个由OpenAI开发的开源深度学习模型，专门用于语音识别任务。这个模型能够将语音转换成文本，支持多种语言，并且在处理不同的口音、环境噪音以及跨语言的语音识别方面表现出色。Whisper模型的目标是提供一...

人工智能 2024-04-02 人工智能

1318阅读

Whisper-AT:一个统一语音识别和音频标签的模型

公众号/视频号/小红书/微博：人工智能技术派人工智能技术派(AITECH 成员：hws ⎣语音大模型⎤ Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong...

人工智能 2024-03-28 人工智能

1118阅读

苹果再发多模态论文！陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗？

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）全面发力AI的苹果，再出新研究！随着人工智能技术的发展，我们熟悉的“Hey Siri”或将成为历史。苹果团队最新出炉的论文《利用大型语言模型进行设备指向性语音检测的多模...

人工智能 2024-03-26 人工智能

876阅读

Fastwhisper + Pyannote 实现 ASR + 说话者识别

文章目录前言一、faster-whisper简单介绍二、pyannote.audio介绍三、faster-whisper + pyannote.audio 实现语者识别四、多说几句前言最近在研究ASR相关的业务，也...

AIGC 2024-03-24 人工智能

1554阅读

本地部署whisper模型（语音转文字）

Whisper是 OpenAI 2022年发布的一款语音预训练大模型，集成了多语种ASR、语音翻译、语种识别的功能。 Whisper使用弱监督训练的方法，可以直接进行多任务的学习 1. 安装ffmpeg 1.1 更新yum yum update...

人工智能 2024-03-22 人工智能

922阅读