asr 第2页 - AIGC资讯

AIGC赋能，天猫精灵、华米科技“抢跑”智能穿戴

随着国内外AI大模型研发的持续井喷，AIGC已经从理论走向了应用。近两年，AIGC技术正在加速迈向更加多元化的应用场景，开始和越来越多的智能终端结合。尤其是从智能手机到智能家居，从智能汽车到智能可穿戴设备，各类智能终端都纷纷开始拥抱AI大模型。智能硬件...

AIGC 2024-03-21 人工智能

858阅读

Discuz!采集附件的深入分析与实践应用

Discuz!作为一款开源的论坛软件，从推出以来就一直深受用户和开发者喜爱，多年的持续发展使它拥有丰富的功能组件，足以应对多元的网站需求。但万变不离其宗，用户的内容始终是一个社区网站的精髓所在，从基本的帖子交流，到多元化文件的交流互动，实现高效的媒体信息互...

大数据 2024-03-11 大数据

801阅读

基于Discuz采集插件的开发与应用探析

在互联网高速发展的时代，信息收集和整理对于各个网站与社区尤为重要。作为国内颇受欢迎的论坛软件系统，Discuz因其开放性及强大的用户基数成为了众多网站运营者的首选。在此基础上，Discuz插件的应用也愈发广泛，特别是在内容采集方面。本文将重点针对Discu...

生成式AI 2024-03-09 大数据

817阅读

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

最近，OpenAI 的视频生成模型 Sora 爆火，生成式 AI 模型在多模态方面的能力再次引起广泛关注。现实世界本质上是多模态的，生物体通过不同的渠道感知和交换信息，包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知...

AIGC 2024-03-04 人工智能

785阅读

高通推出AI Hub，方便开发者在设备上访问和下载AI模型

随着在个人设备上的设备 AI 变得更加普及。在世界移动通信大会上，高通推出了一款工具AI Hub，简化了开发人员如何将 AI 模型直接下载到测试设备上的过程。新的高通 AI Hub 包含了一个库，其中包含超过75个生成式 AI 模型，开发人员可以轻松地...

AIGC 2024-02-27 人工智能

951阅读

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

AI视频模型Sora爆火之后，Meta、谷歌等大厂纷纷下场做研究，追赶OpenAI的步伐。最近，来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。它能够通过单一冻结模型，处理各种视频理解任务。图片论文地址：https://a...

大数据 2024-02-26 人工智能

886阅读

英伟达NeMo框架在AI领域的综合应用与优势总结

一、NeMo 框架介绍 NVIDIA NeMo 是基于 PyTorch 和 PyTorch Lightning 的一个开源训练框架，源代码完全公开在 GitHub 上。NeMo 的主要目标是使 AI 开发者能够快速构建对话式 AI 模型并开发相关应用。...

人工智能 2024-02-21 人工智能

1000阅读

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

君不言语音识别技术则已，言则必称Whisper，没错，OpenAi开源的Whisper确实是世界主流语音识别技术的魁首，但在中文领域，有一个足以和Whisper相颉顽的项目，那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraf...

AIGC 2024-02-21 人工智能

1152阅读

2024年对话式AI商用指南

将具有认知能力的对话式AI融入现代商业战略是必不可少的，特别是在它改变客户体验方面，普华永道对商业和技术领导者的一项调查就支持了这一观点。人工智能和认知技术正在重塑客户参与度，将客户体验从传统角色转变为客户旅程的重要组成部分，这极大地影响了忠诚度和感知...

大数据 2024-02-17 人工智能

909阅读

WhisperBot：整合了Mistral大型语言模型的实时语音转文本系统

项目简介欢迎来到 WhisperBot。WhisperBot 基于 WhisperLive 和 WhisperSpeech 的功能而构建，在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM 。WhisperLive 依赖于 OpenA...

AIGC 2024-02-11 人工智能

1128阅读

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr，但是经过中文特殊优化的Whisper就未必...

AIGC 2024-02-09 人工智能

917阅读

第一代AIGC硬件悄然爆发

文 | 智能相对论作者 | 叶远风看起来，这可能是一副正常的黑框眼镜，你戴上去彬彬有礼、斯斯文文；实际上，它里边还装了一个“小伙伴”，你随时可以与它交流，谈天说地或者提出各种问题接受它的帮助；你化身为了科技极客，成为科幻片里带着有超能力的“...

AIGC 2024-02-07 人工智能

892阅读

GPT-SoVITS官网体验入口 AI文本生成合成转换语音在线免费使用地址

GPT-SoVITS是一个强大的零样本语音转换和文本到语音WebUI。它具有零样本TTS、少样本TTS、跨语言支持和WebUI工具等功能。该产品支持英语、日语和中文，提供了集成工具，包括语音伴奏分离、自动训练集分割、中文ASR和文本标注，帮助初学者创建训练...

AIGC 2024-02-05 人工智能

1665阅读

从Hugging Face下载数据测试whisper、fast_whisper耗时

时长比较短的音频：https://huggingface.co/datasets/PolyAI/minds14/viewer/en-US 时长比较长的音频：https://huggingface.co/datasets/librispeech_asr?r...

AIGC 2024-02-04 人工智能

955阅读

# ext-to-speech|tts|voice-cloning|AIGC|多模态#【有图文部署】GPT-SoVits：上线一周就获得了4.1k star！效果炸裂的开源跨语言音色克隆模型！

一周前，RVC变声器创始人（GitHub昵称：RVC-Boss）发布了一款新项目，名为GPT-SoVITS。这个项目一上线就受到了互联网大佬和博主的好评推荐，仅仅在不到一周的时间里，就已经在GitHub上积累了4.1k Star。据说，该项目是RVC-...

大数据 2024-01-29 人工智能

3219阅读

利用 “diart“ 和 OpenAI 的 Whisper 简化实时转录

利用 "diart" 和 OpenAI 的 Whisper 简化实时转录工作原理 Diart 是一个基于人工智能的 Python 库，用于实时记录说话者语言（即 "谁在什么时候说话"），它建立在 pyannote.audio 模型之上，专为实时音频流...

人工智能 2024-01-28 人工智能

1090阅读

使用 Transformers 为多语种语音识别任务微调 Whisper 模型

本文提供了一个使用 Hugging Face ? Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时，我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识，并提供...

大数据 2024-01-27 人工智能

1212阅读

如何使用AIGC进行语音识别和合成

1.背景介绍语音识别和合成是人工智能领域的重要技术，它们有助于实现自然语言与计算机之间的有效沟通。在这篇文章中，我们将探讨如何使用人工智能生成模型(AIGC 进行语音识别和合成。 1. 背景介绍语音识别是将声音转换为文本的过程，而语音...

AIGC 2024-01-27 人工智能

1221阅读

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

Open AI 推出的 Whisper 是一个通用语音转录模型，在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜，被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据...

人工智能 2024-01-27 人工智能

947阅读

GPT-SoVITS体验入口 AI声音克隆工具软件免费下载地址

GPT-SoVITS-WebUI是一个强大的零样本语音转换和文本到语音WebUI工具。它提供了零样本TTS、少样本TTS、跨语言支持等功能，并且支持英语、日语和中文。GPT-SoVITS-WebUI提供了一系列集成工具，包括语音伴奏分离、自动训练集分割、中...

AIGC 2024-01-18 人工智能

2772阅读

使用 Transformers 为多语种语音识别任务微调 Whisper 模型

本文提供了一个使用 Hugging Face ? Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时，我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识，...

AIGC 2024-01-18 人工智能

1204阅读

请查收使用OpenAI的Whisper进行语音识别的攻略

Whisper是一种令人激动的新型语言模型，采用了全新的语音识别方法，即使是低质量的音频，Whisper也能产生高质量的结果，并且对各种声音和语言的适应性极强，无需进行微调。 Whisper是开源的，有一系列可用的模型尺寸，可以作为众多语音转文字应用的有...

AIGC 2024-01-16 人工智能

1420阅读

大语言模型 AI 辅助编码使用过程体验报告（Github Copilot、Cursor）

编码感受和评估在过去一周多的时间里，我在 ChatGPT 的协助下，生成了做一个简单编辑器的产品文档、技术方案文档，然后在这个基础上，进行程序的编码。使用的工具纪要为了更全面地感受 AI IDE 对研发过程的影响，我特意选择了一个我不太了解的项...

生成式AI 2024-01-16 人工智能

1434阅读

OpenAI Whisper论文笔记

OpenAI Whisper论文笔记 OpenAI 收集了 68 万小时的有标签的语音数据，通过多任务、多语言的方式训练了一个 seq2seq （语音到文本）的 Transformer 模型，自动语音识别（ASR）能力达到商用水准。本文为李沐老师论文精...

人工智能 2024-01-15 人工智能

953阅读

OpenAI的人工智能语音识别模型Whisper详解及使用

1 whisper介绍拥有ChatGPT语言模型的OpenAI公司，开源了 Whisper 自动语音识别系统，OpenAI 强调 Whisper 的语音识别能力已达到人类水准。 Whisper是一个通用的语音识别模型，...

生成式AI 2024-01-14 人工智能

3372阅读

Whisper OpenAI开源语音识别模型

介绍 Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练...

大数据 2024-01-09 人工智能

2006阅读

whisper深入-语者分离

文章目录学习目标：如何使用whisper 学习内容一：whisper 转文字 1.1 使用whisper.load_model( 方法下载，加载 1.2 使用实例对文件进行转录 1.3 实战学习内容二：语者分离（pyannote.aud...

生成式AI 2024-01-09 人工智能

994阅读

Jetson Orin安装riva以及llamaspeak，使用 Riva ASR/TTS 与 Llama 进行实时交谈，大语言模型成功运行笔记

NVIDIA 的综合语音 AI 工具包 RIVA 可以处理这种情况。此外，RIVA 可以构建应用程序，在本地设备（如 NVIDIA Jetson）上处理所有这些内容。 RIVA 是一个综合性库，包括：自动语音识别（ASR）文本转语音合成（TT...

生成式AI 2024-01-08 人工智能

1258阅读

学习实践-Whisper语音识别模型实战（部署+运行）

1、Whisper内容简单介绍 OpenAI的语音识别模型Whisper，Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）...

生成式AI 2024-01-08 人工智能

1115阅读

13个优秀开源语音识别引擎

语音识别（ASR）在人机交互方面发挥着重要的作用，可用于：转录、翻译、听写、语音合成、关键字定位、语音日记、语言增强等场景。语音识别基本过程一般包括：分析音频、音频分解、格式转换、文本匹配，但实际的语音识别系统可能会更复杂，并且可能包括其他步骤和功能组件...

人工智能 2024-01-08 人工智能

1265阅读

AI视野：阿里开源AnyText；Pika推出付费计划；阿里推文生3D数字人项目；Magnific AI图片分辨率扩大至10K*10K

????大模型动态阿里开源AnyText 阿里开源多语言视觉文字生成与编辑模型——AnyText，AnyText对生成文字的把控可媲美专业PS，用户可自定义规划文字出现的位置，图片的强度、力度、种子数等，目前在Github超2，400颗星非常受欢迎。...

人工智能 2024-01-08 人工智能

974阅读

吃了几个原作者才能生成这么逼真的效果？文生图涉嫌视觉「抄袭」

不久之前，《纽约时报》指控 OpenAI 涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。 GPT-4 输出的许多回答中，几乎逐字逐句地抄袭了《纽约时报》的报道：图中红字是 GPT-4 与《纽约时报》报道重复的部分。对此，各个专...

人工智能 2024-01-08 人工智能

898阅读

英伟达推新AI语音识别模型Parakeet 号称优于Whisper

领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列，这是一系列最先进的自动语音识别（ASR）模型，能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发，是语音识别领域的一大...

人工智能 2024-01-08 人工智能

1007阅读

AI视野：自定义ChatGPT商店下周上线；小冰克隆人正式上线；美图大模型上线；普林斯顿大学提出GEO；英伟达发布文生图模型TrailBlazer

新鲜AI产品点击了解：https://top.aibase.com/ ???AI新鲜事自定义ChatGPT商店下周上线 OpenAI宣布将上线自定义GPT商店，用户可以将自己开发的自定义ChatGPT助手进行分享的平台。这一商店的功能类似于苹果的App...

大数据 2024-01-05 人工智能

1006阅读

语音识别之百度语音试用和OpenAiGPT开源Whisper使用

0.前言: 本文作者亲自使用了百度云语音识别,腾讯云,java的SpeechRecognition语言识别包和OpenAI近期免费开源的语言识别Whisper(真香警告介绍了常见的语言识别实现原理 1.NLP 自然语言处理(人类语言处理你好不同人...

生成式AI 2023-12-29 人工智能

946阅读

在Linux(Centos7)上编译whisper.cpp的详细教程

whisper.cpp的简单介绍： Whisper 是 OpenAI 推出的一个自动语音识别（ASR）系统，whisper.cpp 则是 Whisper 模型的 C/C++ 移植。whisper.cpp 具有无依赖项、内存使用量低等特点，支持 Ma...

人工智能 2023-12-27 人工智能

1100阅读

基于whisper模型的在线添加视频字幕网站（持续更新）

1.什么是whisper Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whi...

大数据 2023-12-26 人工智能

1418阅读

whisper

Robust Speech Recognition via Large-Scale Weak Supervision 介绍大规模弱监督的训练。先前的方法都是通过大量的无监督学习训练（无监督的数据容易收集，所以通过大量无监督的学习可以训练出一个质量...

生成式AI 2023-12-23 人工智能

992阅读

【小沐学Python】Python实现语音识别（Whisper）

文章目录 1、简介 1.1 whisper简介 1.2 whisper模型 2、安装 2.1 whisper 2.2 pytorch 2.3 ffmpeg 3、测试 3.1 命令测试 3.2 代码测试：识别声音文件 3.3 代码测试：...

生成式AI 2023-12-20 人工智能

1428阅读

OpenAI Whisper and ChatGPT 语音助手

OpenAI Whisper and ChatGPT ASR Gradio Web UI 一环境准备 1.1 python 1.2 windows 二导入所需要的包三加载模型四定义openai和whisper接口五生成Gra...

人工智能 2023-12-15 人工智能

895阅读

《AI上字幕》基于openAI研发的whisper模型，语音（视频）一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

简介： OpenAI的chatGPT非常火爆，其实OpenAI旗下的另一个模型实力也十分强大，它就是开源免费的Whisper语音转文本模型，目前为止它是较为顶尖的语音转文本模型当前github上也有许多出色的开发者根据此模型开发出桌面版语音转文字...

人工智能 2023-12-14 人工智能

1030阅读

开源大模型LLaMA 2会扮演类似Android的角色么？

在AI大模型没有商业模式？等文章中，我多次表达过这样一个观点：不要把大模型的未来应用方式比喻成公有云，大模型最终会是云端操作系统的核心（新通用计算平台），而它的落地形式会很像过去的沃森，以系统型超级应用的形态落地。假如真的这样，那无疑的就需要一个开源的、便...

人工智能 2023-12-07 人工智能

821阅读

Meta语音达LLaMA级里程碑！开源MMS模型可识别1100+语言

【新智元导读】Meta的大规模多语言语音（MMS）项目将彻底改变语音技术，使用wav2vec 2.0的自监督学习，MMS将语音技术扩展到1100到4000种语言。在语音方面，Meta又达到了另一个LLaMA级的里程碑。今天，Me...

生成式AI 2023-12-07 人工智能

904阅读

LLaMA 2：开源的预训练和微调语言模型推理引擎 | 开源日报 No.86

facebookresearch/llama Stars: 36.0k License: NOASSERTION LLaMA 2 是一个开源项目，用于加载 LLaMA 模型并进行推理。该项目的主要功能是提供预训练和微调后的 LLaMA 语言模型...

AIGC 2023-12-05 人工智能

978阅读

Linux 中的机器学习：Whisper——自动语音识别系统

Whisper 是一种自动语音识别 (ASR 系统，使用从网络收集的 680000 小时多语言和多任务数据进行训练，Whisper 由深度学习和神经网络提供支持，是一种基于 PyTorch 构建的自然语言处理系统，这是免费的开源软件。安装Whisp...

大数据 2023-12-02 人工智能

1060阅读

关于python环境下的语音转文本，whisper或funASR

因为前阵子，有需求要将语音转为文本再进行下一步操作。感觉这个技术也不算是什么新需求，但是一搜，都是大厂的api，或者是什么什么软件，由于想要免费的，同时也要嵌入在代码中，所以这些都不能用。、一筹莫展的时候，突然搜到whi...

生成式AI 2023-12-01 人工智能

1235阅读

本地部署_语音识别工具_Whisper

1 简介 Whisper 是 OpenAI 的语音识别系统（几乎是最先进），它是免费的开源模型，可供本地部署。 2 docker https://hub.docker.com/r/onerahmet/openai-whisper-asr-webs...

AIGC 2023-11-29 人工智能

1531阅读

【城南】如何识别AI生成图？视觉AIGC伪造检测技术综述

图片无法加载可参考阅读：知乎文章 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ry2Qw8uO-1685675351028 (https://r3mu87a8e6.feishu.cn/space/api/box/stre...

大数据 2023-11-27 人工智能

952阅读

AI视野：Azure AI新增40种大模型；Yi-34B-Chat微调模型开源；GPT-4在图灵测试中成功率超过41%；微软谷歌推出AI入门课程

???AI新鲜事微软Azure AI新增40种大模型微软宣布在Azure AI云开发平台中新增40个大模型，包括Whisper V3、Stable Diffusion、Phi、Falcon、SAM、CLIP、Code Llama等，支持文本生成、图像处...

AIGC 2023-11-27 人工智能

1025阅读

数字人系列四：Motionverse 接入chatgpt、文心一言等国内外大语言模型

1. 下载插件：motionverse官网地址：概述 · Motionverse 接口文档 (deepscience.cn 2. 按照官方文档新建Unity工程：对接说明 · Motionverse 接口文档 (deepscience.cn ...

AIGC 2023-11-25 人工智能

984阅读