whisper 第4页 - AIGC资讯

开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（三）

一、前言语音转文本技术具有重要价值。它能提高信息记录和处理的效率，使人们可以快速将语音内容转换为可编辑、可存储的文本形式，方便后续查阅和分析。在教育领域，可帮助学生更好地记录课堂重点；在办公场景中，能简化会议记录工作。同时，该技术也为残障人士提...

人工智能 2024-06-19 人工智能

765阅读

点冰淇淋下单25份麦乐鸡！麦当劳AI员工疯狂点餐惨遭解雇，翻车视频全网疯转

【新智元导读】麦当劳宣布其与IBM合作进行的得来速人工智能语音点餐技术测试期结束，该技术已在100多家餐厅部署，这些餐厅将在下个月暂停此项服务。麦当劳表示，将会为自动点赞技术寻求新的合作方，潜在的合作伙伴可能包括OpenAI的Whisper/ChatGPT...

人工智能 2024-06-18 人工智能

884阅读

Whisper-AT：抗噪语音识别模型（Whisper）实现通用音频事件标记（Audio Tagger）

本文介绍一个统一音频标记（Audio Tagger）和语音识别（ASR）的模型：Whisper-AT，通过冻结Whisper的主干，并在其之上训练一个轻量级的音频标记模型。Whisper-AT在额外计算成本不到1%的情况下，可以在单次前向传递...

大数据 2024-06-18 人工智能

1409阅读

利用Python与Whisper革新视频翻译：打造高精度字幕翻译流程。

实现流程需要使用以下的工具。 1.python,需要自行安装， 2.python的音视频处理库moviepy安装 pip install moviepy 3.Whisper语音识别，在我之前的文章中有：Whisper语音识别安装教程。 4.文字翻...

人工智能 2024-06-18 人工智能

1187阅读

Whisper.cpp本地化：Windows端部署详解与实操

简介什么是Whisper？ OpenAI的Whisper是一个自动语音识别（ASR）系统，它经过了大量多语言和多任务的监督数据训练，能够进行多语言语音识别、语音翻译和语言识别等任务。Whisper模型使用了一个编码器-解码器的Transforme...

人工智能 2024-06-18 人工智能

2192阅读

whisper使用

whisper使用 1. 直接调用语音识别 2. 语种识别 whisper.detect_language( 和whisper.decode( 3. 指定要识别的语种做语音识别 **whisper 源码的transcribe函数** 函数解...

生成式AI 2024-06-17 人工智能

1367阅读

吴恩达老师开源翻译工作流Agent；阿里巴巴开源无需训练即可使用参考图像编辑图像的工具；Whisper Web 浏览器字幕生成

✨ 1: Translation Agent Translation Agent 吴恩达老师开源翻译工作流Agent Translation Agent 是一个基于反思工作流程的机器翻译系统的Python示范。其主要步骤包括：使用大语...

AIGC 2024-06-16 人工智能

982阅读

优化你的WordPress网站：内链建设与Link Whisper Pro插件的利用

文章目录内链的重要性 WordPress SEO插件：Link Whisper Pro 主要功能使用指南下载与安装结语在数字营销和网站管理领域，SEO内部优化是提升网站排名、增加流量和提高用户参与度的核心策略。在众多SEO...

人工智能 2024-06-16 人工智能

1169阅读

文心一言上线声音定制功能；通义千问开源模型；openAI又侵权？

文心一言上线定制专属声音功能百度旗下 AI 聊天机器人文心一言上线新功能，用户录音一句话，即可定制声音。使用这项功能需要使用文心一言 App。在创建智能体中，点击创建自己的声音，朗读系统提示的一句话，等候几秒钟时间，系统就能捕捉到用户的声音...

生成式AI 2024-06-15 人工智能

907阅读

探秘Whisper Diarization：语音转文字与对话分割的新锐工具

探秘Whisper Diarization：语音转文字与对话分割的新锐工具项目地址:https://gitcode.com/MahmoudAshraf97/whisper-diarization 项目简介 Whisper Diarization 是...

生成式AI 2024-06-15 人工智能

1387阅读

Windows部署语音转文字项目_Whisper

Windows部署语音转文字项目_Whisper 一、前置安装准备 Github源仓库，Whisper 下载安装whisper及其依赖项官方有两种部署方法，一种是通过默认pip源拉取安装：以管理员身份运行powershell，输入如下命令p...

生成式AI 2024-06-13 人工智能

1464阅读

探索Whisper Streaming：实时语音转文本的高效解决方案

探索Whisper Streaming：实时语音转文本的高效解决方案项目地址:https://gitcode.com/ufal/whisper_streaming Whisper Streaming 是一个强大的开源项目，由捷克布尔诺科技大学UF...

人工智能 2024-06-12 人工智能

1159阅读

在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别（3）

1、简介 Nvidia的GPU+CUDA架构在大算力时代遥遥领先毫无疑问了，其通用的硬件特性使得它不再是以往的“显卡”，算力强大并且支持各种AI，软件生态的应用方式基本可以照搬PC端。相比于特定的核心NPU，它显得更加灵活，系统和显存的共用在带宽上有明显...

生成式AI 2024-06-11 人工智能

1826阅读

WhisperCLI-本地部署语音识别系统；Mis开源LLM推理平台；Dokploy-开源版Vercel；Mem-大规模知识图谱

1. Whisper-cli：可本地部署的开源语音识别系统近日，Ruff的开发团队发布了一款名为Whisper cpp cli的全新语音识别系统，该系统已在GitHub Repo上开源。这是一款完全自主研发的语音转文字系统，基于Whisper技术构建。...

大数据 2024-06-08 人工智能

904阅读

语音识别的未来已来：深入了解faster-whisper的突破性进展【高精度语音识别模型，完全免费开源】

faster-whisper简介 faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度，还优化了内存使用效率。f...

大数据 2024-06-07 人工智能

962阅读

语音识别接入openai的Whisper接口，手把手保姆级教程，chatgpt的接口

据说这货已经是地表x强的语音识别了？？有人说“在Whisper 之前，英文语音识别方面，Google说第二，没人敢说第一——当然，我后来发现Amazon的英文语音识别也非常准，基本与Google看齐。在中文（普通话）领域，讯飞也很能打，讯飞语音输入...

AIGC 2024-06-06 人工智能

858阅读

推荐：Lightning Whisper MLX —— 专为Apple Silicon优化的闪电般快速的Whisper实现

推荐：Lightning Whisper MLX —— 专为Apple Silicon优化的闪电般快速的Whisper实现项目地址:https://gitcode.com/mustafaaljadery/lightning-whisper-mlx 在...

生成式AI 2024-06-06 人工智能

1161阅读

5.llama.cpp编译及使用

llama.cpp的编译及使用下载源码 llama.cpp https://github.com/ggerganov/llama.cpp ggml 向量库 https://github.com/ggerganov/ggml 安装依赖库...

人工智能 2024-06-06 人工智能

1740阅读

开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（一）

一、前言语音转文本技术具有重要价值。它能提高信息记录和处理的效率，使人们可以快速将语音内容转换为可编辑、可存储的文本形式，方便后续查阅和分析。在教育领域，可帮助学生更好地记录课堂重点；在办公场景中，能简化会议记录工作。同时，该技术也为残障人士提...

AIGC 2024-06-06 人工智能

818阅读

开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（二）

一、前言语音转文本技术具有重要价值。它能提高信息记录和处理的效率，使人们可以快速将语音内容转换为可编辑、可存储的文本形式，方便后续查阅和分析。在教育领域，可帮助学生更好地记录课堂重点；在办公场景中，能简化会议记录工作。同时，该技术也为残障人士提...

AIGC 2024-06-06 人工智能

932阅读

whisper 的安装pycharm使用以及出现的BUG（已经解决）！

whisper（语音识别）+ffmpeg介绍 Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型，也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。Whisper 是一它在不同音频...

人工智能 2024-06-04 人工智能

1367阅读

whisper-v3模型部署环境执行

1. 安装whisperV3 github git clone https://github.com/openai/whisper.git pip install -U openai-whisper pip install setuptools-ru...

大数据 2024-06-03 人工智能

1683阅读

AIGC-音频生产十大主流模型技术原理及优缺点

音频生成(Audio Generation 指的是利用机器学习和人工智能技术，从文本、语音或其他源自动生成音频的过程。音频生成行业是AIGC技术主要渗透的领域之一。AI音频生成行业是指利用人工智能技术和算法来生成音频内容的领域。按照输入...

AIGC 2024-06-03 人工智能

1879阅读

WhisperX：新一代加密通信框架，安全与效率并重

WhisperX：新一代加密通信框架，安全与效率并重项目地址:https://gitcode.com/m-bain/whisperX 在数字时代，隐私和数据安全日益成为我们关注的重点。WhisperX是一个新兴的开源项目，旨在提供一个高度安全、可...

大数据 2024-06-01 人工智能

961阅读

OpenAI API - 使用Whisper和GPT-4模型开发一个自动化会议记录生成器

前言本文章结合官方教程给大家介绍如何利用OpenAI的Whisper和GPT-4模型来开发一个自动化会议记录生成器。这个应用程序可以转录会议音频一应用程序基本介绍 Whisper和GPT-4模型：Whisper是一个用于音频转录的模型，而G...

AIGC 2024-06-01 人工智能

922阅读

x-cmd mod | x whisper - 使用 whisper.cpp 进行本地 AI 语音识别

介绍 Whisper 模块通过 whisper.cpp 帮助用户快速将音频转换为文字。 INFO: whisper.cpp 是一个用 C/C++ 编写的轻量级智能语音识别库，是基于 OpenAI 的 Whisper 模型的移植版本，旨在通过深度...

AIGC 2024-05-31 人工智能

1013阅读

幕译--本地字幕生成与翻译--Whisper客户端

幕译–本地字幕生成与翻译–Whisper客户端本地离线的字幕生成与翻译，支持显卡加速。可免费试用，无次数限制基于Whisper，希望做最好的Whisper客户端功能介绍本地离线，不用担心隐私问题支持显卡（CUDA）加速支持多...

大数据 2024-05-30 人工智能

1067阅读

whisper之初步使用记录

文章目录前言一、whisper是什么？二、使用步骤 1.安装 2.python调用 3.识别效果评估 4.一点封装 5.参考链接总结前言随着AI大模型的不断发展，语音识别等周边内容也再次引发关注，通过语音转文字再与大模...

人工智能 2024-05-30 人工智能

1165阅读

OpenAI 开源的免费 AI 语音转文字工具 - Whisper，一步一步本地部署运行

Whisper 是 OpenAI 研发的一个通用的语音识别模型，可以把语音转为文本。它在大量多样化的音频数据集上进行训练，同时还是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。一、使用场景语音 => 文字是一个非常实用的功能，...

生成式AI 2024-05-29 人工智能

1937阅读

OpenAI Whisper 语音转文本实验

为了实现语音方式与大语言模型的对话，需要使用语音识别（Voice2Text）和语音输出（Text2Voice）。感觉这项技术已比较成熟了，国内也有许多的机构开发这项技术，但是像寻找一个方便测试的技术居然还不容易。Google 墙了，微...

AIGC 2024-05-29 人工智能

1076阅读

Python+whisper.cpp纯本地化语音转文字

想要用Python+whisper.cpp实现纯本地化语音转文字，我的操作环境如下： MacOS Ventura 13.0 Python3.7 conda PyAudio 一开始打算用PyAudio，解决了头文件找不到的问题（网上教程很多）之后，仍...

生成式AI 2024-05-29 人工智能

1066阅读

比较AI编程工具Copilot、Tabnine、Codeium和CodeWhisperer

主流的几个AI智能编程代码助手包括Github Copilot、Codeium、Tabnine、Replit Ghostwriter和Amazon CodeWhisperer。你可能已经尝试过其中的一些，也可能还在不断寻找最适合自己或公司使用的编程助手...

AIGC 2024-05-29 人工智能

1463阅读

探秘Faster Whisper：一款加速 Whisper 模型训练的高效工具

探秘Faster Whisper：一款加速 Whisper 模型训练的高效工具项目地址:https://gitcode.com/SYSTRAN/faster-whisper 在自然语言处理（NLP）领域，Transformer架构的模型如Whis...

生成式AI 2024-05-28 人工智能

1186阅读

在树莓派上运行语音识别和LLama-2 GPT!

目前，绝大多数大模型运行在云端服务器，终端设备通过调用api的方式获得回复。但这种方式有几个缺点：首先，云api要求设备始终在线，这对于部分需要在无互联网接入的情况运行的设备很不友好；其次，云api的调用需要消耗流量费，用户可能不想支付这部分费用；最后，如...

人工智能 2024-05-28 人工智能

1109阅读

实战whisper语音识别第一天，部署服务器，可远程访问，实时语音转文字（全部代码和详细部署步骤）

Whisper是OpenAI于2022年发布的一个开源深度学习模型，专门用于语音识别任务。它能够将音频转换成文字，支持多种语言的识别，包括但不限于英语、中文、西班牙语等。Whisper模型的特点是它在多种不同的音频条件下（如不同的背景噪声水平、说话者的口音...

人工智能 2024-05-28 人工智能

1224阅读

2023 re:Invent | Amazon Q 与 Amazon CodeWhisperer 面向企业开发者提效利器

2023 年，以 GPT 为代表的生成式 AI 引爆了新一轮技术热潮，短短一年的时间内，生成式 AI 已经成为科技世界发展的核心。作为云计算的行业风向标盛会 re ，本届: Invent 全球大会紧跟生成式 AI 浪潮，推出名为“ Amazon Q ”的生...

人工智能 2024-05-26 人工智能

835阅读

FastGPT 调用本地Whisper模型进行语音转文字

目录一、部署Whisper模型。二、oneapi配置三、修改镜像中的webservice.py文件，开放跨域请求。四、修改FastGPT代码修改 FastGPT地址:https://github.com/labring/FastGP...

AIGC 2024-05-25 人工智能

2230阅读

实战whisper第二天：直播语音转字幕（全部代码和详细部署步骤）

直播语音实时转字幕：基于Whisper的实时直播语音转录或翻译是一项使用OpenAI的Whisper模型实现的技术，它能够实时将直播中的语音内容转录成文本，甚至翻译成另一种语言。这一过程大致分为三个步骤：捕获直播音频流、语音识别（转录）以及翻译（如...

人工智能 2024-05-25 人工智能

1670阅读

OpenAI 首次推出 GPT-4o“全能”模型，干翻所有语音助手

OpenAI 在本周一(2024年5月13号推出了一款名为 GPT-4o 的新旗舰级生成式AI模型。这里的“o”代表“全能”，因为这款模型能够处理文本、语音和视频三种不同的输入。在未来几周内，GPT-4o 将逐步应用于公司针对开发者和消费者的各类产品。...

AIGC 2024-05-15 人工智能

865阅读

四款值得推荐的AI辅助编程工具（支持C#语言）

前言在这个AI迅速发展的阶段，涌现出了一大批好用的AI辅助编程工具。AI辅助编程工具能够提高开发效率、改善代码质量、降低bug率，是现代软件开发过程中的重要助手。今天大姚给大家分享4款AI辅助编程工具（并且都支持C#语言），希望对大家有所帮助。 AI辅...

大数据 2024-05-11 人工智能

1214阅读

Brilliant Labs推出Frame：一款集成AI的开源AR眼镜

Brilliant Labs最近发布了一款名为Frame的开源AR眼镜，这款设备结合了人工智能（AI）和增强现实(AR 技术，为用户带来了前所未有的交互体验。 Frame眼镜具备强大的视觉能力，能够实时采集和分析用户所见的图像数据。通过集成Perplex...

生成式AI 2024-05-06 人工智能

846阅读

融汇14个AI工具构建完美应用

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 上篇：融汇11款AI工具构建完美应用如您所见，人工智能（AI）应用在近年来得到了长足的发展。从语音助手到软件开发，人工智能已在我们...

大数据 2024-04-24 人工智能

977阅读

比较三种优秀 AI 编码工具

GitHub Copilot、Amazon CodeWhisperer 和 Tabnine 是人工智能编码助手新时代的领先选择，优点包括提高开发人员效率和代码质量。与任何新技术一样，将人工智能编码工具引入开发流程也有缺点。人工智能编码工具目前在代码许...

生成式AI 2024-04-24 人工智能

1108阅读

四款值得推荐的AI辅助编程工具

在这个AI迅速发展的阶段，涌现出了一大批好用的AI辅助编程工具。AI辅助编程工具能够提高开发效率、改善代码质量、降低bug率，是现代软件开发过程中的重要助手。今天大姚给大家分享4款AI辅助编程工具（并且都支持C#语言），希望对大家有所帮助。 http...

生成式AI 2024-04-22 人工智能

927阅读

英特尔突袭英伟达H100，新AI芯片训练快40%，推理快50%，CEO蹦迪庆祝

英特尔，开始正面硬刚英伟达了。就在深夜，英特尔CEO帕特·基辛格手舞足蹈地亮出了最新AI芯片——Gaudi 3：他为什么开心到现场直接蹦迪？看下Gaudi 3的性能结果，就一目了然了：训练大模型：比英伟达H100快40% 推理大模型：比英伟...

大数据 2024-04-10 人工智能

876阅读

OpenAI 为训练 GPT-4模型转录了超过一百万小时的 YouTube 视频

AI 公司在获取高质量训练数据方面遇到的挑战，OpenAI 为了训练其最先进的大型语言模型 GPT-4，使用了超过一百万小时的 YouTube 视频副本。据了解，该公司通过其 Whisper 音频转录模型转录这些视频，尽管这一做法在法律上具有争议性，Op...

大数据 2024-04-07 人工智能

850阅读

AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

AssemblyAI 最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现，该模型在准确性和鲁棒性方面均取得了行业领先地位。先说结果，Universal-1比Whisper Large-v3更准确，比fast Whisper更快，38秒...

生成式AI 2024-04-07 人工智能

1077阅读

whisper-large-v3：速度快的令人翻译模型三种实用的调用方法

1、whisper-large-v3 是openai公司的模型，可使用Python代码调用； 2、whisper-large-v3基础上chenxwh 制作了开源库insanely-fast-whisper ，可本地指令运行，或 Google Colab...

人工智能 2024-04-07 人工智能

1621阅读

OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

近日，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。随后，《纽约时报》详细介绍了一些公司处理这一问题的方法，其中涉及到了人工智能版权法的模糊灰色区域。故事从OpenAI开始。该公司迫切需要训练数据，据报道开发了Whisper音频转...

AIGC 2024-04-07 人工智能

821阅读

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称，OpenAI 迫切需...

大数据 2024-04-07 人工智能

820阅读