-
开源项目 PaperWhisperer 指南
开源项目 PaperWhisperer 指南 paperwhispererAutomatic voice-synthetised summaries of latest research papers on arXiv项目地址:https://gitc...
-
国内首个!端到端语音大模型心辰Lingo在外滩大会正式发布上线
9月5日,在外滩大会“大模型的创造力边界与应用想象力”论坛上,大模型创业企业西湖心辰正式发布并上线国内首个端到端语音大模型“心辰Lingo”。 “心辰Lingo”实现了端到端语音技术,在处理对话时直接理解语音,捕捉语气、节奏和情绪,并进行语音回复,减少了信...
-
WhisperS2T:加速语音转文本的高效解决方案
WhisperS2T:加速语音转文本的高效解决方案 WhisperS2TAn Optimized Speech-to-Text Pipeline for the Whisper Model Supporting Multiple Inference E...
-
阿里开源新语音模型,比OpenAI的Whisper更好!
阿里巴巴在Qwen-Audio基础之上,开源了最新语音模型Qwen2-Audio。 Qwen2-Audio一共有基础和指令微调两个版本,支持使用语音向音频模型进行提问并识别内容以及语音分析。 例如,让一位女生说一段话,然后识别她的年纪或解读她的心情;发布一...
-
做AI转录,拿下日本、实现千万美金ARR
不久前,A16z AI 合伙人Olivia Moore分享了一张 AI 转录初创公司图谱,面向企业服务(B2B)的转录公司不仅数量多,更涉及人宠医疗、招聘、销售和会议等多元场景。其中作为“打工人刚需”的会议场景转录,参与厂商众多,我们也从中发现了一家非常有...
-
1个电话1分钱,烦人的AI外呼成大模型最成功应用?
说到大模型最成功的应用,你首先想到的可能是对话式机器人Kimi、豆包、文心一言等等,这些月活数百万尚无法盈利,甚至无法准备回答“9.11和9.8哪个更大”的明星产品。 他们背后需要强大的技术实力支撑,但离变现遥遥无期。4个月前,因为对AIGC(人工智能生成...
-
基于百度语音识别、文心一言大模型、百度语音合成的一套完整的语音交互(利用Python实现)
本人小白,因为毕设项目需要用的语音交互,便查网上的资料利用百度api实现,比较简单的过程,供大家借鉴批判。 项目框架大致分为3步:(1)百度语音识别可以将我们输入的语音转化为文本输入到文心一言大模型;(2)文心一言大模型根据输入以输出响应文...
-
Hume推出互动式AI播客Chatter 允许用户将搜索内容转换成语音播报
Hume公司推出的EVI API新增了原生网页搜索功能的TTS(文本到语音)技术,允许用户通过网页搜索功能直接将网页内容转换成语音播报。同时,他们还推出了一款创新的互动式AI播客——Chatter。 Chatter不仅仅是一个播客,它是一个真正的对话平台,...
-
ElevenLabs AI创始人提出应对音频Deepfakes想法:加水印
AI 语音技术领域的公司正努力寻求何规范 Deepfakes,同时又不抑制创新。ElevenLabs 的联合创始人兼 CEO Mati Staniszewski 告诉《大西洋月刊》说:“这将是一场猫鼠游戏”。去年在测试版推出后,ElevenLabs 一跃成...
-
AI入侵播客圈!比真人配音还逼真?实测爆火的微软AI语音角色“晓晓”
AI语音再进化,人耳还能听出AI和真人的差别吗? 以上两段音频demo来自微软最近更新的AI语音角色“晓晓”。逼真、情绪到位、语气自然、断句近乎完美,是绝大多数网友听到“晓晓”声音时给出的评价。 在播客App小宇宙上,“Hacker News”账号用“晓...
-
OpenAI推出声音克隆新技术:复刻你的声音仅需15秒
快科技3月31日消息,据媒体报道,OpenAI公司最近推出了一项革命性的声音克隆技术Voice Engine”。 据悉,Voice Engine通过文本输入和15秒的音频样本,便能生成与原始说话者声音极为相似、情感丰富且自然逼真的语音。 这一技术的研发始于...
-
语音识别技术在金融领域的兴起
随着语音启动虚拟助手变得越来越智能,其正在改变我们处理金钱的方式,使之比以往任何时候都更容易、更快捷、更个性化。 语音识别技术是如何随时间而变化的 语音识别技术是一种人工智能驱动的技术,自问世以来发展迅速。简单工作的语音指令一开始很简单,但现在虚拟助手...
-
讯飞星火大模型重磅升级,对标GPT-4 Turbo!星火语音大模型发布,37个主流语种识别超OpenAI!
出品 | 51CTO技术栈(微信号:blog51cto) 1月30日,讯飞星火认知大模型V3.5成功发布!用核心能力的突破,回应时代的疑问。迈向更通用、实用的全民开放大模型,讯飞星火全面对标国际先进水平,同时首次发布星火语音大模型和星火开源大模型。 1、...
-
【大语言模型】5分钟快速认识ChatGPT、Whisper、Transformer、GAN
5分钟快速认识ChatGPT、Whisper、Transformer、GAN 什么是ChatGPT? 什么是Whisper? 什么是Generative Pre-trained Transformer架构? 什么是自然处理语言 NLP 的 Tr...
-
人人可参演贾玲新电影!《热辣滚烫》联合支付宝推出AI新玩法
1月31日,春节档新片宣发战火热之际,贾玲新电影《热辣滚烫》正式联合支付宝,在五福期间推出全新AI互动玩法:用户上支付宝搜索「小剧场」自主上传照片,就可以通过AI科技,获得“参演”贾玲新电影的专属片段。 电影《热辣滚烫》出品方、新丽传媒副总裁王乔介绍,《...
-
星火语音大模型发布:在首批37个主流语种上超越OpenAI
快科技1月30日消息,星火语音大模型首次发布。据了解,星火语音大模型由多语种语音合成,在首批37个主流语种上已整体超越OpenAI公司推出的Whisper-large-v3,保持科大讯飞智能语音技术的国际领先水平。 不仅如此,星火语音大模型在首批40个语...
-
科大讯飞2023年净利同比增幅达15%-30%:星火大模型V3.5明日发
快科技1月29日消息,科大讯飞晚间发布2023年度业绩预告,2023年实现归属于上市公司股东的净利润6.45亿元-7.3亿元,同比增长15%-30%。 报告期内,公司在人工智能通用大模型及行业大模型方面坚定投入并取得显著进展。科大讯飞表示,公司在讯飞星火...
-
AI语音公司ElevenLabs B轮融资8000万美元,估值超10亿美元
AI语音合成初创公司ElevenLabs宣布已完成8000万美元的B轮融资,由Andreessen Horowitz、Nat Friedman等领投。本轮融资还有Sequoia Capital、Smash Capital、SV Angel、BroadLig...
-
GPT-SoVITS体验入口 AI声音克隆工具软件免费下载地址
GPT-SoVITS-WebUI是一个强大的零样本语音转换和文本到语音WebUI工具。它提供了零样本TTS、少样本TTS、跨语言支持等功能,并且支持英语、日语和中文。GPT-SoVITS-WebUI提供了一系列集成工具,包括语音伴奏分离、自动训练集分割、中...
-
苹果关闭圣地亚哥AI团队,数据运营注解团队将迁至奥斯汀合并
据Bloomberg News报道,苹果计划关闭总数为121人的位于圣地亚哥的人工智能(AI)团队,该团队名为数据运营注解,上周已被告知他们将迁至奥斯汀,与一支类似的团队合并。这些消息的来源称,苹果告诉员工他们有一个月的时间来决定是否搬迁,如果选择不迁移,...
-
AI平台:标贝悦读-语音合成-在线文字转语音软件-专业的配音网站
标贝悦读-语音合成-在线文字转语音软件-专业的配音网站 首页 AI配音 声音转换 VIP会员 开发者 登录 | 注册 新用户免费领会员 AI配音合成 AI合成语音,快速、媲美真人,多种发音人可供选择 立即体验 声音转换 像柯南的...
-
讯飞配音体验入口在哪 AI声音克隆软件推荐
讯飞配音是一款基于科大讯飞的人工智能语音技术的配音软件,它可以将文字转化为自然流畅的人声,支持多语种、多方言和中英混合,可灵活配置音频参数。讯飞配音的体验入口在哪呢,这里我们来看下讯飞配音的官方体验入口。 >>>点击前往 讯飞配音 官方...
-
Meta语音达LLaMA级里程碑!开源MMS模型可识别1100+语言
【新智元导读】Meta的大规模多语言语音 (MMS) 项目将彻底改变语音技术,使用wav2vec 2.0的自监督学习,MMS将语音技术扩展到1100到4000种语言。 在语音方面,Meta又达到了另一个LLaMA级的里程碑。 今天,Me...
-
AI入侵B站鬼畜区!网友辣评:不如传统“活字乱刷术”
11月27日,B站UP主“女孩为何穿短裙”突破传统,投稿一则使用AI合成语音制作的鬼畜视频,标志着AI视频制作正式进入B站鬼畜区。视频播放量截至目前已达167.3万,获得14.5万的点赞和2.8万个投币。 鬼畜视频一直以其独特之处引起关注,其精彩之处在于通...
-
Speaking AI官网体验入口 AI语音免费软件app下载
《Speaking AI》是一款利用先进的大语言模型技术实现的文本到语音转换工具,它能够以自然的情感进行对话并实现零样本语音克隆。这款工具可以捕捉用户独特的音调、音高和调节,允许用户以前所未有的方式复制和利用自己的声音。那么,《Speaking AI》在哪...
-
解说梅西球赛、英雄联盟,OpenAI GPT-4视觉API被开发者玩出新花样
文章开始,我们先来看一段球赛解说视频: 是不是感觉听起来不太对劲? 你的感觉没错,因为这段解说是用 AI 生成的,这个大喊「梅西!梅西!」的声音居然来自 AI。 这是 X 平台(原推特)博主 @Gonzalo Espinoza Graham 发布的一段视...