语音理解 - AIGC资讯

中科院提出GPT-4o实时语音交互的开源对手：Llama-Omni

论文：LLaMA-Omni: Seamless Speech Interaction with Large Language Models地址：https://arxiv.org/pdf/2409.06666 研究背景研...

生成式AI 2024-10-01 人工智能

1391阅读

9月5日，在外滩大会“大模型的创造力边界与应用想象力”论坛上，大模型创业企业西湖心辰正式发布并上线国内首个端到端语音大模型“心辰Lingo”。 “心辰Lingo”实现了端到端语音技术，在处理对话时直接理解语音，捕捉语气、节奏和情绪，并进行语音回复，减少了信...

AIGC 2024-09-05 人工智能

1025阅读

CosyVoice是由阿里通义实验室开源的一款多语言语音理解模型，它主要聚焦于高质量的语音合成，能够生成自然且逼真的语音。 CosyVoice模型经过超过15万小时的数据训练，支持中文、英语、日语、粤语和韩语多种语言的合成，且在多语言语音生成、零样本语音...

大数据 2024-08-17 人工智能

4567阅读

第1,2,3部分，介绍、概览、预训练第4部分，后训练第5部分，结果第6部分，推理第7部分，视觉实验 8 Speech Experiments 我们进行了实验来研究将语音功能集成到Llama 3中的组合方法，类似于我们用于...

生成式AI 2024-08-13 人工智能

913阅读

Whisper Whisper 是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。官方地址 https://github.com/openai/whisper 方法...

AIGC 2024-07-21 人工智能

1205阅读

快科技6月27日消息，科大讯飞今日在北京举办了一场主题为懂你的AI助手”的发布会，正式推出了全新的讯飞星火大模型V4.0，并展示了其在医疗、教育、商业等多个领域的人工智能应用。据刘庆峰介绍，星火大模型V4.0的训练依托于国内首个国产万卡算力集群飞星一号”...

大数据 2024-06-27 人工智能

885阅读

关注科技新闻的读者应该已经看到了，很多AI领域的明星创业公司和独角兽，最近都传出了“卖身”的信号。因Stable Diffusion模型一战成名、估值近300亿美元的大模型明星企业Stability AI，传出资金链断裂;曾登上福布斯“AI50强”排行...

大数据 2024-06-12 人工智能

929阅读

Khoj 是一个功能丰富、开源的个人化AI助手，旨在帮助用户管理和检索各种信息源，同时提供多种智能功能以提升工作效率。以下是Khoj的主要特点、功能及应用场景: 主要特点多源信息获取:能够连接本地和在线文档，包括PDF、Markdown文件、Git...

AIGC 2024-05-29 人工智能

941阅读