当前位置:AIGC资讯 > AIGC > 正文

阿里开源语音大模型:SenseVoice 识别,语音识别效果和性能强于 Whisper,还能检测掌声、笑声、咳嗽等!

阿里开源语音大模型:语音识别效果和性能强于 Whisper,还能检测掌声、笑声、咳嗽等!

原创 kakuqo AI真好玩 2024年07月06日 10:21 福建

语音识别技术在人工智能(AI)领域扮演着至关重要的角色,它不仅是人机交互的基石,也是推动智能系统发展的关键驱动力。以下是语音识别在AI领域的一些主要作用:

改善用户体验:通过语音识别,用户可以与智能设备进行自然语言交流,无需手动输入,这极大地提升了用户体验的便捷性和直观性。

数据收集与分析:语音识别可以自动转录语音数据,为企业提供大量的自然语言数据,这些数据可用于市场研究、消费者行为分析等。

智能助手和虚拟助手:语音识别是智能助手(如 Siri、Google Assistant 等)的核心功能,允许用户通过语音指令获取信息、设置提醒或控制智能家居设备。

医疗和健康领域:在医疗领域,语音识别可以帮助医生在诊断过程中记录患者信息,减少手动输入的时间,同时也可以辅助听力受损的患者与医疗人员沟通。

教育和培训:语音识别技术可以用于语言学习和语音反馈,帮助学习者提高语言能力,同时也可以用于远程教育和在线课程。

本文我将介绍 SenseVoice,它是由阿里开源的具有音频理解能力的音频基础模型,该模型拥有以下能力:

语音识别(ASR)

语种识别(LID)

语音情感识别(SER)

声学事件分类(AEC)

声学事件检测(AED)

近期热文

当 AI 遇上爬虫:让数据提取变得前所未有的简单!

2024 年最完整的 AI Agents 清单来了,涉及 13 个领域,上百个 Agents!

超强 OCR 神器:支持批量 OCR、文档识别、公式识别,离线可用、完全免费!

SenseVoice 主要功能

支持中、粤、英、日、韩语等 50 多种语言,识别效果优于 Whisper 模型。

情感识别技术在测试数据上的表现,超过了现有的最佳模型。

能够检测多种声音事件,包括音乐、掌声、笑声、哭声、咳嗽和喷嚏等常见的人机交互声音。

拥有完善的服务部署流程,能够处理多并发请求,并且支持多种客户端语言,包括 Python、C++、Java 和 C# 等。

推理速度极快,10 秒音频的推理时间仅需 70 毫秒,性能是 Whisper-Large 的 15 倍。

SenseVoice 使用示例

粤语识别

英语识别

语音情感识别

能够识别音频中的情感,比如,积极和消极等。

声学事件检测

能够识别音频文件中的掌声(👏)

长语音识别

在线示例:https://www.modelscope.cn/studios/iic/SenseVoice

SenseVoice 快速上手

1.克隆项目

https://github.com/FunAudioLLM/SenseVoice.git

2.安装项目依赖

pip install -r requirements.txt

3.直接推理

from model import SenseVoiceSmall

model_dir = "iic/SenseVoiceSmall"
m, kwargs = SenseVoiceSmall.from_pretrained(model=model_dir)


res = m.inference(
    data_in="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
    language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=False,
    **kwargs,
)

print(res)

https://github.com/FunAudioLLM/SenseVoice

往期文章

开源实时数字人:支持 iOS/Android 快速部署,十几个模型可供下载使用!

超强 MedicalGPT:训练医疗领域大模型,支持 Qwen-2 和 Llama-3 等十几种开源模型!

30.3K Star 超强工具:让你用本地微信聊天记录,训练你的专属 AI 聊天助手!

开源流式数字人来了:实现音视频同步对话,基本可达商用效果!

PDF 转 Markdown 神器,精准且快速:支持 90 多种语言 OCR,还支持提取表格、图片和公式!

总结

**文章标题:**
阿里开源语音大模型:Speech Recognition Beats Whisper, Plus识别掌声、笑声等其他声音事件
**文章概要:**
本文主要介绍了阿里开源的一款具有音频理解能力的大模型SenseVoice,它在语音识别(ASR)、语种识别(LID)、语音情感识别(SER)等方面表现出色,并在多个方面超越了现有的最佳模型如Whisper模型。SenseVoice支持50多种语言环境,对声音事件的检测能力也十分强大,能识别掌声、笑声、哭声、咳嗽等常见声音。同时,该模型的推理速度极快,性能卓越。文中还简要介绍了语音识别在AI领域的重要性以及SenseVoice的使用示例和快速上手方法。
**语音识别重要性:**
- 改善用户体验,人机自然交互
- 数据收集与分析,提供大量自然语言数据
- 智能助手与虚拟助理的核心功能
- 医疗和健康领域, 高效记录信息
- 教育与培训,语言学习与远程教学
**SenseVoice主要特点:**
1. **支持多语言**:支持中、粤、英、日、韩语等50多种语言,识别准确性优于Whisper。
2. **情感识别**:情感识别技术在测试数据上超越现有最佳模型。
3. **声音事件检测**:包括音乐、掌声、笑声、哭声、咳嗽等常见声音。
4. **强服务部署能力**:处理多并发请求,支持Python、C++、Java和C#等多种语言。
5. **推理速度快**:10秒音频推理仅需70毫秒,性能是Whisper-Large的15倍。
**使用示例与快速上手方法**:
- 在线查看粤语、英语识别、语音情感识别及声学事件检测等示例。
- 提供GitHub源代码地址和详细的模型使用指南,包括克隆项目、安装依赖和执行推理等步骤。
本文展示了SenseVoice在语音识别领域的强大潜力,并为读者提供了实用的指导和资源以便快速上手应用此模型。

更新时间 2024-07-22