💡
大家好,我是可夫小子,《小白玩转ChatGPT》专栏作者,关注AIGC、互联网和自媒体。
FunASR是什么?
FunASR 是一个基本的语音识别工具包,提供多种功能,包括语音识别 (ASR)、语音活动检测 (VAD)、标点符号恢复、语言模型、说话人验证、说话人分类和多说话者 ASR。 FunASR提供方便的脚本和教程,支持预训练模型的推理和微调。
它由阿里达摩研究院推出的语音提取工具包,现在这个工具包还在被开发中,但是现在它能实现的功能已经很强大,当然如果你有更好的想法和点子,也可以加入FunASR的开发。我对于FunASR还是很佩服的,虽说其相对于openai旗下whisper性能上还是存在某些方面的差距的,但是FunASR跟适合中国宝宝体质,FunASR的标点符号更加精确,对于普通话来说有着能给人更好的体验。
无论您是初学者还是经验丰富的专业人士,FunASR都是一个值得一试的平台。它不仅为您提供了学习语音识别所需的工具和资源,更重要的是,它为学习者带来了乐趣和激励,让语音识别的学习之旅变得愉悦而充实。
如果您对语音识别技术充满兴趣,并且希望以一种全新的方式来探索和学习它,那么不妨加入FunASR的行列,一起开启这段富有乐趣的学习之旅吧!
github项目地址
官网地址
今天就利用这个开源项目,跑一下他们的识别能力。后续的训练、调优都是基于这一步。
注:服务器环境搭建可以参考我之前的文章《Ubuntu技巧-Ubuntu远程访问之SSH反向代理》
服务端部署
下载服务dockerdocker pull \
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.10
```
不知道docker怎么安装使用的,可以参考我以前的文章。
创建项目模型文件夹
mkdir -p ./funasr-runtime-resources/models
运行并进入docker容器里面
注意:-p是端口的映射关系,3005是本机对外的端口,10095是容器的端口
docker run -p 3005:10095 -it --privileged=true \
-v $PWD/funasr-runtime-resources/models:/workspace/models
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.10
```
在容器内运行服务cd FunASR/runtime &&
nohup bash run_server_2pass.sh
–download-model-dir /workspace/models
–vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx
–model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx
–online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx
–punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx
–lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst
–itn-dir thuduj12/fst_itn_zh
–certfile 0
–hotword /workspace/models/hotwords.txt > log.txt 2>&1 &
```
查看运行日志:tail -f FunASR/runtime/log.txt
当看到Listen in 10095就表明服务运行正常。
关闭服务(这个后续要用到)ps -x | grep funasr-wss-server-2pass
kill -9 PID
```
Demo验证
在自己电脑上下载demowget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz
解压之后,根据自己需求选择Python或者HTML测试代码,我这里使用HTML
进入HTML文件夹cd samples/http
打开页面:samples/html/static/index.html
设置服务器地址,并连接
如果没什么意外的话,就连接成功,就可以开始讲话了
整体来看,使用官方预训练的模型,识别也挺准的,速度也不错。
错误处理
在启动服务时候,有wss连接失败,在容器中日志打印
I20240828 14:39:12.509810 1198 websocket-server-2pass.cpp:29] on_tls_init called with hdl: 0x7ced34018300
I20240828 14:39:12.509902 1198 websocket-server-2pass.cpp:30] using TLS mode: Mozilla Intermediate
[2024-08-28 14:39:12] [error] handle_transport_init received error: TLS handshake failed
[2024-08-28 14:39:12] [info] asio async_shutdown error: asio.ssl:336462231 (shutdown while in init (SSL routines, SSL_shutdown))
这是连接ssl错误,此时在启动参数加--certfile 0
,再重新启动即可。
后记
按照上面的流程,我们跑通过了FunASR的实时语音听写服务,除此之外,还可以使用离线文件转写,在damo下面还有许多模式可以试。
最重要的,该项目还提供了训练脚本,这就基本可以商用,感兴趣的可以做起来,有什么问题欢迎留言讨论。
总结
## 文章总结:《探索FunASR:一款强大的中文语音识别工具包》### FunASR概览
- **简介**:FunASR是由阿里达摩研究院推出的语音识别(ASR)工具包,集成了语音识别(ASR)、语音活动检测(VAD)、标点符号恢复、语言模型、说话人验证与分类及多说话者识别等功能。
- **优势**:适合中国用户,标点符号更精确,对普通话的识别体验更佳,同时提供易用的脚本和教程,支持预训练模型的推理与微调。
- **适用人群**:无论是初学者还是专业人员,都可通过FunASR享受语音识别技术的乐趣与便利。
### 技术部署与体验
- **服务端部署**:通过Docker容器快速部署,包括下载Docker镜像、创建模型文件夹、运行并调试服务等步骤。文中提供了详细的命令和参数示例。
- **Demo验证**:通过下载官方提供的Demo包,可快速测试FunASR的识别能力。用户可根据个人偏好选择Python或是HTML版测试界面。文中详细说明了如何设置服务器地址并进行实时语音识别测试。
### 使用体验及结果
- **识别效果**:使用预训练模型进行测试,结果显示FunASR在识别准确率和速度上都表现出色。
- **问题解决**:遇到wss连接失败、SSL握手失败等问题时,通过调整启动参数(如添加`--certfile 0`)可有效解决。
### 扩展功能与应用前景
- **离线转写**:除实时语音听写外,FunASR还支持离线文件转写,提供了更多应用场景选择。
- **商业应用**:项目提供了训练脚本,为商用化提供了可能,适合对语音识别技术有深入需求或想要进一步开发的用户。
### 后记
- 鼓励读者动手实践,积极探索FunASR的更多功能,并指出可以通过留言讨论来解决遇到的问题。
### 资源链接
- 提供了GitHub项目地址和官网地址,方便用户进一步了解和学习FunASR。
通过这篇文章,读者不仅能够了解到FunASR的基本功能和优势,还能获得详细的部署和使用教程,为实际应用提供了有力指导。