当前位置:AIGC资讯 > AIGC > 正文

Whisper-AT:一个统一语音识别和音频标签的模型

公众号/视频号/小红书/微博 :人工智能技术派
人工智能技术派(AITECH)成员:hws

⎣语音大模型⎤ Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

背景介绍

        Whisper模型使用了从互联网收集的680,000小时的标注语音数据,这些数据来自多样化的环境和录音设置,进而使得Whispe比现有ASR模型具有更好的鲁棒性。通过下图可以看出whisper的编码大多数背景声音信息,也就是说whisper或许可以用作音频分类,基于这一发现,论文探索了“一个统一语音识别和音频标签的模型”的方案。

方案阐述

        上图是作者提出的“统一语音识别和音频标记”的模型架构,冻结Whisper的主干网络,也就是原来的whisper模型可以直接使用,识别效果不受任何影响。变动的地方是引入一个轻量级的音频标签模型(at-model),这里at-model架构的选择作者实验了4中方案,分别是:

Last-MLP:顾名思义只将whisper模型最后一层的输出作为特征输给at-model WA-MLP:WA指weighted average,这个方案取whisper所有层的输出,将平均值发送给at-model WA-Tr:这个方案将WA-MLP的线性层用一个单头的transformer代替 TL-Tr:全称“time and layer-wise Transformer ”,就是上图框架对应方案,每一层的输出单独进行temporal Transformer,各层的Transformer权重是共享的。

        作者为什么将whisper每一层的输出作为特征输入给at-model喃?关于这一点论文有实验结论:不同类别的声音采用whisper不同层的输出作为特征可以取得更好的分类效果(如下图)。

        因为额外增加了1个at-model,所以计算力相比whisper肯定是要增加的,为最小化这种影响,at-model做了如下优化设计:1)在时间维度引入池化层将序列长度从500降至25;2)增加一个线性变换层,将维度从1280降至512。

归纳总结

        综合看论文给出的实验结论(参下表),效果还是不错的。在精度相当的情况下,at-model取tl-tr时,at-model速度是AST的42倍。注意这里特指at-model部分,也就是说这里的42倍指的是纯音频标签部分的算力对比。

如果你是“语音识别+音频标签”任务,在识别算力没有增加的情况下,音频标签算力大大减少 如果你是单纯的“音频标签”任务,使用Whisper-Large就不太合适了,算力应该会超过AST,这个时候可以采用Whisper-Small外加一个更大的at-model(如表的最后一行),这个时候收益没那么大了,只有2.5倍,效果也差一些

同时,论文中给出了实现代码,为方便调试可以先下个tiny模型,执行whisper_transcribe_test_simple.py可以快速看到结果。

参考文献

Whisper-AT: https://www.isca-archive.org/interspeech_2023/gong23d_interspeech.pdf 实现代码:GitHub - YuanGongND/whisper-at: Code and Pretrained Models for Interspeech 2023 Paper "Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers"

更新时间 2024-03-28