公众号/视频号/小红书/微博 :人工智能技术派
人工智能技术派(AITECH)成员:hws
背景介绍
Whisper模型使用了从互联网收集的680,000小时的标注语音数据,这些数据来自多样化的环境和录音设置,进而使得Whispe比现有ASR模型具有更好的鲁棒性。通过下图可以看出whisper的编码大多数背景声音信息,也就是说whisper或许可以用作音频分类,基于这一发现,论文探索了“一个统一语音识别和音频标签的模型”的方案。
方案阐述
上图是作者提出的“统一语音识别和音频标记”的模型架构,冻结Whisper的主干网络,也就是原来的whisper模型可以直接使用,识别效果不受任何影响。变动的地方是引入一个轻量级的音频标签模型(at-model),这里at-model架构的选择作者实验了4中方案,分别是:
Last-MLP:顾名思义只将whisper模型最后一层的输出作为特征输给at-model WA-MLP:WA指weighted average,这个方案取whisper所有层的输出,将平均值发送给at-model WA-Tr:这个方案将WA-MLP的线性层用一个单头的transformer代替 TL-Tr:全称“time and layer-wise Transformer ”,就是上图框架对应方案,每一层的输出单独进行temporal Transformer,各层的Transformer权重是共享的。作者为什么将whisper每一层的输出作为特征输入给at-model喃?关于这一点论文有实验结论:不同类别的声音采用whisper不同层的输出作为特征可以取得更好的分类效果(如下图)。
因为额外增加了1个at-model,所以计算力相比whisper肯定是要增加的,为最小化这种影响,at-model做了如下优化设计:1)在时间维度引入池化层将序列长度从500降至25;2)增加一个线性变换层,将维度从1280降至512。
归纳总结
综合看论文给出的实验结论(参下表),效果还是不错的。在精度相当的情况下,at-model取tl-tr时,at-model速度是AST的42倍。注意这里特指at-model部分,也就是说这里的42倍指的是纯音频标签部分的算力对比。
如果你是“语音识别+音频标签”任务,在识别算力没有增加的情况下,音频标签算力大大减少 如果你是单纯的“音频标签”任务,使用Whisper-Large就不太合适了,算力应该会超过AST,这个时候可以采用Whisper-Small外加一个更大的at-model(如表的最后一行),这个时候收益没那么大了,只有2.5倍,效果也差一些同时,论文中给出了实现代码,为方便调试可以先下个tiny模型,执行whisper_transcribe_test_simple.py可以快速看到结果。