生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa,推理效率比OpenAI开源的Whisper快50%。
aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法,允许模型在每个推理步骤中预测多个token,同时不会损失性能和识别准确率。
开源地址:https://github.com/aiola-lab/whisper-medusa
huggingface:https://huggingface.co/aiola/whisper-medusa-v1
传统的Transformer架构在生成序列时,是遵循逐个token的顺序预测过程。这意味着在生成新序列时,模型每次只能预测下一个token,然后将这个预测的token加入到序列中,再基于更新后的序列预测下一个token。
这虽然能够确保生成序列的连贯性和上下文相关性,但也有一个非常明显的缺陷——极大限制了模型的推理效率。
此外,由于每次只能处理一个 token ,模型难以捕捉到数据中的长程依赖关系,可能会忽略一些重要的全局信息,从而影响模型的整体性能和准确性。
而Whisper-Medusa使用了10头的多注意力机制, 能各自独立地计算注意力分布并行地处理输入,然后将各自的输出通过拼接的方式组合起来,形成一个多维度的向量。
随后向量被送入全连接层进行进一步的处理,以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率,还增加了模型的表达能力,因为每个注意力头都可以专注于序列的不同子集,捕捉到更丰富的上下文信息。
为了使多头注意力机制在Whisper-Medusa模型中更高效地运行,aiOla采用了弱监督的方法,在训练过程中冻结了原Whisper模型的主要组件,使用该模型生成的音频转录作为伪标签来训练额外的token预测模块。
使得模型即便没有大量手动人工标注数据的情况下,依然能够学习到有效的语音识别模式。
此外在训练过程中,Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面,模型需要确保预测的token序列与实际转录尽可能一致;
另一方面,通过多头注意力机制的并行预测,模型被鼓励在保证精度的前提下,尽可能地加快预测效率。
aiOla使用了学习率调度、梯度裁剪、正则化等多种方法,确保模型在训练过程中能够稳定收敛,同时避免过拟合性。
业务场景方面, Whisper-Medusa能理解100多种语言,用户可以开发音频转录、识别等多种应用,适用于翻译、金融、旅游、物流、仓储等行业。
aiOla表示,未来会将Whisper-Medusa的多注意力机制扩展至20个头,其推理效率将再次获得大幅度提升。
总结
**生成式AI初创公司aiOla开源高效语音模型Whisper-Medusa**生成式AI领域的创新者aiOla,最近在其官网上开源了最新语音模型——Whisper-Medusa。这款模型在推理效率上实现了突破,相比OpenAI开源的Whisper模型,快了50%。aiOla通过对Whisper架构的巧妙修改,引入了“多头注意力”机制的并行计算方法,使得模型能在不降低性能和识别准确率的前提下,实现更快速的推理能力。
**创新技术提升效率与准确性**
传统Transformer模型在生成序列时遵循严格的逐token预测过程,这极大限制了模型的推理速度和长程依赖捕捉能力。而Whisper-Medusa采用了10头多注意力机制,允许多个注意力头独立计算注意力分布并并行处理输入,大幅提升了数据处理速度和模型表达能力。通过弱监督训练方法,aiOla在有限的标注数据下,仍能有效提升语音识别的准确性。
**高效训练策略与优化策略**
为了优化多头注意力机制的效率并确保模型稳定性,aiOla在训练中采用了多种技术手段,包括冻结原Whisper模型主要组件、使用伪标签训练额外token预测模块、调整损失函数以平衡预测准确性和效率、以及应用学习率调度、梯度裁剪和正则化等措施防止过拟合。
**广泛应用场景与前景展望**
Whisper-Medusa支持超过100种语言,为音频转录和识别应用提供了强大的技术支持。其高效准确的特性适用于翻译、金融、旅游、物流和仓储等多个行业领域。aiOla明确表示,未来将扩展Whisper-Medusa至20头多注意力机制,预计会再次显著提升推理效率。
感兴趣的开发者可以访问GitHub(https://github.com/aiola-lab/whisper-medusa)或Hugging Face Hub(https://huggingface.co/aiola/whisper-medusa-v1),下载和体验这款前沿的语音模型。