近日,Mamba方面又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。\
先来看一张其乐融融的图片(一眼AI):
右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。
至于到底能不能其乐融融,咱就不管了,之所以有此场景,是因为Mamba方面又搞出了有意思的研究:
——如何把Llama变成Mamba?
近日,来自康奈尔、普林斯顿等机构的研究人员推出了上面这篇工作,将Llama这样的大型Transformer提炼成了Mamba模型,
并且成功在Mamba架构上应用了带有硬件感知的推测解码算法,提高了整个模型的推理速度。
为什么要把Llama变成Mamba?
因为从头开始训练一个大模型太贵了。
Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。
目前比较有名的是AI21的Jamba(进化到了1.5版本,最大398B,MoE),以及NVIDIA的Hybrid Mamba2模型(8B)。
不过世界上有那么多成功的Transformer大模型,而知识就包含在这些模型参数里。
如果能够锁住知识,同时把Transformer微调成Mamba,不就解决问题了?
在本文中,研究人员结合渐进式蒸馏、监督微调(SFT)和定向偏好优化(DPO)等方法达成了这一目标。
光是变大还不够,
在性能匹配Transformer的前提下,速度也要够快才行。
Mamba凭借固定的推理开销,在长序列中的优势明显,但Transformer这边也是有推理加速方案的,比如推测解码。
而由于Mamba本身的结构特性,不能直接应用这种方案,所以作者设计了全新的算法,并结合硬件的性质来实现基于Mamba的推测解码。
最终,研究人员将Zephyr-7B、Llama-3 8B提炼为了线性RNN模型(混合Mamba和Mamba2),且性能与蒸馏之前的标准模型相当。
整个训练过程只使用了20B的token,效果却能够与使用1.2T个token从头开始训练的Mamba 7B模型,以及使用3.5T个token训练的NVIDIA Hybrid Mamba2模型相媲美。
从 Transformer 到 Mamba
在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。
所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。
额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数初始化。
之后就是SSM的运算过程,再通过投影和累加得到输出。
模型架构和训练
下图给出了模型的架构,因为Transformer的知识存在于MLP层,所以冻结这部分参数。
除了用线性RNN层(Mamba)替换掉注意力头,还有一些组件需要处理,比如跨头共享键和值的分组查询注意力(GQA)。
知识蒸馏(Knowledge distillation,KD)是一种常用的压缩技术,用来训练模仿较大模型(teacher)行为的较小网络(student)。
根据经验,这里采用逐步替换Attention层的策略,先是每2层进行蒸馏,然后每4层继续蒸馏…
监督微调
有两种常见的蒸馏方法。一种方法是使用word-level的KL散度,此时训练student模型去匹配teacher模型输出的完整概率分布。
第二种方法是序列级知识蒸馏(SeqKD),直接使用teacher模型的输出作为ground truth来训练student模型(也称为伪标签)。
这里θ是student模型的可训练参数,α和β分别控制序列和词的loss项的权重。
偏好优化
LLM指令调优的第二阶段是使其符合用户偏好。这个阶段,使用一组期望的偏好对来改进模型的输出。
优化的目标是使奖励模型最大化,同时保持产生的输出接近参考模型。
通常,参考模型使用上一步监督微调后的模型。这里因为是蒸馏,直接可以用teacher模型:
偏好模型的奖励函数定义取决于所使用的方法,本文采用直接偏好优化(DPO),通过直接梯度更新有效地到达优化目标。
DPO表明,对于给定的提示x ,如果我们能够获得preferred和dispreferred两种输出,就可以将这个优化问题重新表述为:
这种优化可以在序列级别上执行,让teacher模型和student模型一起对preferred和dispreferred输出进行评分,然后反向传播给student模型。
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
推测解码
经过上面的一套小连招,模型转换就搞定了,下面开始想办法应用Transformer那边的推测解码。
推测解码(Speculative Decoding)可以简单理解为下面这张图。
Transformer做推理的时候,除了要处理不断变长的KV cache之外,计算效率也是个问题。
因为显卡的设计是计算高于访存的,具体到计算单元就是做矩阵乘法。
而推理的时候每次只能进入一个词向量,显卡的很多计算就被浪费了。
推测解码给出的解决方案是,使用一个小模型做生成,然后拿显卡多余的计算做验证。
小模型跑得快,可以一口气生成很多输出向量,但是可能效果差一点。这时候用大模型作为验证,一次计算之前生成的很多个向量。
所以小模型串行跑得快,大模型可以并行计算跑得也快,遇到验证不通过的就直接回滚,整体上提高了推理的速度。
Transformer可以方便地回滚,因为KV cache跟时间是一一对应的,但Mamba这边只有一个当前的中间状态ht,你总不能把所有中间状态都存起来吧。
为了解决这个问题,研究人员设计了下面的算法:
简单来说就是每次使用小模型(draft model)生成一组输出,然后大模型(verification model)验证这一组输出,根据验证匹配的位置来更新需要保存的中间状态。
我们可以从下面的伪代码了解详细的过程:
每次生成K个草稿输出,验证模型通过MultiStep函数返回K个真正的输出,以及上一次校验成功位置的cache(中间状态hj)和本次最后位置的cache(hk)。
Multi-Step内核的性能特征
通过FirstConflict函数找到最后匹配(校验成功)的位置,如果所有都匹配,则cache可以更新到最后的hk,否则就只更新到上一次的hj。
兵马后动,粮草先行,不耽误输出和校验,同时只需要多存储一个中间状态。
当然,如果草稿模型也用Mamba的话,算法的推测部分会变得复杂一些,因为草稿模型需要重新计算上一次迭代中验证成功位置的状态。
硬件特定优化
下面使用Mamba 7B和 Mamba 2.8B作为目标模型进行推测实验。
最初,作者搞了一版简单的算法实现,结果在Ampere架构的GPU(3090)上面效果显著,Mamba 2.8B获得了1.5倍的推理加速, 同时有60%的接受率。
但是这种实现方式在H100 GPU上不太好使,主要是因为GEMM操作的速度更快了,使得缓存和重新计算产生的开销更加明显。
所以,作者通过融合内核以及调整实现方式来优化算法。
对于验证模型,首先从缓存中重新计算之前的步骤,然后对新的草稿token序列进行多步解码,最后在单个内核中进行缓存。
对于草稿模型,重新计算、解码和缓存也融合在单个内核中。最终实现了上表中的加速效果。
实验
研究人员使用两个LLM聊天模型进行实验:Zephyr-7B和Llama-3 Instruct 8B。
采用三阶段蒸馏。在第一阶段,使用UltraChat和UltraFeedback作为种子提示,并使用teacher模型生成伪标签。
使用AdamW优化器训练模型,β=(0.9,0.98) ,批量大小64。先使用线性学习率预热,然后进行余弦退火。
第二阶段,在一个epoch中使用SFT在GenQA、InfinityInstruct和OpenHermes 2.5数据集上对模型进行监督微调,采用与Zephyr相同的超参数。
最后一个阶段,对于从Zephyr中提取的模型,在UltraFeedback数据集上使用DPO与标准模型进行蒸馏对齐。
过程中只在第一阶段冻结MLP层,后两个阶段所有参数都进行训练。
作者表示,通常只需要在8卡80G A100上运行3到4天,即可重现本文的结果。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
总结
**文章总结:Mamba模型与推测解码优化研究**近期,康奈尔和普林斯顿等机构的研究人员在大型Transformer模型的基础上,成功将Llama提炼为Mamba模型,并通过设计新的推测解码算法显著提升了模型推理速度。这一研究的主要动机在于从头训练大模型成本高昂,而现有大模型蕴含了丰富的知识,研究工作旨在有效保留这些知识的同时提高推理效率。
**关键步骤与技术创新**:
1. **模型提炼**:
- 研究团队利用渐进式蒸馏、监督微调(SFT)和定向偏好优化(DPO)等方法,将Llama等大型Transformer模型转化为Mamba模型,保留了原模型的知识但减少了计算需求。
- 通过冻结部分参数、替换注意力层为线性RNN层等技术手段,实现了从Transformer到Mamba的转换。
2. **推测解码算法设计**:
- 鉴于Transformer模型在推理过程中存在的计算效率低下问题,研究人员设计了基于Mamba的推测解码算法。该算法利用小模型快速生成候选输出,并通过大模型进行验证,从而提高推理效率。
- 解决了Mamba模型无法进行传统推测解码的问题,设计了一套新的机制(如缓存失效处理和中间状态更新策略),确保算法在Mamba架构下的有效应用。
3. **硬件特定优化**:
- 针对不同型号的GPU,研究人员进行了针对性的优化,显著提高了推测解码算法的执行效率和接受率。
**实验与结果**:
- 通过在Zephyr-7B和Llama-3 Instruct 8B等模型上进行实验,研究人员展示了其方法在保持模型性能的同时,显著提升了推理速度。
- 实验结果表明,在相同数据集上,通过蒸馏和微调后,Mamba模型表现与原大型Transformer模型相当,但推理速度更快。
**读者福利与资源分享**:
- 研究团队还提供了一套系统性学习资源,包括书籍、行业报告、学习视频等,帮助对大模型感兴趣的读者从零开始系统学习。
- 强调了动手实操的重要性,建议通过实际案例和实践加深理解,提高技能。
**总结与展望**:
该研究工作不仅在理论上实现了从Transformer到Mamba的模型转换和性能优化,还为实际应用中的大模型推理效率提升提供了新思路和方法。未来,可以进一步探索更多硬件加速技术和优化策略,推动大模型在更多领域中的应用和发展。