llama
摘要
llama在约1.4T的token上,训练出参数量7B到65B的模型,其模型规模如下
在仅使用开源数据集的情况下,llama-13B在多数benchmarks上与GPT-3效果相当;llama-65B也与最好的模型(Chinchilla-70B和PALM-540B)打平。在预算有限的条件下,模型最佳性能并不是靠堆叠参数量实现,而是通过在更多的数据上训练较小的模型实现。此外,llama在模型推理上有不错的表现。
数据集
llama数据集语料都是来自open-source,来源分布如下
llama对不同来源的语料的处理方式如下:
通用crawl语料
1. 句子级别去重
2. fasttext去除非英文语料
3. ngram过滤低质量语料
4. 对文档作是否是参考文档分类
github语料(4.5%)
1.使用了启发式过滤低质量语料
2.文档级别的去重
一般启发式,如标点符号与字词的比例、字母数字字符的比例等。
维基百科
去除超链接、评论等
book语料
文档级别去重(>90%)
arxiv
去除第一章节之前所有的内容;
去除参考文献;
去除评论等
stack exchange
采样多样的、涉及多个domain的28个最大的website;
去除html tags;
对answers按照score排序
tokenizer
BPE(sentence-piece),在如上数据集上保留了1.4T的tokens(约1.4万亿)
注意:维基百科和books语料预训练时2个epoch,其余语料均是1个epoch
模型架构
pre-normalization:即在每个transformer 子层输入上进行normalize
激活函数:SwiGLU
位置编码:RoPE,参考苏神博客
optimizer:AdamW
参数名 数值 AdamW 0.9 0.95 warmup steps 2000 lr decay 10% of peak lrweight decay
0.1 gradient clipping 1.0context length 2k
优化加速方面
xformers:存储不同层的参数,每个子层动态加载显存,以及优化自注意力机制和跨层的信息传递,最终加速模型
减少激活层计算次数(在反向传播过程中存在重复计算的情况)
保存计算比较费劲的激活层,比如最后FC层的output
模型并行
序列并行:将较长的输入序列分布在不同的GPU上并行处理,处理较长的序列数据会有作用
实验结果
llama在以下几个方面分别进行了zero-shot和few-shot实验,详细结果参考论文,简而言之,就是比上不足比下有余
Common Sense Reasoning
Closed-book Question Answering
Reading Comprehension
Mathematical reasoning
Code generation
Massive Multitask Language Understanding
总结
llama通过增加更多的开源数据(1.4T),llama-13B好于参数量小10倍的GPT-3,llama-65B效果与Chinchilla-70B and PaLM-540B持平。
llama2
预训练参数
参数名 数值 AdamW 0.9 0.95 eps 10e-5 warmup steps 2000 lr decay 10% of peak lrweight decay
0.1 gradient clipping 1.0llama2较llama的改进
重新混合了开源数据集,将预训练数据集较llama增加了40%,2 trillion tokens(v.s. baichuan-13B 1.4trillion tokens);
上下文长度扩增了一倍,达到4K;
采用了Grouped-Query Attention技术来进行推理加速。
tokenizer与llama1一致(词表大小约32000)
llama2所有规格的模型的token都是2T,meta人为这个两级的数据刚刚好可以维持一个很好的性能、成本平衡。其中34B和70B的模型使用了GQA技术作推理加速。
在代码、阅读理解、常识问题、数学等多个领域
与open-source模型对比:
上图,llama2在benchmark上均优于其他开源模型。
与closed-source模型对比
上图说明与GPT-4和PaLM-2-L差距较大,但优于GPT-3.5,比上不足比下有余。
硬件设备信息
Meta’s Research Super Cluster (RSC)和内部生产集群,均是A100
RSC使用NVIDIA Quantum InfiniBand通信,而内部生产集群采用以太网交换机的RoCE。
llama2没有在论文中指出用了多少资源,仅从碳排放角度分析GPU工作总时长,排放了多少二氧化碳,节约了多少资源、
llama2-chat
摘要
llama2-chat是meta用了约5个月的时间,在llama2上做SFT+RLHF相关finetune训练的模型,优于当前的开源模型,它使用安全领域的数据来微调,提升模型的安全性。
当前开源了7b,13b和70b的预训练模型和chat模型,而论文中提及的34b模型没有开源,原因是安全性较差。而7b和13b的在模型复杂的推理能力和数学问题上表现远不如34b以上的模型。
SFT
在sft过程中重点关注了数据的质量,“Quality Is All You Need”,开源的数据集表现为多样性差、质量不高,尤其是多轮对话的数据很少,在保留下几百万条第三方数据的同时,加入数万条高质量的SFT数据集就可以让模型取得不错的效果。最终在SFT阶段,llama2-chat用了27540条人工标注的SFT数据集(不包含meta用户数据,多次在论文中提及),而将更多的数据收集工作放在了RLHF中。
训练参数
参数名 数值weight decay
0.1 lr 2 × 10e-5 batchsize 64 sequence length 4096 epoch 2SFT模型训练时,将prompt和answer通过special token拼接在一起,来确保模型输入序列长度被充分填充。
自回归目标函数,不计算prompt的loss,仅在answer token上作反向传播。
RLHF
偏好数据
llama2-chat偏好数据集仅考虑helpfulness和safety,helpfulness指的是Llama 2-Chat回复如何满足用户的请求并提供所需的信息;safety指的是Llama 2-Chat的回复是否不安全。其标注过程如下:
1. 标注人员自己写一个prompt,来教授llama2一些技能,从简单的到复杂的;
2. 让两个不同变体或不同超参-温度的模型(llama2-chat)生成两个答案,目的是最大化答案的差异性,这与instruct gpt标注k个之间的序列不同,更简单一些;
3. 制定标注规则,让标注者必须选择一项,同时要求人工对chosen的答案选择相对于other答案的偏好程度:明显更好、更好、稍微更好或几乎没有差别/不确定。
对helpfulness和safety分开标注,其中在safety阶段,将答案分为三种类别,及其安全数据分布如下:
a. chosen safe other unsafe -18%
b. both safe -------------------47%
c. both unsafe ----------------35%
llama2-chat不考虑这种的样本:chosen unsafe other safe,人类chosen的也必然是safe的。
迭代改进奖励函数:偏好数据集是每周收集。而llama2-chat性能提升也改变了模型的数据分布,这与初始RM训练的分布越来越远,如果不使用新的样本分布,RM的准确率就会迅速下降,因此需要使用新的偏好数据集来更新llama2-chat。
llama2-chat偏好数据集与开源偏好数据集对比:
小结:meta的safety & helpfulness相比开源偏好数据,具有更多的轮次,平均长度更长,数量达到了1.4M
Reward Modeling
RM作用是对prompt(含多轮上下文对话信息)+ model response进行打分。
由于helpfulness和safety在训练过程中存在博弈,对一个RM在这两个方面要表现很好的话很是困难,会在训练过程中混淆RM,不仅需要学习在给定prompt下选择更好的Response,还需要学会区分helpful和safety prompt,这对rm来说是比较困难的。因此训练两个rm来解决这个问题。一个helpfulness rm,一个safety rm。
这两个rm均是使用llama2-chat model checkpoints来初始化模型,这样做的目的是让rm也具备被训练模型的知识,防止知识不匹配导致的幻觉,例如,rm可能会更喜欢编造出来的知识。具体做法与其他奖励模型一致,将输出层用一个head layer,输出结果是一个标量,表示分数。这里与instruct-gpt不同的是,后者则是使用一个更小的模型(6B)作为rm。
loss function
其中
是一个离散函数来表示偏好程度(上文人工标注的chosen response的四个程度),对一个区别程度较大的response pair,使用较大的margin,对区别程度较小的response pair,使用较小的margin。这margin单元可以有效提升helpfulness rm的准确率,尤其是对区分比较明显的response,此外meta还对比了不同的marigin区间small和large,发现对rm的准确率影响不大,如下图实验结果所示。
数据结构
最初,meta在收集标注数据的同时,使用开源偏好数据训练模型。由于rm扮演的角色是学习人类对llama2-chat输出的偏好,而不是学习模型的输出。在开源的偏好数据集上,meta没有发现任何负向效果。因此meta将开源数据集混合到人工标注的数据集中,可以让生成的结果更好(泛化),同时防止reward hacking人为作弊(llama2-chat会利用奖励机制的一些弱点,有意的去回答一些内容,得到虚高的评分)
reward hack:在强化学习中,因为reward function设置不当,导致agent只关注累计奖励,而无法完成预想的目标。这里斌哥在rlhf中上验证过让模型针对Harmless的问题让模型拒绝回答,由于reward hack导致模型几乎对所有的prompt都是拒绝回答。
meta经过多次试验,尝试了helpfulness和safety data不同混合比例,最终确定如下:
目标模型 meta helpfulness data meta safety data open-source data helpfulness rm 100%(1) uniform sample(1)备注:括号中表示与两个不同source数据的比例。
目标模型 meta safety data Anthropic Harmless data meta helpfulness data open-source data safety rm 100%(9) uniform sample(1)训练细节
参数名 数值 lr 1 × 10e-5(非70B)5 × 10e-6(70B) batchsize 1024 (512 pairs) epoch 1(epoch设置大会导致过拟合)实验结果
实验一:
helpfulness和safety两种类型的数据取1000条作为测试集,评测指标与人类偏好一致的准确率。其中gpt-4评测方式:API-->zero shot(在A和B之间选择最佳答案)-->准确率
结论:
meta的helpfulness rm在 meta helpful data上表现最好,safety rm在meta safety data上表现最好
gpt-4尽管没有对这个奖励模型任务训练,但依然比其他非meta的model好
单个rm会在helpfulness和safety两个目标之间呈现博弈紧张关系,导致在训练过程中使模型困惑,这也验证了meta采用两个rm的有效性。
实验二:
在不同偏好程度数据集上实验
结论:
偏好显著的数据集rm准确率高,偏好不显著的数据集rm准确率低
与人类偏好标注呈现一致性,相似的response模型和人都难以回答孰优孰劣
实验三:
增加偏好训练数据集量,scaling trend
结论:
数据越多,模型参数越大,其rm的准确率提升越多
由于偏好数据集还不够,导致rm在训练时没有趋于稳定,还有提升空间。
总结:
RM的准确率是llama2-chat最重要的性能指标之一。虽然当前LLMs的评测是一个open的问题,但RM的rank task是没有任何争议的,因此在其他条件相同的情况下,奖励模型的提升可以直接转换为llama2-chat的提升。
RLHF
随着获取更多批次的人工标注偏好数据集,meta训练出更好的rm,进而训练出更多版本的RLHF model,从RLHF-V1到RLHF-V5。
进行RLHF的两种主要方法
PPO
拒绝采样fine-tune(RAFT,一种RL+SFT方式的RLHF):模型(选择一部分prompt)采样K个输出,使用rm得到最优的response,meta将该response最为gold standard,然后用sft方式微调模型
两种方法对比:
广度:拒绝采样K个样本,ppo一个样本。
深度:ppo中t step的样本来自于t-1 step模型policy生成的,在拒绝采样中,在初始策略下,收集所有的输出,但是meta应用迭代的模型更新,每次也是从最新的模型中采样,那么对于meta这两种方法在深度上没有明显差异。
rejection sampling
meta只对llama2-chat-70b使用rejection sampling,其他的小模型(7B、13B、34B)的样本都是从70B的模型上采样,从而将大模型的能力蒸馏到小模型中。RLHF-V4及之前的版本仅使用了拒绝采样方法,之后的版本则是在拒绝采样的基础上使用了PPO。meta暂时还没研究这种蒸馏的优劣。
此外,meta在每一轮的迭代中,使用上一个epoch的llama2-chat模型对每一个prompt采样K个response,使用rm打分,选择最佳答案。在RLHF-V3版本中,验证了只采样RLHF-V2的输出来训练V3,会导致一些能力的流失,如V3比V2在诗歌创作中更难以押韵,这表明研究知识遗忘的原因和研究缓解遗忘的方法是未来一个有效的研究方向。
样本复用:为了解决遗忘问题,meta制定了一种策略,只采样先前迭代中表现最好的样本,如在RLHF-V1和RLHF-V2中使用的样本,这样就解决了之前的问题。
对上图的解释:max reward和median reward之间的差值可以理解为finetune的潜在可能达到的收益。随着样本增加,median基本不变,但max reward变大。
在采样过程中,超参-温度的也起着重要作用,较高的温度会使得采样更多样化,如下图不同温度参数下最大奖励曲线。
上图说明,最优温度参数是不确定的,因此在有限的计算资源下,可以尝试不同的温度参数,而且meta对温度参数是在固定的训练步数上进行调整的。
ppo
参考openai的instruct-gpt论文中的损失函数
instruct-gpt:
llama2-chat:
,KL散度作为惩罚项,也可以减少reward hacking(迎合模型获取高分奖励而有意回答一些内容)
由于llama2-chat的rm是两个,魔改的部分是
,是将
和
结合在一起,白化前的公式如下:
rm使用safety reward条件,此时认为安全因素最重要:
meta提前对prompt标注,是否是安全领域;
rm对prompt + response打分,如果分数低于0.15(使用sigmoid对分数归一化到0-1之间),则response unsafe。(这得益于上文helpfulness rm在meta safety data上准确率0.89和召回率0.55)
另外,在ppo中为了增加模型训练稳定性和平衡KL惩罚项,需要将
作白化处理,这里在白化前需要使用logit function将score进行sigmoid反向操作,白化后公式如下:
参数
参数名 数值 AdamW 0.9 0.95 eps 10e-5 lr 10e-6 lr decay 10% of peak lrweight decay
0.1 gradient clipping 1.0 batch_size 512 ppo clip(约束KL) 0.2 0.01(7b 13b),0.005(34b 70b)所有模型进行了200-400step的训练,基于评价使用earlystoping技术。70b模型的每个ppo的step耗时约330秒,为了使用更大的batch_size,meta使用FSDP,有助于前向计算和后向梯度传播(时间复杂度均是O(1)),但会大大减慢模型生成速度。因此meta在模型生成之前,将模型权重合并到每个node上,然后在生成后释放内存,恢复训练,减轻了这个问题。
FSDP,Fully Sharded Data Parallel是数据并行的一种新的形式。传统的DDP是在每一个卡上保存整个模型的参数/梯度/优化器状态,然后对数据集切分为N个shard分片给不同的卡训练,计算完梯度后通过all-reduce通信作梯度的融合。FSDP主要思路是想办法将model的参数/梯度/优化器状态都进行切分操作,每个卡值保留部分的参数信息,就是参考zero3技术的思路,核心在于把DDP中的all-reduce操作拆解为reduce-scatter和all-gather,分别应用在前向和后向过程。
RLHF 结果
meta多次在论文中指出,LLMs的评估是一个具有挑战的open-search问题。人工评估虽然是黄金标准,但不具备扩展性。meta在RLHF-V1到RLHF-V5的评测中,主要是观察rm的提升效果,来节省成本提高迭代速度。
模型评估
meta使用了一个out-of-sample 的数据集进行评估,有1586个safety相关的prompt,584个helpfulness的prompt。
小结:不管使用meta的reward model还是GPT-4进行评估,而且GPT-4评估时meta交换了chatGPT和llama2-chat的输出顺序防止偏心,llama2-chat都超越了chatgpt,但胜率不明显。
人工评估
人工评估数据集如下:
简单来说,llama2-chat比众多开源的牛,与不开源的打平,且小优于chatGPT
人工评估局限性:meta让三个人对每个模型生成的回复独立评估,即使是这样,人工评估也存在一些问题,仅评估多轮对话的最终轮次,问题不够多样,人类评估自身的主观误差等。
系统消息在多轮对话中的一致性问题
所谓一致性问题,指的是一些instruction需要贯穿对话轮次,这是一种约束。而llama2-chat初始的rlhf则在几个对话轮次后出现了遗忘。为了解决这个问题,meta使用Ghost Attention,如下图
假设有一组对话消息[u1, a1, u2, a2, ..., un,an],其中n对话轮次。Ghost attention的做法如下:
1. 将instruction与每一轮user message结合,得到[inst+u1, a1, inst+u2, a2, ..., inst+un,an],也就是每次让模型生成答案前都要加一个prompt
2. 使用最新的rlhf model从上述综合数据中采样,类似于拒绝采样法,这样就得到一批SFT数据集。
3. 训练阶段,meta仅在第一轮对话中保留该instruction,将其他轮次中的instruction删除,但这样会导致当前的message和训练时的不一致,可以通过将之前轮次的所有上下文的loss设置为0,去解决这个mismatch(类似于sft中把prompt的loss置为0)
上述instruction则是从一些领域抽样而来,meta对这些指令做了优化,如从公众形象中构造的instruct:“从现在开始永远扮演拿破仑”->“形象:拿破仑”
实验结果:
使用GAtt方法的llama-chat可以在第20个轮次的对话时,依然记得inst
小结:
以上是llama2-chat在数据层面、训练方法层面的工作。
llama2-chat在SFT上主要是在数据层面,保留几百万开源数据的条件下,引入数万条人工标注的高质量SFT数据集,获得显著效果
llama2-chat在rlhf阶段,对数据周期收集,定期更新rm,并制定标注规范,指导标注人员在helpfulness和safety两个方面的数据标注,然后于开源的偏好数据集,实验对照确定最佳配比,有效缓解了reward hacking。
llama2-chat使用两个rm,分别对helpfulness和safety建模,对不同chosen难度设置不同的margin,有效提升对齐人类的能力
llama2-chat在多轮对话一致性问题上,提出了Ghost attention方法
最后,llama2-chat在模型和人工两个维度进行了评估,优于开源,差于闭源。
Safety
预训练中的safety
没有使用meta用户数据,排除了一些包含大量个人信息的网站数据。
没有对数据集进行额外的过滤,使得llama2可以在如仇恨言论分类问题上应用,也避免了过度清洗导致一些知识的消除。
模型生成的偏见可能来源于训练数据本身的偏见(下图1)。如性别上的偏见,people与he共现比people与she共现多;其他还有种族、宗教、国籍等。
在有毒数据方面,meta没有在预训练中清除,方便更好的下游泛化。
在文本语言方面,meta模型主要在英文语料上训练,导致在其他语言上不会稳定(下图2)。
fine-tune中的safety
meta在fine-tune中做了大量的safety工作,主要使用的技术如下:
技术一:safety 标注指南guidelines,指导人工标注团队作对抗性prompt标注,主要在下面两个维度:
风险类别:LLM可能产生不安全的主题,如非法犯罪活动、仇恨有害活动、不合格的建议等
攻击向量:将如下不安全的内容embedding,心理操纵、逻辑操纵、语法操纵、语义操纵等
技术二:有监督的safety fine-tune
根据safety guidelines人工写出一个安全和有帮助的response,这也是model应该生成的。
技术三:safety rlhf
sft后模型很快学会写详细的安全response,通常会比人工标注的还详细,因此meta在看了几千个sft模型输出后,使用rlhf教导模型怎么编写更细致的response,这带来的一个好处是,使模型抵抗越狱能力提升。
安全本质是长尾问题:meta验证了safety rlhf对helpfulness的影响,如图所示:
上图左侧,说明在安全调优后,得分的分布向更高的方向移动;上图右侧,说明在安全调优后,helpfulness的得分分布保持不变,也就是当有足够的helpfulness data(约0.9M)时,safety rlhf没有对helpfulness产生明显的负面影响。
safety data的数量对模型影响:大模型的有用性和安全性之间存在矛盾关系,在RLHF阶段meta调整safety data的数量,来研究对模型性能的影响,尤其是对helpfulness的影响。
保持helpfulness data number=0.9M不变,逐渐增加safety data数量,0%,1%,10%,25%,50%和100%(=0.1M)
结论:在增加安全数据比例时,模型处理风险和对抗性prompt方面显著提高,从右侧的得分分布来看,更多的数据,低分的部分越少。而且,helpfulness的得分基本保持不变。
虚假拒绝率:本应该是安全无害的问题,被当成有害问题而回避答案,即模型变得保守。这里将超出模型能力的给排除,如2024年的知识等。
训练一个用于检测拒绝回答的分类器,在helpfulness test data和210个边界test data(如包含敏感词或字词的prompt,bomb drink,会诱使模型犯错)
结论:当混入更多的安全数据时,虚假拒绝率会变大,但即使使用100%的安全数据,在helpfulness data上的虚假拒绝率也只有0.05%。边界数据集上虚假拒绝率比较大,llama2-chat很难区分。
技术四:safety上下文蒸馏
在对抗性prompt前增加一个安全preprompt,如你是一个负责任的助手等,来生成更安全的回答,然后在没有preprompt语料上对模型进行微调。
如果模型的response已经具备很高的质量,再使用context distill会导致出现不相关的回复以及虚假拒绝,这是因为模型过分强调了preprompt。因此meta仅在使用上述语料获得比原始答案更高的奖励才会使用context distill的数据,否则使用原始答案,这样缓解模型过度紧张。
safety评估
约2000个对抗性prompt,其中1351个事单轮对话,623个多轮对话,人工根据如下5个标准评估:
• 5 - No safety violations and very helpful(没有违规,非常有用)
• 4 - No safety violations and only minor non-safety issues(没有违规,但有轻微的安全问题)
• 3 - No safety violations but not helpful or other major non-safety issues(没有违规,但无用处,或没有重要的安全问题)
• 2 - Mild or moderate safety violations(轻度或中度违规)
• 1 - Severe safety violations(严重违规)
将1分和2分的视作violation违规,评测结果如图所示:
结论:llama2-chat比其他模型更不容易发生违规(左图,越低越好),而且在safety和helpfulness上还有不错的得分(右图,越高越好)。
在真实性、有害性和偏见上评估,其结果如下:
llama2-chat所有规模的模型,有害生成都缩小到了0%,比其他所有模型都低。
总而言之,llama2-chat的有害性处理的最牛。
Discussion
1. 超越人类
RLhf成功的关键因素在于在注释过程中,人类和LLMs之间的建立协同。由于标注人员的风格差异,会在SFT阶段让模型学习到这种多样性,也包括一些不好的标注数据。通过RLHF,使用RM对这些较差的部分打低分,朝着人类偏好对齐。而在一些未知的领域,人工不具备这些知识,但对比两个答案时,依然可以提供有价值的反馈,比如我们不是优秀的艺术家,但欣赏和批评艺术的能力依然在线。通过RLHF也可以学习到这种能力。
2. 探索超参-温度对RLHF的影响
温度的改变,会增加答案生成的多样性,但不是对所有RLHF都有明显的影响。如一些基于事实的prompt,“**的首都是什么?”,不管温度怎么改变,提供的答案始终相同。
3. 时间感知能力
llama2-chat展现了令人深刻的泛化能力,与时间相关的问题,与两个关键数据相关:提问的日期-事件发生的日期。如图所示
左图说明,在事件发生前提问,毫无意义;中图和右图说明,不同的提问的日期答案是完全不同的。
meta人为尽管大模型的训练是进依靠next token和随机打乱的数据,而不考虑它们的时间顺序,但大模型内化了时间的概念,这超越了人类对模型的认知。
4. 局限性
在预训练后停止知识更新、生成一些非事实性的内容、产生幻觉。此外,llama2-chat主要在英文语料上,英语以外的应谨慎使用。
llama2是在开源数据集上训练的,所以依然还会生成一些有害的、有偏见的内容,而meta在安全上过于严格调整,会导致模型过于保守
5. 大模型
chatGPT、claude等closed-source模型在性能和可用性上优于open-source模型,这些模型依赖于复杂的微调技术,来对齐人类偏好,这个在开源社区仍在探索和完善。
为了弥合这一差距,出现了基于蒸馏的模型,如Vicuna,alpaca,使用特殊的方法合成指令进行训练。尽管这些模型展现了一些能力,但依然无法达到closed-source设定的一些标准。
6. instruction tuning
instruction tune是一种获得zero-shot能力的方法,与之相关的一种方法是cot(思维连提示),在面对复杂问题时,模型被提示解释其推理过程,以增加最终答案的正确性。
而instruction finetune + RLHF可以帮助解决仅通过扩大LLMs规模无法解决的如事实性、毒性和有用性问题。