几个月前,Colossal-AI 团队仅利用8.5B token数据、15小时、数千元的训练成本,成功构建了性能卓越的中文LLaMA-2 7B 版本模型,在多个评测榜单性能优越。
在原有训练方案的基础上,Colossal-AI 团队再次迭代,并通过构建更为细致完善的数据体系,利用 25B token 的数据,打造了效果更佳的 13B 模型,并开源相关权重。
开源代码与权重:https://github.com/hpcaitech/ColossalAI
性能表现
注:基于ColossalEval评分,括号中分数来源于对应模型官方发布的榜单分数,C-Eval 分数来源于官网 Leaderboard。
在英文 MMLU 榜单中,Colossal-LLaMA-2-13B-base 在低成本增量预训练的加持下,英文效果稳中有升。在 GSM8k 的评估中发现,英文数学与推理能力有了显著的提升(31.31 -> 58.83),在所有 13B 的模型中,表现优异。
在中文榜单中,我们主要对比了 CMMLU, AGIEVAL, GAOKAO 与 C-Eval,效果远超基于 LLaMA-2 的其他中文汉化模型。即使与其他采用中文语料,可能花费上千万元成本,从头预训练的各大知名模型相比,Colossal-LLaMA-2在同规模下仍表现抢眼。尤其是与原始 LLaMA-2 相比,在中文能力上有了质的飞跃 (CMMLU: 38.14 -> 61.8)。
从整个训练的 Loss 记录来看,在利用 Colossal-AI 系统降本增效能力的同时,模型收敛性也得到充分保证,仅通过约 25 B tokens(250 亿 tokens),数万元算力成本,让模型达到如此惊艳的效果。而市面上的大模型动辄使用几万亿token进行训练才有效果保证,成本高昂。
数据构建
为了更大程度地降低训练的成本,高质量的数据在其中起着关键作用,尤其是对于增量预训练,对于数据的质量,分布都有着极高的要求。在训练 7B 版本的过程中,为了更好地筛选高质量的数据,Colossal-AI 团队构建了完整的数据清洗体系与工具包,以便筛选更为高质量的数据用于增量预训练。
相比于 7B 版本,在此次训练 13B 版本过程中,Colossal-AI 团队构建了更为完善的数据体系,将数据划分为知识性数据,功能性数据,与记忆回放数据。其中,将知识性数据划分为十几个大类,包括金融,法律,教育等;每个大类又划分为不同的小类,从而对不同类型的数据进行更为精准的调控。同时增加了不同垂类数据的规模,以确保基座模型本身对于不同领域数据的掌握程度都有一定的提升。
而为应对社区对于大模型功能性的需求,我们针对于不同的自然语言处理任务,进行针对性提升,以确保模型在预训练阶段就对常见自然语言处理任务有一定的了解与掌握,如常见的文本摘要,信息抽取能力,以及复杂问题的思维链理解能力。
另外,记忆回放类数据是激发模型对于所见知识掌握程度的关键步骤与数据组成,该数据有效提升了模型整体的表现能力与泛化能力。
除此之外,针对于日益关注的安全性与价值观问题,Colossal-AI 团队进行了多维度(政治敏感,宗教敏感,辱骂仇恨,偏见歧视,违法犯罪,身体伤害,心理健康,财产隐私,道德伦理等)的提升,以确保基座模型更为强大的安全性与价值观正确。
低成本高质量模型构建
经过以上多维度数据的构建以及对基座模型自然语言基础能力的提升,Colossal-AI 团队打造出性能更强的 13B 版本模型。基于此方案,社区用户可在微调阶段可以借助更少量的,高质量的微调数据,更少的成本,打造属于自己的微调模型。
Colossal-AI开源地址:
https://github.com/hpcaitech/ColossalAI
Colossal-AI云平台:
https://platform.luchentech.com
参考链接:
https://hpc-ai.com/blog/Colossal-LLaMA-2-13B
公司简介
潞晨科技致力于解放AI生产力,打造面向大模型时代的通用深度学习系统Colossal-AI ,高效促进AI大模型落地应用。Colossal-AI目前已获得GitHub星数三万五千多颗,细分赛道排名世界第一。团队核心成员全部来自美国加州伯克利、斯坦福、清华、北大、新加坡国立、南洋理工大学等国际知名高校。
潞晨科技近期获得数亿元A轮及A+轮融资,在成立24个月内已迅速连续完成四轮融资,投资方为创新工场、真格基金、蓝驰创投、某世界500强科技巨头、大湾区基金、新加坡电信等。潞晨科技已与多家世界/中国五百强、东南亚科技巨头、亚洲地区国家级研究机构、海外超算中心等开展合作,促进AI大模型商业化落地,合作涉及云计算、芯片设计、生物医药、自动驾驶、智能零售、互联网等领域,并已与多家知名厂商联合开发/优化千亿/百亿参数大模型或打造垂类模型。