当前位置:AIGC资讯 > AIGC > 正文

为什么腾讯认为DiT架构是未来的主流?做了哪些改进?

OpenAI迭代ChatGPT的过程,发现随着参数量的提升,基于Transformer 架构的大语言模型出现了涌现现象。因此,在文生图领域,很可能参数量更大的模型,也会更“聪明”。

而此前文生图领域大火的Unet 模型容易陷入性能瓶颈与可扩展性的问题,且难以灵活适配多模态任务需求(文本/图像/视频/3D)。相比之下,大语言模型的主干网络 Transformer,存在 scaling laws,参数/数据量越多,性能越强。

比如,用户如果希望生成一副“一位年轻亚洲女子”这样简单的图像时,U-Net架构还可以轻松处理;但如果指令变得愈发复杂,比如需要画面中具有多个不同主体(人物、动物、物体),而且对每个主体的外表、神态、位置都有详细的描述,这个任务就会变得有点困难;更别说完成一幅像伦勃朗的《夜巡》或达·芬奇《最后的晚餐》这样能精确描绘每个人表情的巨制。

Transformer架构,则是通过全局的注意力机制关注整幅图像的过程:首先将一张大图切割成无数个小图片块,然后通盘地计算整幅图像中各个图像块之间的关联,从而计算出与目标指令最接近的图。这样的机制,显然需要更大的计算量,尤其当图片变得越来越大、参数变得越来越多时,但好处是不会忽略图片中任何一个细节,而且只要算力与数据量足够,可以无限扩展。

——图片来自西南证券研报《Transformer扩展优势凸显,视频理解与生成能力提升

腾讯混元团队认为基于 Transformer 架构的扩散模型 (如 DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构:未来,DiT架构很可能会成为文生图、生视频、生3D等多模态视觉生成的统一架构。

腾讯混元文生图架构技术优势解读

因此,混元文生图从 2023 年 7 月起就明确了基于 Transformer 架构的文生图模型未来会有更大的潜力,并启动了长达半年时间的研发、优化和打磨。

当然,这里面存在极大难点:首先,Transformer架构本身并不具备用户语言生图能力;其次,DiT本身对算力和数据量要求极高,文生图领域缺乏高质量的图片描述与图像样本训练数据。

在此背景下,腾讯混元文生图如何做出基于DiT架构的文生图模型?又在原DiT基础上做了哪些改进?

算法层改进

原来Meta做的 Diffusion Transformer(DiT)架构,在ImageNet的1000类图像上训练了类别控制的生成模型,首先验证了扩散模型基于 Transformer 架构的生成能力。

针对模型算法本身,腾讯混元文生图模型:

● 让DiT架构具备了长文本理解能力:在模型中加入了LLM的组件,该组件能力包括语义理解,以及文生图的扩充和优化。腾讯混元文生图架构支持最长256个字符(业界主流是77个)的图片生成指令;同时利用多模态大语言模型,对简单/抽象的用户指令文本进行强化,转写成更丰富/具象的画面文本描述,最终提升文生图的生成效果。

● 增加了中文原生的理解能力:自主训练中文原生文本编码器,让模型的中文语义理解能力更强,同时也支持英文。

● 增加多轮对话的能力:让模型具备上下文连贯的理解能力,同时通过技术手段控制同一话题与主体下图片主体的一致性。

数据质量优化

同时,针对文生图训练数据缺乏、普遍质量不高的问题,腾讯混元团队也通过系统化手段,提升了训练数据的规模与质量。

语言模型数据质量优化

● 构建结构化图片描述能力提升文生图训练数据文本质量,并结合领域专家模型和构建文本注入Caption模型增强图片描述的知识性,提升文生图训练图文数据质量。

● 构建覆盖多维度、多主题的改写指令数据集,通过保障数据的多样性使得改写模型具备较强的泛化性。

图片训练数据处理流程(数据管道)优化

● 对数据分类分层:数据管道利用高效、精准、多元化的打标算子,在图片获取的同时,对图片内容进行理解,将图片的质量进行区分,按图片质量的高低,服务于不同精度的模型

● 制定数据质量评估机制指导数据质量优化:为了给模型提供高质量、类目均衡的样本,同时降低训练数据分布变化带来的风险,腾讯混元文生图团队提出了数据班车的机制,通过对比线上模型与变化样本分布后的模型效果的方式,从主体、风格、场景等多角度评估训练样本改变对模型带来的收益情况,并且形成了可迭代的训练样本调整机制。

工程加速

为了更好地提升模型训练与运行效率,提升算力资源利用率,腾讯混元文生图团队为该模型构建专属工程加速工具库:

● 工程优化方面,腾讯混元文生图团队通过ONNX图优化减少冗余操作和显存消耗、通过优化kernel及融合算子减少计算量、内存访问以及预计算中间结果,降低实时计算需求,提高计算效率。

● 数据构造方面,腾讯混元文生图团队通过数据筛选保证蒸馏过程中整体数据分布与蒸馏前近似性,并重点挑选高质量数据以满足对细节质感要求高的场景。

● 模型蒸馏方面,腾讯混元文生图团队采用自研的基于渐进式蒸馏的方法,确保训练过程的稳定性、准确性的同时保证可扩展性,合理控制压缩成本和压缩效率,实现经济高效的模型压缩。

同时,针对大模型训练和推理场景,腾讯自研了Angel机器学习平台,主要包含负责训练的AngelPTM和负责推理的AngelHCF两大部分。其中,AngelPTM训练速度相比主流开源框架提升 1.6倍,AngelHCF推理速度相比业界主流框架提升 1.3倍。

可以把机器学习平台比作一条多车道的高速公路,大模型就像许许多多的重型卡车,可以在高速公路上高速行驶;相比之下,较落后的技术平台就像是乡间的泥泞小道,只通行一辆小车也颠簸、缓慢。两者能提供的服务以及最终带来的用户体验显然也不能同日而语,而当前具备领先性能的机器学习平台,能够帮助提供更好的基建体系,助力大模型高速运行。

腾讯混元文生图大模型就是基于Angel机器学习平台进行训练,大幅提升了训练效率。

腾讯混元文生图模型组成及关键点

由上述改进亦可看出,混元文生图整体模型主要由三个部分组成:a) 多模态 LLM,支持用户文本改写以及多轮绘画;b) 双语文本编码器, 构建中英文双语 CLIP 理解文本,同时具备双语生成能力;c) 生成模型,从 U-Net 升级为 Diffusion with Transformer,采用隐空间模型,生成多分辨率的图像, 确保图像整体的稳定结构; 

技术关键点有三个:

a) 将文生图架构从自研的U-Net架构升级为DiT架构:基于 Transformer 的扩散模型可以提升图像的质量,同时提高生成模型扩展能力。

b) 原生中文理解能力:对中文新概念学习速度更快,对中文认知更深刻。同时让模型更细致地分辨不同粒度文本信息。

c) 数据清洗与加速工程:数据质量是大模型能力的重要因素,工程加速则影响着大模型的训练与运行性能,以及算力资源使用效率。

DiT模型架构升级带来的效果提升

整体而言,结合内部广告等真实场景需求优化与架构升级,最新的腾讯混元文生图大模型,对比基于U-Net架构的模型,视觉生成整体效果提升20%,同时在语义理解、画面质感与真实性方面全面提升,在多轮对话、细粒度语义理解、中国元素、真实人像生成等细分场景下效果提升显著。

更新时间 2024-05-15