当前位置:AIGC资讯 > AIGC > 正文

自回归模型胜过扩散模型:用于可扩展图像生成的 Llama

📜 文献卡

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation 作者: Peize Sun; Yi Jiang; Shoufa Chen; Shilong Zhang; Bingyue Peng; Ping Luo; Zehuan Yuan DOI: 10.48550/arXiv.2406.06525 摘要: We introduce LlamaGen, a new family of image generation models that apply original ``next-token prediction’’ paradigm of large language models to visual generation domain. It is an affirmative answer to whether vanilla autoregressive models, e.g., Llama, without inductive biases on visual signals can achieve state-of-the-art image generation performance if scaling properly. We reexamine design spaces of image tokenizers, scalability properties of image generation models, and their training data quality. The outcome of this exploration consists of: (1) An image tokenizer with downsample ratio of 16, reconstruction quality of 0.94 rFID and codebook usage of 97% on ImageNet benchmark. (2) A series of class-conditional image generation models ranging from 111M to 3.1B parameters, achieving 2.18 FID on ImageNet 256x256 benchmarks, outperforming the popular diffusion models such as LDM, DiT. (3) A text-conditional image generation model with 775M parameters, from two-stage training on LAION-COCO and high aesthetics quality images, demonstrating competitive performance of visual quality and text alignment. (4) We verify the effectiveness of LLM serving frameworks in optimizing the inference speed of image generation models and achieve 326% - 414% speedup. We release all models and codes to facilitate open-source community of visual generation and multimodal foundation models. GitHub(pytorch): https://github.com/foundationvision/llamagen

⚙️ 内容

本研究介绍了LlamaGen,这是一个新型图像生成模型系列,它将大型语言模型(LLMs)的“下一个令牌预测”范式应用于视觉生成领域。LlamaGen探索了是否未经视觉信号归纳偏置调整的原始自回归模型,如Llama,通过适当扩展后能实现顶尖的图像生成性能。研究重新审视了图像分块器的设计空间、图像生成模型的可扩展性属性以及训练数据质量。

💡 创新点

LlamaGen家族模型:引入了一种新的图像生成模型系列,首次在视觉领域成功应用了大型语言模型的自回归机制。 高效图像分块器:开发了一个图像分块器,具有16倍的下采样率、在ImageNet基准上达到0.94的rFID重建质量和97%的代码本使用率。 性能超越:构建了一系列从1.11亿到31亿参数的类别条件图像生成模型,在ImageNet 256x256基准上取得了2.18的FID得分,优于流行的扩散模型如LDM和DiT。 文本条件图像生成:提出一个7.75亿参数的文本条件图像生成模型,通过两阶段训练在LAION-COCO和高质量美学图像上,展现了视觉质量和文本对齐的竞争力。 推理速度优化:验证了LLM服务框架在优化图像生成模型推理速度上的有效性,实现了326%至414%的加速。 统一模型理念:致力于推动自回归模型在图像生成领域的边界,旨在减少视觉信号上的归纳偏置,采用与LLM相同的架构,为语言和视觉的潜在统一模型铺路。

🧩 不足

数据和模型限制:文本条件模型存在一些局限性,如文本渲染错误、计数错误和常见误解,这些问题需要更多训练数据和计算资源来缓解。 分辨率提升空间:虽然模型在512x512分辨率下表现良好,但作者指出进一步增加到1024x1024分辨率可能会带来更好的视觉质量,这留待未来研究。

🔁 实验卡

💧 数据

训练数据来源:使用了5000万张来自LAION-COCO的子集和1000万张内部高美学质量图像作为训练数据。这些图像经过筛选以确保有效URL、美学评分、水印评分、CLIP图像-文本相似度和图像尺寸。 文本预处理:利用预训练的FLAN-T5 XL生成图像描述的文本嵌入,图像代码仅从原始图像中心裁剪提取。

👩🏻‍💻 方法

模型架构:LlamaGen基于自回归模型,采用与LLM一致的架构,降低了视觉信号上的归纳偏置。 两阶段训练:先对图像分块器进行微调,然后进行两阶段训练,包括LAION-COCO数据和内部高质量图像,后者由LLaVA生成长描述性文本。

🔬 实验

性能评估:通过FID、IS、精度和召回率等指标在ImageNet 256x256基准上评估模型性能,展示了LlamaGen模型在不同参数量级下的优越性。 CFG效果:研究了分类器自由引导(CFG)的影响,发现CFG=2.0时模型性能最优,进一步增加CFG会降低FID,同时平衡多样性与保真度。

📜 结论

LlamaGen系列模型证明了自回归方法在适当规模下能够超越扩散模型,成为可扩展的图像生成解决方案。通过精心设计的图像分块器、大规模模型和高质量训练数据,LlamaGen不仅在类别条件图像生成上取得突破,在文本条件图像生成方面也展示出竞争力。此外,研究还强调了LLM服务框架在提高模型推理速度上的作用,并公开了所有模型和代码以促进视觉生成和多模态基础模型的开源社区发展。

🤔 总结卡

该研究通过LlamaGen模型展示了自回归方法在图像生成任务中的巨大潜力,特别是其在不依赖特定视觉信号归纳偏置的情况下,通过大规模扩展和高质量数据训练达到了前所未有的性能水平。然而,存在的局限性和对未来研究方向的展望(如更高分辨率的图像生成)提示,进一步的研究可以通过增加训练数据量和提高计算能力来继续提升模型的表现,尤其是在文本-图像对齐的准确性以及解决当前模型存在的具体错误方面。此外,对模型推理速度的优化策略是实际应用中的一个重要考虑因素,LlamaGen在这方面也做出了积极贡献。

总结

### 总结卡《Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation》
#### 研究概述
本研究提出了LlamaGen,一种新型图像生成模型家族,将大型语言模型(LLMs)中的“下一个令牌预测”范式引入视觉生成领域。通过全面审查图像分块器设计、模型可扩展性及训练数据质量,LlamaGen在多个维度上展示了优越的图像生成能力,特别是在类别和文本条件图像生成方面超过了现有扩散模型。
#### 核心成果
1. **高性能图像分块器**:设计和实现了一个高效的图像分块器,具备64倍下采样率、高重建质量(rFID 0.94)和广泛的代码本使用率(97%)。
2. **先进的图像生成模型**:建立了一系列参数规模从111M到3.1B不等的类别条件图像生成模型,在ImageNet 256x256基准测试中达到了2.18 FID的低分,超越了LDM、DiT等流行扩散模型。
3. **文本条件图像生成**:提出了一个775M参数的文本条件模型,经两阶段训练在LAION-COCO和高美学质量图像集上,展示了良好的视觉质量和文本对齐能力。
4. **推理速度优化**:验证了LLM服务框架在加速图像生成模型推理方面的有效性,实现了高达414%的推理速度提升。
#### 创新点
- **模型架构**:首次在视觉生成领域成功应用了大型语言模型的自回归机制。
- **一体化设计**:致力于减少视觉信号上的归纳偏置,推动语言和视觉的统一模型。
- **性能卓越**:在不依赖特定视觉归纳偏置的前提下,通过扩展和高质量数据训练达到了顶尖性能。
#### 局限性与展望
- **数据与模型局限性**:尽管取得了显著成绩,但在文本条件图像生成中仍存在如文本渲染不准确等错误,需更多高质量数据和计算资源改善。
- **分辨率提升**:当前模型在512x512分辨率下表现良好,但更高分辨率(如1024x1024)的生成仍需进一步研究以提升视觉质量。
#### 结论
LlamaGen系列模型验证了自回归方法在图像生成领域的潜力,特别是在适当扩展和高质量数据支持下能超越传统扩散模型的表现。此研究不仅推动了图像生成技术的进步,还通过释放模型与代码促进了视觉生成和多模态基础模型研究的发展。

更新时间 2024-07-27