每日AIGC最新进展(51)：昆仑万维震撼发布16B DiT-MoE图像生成模型、东北大学提出使用去噪神经权重进行高效训练、美团提出视频扩散模型量化方法

Diffusion Models专栏文章汇总：入门与实战

Scaling Diffusion Transformers to 16 Billion Parameters

本文介绍了DiT-MoE，一种可扩展的稀疏变分Transformer模型，它在保持与密集网络竞争力的同时，实现了高度优化的推理。通过共享专家路由和专家级平衡损失设计，DiT-MoE捕获了共同知识并减少了不同路由专家之间的冗余。

DiT-MoE通过将DiT中的部分密集前馈层替换为稀疏MoE层，实现了条件计算。每个图像块的标记被路由到一组专家（即MLP层）。此外，引入了共享专家路由和专家负载平衡损失，以优化专家专业化并减少不同路由专家之间的冗余。

实验结果表明，DiT-MoE在条件图像生成任务中的表现与密集网络相当，但推理时的计算负载更小。通过合成图像数据进一步扩展模型参数至16.5B，DiT-MoE在512×512分辨率下达到了

总结

### 文章总结：《Diffusion Models专栏：入门与实战 —— Scaling Diffusion Transformers to 16 Billion Parameters》
#### 摘要
本文重点介绍了DiT-MoE（Diffusion Transformers with Mixture of Experts），一个创新的稀疏变分Transformer模型，旨在通过高效扩展至大规模参数，同时保持与密集网络相当的性能表现。DiT-MoE通过结合专家混合（Mixture of Experts, MoE）技术与扩散Transformer（Diffusion Transformer, DiT），实现了在图像生成任务中的高性能计算和高效推理能力。
#### 核心内容
- **模型创新**：DiT-MoE通过将传统DiT中的部分密集前馈层替换为稀疏MoE层，引入条件计算机制。这一设计使得模型能够根据图像块的特性，智能地将计算任务分配给不同的专家（即MLP层），从而优化资源利用。

- **关键技术**：
- **共享专家路由**：通过共享路由机制，不同图像块可以共用相同的专家组，减少专家之间的冗余，并促进知识共享。
- **专家负载平衡损失**：为了提高专家的专业化和平衡各专家的负载，设计了特定的负载平衡损失函数，以优化专家之间的任务分配。
- **实验结果与成就**：
- 在条件图像生成任务中，DiT-MoE展现了与密集网络相当的性能，但推理计算负载显著降低。这一结果验证了稀疏MoE结构在提升模型扩展性的同时保持高效性方面的潜力。
- 进一步将模型参数扩展至165亿（16.5B），DiT-MoE在处理512x512高分辨率图像时，实现了令人瞩目的进展，但未在摘要中明确提及具体性能指标，或可能涉及后续详细分析文章。
#### 总结
通过引入稀疏MoE设计和优化专家分配机制，DiT-MoE成功地在保持高性能生成的同时，实现了大规模模型的有效扩展，为扩散模型在AI应用场景中的广泛部署提供了新的可能。此研究不仅推动了Transformer模型在计算效率和参数可扩展性方面的进步，也为未来更高精度的图像生成和更深入的应用探索奠定了基础。