AIGC生成风格统一图片的方法介绍

过去一段时间以来，AIGC图片生成技术快速发展，在电商以及内容创作领域展现出来极高的应用价值。除了基础的基于prompt的文生图能力，社区还涌现出来更多的扩展技术。比如Controlnet技术能利用线稿信息、深度信息等对生成图片的空间结构进行控制，还有IP-Adapter技术能够基于参考图片的内容对生成图片进行风格迁移。这些技术都便利了用户对AIGC的使用。

本文将介绍如何利用AIGC生成多张风格一致的图片的技术。对此，本文挑选了两篇比较有代表性的方法：Style Aligned方法和Story Diffusion方法，本文会对这两种方法的原理和技术细节进行介绍。然后，我们展示了相关方法应用在家装领域上的一些效果，并分析了目前效果的优点与不足。最后我们对本文内容进行了总结，并讨论了该类方法未来的应用前景。

技术介绍
我们在这里简单介绍一下生成多张风格一致图片的AIGC技术，包括Style Aligned方法以及Story Diffusion方法。

▐ Style Aligned 方法

Style Aligned方法的目标是生成符合prompt的一批风格一致的图片。想要实现该目标，最简单直接的方法是在prompt中使用相同的风格描述词，但是由于在生成过程中，图片之间对彼此的内容缺乏了解，导致最后风格往往很难达成一致。

Style Aligned方法的核心思想是在生成过程中设计共享self-attention机制，从而实现同一批图片彼此内容的交流。具体来说，Style Aligned在生成一批图片时，会让每一张图片参考该图片本身以及该批图片中第一张图片的特征进行共享self-attention的计算，实现同一批图片在特征上的对齐，从而生成多张风格一致的图片。

▐ Story Diffusion 方法

Story Diffusion方法包含两个阶段，在第一阶段中，提出了Consistent Self-Attention, 一种training-free 的方式，来生成主题一致性的一系列图像。在第二阶段中，利用之前生成的一致性图片，作者构建了一个transformer block，它在语义隐空间预测中间帧，并用视频生成模型来把语义隐空间的向量重新解码成视频。

本文接下来对第一阶段的一些细节进行讲解。对于输入的一段长prompt，首先会将其按场景分为多段prompt，每段prompt分别对应生成一张图片。为了构成连环画或视频，这些图片的主体需要保持一致，作者提出了Consistent Self-Attention方法来实现这一目标。Consistent Self-Attention 对于每一帧在计算Self-Attention 的时候，会随机采样batch 内其他帧的内容，作为Key 和 Value 的一部分，实现了batch 内图像的细节交互。
运用Consistent Self-Attention之后，人脸可以保证特别好的保持效果，结合prompt的辅助控制，也能较好的保持衣物细节。因为保持人物id的性质，这一部分不仅可以作为视频关键帧，也可以用作漫画生成。


实测效果

我们在家装场景中对Style Aligned方法的效果进行了测试。我们将一件家具的多张视角图片作为一个batch输入到Style Aligned中，然后对这些家具填充背景。Style Aligned的输出如下图所示，可以看到同一批图片中，不同视角下的家具在整体装修上的风格是可以保持一致的。但是，进一步观察，这些图片在空间结构和物体细节上还是无法精准的保持一致的，这可以作为未来研究的一个方向。


   
   
   结语

本文介绍了两种生成多张风格一致图片的AIGC技术,即Style Aligned方法和Story Diffusion方法。Style Aligned方法通过共享self-attention机制实现图片间特征对齐,而Story Diffusion方法则利用Consistent Self-Attention在语义隐空间实现主题一致性。实验结果显示,这些方法能够较好地保持同批图片的整体风格一致性,但在保持空间结构和细节方面的一致性仍有提升空间。总的来说,这些技术为AIGC生成连贯性图像序列提供了有益探索,对于视频/漫画等应用场景具有重要意义。

参考资料

[1] Amir Hertz, Andrey Voynov, Shlomi Fruchter and Daniel Cohen-Or. Style Aligned Image Generation via Shared Attention. In CVPR, 2024.

[2] Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng and Qibin Hou. StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation. arXiv preprint arXiv:2405.01434, 2024.

团队介绍

我们是淘天集团-场景智能技术团队，一支专注于通过AI和3D技术驱动商业创新的技术团队, 依托大淘宝丰富的业务形态和海量的用户、数据, 致力于为消费者提供创新的场景化导购体验, 为商家提供高效的场景化内容创作工具, 为淘宝打造围绕家的场景的第一消费入口。我们不断探索并实践新的技术, 通过持续的技术创新和突破，创新用户导购体验, 提升商家内容生产力, 让用户享受更好的消费体验, 让商家更高效、低成本地经营。

¤ 拓展阅读 ¤
3DXR技术 | 终端技术 | 音视频技术服务端技术 | 技术质量 | 数据算法

本文分享自微信公众号 - 大淘宝技术（AlibabaMTT）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

总结

简介：
本文主要探讨了AIGC（人工智能生成内容）领域在图片生成技术上的最新进展，特别是聚焦于生成多张风格一致图片的两项代表性技术：Style Aligned方法和Story Diffusion方法。随着AIGC技术的快速发展，这些创新技术在电商及内容创作领域展现出巨大价值。
**关键内容**：
1. **AIGC图片生成技术的迅速发展**： AIGC不仅限于简单的文本到图像生成，还涌现了Controlnet和IP-Adapter等扩展技术，分别通过控制空间结构和进行风格迁移来丰富用户体验。
2. **Style Aligned方法：**
- **目标：** 生成符合同一prompt且风格一致的图片集合。
- **核心思想：** 通过共享self-attention机制，使得每一张图片在生成过程中都能参考自己的特点以及批内第一张图片的特征，从而实现特征对齐和风格的一致性。
- **存在的不足：** 在保持空间结构和物体细节上的一致性仍有待提升。
3. **Story Diffusion方法：**
- **两个阶段：**
1. 第一阶段：通过Consistent Self-Attention机制无训练地生成主题一致性图像序列。
2. 第二阶段：构建transformer block，在语义隐空间预测中间帧，并用视频生成模型重新解码成视频。
- **特殊细节：** Consistent Self-Attention实现了batch内图像细节的交互，能够在连环画或视频生成中保持人物的身份和衣物细节。
4. **实验效果与应用领域：**
- 在家装领域的测试中，Style Aligned方法成功保持了家具在不同视角下的整体装修风格一致性，但在细节和空间结构的精准对齐上仍有挑战。
- 这些方法对于视频和漫画等连续性内容创作具有重要实际意义，提供了生成连贯性图像序列的新思路。
5. **总结与展望：**
- 文章总结了Style Aligned和Story Diffusion两种方法的原理与效果，并指出了未来研究可以进一步提升空间结构和物体细节的一致性。
- 强调了这些方法在推动AIGC技术发展和拓展应用场景方面的积极作用。
**团队介绍**：
文章最后提到，淘天集团的场景智能技术团队致力于通过AI和3D技术驱动商业创新，为消费者和商家提供创新的场景化服务和内容创作工具，展示了团队的技术实力和业务价值。