每日AIGC最新进展(34)：特拉维夫大学提出多主题扩散模型Be Yourself、阿里巴巴提出个性化人脸生成方法FlashFace、清华大学提出快速评估扩散模型方法FlashEval

Diffusion Models专栏文章汇总：入门与实战

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

本文探讨了文本到图像生成领域中的一个关键问题：如何在生成包含多个主题的图像时，保持每个主题的语义准确性和视觉独特性。现有的文本到图像扩散模型在处理具有多个语义或视觉相似主题的复杂输入提示时，往往难以准确捕捉意图语义，主要原因是在去噪过程中主题间不经意的语义泄露。这种泄露是由于扩散模型的注意力层倾向于混合不同主题的视觉特征，导致信息在主题间流动，从而影响了图像的生成质量。

扩散模型文本到图像图像生成准确性注意力视觉特征 diffusion 图像扩散模型文本到图像生成生成质量