Diffusion Models专栏文章汇总:入门与实战
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation
本文探讨了文本到图像生成领域中的一个关键问题:如何在生成包含多个主题的图像时,保持每个主题的语义准确性和视觉独特性。现有的文本到图像扩散模型在处理具有多个语义或视觉相似主题的复杂输入提示时,往往难以准确捕捉意图语义,主要原因是在去噪过程中主题间不经意的语义泄露。这种泄露是由于扩散模型的注意力层倾向于混合不同主题的视觉特征,导致信息在主题间流动,从而影响了图像的生成质量。