当前位置:AIGC资讯 > AIGC > 正文

【深度学习】风格迁移,转换,Stable Diffusion,FreeStyle : Free Lunch for Text-guided Style Transfer using Diffusion

论文:https://arxiv.org/abs/2401.15636

代码:https://github.com/FreeStyleFreeLunch/FreeStyle

介绍

生成扩散模型的快速发展极大地推进了风格迁移领域的发展。然而,大多数当前基于扩散模型的风格转移方法通常涉及缓慢的迭代优化过程,例如模型微调和风格概念的文本反转。在本文中,我们介绍了 FreeStyle,这是一种基于预先训练的大型扩散模型构建的创新风格转移方法,无需进一步优化。此外,我们的方法仅通过所需样式的文本描述即可实现样式迁移,从而消除了样式图像的必要性。具体来说,我们提出了一种双流编码器和单流解码器架构,取代了扩散模型中的传统 U-Net。在双流编码器中,两个不同的分支将内容图像和风格文本提示作为输入,实现内容和风格解耦。在解码器中,我们根据给定的内容图像和相应的风格文本提示进一步调制双流的特征,以实现精确的风格转移。

环境安装

conda create -n stylefree python==3.8.18
conda activate stylefree

cd diffusers
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .
pip install torchsde -i https://pypi.tuna.tsinghua.edu.cn/simple
cd ../diffusers_test
pip install transformers
pip install accelerate

SD模型文件下载

下载 SD 模型文件 L:
下载 SDXL 并将其放入:./diffusers_test/stable-diffusion-xl-base-1.0

稳定版 SDXL-diffusion-xl-base-1.0 模型对人脸生成比较崩溃,你可以尝试一些其他的 SDXL 模型,比如这样:

# 蜡笔画
python stable_diffusion_xl_test.py \
--refimgpath ./content1 \
--model_name "/data/xiedong/fooocus_tensorRT/TensorRT/juggernautXL_v8Rundiffusion_split" \
--unet_name /data/xiedong/fooocus_tensorRT/TensorRT/juggernautXL_v8Rundiffusion_split/unet/ \
--prompt_json ./style_prompt5.json \
--num_images_per_prompt 4 \
--output_dir ./output0 \
--sampler "DDIM" --step 30 --cfg 5 \
--height 1024 --width 1024 --seed 123456789 --n 160 --b 1.8 --s 1

论文

摘要
生成扩散模型的快速发展显著推进了风格转移领域。然而,基于扩散模型的大多数当前风格转移方法通常涉及缓慢的迭代优化过程,例如,模型微调和风格概念的文本反演。在本文中,我们介绍了FreeStyle,一种建立在预训练大型扩散模型之上的创新风格转移方法,无需进一步优化。此外,我们的方法使得风格转移仅通过对所需风格的文本描述,消除了对风格图像的必要性。具体而言,我们提出了一个双流编码器和单流解码器架构,取代了扩散模型中的常规U-Net。在双流编码器中,两个不同的分支分别将内容图像和风格文本提示作为输入,实现内容和风格解耦。在解码器中,我们根据给定的内容图像和相应的风格文本提示进一步调制来自双流的特征,实现精确的风格转移。我们的实验结果表明,我们的方法在各种内容图像和风格文本提示上均具有高质量的合成和保真度。我们的代码和更多结果可在我们的项目网站上找到:https://freestylefreelunch.github.io/。

1 介绍
Introduction
图像风格转换[Jing et al., 2019; Gatys et al., 2015]旨在将自然图像转换为所需的艺术图像,同时保留内容信息。随着生成扩散模型的快速发展[Rombach et al., 2022; Podell et al., 2023],图像风格转换也取得了显著进展。这些方法可以大致分为两类:微调方法[Wang et al., 2023; Huang et al., 2022]和反演方法[Zhang et al., 2023b; Mokady et al., 2023]。前者(如图1(a)所示)需要优化一些或所有参数以降低模型生成的特定风格图像,而后者(如图1(b)所示)涉及学习将特定风格概念作为文本标记,以指导特定风格的生成。这两种方法通常需要数千甚至更多次的训练迭代,导致计算成本高昂且优化过程缓慢。

大型文本引导扩散模型[Rombach et al., 2022; Zhang et al., 2023a; Saharia et al., 2022]通常是在大规模文本-图像对数据集上进行训练的,例如LAION数据集[Schuhmann et al., 2021],其中包含各种风格图像和相应的风格文本提示。因此,这些模型[Rombach et al., 2022; Podell et al., 2023]本质上具有特定风格的生成能力。这引出了一个问题:如何利用预训练的文本引导扩散模型的各种风格生成能力进行风格转换任务,而无需额外的优化?

最近的研究[Alaluf et al., 2023; Hertz et al., 2023]引入了跨图像注意机制到预训练的扩散模型中,实现了外观或风格转换的控制而无需任何优化。然而,仍然需要使用外观图像或风格图像作为参考。在一些实际应用中,用户可能无法获取参考图像,但他们希望基于风格文本提示进行图像转换。例如,用户可以设想将其照片转换为类似于毕加索或达芬奇的风格,而不必拥有这些著名艺术家的作品。在本文中,我们提出了一种新颖的风格转换方法,既不需要优化也不需要风格图像。具体来说,我们提出了一个由双流编码器和单流解码器组成的新颖结构。在这种配置中,双流编码器分别对内容图像和风格文本提示进行编码,从相应的模态中提取特征以供解码器集成。我们相信图像由控制图像内容的低频信号和控制图像风格的高频信号组成[Seo, 2020; Shang et al., 2023]。受FreeU[Si et al., 2023]启发,该方法实例化了两个调制因子,以平衡来自U-Net主骨干的低频特征和来自跳跃连接的高频特征,从而改善图像生成的质量。我们使用两个缩放因子调制两个不同编码器生成的特征图,第一个缩放因子调节图像中的风格转移强度,第二个缩放因子控制图像中内容保留的程度。我们的方法非常简单高效,只需调整适当的缩放因子即可实现对任何图像的特定风格的转移。

我们的FreeStyle框架在与现有的大型文本引导扩散模型集成时展现了无缝的风格转换适应性,例如SDXL[Podell et al., 2023]。需要注意的是,尽管与预训练扩散模型中的U-Net[Ronneberger et al., 2015]模型存在结构差异,但我们的方法集成了U-Net模块而不引入新参数。据我们所知,FreeStyle是基于扩散模型的第一个既不需要参考风格图像也不需要任何优化的风格转换方法。我们对我们的方法与其他最先进技术进行了全面比较,包括CLIPstyler[Kwon and Ye, 2022]、CAST[Zhang et al., 2022]、StyTr2[Deng et al., 2022]、UDT2I[Wu et al., 2023b]等。我们的贡献总结如下:
• 我们提出了一种简单有效的基于大型文本引导扩散模型的框架,称为FreeStyle,该框架将内容图像的输入与所需风格的文本输入解耦,实现了特定风格转换而无需任何优化和风格参考。
• 为了进一步平衡内容信息的保留和艺术一致性,我们提出了一个新颖的特征融合模块,旨在调制图像内容的特征和相应风格文本提示的特征。
• 我们对来自各种艺术家和风格的广泛图像进行了全面实验。结果显示,由FreeStyle生成的艺术图像表现出准确的风格表达和高质量的内容-风格融合。与最先进方法相比,FreeStyle展示了更优越和更自然的风格化效果。

2 相关工作
2.1 图像风格转移
风格转移领域在图像处理和计算机视觉中起着重要作用。它从手工纹理合成[Wang et al., 2004; Zhang et al., 2013]迅速发展到先进的神经风格转移(NST)[Jing et al., 2019; Zhang et al., 2019; Sanakoyeu et al., 2018; Deng et al., 2022; Zhang et al., 2022; He et al., 2023],标志着从传统技术到现代深度学习方法的重大转变。生成对抗网络(GANs)[Goodfellow et al., 2014]具有令人印象深刻的图像生成能力,已经被迅速应用于风格转移任务[Zhu et al., 2017; Karras et al., 2019; Gal et al., 2022],进一步推动了该领域的发展。随着生成扩散模型的迅速发展[Sohl-Dickstein et al., 2015; Ho et al., 2020],图像风格转移取得了显著进展。这些技术可以分为两大类:微调法和反演法。微调法[Wang et al., 2023; Huang et al., 2022]使用大量风格图像优化模型的某些或所有参数,将它们的视觉风格嵌入模型的输出领域。相比之下,反演法[Zhang et al., 2023b; Mokady et al., 2023]使用风格或内容图像将风格或内容概念嵌入到特殊的词嵌入中,并使用包含这些词嵌入的提示实现风格转移。基于扩散模型的上述方法需要风格图像来训练模型,导致优化过程缓慢。最近的研究[Alaluf et al., 2023; Hertz et al., 2023]引入了跨图像注意机制,开发了一种不需要任何优化的风格转移方法。然而,这些方法仍然依赖于风格图像作为参考。作为一种文本引导的风格转移方法,FreeStyle通过调节扩散模型的潜在空间特征,利用其固有的解耦能力进行风格转换,无需额外的优化或风格参考图像。
2.2 文本引导的合成
GAN-CLS[Reed et al., 2016]是第一个利用递归神经网络[Lipton et al., 2015]和生成对抗网络[Goodfellow et al., 2014]实现文本引导的花朵和鸟类图像合成的方法。随后,在文本引导图像生成方面进行了大量努力[Zhang et al., 2017; Xu et al., 2018; Zhu et al., 2019],推动了该领域的快速发展。得益于CLIP的引入[Radford et al., 2021],GLIDE[Nichol et al., 2021]迅速成为第一个实现符合描述的文本引导图像生成的方法,随后又发展了扩散模型。除了生成与文本描述相匹配的图像外,文本引导技术现在在各种任务中被广泛使用,如图像编辑[Wu et al., 2023b; Gal et al., ; Kawar et al., 2023],图像恢复[Qi et al., 2023; Lin et al., 2023]和视频合成[Esser et al., 2023]等。傅子瑞等人[傅等,2022]认为,依赖于预先准备的特定风格图像的传统风格转移方法在实际应用中既不方便也限制创造力。在此之后,引入了一种由文本描述引导的新风格转移方法[Kwon and Ye, 2022; Patashnik et al., 2021],提供了增强的灵活性和便利性。这不仅简化了复杂的艺术创作,还使先进的图像处理技术可以更广泛地普及,而无需专业的图形设计技能。因此,文本引导图像处理正在改变我们与视觉内容互动和创造的方式。

超参数b和s的影响。我们在超参数b和s上进行了消融实验,结果如图6所示。在FreeStyle中,内容和风格信息的强度分别由两个超参数b和s调整。我们观察到,当b的值较小时,图像中的内容更受风格的严重干扰。另一方面,较大的s值会导致图像纹理更加平滑,而非常小的s值会产生类似噪声的纹理。总体而言,FreeStyle对超参数的敏感性相对较低,表现出强大的稳健性。具体而言,我们发现当超参数b设置为2.5,s设置为1时,其性能最佳。

超参数σ的影响。图7说明了超参数σ对风格转移效果的影响。观察表明,当σ超过850时,可以实现更好的风格转移,而当σ变得太小时,效果逐渐恶化。我们认为,过小的σ值导致fs包含过多的内容信息,这会显著干扰风格信息。

更新时间 2024-03-14