给定单个参考图像,RB-Modulation提供了一个无需训练的即插即用解决方案,用于(a)风格化和(b)具有各种提示的内容样式组合,同时保持样本多样性和提示对齐。例如,给定参考样式图像(例如“熔化的黄金3d渲染样式”)和内容图像(例如(a)“狗”),RB-Modulation方法可以坚持所需的提示,而不会泄漏参考样式图像中的内容,也不限于参考内容图像的姿势。
相关链接
论文地址:https://rb-modulation.github.io/data/main.pdf
项目地址:https://rb-modulation.github.io/
代码地址:https://github.com/LituRout/RB-Modulation(即将开源)
论文阅读
RB-Modulation:无需训练的基于随机最优控制的个性化扩散模型
摘要
我们提出了基于参考的调制 (RB-Modulation),这是一种无需训练即可个性化扩散模型的即插即用型新解决方案。现有的无需训练的方法在以下方面存在困难:
在没有额外风格或内容文本描述的情况下从参考图像中提取风格,
从参考风格图像中泄漏不必要的内容
有效地组合风格和内容。
RB-Modulation 建立在一种新颖的随机最优控制器上,其中风格描述符通过终端成本对所需属性进行编码。由此产生的漂移不仅克服了上述困难,而且还确保了参考风格的高保真度并遵循给定的文本提示。我们还引入了一种基于交叉注意的特征聚合方案,允许 RB-Modulation 将内容和风格与参考图像分离。凭借理论依据和经验证据,我们的框架以无需训练的方式展示了对内容和风格的精确提取和控制。此外,我们的方法允许无缝组合内容和风格ÿ
总结
本文介绍了RB-Modulation,一个创新的无需训练、即插即用的技术方案,旨在通过单个参考图像实现高效且灵活的风格化及内容样式组合。该技术不仅避免了传统方法中从参考图像中不期望的内容泄露问题,还能够在保持样本多样性的同时与给定的文本提示严格对齐,如将“熔化的黄金3D渲染样式”应用于“狗”的图像时,不仅能坚持要求的风格,还不受原“狗”图姿势的局限。RB-Modulation背后的关键是基于随机最优控制的机制,通过这种方式编码风格描述符和所需属性,确保了风格与内容的高效整合,同时保持了参考风格的高保真度。此外,提出的交叉注意特征聚合方案进一步优化了风格与内容分离的过程,使得内容和风格的自由组合成为可能。
为推动学术研究和实际应用,文章附带了详细的论文链接、项目网址以及即将开放源代码的GitHub地址,为研究人员和开发者提供了宝贵的资源和参考。
总之,RB-Modulation提供了一种强大且灵活的工具,为图像处理和生成艺术开辟了新的道路,让用户能够轻松实现各种独特的风格创造与内容融合。