龙年春意伊始,360人工智能研究院正式发布新的AI绘画模型:可控布局生成模型HiCo。与大家所熟悉的文生图模型相比,HiCo在普通的文本输入之上,提供了更为强大的画面布局控制能力:用户可以根据自己的构思,指定在画面不同的区域生成不同的指定内容,实现AI绘画的高可控性和创新玩法。与当前市面现有的模型相比,HiCo支持高达8+个区域的复杂可控布局生成,而且显著改善了不同区域画面的割裂感和因视角不一致问题导致的失调感,多区域布局生成结果更为自然和协调。此外非常重要的是,HiCo同时兼容英文SD社区和360人工智能研究院自研的BDM中文绘画模型(https://arxiv.org/abs/2309.00952),能够作为插件集成于现有的各种工作流。
背景介绍
在AI绘画领域中,众多研究者致力于增强AI绘画模型的可控性,他们不仅关注于模型对细节和风格的把握,还积极探索如何让模型更好地理解并模拟人类的创作思维,以便在保持艺术性的同时,提升绘画作品的实用性和个性化。
当前AI绘画的可控能力,主要引导信息包括如文本描述(Prompt-to-Prompt等)、特定类型图像(Controlnet等)、模型结构(CrossAttention等),可以达到形状、颜色、风格、布局等方面的图像可控生成。
目前市面上可控布局的图像生成模型有以下特点,一、只能进行有限粗粒度类别的图像布局可控;二、无法有效兼容开源社区能力,包括不同底模、不同LoRA等;三、可控生成能力无法有效结合概念注入能力。而360人工智能研究院自研的可控布局AI绘画模型HiCo (Hierarchical Controllable diffusion model for layout-to-image generation),可以实现不同粗细粒度文本描述的布局可控,且能够无缝迁移开源社区的各种能力,同时也具有概念的位置可控生成。
方法概述
基于扩散模型的图片可控生成方向经典论文Controlnet、IP-Ada