当前位置:AIGC资讯 > AIGC > 正文

无缝衔接Stable Diffusion,一张照片几秒钟就能生成个性化图片-InstantID

        最近一段时间基于扩散模型的图像处理方法遍地开花,接下来为大家介绍一种风格化图像的方法InstantID,可以通过仅有一张人脸照片,几秒钟内生成不同风格的人物照片。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,而且无需复杂的训练或微调过程。这项技术能够生成高质量的个性化图像,保持个人特征的真实性,并且能够适应不同的视觉需求。

        InstantID的操作流程非常简化,只需要提供一张照片,它就能根据这张照片生成很多不同风格的图片,同时保持这个人的面貌特征不变。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,无需复杂的训练或微调过程,并且能在几秒钟内生成图像。最重要的是它还能够作为一个通用插件与stable diffusion以及controlnet等进行无缝集成。简直是AIGC者的福音,据作者说一月底就会把模型和代码开源,大家也一起期待一波~

        OK,接下来就进入真题,让我们一起来看一下InstantID可以做那些事情吧~

论文标题:《InstantID : Zero-shot Identity-Preserving Generation in Seconds》

Qixun Wang, Xu Bai, Haofan Wang(*), Zekui Qin, Anthony Chen, InstantX Team

论文链接:https://arxiv.org/abs/2401.07519

项目链接:https://github.com/InstantID/InstantID

                  InstantID模型支持高保真度的身份保持生成,只有一个参考图像在任何风格

摘要

        现有的个性化生成方法,如文本反转、DreamBooth和LoRA,在自定义图像创建方面取得了重大进展。然而,这些工作需要昂贵的计算资源和时间进行微调,并且需要多个参考图像,这限制了它们在现实世界中的应用。InstantID通过利用即插即用模块解决了这些限制,使其能够熟练地处理任何风格的图像个性化,仅使用一个面部图像,同时保持高保真度。为了保持人脸的身份,引入了一种新的人脸编码器来保留参考图像的复杂细节。InstantID在各种场景下的性能和效率显示了它在各种实际应用中的潜力。并且InstantID可以与常见的预训练文本到图像扩散模型(如SD1.5和SDXL)作为插件兼容。

方法

        给定一个参考ID图像,InstantID旨在从单个参考ID图像生成具有各种姿势或风格的自定义图像,同时确保高保真度。下图概述了InstantID方法。它包含三个关键组成部分:

        (1)捕获鲁棒语义面部信息的ID嵌入;

        (2)具有解耦交叉注意的轻量级自适应模块,便于使用图像作为视觉提示;

        (3)对参考面部图像的细节特征进行编码并附加空间控制的IdentityNet。

        InstantID与以往的工作有以下几个方面的不同:

不训练UNet,因此可以保留原始文本到图像模型的生成能力,并与社区现有的预训练模型和ControlNets兼容;

InstantID不需要测试时间调优,所以对于一个特定的字符不需要收集多幅图像进行微调,只需推断一张图像一次;

实现了更好的人脸保真度,同时保留了文本的可编辑性。

脸部风格变换

 

InstantID支持风格化和现实风格

可编辑性和多引用

        参考图像数量的影响。对于多幅参考图像,InstantID取ID嵌入的平均值作为图像提示符。即使只有一张参考图像,InstantID也能取得很好的效果。 

与之前工作比较

        哈哈,上图全都是计算机界的大佬。比较了IP-Adapter (IPA), IP-Adapter- faceid和最近的PhotoMaker。其中,PhotoMaker需要训练UNet的LoRA参数。可以看出,PhotoMaker和IP-Adapter-FaceID都实现了很好的保真度,但文本控制能力有明显的下降。相比之下,InstantID实现了更好的保真度,并保留了良好的文本可编辑性(面部和样式更好地混合)。 

InstantID与预训练字符lora的比较。可以在没有任何训练的情况下获得具有竞争力的结果。

        InstantID与InsightFace Swapper(也称为ROOP或Refactor)的比较。而在非写实风格中,我们的作品在人脸与背景的融合上更加灵活。

ID和风格交互

        再来看看,20%的杨幂+80%的泰勒长什么样?

        还有,将身份属性添加到非人类角色中的效果怎么样?

        We are working with diffusers team and will release the code before the end of January. Starring our work will definitely speed up the process. No kidding!

        据作者说一月底会放出开源代码,所以一起期待一下吧~,也欢迎大家关注我的微信公众号:小白学AIGC,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。期待你的来临~

更新时间 2024-01-30