引言
Stable Diffusion 3 已经发布!就在 6 月 12 日,Stable Diffusion 3 的媒体模型终于开放下载。虽然在 Web UI 上还没有提供体验可以体验的方式,但我们已经可以通过Comfy UI来尝试最新的 Stable Diffusion 3 模型。这篇文章作者将详细介绍如何在Comfy UI 中部署和使用这个新模型。
Stable Diffusion 3 Medium 介绍
此次发布的 Stable Diffusion 3 Medium 与之前的 Stable Diffusion 3 Large 和 Stable Diffusion 3 Large Turbo 有所不同,后者是 8B 模型,而这次的 Medium 模型为 2B。相比之下,Medium 模型的参数量小得多。这个模型的参数量,作者的理解是这样的,虽然理论上参数越多,模型的复杂度也就越高,但也不能单单从参数量这一个维度来评判模型的好坏。如果 2B 参数的 Stable Diffusion 3 Medium 能在图像生成效果上可以与 3.5B 的 Stable Diffusion XL Base Model 竞争,甚至更强,这反而说明新发布的 Stable Diffusion 3 Medium 的效率更高。
在Comfy UI中运行 Stable Diffusion 3
环境准备:
在 Comfy UI 中部署 Stable Diffusion 3 很简单,需要满足以下两个条件:
更新Comfy UI到最新版本:
如果已经安装了 Manager 插件,点击 Update Comfy UI就可以了。
下载相关模型:
访问 Hugging Face 下载 Stable Diffusion 3 的相关模型。首次访问该页面时,可能需要同意用户协议才能看到模型下载页。
Stable Diffusion 3 的架构与之前的模型不同。官方提供了四个模型版本:
sd3_medium.safetensors:
不带任何文本编码器,需要下载 text encode 文件夹下的四个文件。
sd3_medium_incl_clips.safetensors:
可以直接生成图像,但不包含 T5xxlf的的文本编码器,所以性能会稍微差一些,但是需要的资源配置也会比较少。
后边两个较大的模型:
这两个模型类似 Stable Diffusion 1.5 和 XL,可以直接用于图像生成。区别在于 T5xxlf编码器的浮点数不同,理论上 15GB 的stable-diffusion-3-medium的模型对语义的理解效果最好,但也最耗资源。
但是这里要注意,对语义的理解效果最好,这并不代表这个出图的美学质量最高,这两者要区分一下。这里大家大概对这个模型有一个了解就行,后边也会给大家做这个实际的演示。
选择好适合自己的模型,将模型下载到 ComfyUI/models/checkpoint 文件夹下。如果是第一个模型,需要搭配clip 文件,则将其下载到 ConvUI/models/clip 文件夹下。
工作流部署
1、导入工作流
将下载的工作流文件拖入ComfyUI中。官方提供了三个基础工作流:基础工作流、多提示词工作流和放大工作流。我们以基础工作流为例:
基础工作流导入:
直接将文件拖入ComfyUI,即可载入。
更新模型路径:
官方工作流中的模型路径可能需要调整,替换为你下载的模型路径。
2、配置节点
官方基础工作流包括几个关键节点:
Triple Clip Loader:
加载 clip 模型。我们下载的最基础的sd3_medium.safetensors模型,需要这个节点配合使用 clip 和 T5xxlf 编码器。
Model Sample Node:
控制模型采样值,影响图像细节。值越高,细节越精细,但生成时间也越长。
Input:
控制反向提示词的作图进度。通过条件节点控制提示词的权重,调整参与作图的进度。图片尺寸注意一下,这里的备注是分辨率应该是在100万像素左右,而且这个长宽必须是64的倍数。但是我实际测试下来,这个宽高值只要给到8的倍数就可以。而且我们随便输一个数字,这个节点会为我们计算最近的八的倍数。比如说我们这里输一个564,它会自动变成这个568。我们点击这个出图,也是可以刷出来的。但是这个568并不是64的倍数,只是八的倍数。总之大家在这里输入这个图片尺寸的时候,就大概说一个比例就可以,它是会自动计算这个就近的值的。
Conditioning Nodes:
接下来是四个Condition控制节点,一个conditioningZeroOut节点,两个conditioningSimpleTimestepRange节点,一个conditioning(combine)的节点,这四个控制节点共同对反向提示词做了控制这四个节点不是必须的,也就是说我们不用这四个节点,直接将这个反向提示词连接到采样器,也是可以出图,这个节点群的作用,就是通过控制反向提示词在作图的进度中的参与度,从而控制反向提示词参与作图的权重。我们来具体看一下这次参数的意义,比如它默认是配了0-0.1,就是说这个反向提示词只参与作图进度的前10%,也就是从这个0到0.1,然后之后就不再参与,也就是说归零节点在作图进度是0.1到1的时候,将反向提示词的内容归零了。官方这样安排的作用,猜测是因为文本编码且对于反向提示词比较敏感,所以用减少参与进度的方法变相降低了反向提示词的权重。但是作者实际测试下来,即使这个反向提示词完完整整的参与了整个作图的进度,其实也是可以的,而且在某些情况下差别并不是很大。所以我说这四个节点可有可可有,是因为我们可以通过这种精确的控制做到一定程度的微调。可能是因为实际上就算没有这四个节点出图也不会报错。
采样器:
官方这里给到的步数是28步。我之前也说了,我们可以通过这个步数和Model Sample Node节点去配合,以达到一个性能和图片质量相对的平衡。从理论上来说,步数越多模型采样值越高,我们就会得到更精细的图片。但同时出图也会更耗时,对硬件的要求也会越高。
3、精简工作流
为了简化操作,可以将官方复杂的工作流精简为更传统的工作流形式:
**选择自带文本编码器的模型:
使用sd3_medium_incl_clips_t5xxlfp16.safetensors模型。
删除不必要的节点:
Triple Clip Loader 节点、Model Sample Node 节点和 Conditioning Nodes。
简化后的连接:
确保正反向提示词连接到模型节点。
实际演示
我们分别使用官方复杂工作流和精简后的工作流生成图像。结果显示,两者生成的图像基本一致。精简后的工作流不仅操作更简便,而且在效果上也没有显著差异。
总结
本文作者介绍了Stable Diffusion 3最新的模型,也带大家通过ComfyUI搭建了一个Stable Diffusion 3的工作流,希望大家对 Stable Diffusion 3 在ComfyUI下的使用方法有了更清晰的理解。Stable Diffusion 3 Medium 相较于之前的模型,在文本语义理解上更强。但关于其实际性能和效果的评价,仍需更深入的测试。
写在最后
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
总结
总结文章:**Stable Diffusion 3 Medium模型发布及在Comfy UI中使用指南**
近日,Stable Diffusion 3的新模型——Medium模型正式发布并开放下载。相较之前的Large和Large Turbo模型(均为8B参数规模),新模型参数量较小,为2B,但其能力据称可与3.5B参数的Stable Diffusion XL Base Model媲美甚至更优,展现出更高的效率。
**模型特色**:
- Stable Diffusion 3 Medium模型通过优化,实现参数减少但性能维持或超越较大型号模型的效果,对文本语义理解及图像生成质量提供强有力的支撑。
**使用教程**:
- 用户可通过Comfy UI最新版来部署和运行Stable Diffusion 3 Model。在准备环境阶段,需更新Comfy UI至最新版本并下载对应的模型文件。
-Stable Diffusion 3的架构包括不带文本编码器和包含文本编码器的多种模型版本,用户可根据实际需求选择合适的配置及下载路径。
- 工作流部署涉及导入官方提供的基础工作流,并更新模型路径、配置关键节点,控制台提示词的权重和采样步数等项目来调整图像生成效果。
**实战优化**:
- 为了简化操作,可以将官方复杂工作流精简为更传统的形式,通过选择自带文本编码器的模型,删除不必要的节点等方式,使工作流更为高效易用。
- 实际测试表明,简化后的工作流在达到相同结果质量的同时,操作更加简便,提高了用户体验。
**关于AIGC的发展趋势和学习资源**:
- 文章最后讨论了AIGC技术的未来发展前景,并分享了全套的AIGC学习资料、工具、学习笔记、视频教程经过您对文章的精炼总结,这里为您提供一份进一步优化后的文案:
---
**Stable Diffusion 3 Medium模型发布:从Comfy UI启动全新艺术之旅**
随着Stable Diffusion 3的又一新版本——Medium模型的面世,我们迎来了图像生成领域的新篇章。这款2B模型尽管参数规模较其前辈有所缩小,但其性能依旧出色,令人对其在未来应用的广泛可能性充满期待。
**全新体验**:
Stable Diffusion 3 Medium以2B的参数量实现了与更大规模模型相近或更优的文本语义理解及图像生成效果。这不仅是在技术层面的一次革新,更是对高效性能追求的体现。
**轻松部署**:
用户只需更新至Comfy UI最新版本,并从Hugging Face下载对应模型,即可轻松地在本地环境中搭建该剧组模型。通过可选的文本编码器配置和多版本支持,Stable Diffusion 3能够满足不同场景和需求的用户。
**工作流优化**:
官方提供的基础工作流被视为启动模型的利器,而详尽的配置指南则确保用户能迅速上手、灵活调整,通过控制节点和采样步数,轻松定制个性化的图像生成效果。
**实战技巧与资源**:
为了简化操作和提高效率,官方还支持传统工作流简化方法,选择自带文本编码器的模型,减少节点,以满足快速图像生成的需求。此外,为了推动技术的深入应用,我们还为大家提供了AIGC学习的全套资源和实战指南,包含学习路线、必备工具、学习笔记视频教程及实战案例等,助力每一位对AIGC技术感兴趣的朋友。
**未来展望**:
随着人工智能技术的不断进步,AIGC的应用将会更加广泛,而Stable Diffusion 3正处于这场变革的前沿。让我们携手共进,开启一个充满无限可能性的AI艺术新时代!