当前位置:AIGC资讯 > AIGC > 正文

Stable Diffusion 入门实操篇

一、了解 SD 与哩布哩布

1. SD简介

SD全称为 Stable Diffusion,与 Midjourney(MJ)一样,也是一款AI绘画软件,SD 的核心原理是潜在扩散模型(LDM),通过该技术,SD能够将原始图像转化为噪声图像,然后逐渐去除噪声,生成最终的逼真绘画。相比于 Midjourney,它具有更强的可控性,它把一切的控制权都交给你。在许多商业场景中更加实用,操作复杂度也会高一点。但 MJ 与 SD 是目的性不同的工具,MJ是视觉表现工具,SD 是制作取向工具,不同需求者会在不同的阶段使用它们,而且两者并不冲突,在制作上可以相互配合互补。

2. LiblibAI (以下简称Lib)

下面跟大家强烈推荐哩布哩布(https://www.liblib.art/),它原来是一个模型分享和下载的网站,后来有了在线 SD 的功能。其界面设计与原生 SD 基本上一样的,Lib 不仅可以本地部署,并提供了 SD 大模型的下载;同时作为一个 SD 生态网站,它可以线上体验 SD 功能,不需要科学上网。

由于本地部署对于电脑硬件要求很高,不仅要求中高端显卡,同时还需要安装和设置软件环境。如果你是 AI 新人,在没有时间和设备的前提下想要试试AI绘图,照着网上的教程做一些东西,为自己的学习和工作提供更多助力,Lib 线上版会是非常适合你的学习平台和生产工具,目前每天可以免费生成 300 张,还是很赞的。

本文以下介绍均基于在线版 Lib,适用于新手体验与学习。(对于想要安装本地部署的,以下为网上搜集的安装配置要求,可参考,如果你是Mac本就不用考虑了。)

电脑配置要求

显卡(最重要):N卡 (Nvidia) 显存4GB以上,但是至少8 GB 用起来才会比较舒服,不然渲染一张 512*512 的小图就需要几分钟体验感很差。不推荐A卡(AMD) ,最低配置 GT X 1060,不到一分钟一张图;建议配置 GT X 3060 ,10秒左右一张图;高配 GT X 3080 GT X 4090 ,体验三秒一张图。

内存:尽量16GB 及以上,因为在出图的时候我们除了开 SD 软件,可能同时会打开各种参考图网站,SU 模型,PS 修图等等,容易卡死。

CPU 处理器:AI 绘图主要用 GPU 计算,不太吃 CPU,与显卡相匹配的处理器就可以。 硬盘储存空间:100GB 以上,软件本体在20-30GB,后期还需要下载很多大的模型,每个模型一般也有2-5GB,还有各种 Lora 模型,所以储存越大越好。

SD基础软件安装:推荐大家直接安装 Stable Diffusion WebUl 资源整合包(网上搜索秋叶的一键安装包)

二、基本界面认识

1. 网站首页

打开网址 https://www.liblib.art/ 后,就到了网站首页(如下图),可以看到大幅页面为模型广场,是Lib提供的海量模型库。右上角注册登录,点左侧创作区域的【在线生图】,即可到做图操作页面。

在开始生图前,我们可以先在 Lib 上找到众多已经预训练好的模型,一键添加到自己的模型列表中,就可以直接使用。比如,我想要搜索插画类大模型,可以在类型选择 CHECKPOINT,搜索框内写插画,即可找到类似模型。

2. 做图页面

点击【在线生图】,转到做图操作页面。如下图,主要包括大模型选择框,功能标签栏,提示词填写区,提示词操作区,高级参数设置区,结果生成区,结果处理区(图片生成后出现)。

3.关于模型

基本大模型 CHECKPOINT(必须要选择)

大模型有3类

2D 二次元模型:动画插画,偏向平面的二次元人物,例如:AWpainting;
2.5D 模型:偏向 3D 的动画人物,游戏道具人物,盲盒,玩具等,例如:Rev animated;
写实类模型:真实影片,真人写真,实物拍摄,例如:Chillout Mix,麦橘写实。

前面界面认识部分已经介绍过网站首页就是模型广场,你可以在模型广场去了解和探索自己喜欢的大模型,并进行收藏加入自己的模型库,后面在做图时就可以选择对应大模型出类似风格的图。

在生图的操作页面,点开左上角的模型选择区域【CHECKPOINT】,(可选默认的模型,也可以自己添加其他各类模型),点击模型后的问号(❓),也可以跳转到模型介绍页面查看其基本介绍信息,如下所示。

Lora 小模型(可选可不选)

Lora 为 SD 的一个插件,可以将其理解为辅助的提示词,让 AI 有更加细化的风格作为参考,你选择了小模型后,提示词框内会加上对应的触发关键词。

和收藏大模型一样,在模型广场上也一样可以查找添加 Lora 小模型到自己的模型库,打开对应模型页面后还可以查看模型创作者给你的玩法提示,帮助你设置你的参数。

在作图界面的提示词操作区点开【打开预览】(如下截图)可以看到自己收藏的 Lora 模型。甚至于你也可以训练你自己的 Lora 模型(高阶玩法,需购买会员)。

4.关于提示词

SD 里提示词区域包括正面提示词和负面提示词。负面提示词即你不想要画面中出现的内容,你也可以不填写。总体来说,如果你已经对 MJ 有所了解的话,提示词对你来说就很简单。并且在这里你直接用中文写也可以,然后点击右上角的翻译,它可以帮你翻译为英文。

注意:1.相比于 MJ 可以理解长句子,SD 更适合短语。2.提示词中画风描述词要与所选择的大模型相匹配。如果有冲突,系统会优先按模型效果。比如你选择的模型是二次元的 Awpainting,提示词写了写实风格,最后生成的图依然会是二次元风格。

? 关于prompt的一些规则

1.权重设置:**(提示词)给提示词加一层小括号表示增加权重1.1倍,加2层小括号,((提示词))即增加权重 1.1 乘 1.1=1.21 倍;[提示词]给提示词加一层中括号表示降低权重为0.9倍,同理两层总括号即降低权重 0.9 乘 0.9=0.81 倍;(提示词:1.X)代表提升提示词权重1.X倍 ;(提示词:0.X)代表降低提示词权重0.X倍。最后这个方式设置权重更推荐。

2.利用步数做渐变:**提示词1:提示词2: 数字 如果数字<1,则表示前 (步数乘以数字) 步,以提示词1生成,之后按照提示词2生成;如果数字>1,则表示,前(数字)步,以提示词1生成,剩下步数以提示词2生成。

Tips:可以将常用的正向和负向提示词提前预设写进去,然后点击右侧提示词操作区的保存按钮,如下图,我在正面和负面提示词框内写上通用的高质量图片提示词,点击右侧【保存当前配置和提示词】,进行命名,后续点击下方的预设,就可以添加自己预设的内容。如果想修改,修改后,重复保存,会将原来保存的内容覆盖。比如下图我预设保存了自己的固定提示词,取名为高清高质量写实照片。下一次我就可以直接右侧区域选择,提示词就可以自动添加进去。

如果想要皮克斯风格,可以将刚才添加的皮克斯 Lora 模型选上,可以点击上面的小图标,将触发词加上。

5.认识基础参数

(1)采样方法参数

它指的是不同的算法,代表了不同的生成图片的效率。速度方面 DDIM 最快,目前比较推荐和网上使用最广泛的几种为Euler a,DPM++ 2M karras, DPM++ SDE karras,DDIM,属于速度快且质量有保证。

注意:不同的采样方式可能对不同的模型产生不同的影响,因此采样方法的选择最好的方法就是多尝试。

(2)迭代步数**

指用多少次来计算你提示词里的内容。步数不是越高越好,15-30之间比较适合,最大不要超过50步,推荐值25步左右。

(3)面部修复、平铺、高分辨率修复**

**面部修复:**通常用于实景图出现面部崩坏的情况,开启此功能,面部崩坏的情况会有一定的改善,但不建议用于二次元的图。

**平铺:**用于出无缝衔接的重复性花纹,可以按瓷砖,壁纸效果来理解。

**高分辨率修复与重绘幅度:**高清修复即增加原有图像分辨率,同时也可以调整原图像。

勾选高清修复后出现重绘幅度选项:高分辨率修复的重绘幅度为0时不会改变原图,0.3 以下会基于原图稍微修正,超过 0.7 会对原图做出较大改变,1 会得到一个完全不同的图像。

(4)宽度与高度

也即分辨率。最大为1024✖️1024如果你想生成更高清图像,建议生成小分辨率尺寸然后再用高清修复功能。

(5)生图的批次与数量

这个很好理解,即每次生成多少组图,每组图多少张。一次性生成张数越多,响应时间会越长。

对于安装本地部署的小伙伴的建议:中低显存 (6G、8G)的显卡,选择设置多批次,每批次生成1张图,降低对显卡的压力;高显存 (12G、16G、24G)的显卡,可以设置单批次,一次性生成多张图。
(6)提示词引导系数 CFG

数值越高越接近提示词内容,默认0.7较为合适,过低的 CFG,AI自由发挥的空间大,过高的 CFG,会让画面过饱和,甚至出现瑕疵,(过大的 CFG值,可以通过提高采样步数来抵消)。合适的CFG范围5-12之间,常用7或9搭配合适的送代步数15-30使用。

(7)随机种子(类似 MJ 中的种子)**

当随机种子为-1时,则是未使用种子,后续出图都是随机状态;每次通过 SD 生成的图片都会有一个随机种子 Seed 值,可以填入随机种子参数位置,固定随机种子值后,后续生成的图片都会参考这个种子进行生成。点击随机种子区域右侧类似掉头的箭头图标,在随机种子框中即可快速填入当前图片的随机种子。

如果我们想要固定某个形象,可以尝试把图片的随机种子值填在 Seed 里,这样每次出图的风格大致都会一样。

Tips:可以利用高分辨率修复以及种子值,养成先用小图测试再选择高分辨率修复,固定种子生成高清图的好习惯。

第一步:低分辨率快速抽卡(选择低分辨率 512 * 512,总批次选 4,每批次选 1,可以快速出 4 张图)

第二步:在多次抽卡确认效果后,锁定满意效果的种子值,再选择高分辨率修复,可得到满意的高清图。

(8)ControlNet 功能

这个功能可以实现更加精准控制。选取不同的预处理器,可以提取你上传画面的构图,人物的姿势和画面的深度信息等等,让 SD 按照你给的图片参考信息来出图,来精准控制需要生成的图片。有了它的帮助,就不用频繁用提示词碰运气抽卡式创作了。这个是目前在 AI 绘图方面得到较高认可的功能。(展开后有其各种详细参数如下截图,此功能在基础篇不做详细介绍。)

三、根据提示词动手尝试

以下是一个提示词和参数的范例,自己动手操作吧,只有尝试,你才能明白每一个参数的功能和效果。

【猫猫模特主题】

Liblib上模型:realistic VisionV50_v50VAE.safetensors

Liblib上 Lora:catman,权重 0.7 (它的触发词是 maomi,可以先去模型广场上搜索这个模型的介绍信息)

VAE:自动匹配

采样算法:DPM++ SDE Karras

采样步数:25

宽度:512

高度:768

提示词引导系数:7.0

正向提示词:(Best quality, masterpiece: 1.2), cat, cute, anthropomorphic, on the runway, children’s clothing, green, loose casual suit, Maine cat, maomi

‍翻译:(最佳质量,杰作:1.2),猫咪,可爱,拟人化,在T台上,童装,绿色,宽松休闲套装,缅因猫

负向提示词:(EasyNegative:1.2), badhandv4,ng_deepnegative_v1_75t,worst quality, low quality, monochrome

(以上提示词里相关颜色,服装的描述你都可以根据你的喜好调整)

下面这是我的参数页面截图,以及生成的图片,你的图是怎样的呢?

最后,关于更多 MJ 和 Stable Diffusion 设计的知识我们还整理了很多操作和案例知识,如果想要查阅相关内容,文末欢迎扫码订阅查看。

写在最后

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程,模型插件,具体看下方。

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

若有侵权,请联系删除

更新时间 2024-06-05