在task02中,我们对baseline有了深度了解,我们学会了用AI工具来帮助我们学习。另外,我们制作了话剧连环画。
我们今天的任务是了解微调的基本原理,然后我们会对微调的各种参数有一个更加清楚的了解,来实现一个更好的效果,并且在这个Task中会给大家介绍一下文生图的工作流平台工具ComfyUI,来实现一个更加高度定制的文生图。
(AIGC方向的学习即将结束,大家是不是和我一样,感觉有点不舍呢,通过这几天的学习,让我们了解了很多关于AI知识,也要为自己这几天的努力感到骄傲,期待下一期的学习哦!)
一、ComfyUI的探索
1、什么是ComfyUI:
GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。
ComfyUI 是GUI的一种,是基于节点工作的用户界面,主要用于操作图像的生成技术,ComfyUI 的特别之处在于它采用了一种模块化的设计,把图像生成的过程分解成了许多小的步骤,每个步骤都是一个节点。这些节点可以连接起来形成一个工作流程,这样用户就可以根据需要定制自己的图像生成过程。
ComfyUI的特点包括直观的用户界面和强大的脚本功能,使得用户能够轻松地定制和优化图像生成过程。
2、ComfyUI核心模块
核心模块包括模型加载器、提示词管理器、采样器、解码器。
模型加载器:Load Checkpoint用于加载基础的模型文件,包含了Model、CLIP、VAE三部分
CLIP模块将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入
解码器:VAE模块的作用是将Latent space中的embedding解码为像素级别的图像
采样器:用于控制模型生成图像,不同的采样取值会影响最终输出图像的质量和多样性。采样器可以调节生成过程的速度和质量之间的平衡
Stable Diffusion的基本原理是通过降噪的方式(如完全的噪声图像),将一个原本的噪声信号变为无噪声的信号(如人可以理解的图像)。其中的降噪过程涉及到多次的采样。采样的系数在KSampler中配置:
seed:控制噪声产生的随机种子
control_after_generate:控制seed在每次生成后的变化
steps:降噪的迭代步数,越多则信号越精准,相对的生成时间也越长
cfg:classifier free guidance决定了prompt对于最终生成图像的影响有多大。更高的值代表更多地展现prompt中的描述。
denoise: 多少内容会被噪声覆盖 sampler_name、scheduler:降噪参数。
3、ComfyUI图片生成流程
二、ComfyUI的安装
1、在我的Notebook选择PAI-DSW中的方式二,点击启动即可
2、下载代码文件
git lfs install git clone https://www.modelscope.cn/datasets/maochase/kolors_test_comfyui.git mv kolors_test_comfyui/* ./ rm -rf kolors_test_comfyui/ mkdir -p /mnt/workspace/models/lightning_logs/version_0/checkpoints/ mv epoch=0-step=500.ckpt /mnt/workspace/models/lightning_logs/version_0/checkpoints/
然后粘贴代码,按下回车键即可
3、进入ComfyUI文件
点击一键运行,选择restart
4、找到访问链接
点击进入,或复制到浏览器打开
三、使用ComfyUI工作
1、不带Lora工作(在教程中下载即可)
导入模型,进行生图
生图需要一些时间,大家耐心等待即可
2、带Lora工作
(同理,在教程中下载即可)
3、调整prompt
调整想要生成的图片
4、查看生成图片进度
四、采样器的参数说明
Positive:正向条件
Negative:负向条件
latent_image:将被去噪的潜在图像
seed:用于创建噪声的随机种子
control_after_generate:在每个提示后更改上述种子号的能力。节点可以randomize、increment、decrement或保持种子号fixed。
steps:去噪过程中使用的步骤数。采样器允许进行的步骤越多,结果就越准确。但过大的steps会导致出图过爆,出现不好的画面。
cfg:分类器自由引导(cfg)比例决定了采样器在实现提示内容方面的积极性。更高的比例强制图像更好地代表提示,但设置过高的比例会负面影响图像质量。
sampler_name:使用哪个采样器
scheduler:使用哪种计划
denoise:通过噪声擦除多少潜在图像的信息
五、Lora微调
LoRA (Low-Rank Adaptation) 微调是一种用于在预训练模型上进行高效微调的技术。它可以通过高效且灵活的方式实现模型的个性化调整,使其能够适应特定的任务或领域,同时保持良好的泛化能力和较低的资源消耗。这对于推动大规模预训练模型的实际应用至关重要。
下面是task2中的微调代码
import os cmd = """ python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \ # 选择使用可图的Lora训练脚本DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py --pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \ # 选择unet模型 --pretrained_text_encoder_path models/kolors/Kolors/text_encoder \ # 选择text_encoder --pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \ # 选择vae模型 --lora_rank 16 \ # lora_rank 16 表示在权衡模型表达能力和训练效率时,选择了使用 16 作为秩,适合在不显著降低模型性能的前提下,通过 LoRA 减少计算和内存的需求 --lora_alpha 4.0 \ # 设置 LoRA 的 alpha 值,影响调整的强度 --dataset_path data/lora_dataset_processed \ # 指定数据集路径,用于训练模型 --output_path ./models \ # 指定输出路径,用于保存模型 --max_epochs 1 \ # 设置最大训练轮数为 1 --center_crop \ # 启用中心裁剪,这通常用于图像预处理 --use_gradient_checkpointing \ # 启用梯度检查点技术,以节省内存 --precision "16-mixed" # 指定训练时的精度为混合 16 位精度(half precision),这可以加速训练并减少显存使用 """.strip() os.system(cmd) # 执行可图Lora训练
到这里呢,我们的学习就结束了,大家记得打卡哦。
这段时间的学习让我收获很多,学习永不停止,也希望以后能与大家多多交流,期待下一次的学习!
总结
### 文章总结在task02中,我们不仅深入了解了baseline,还学会了利用AI工具辅助学习,并成功制作了话剧连环画。本次任务聚焦于微调技术的基本原理,旨在通过细致了解微调参数,实现更优化的效果。同时,我们介绍了文生图工作流平台工具ComfyUI,它基于节点工作的模块化设计,让用户能够高度定制图像生成过程。
#### ComfyUI探索
1. **定义与特点**:
- ComfyUI是GUI的一种,专注于图像生成技术,通过模块化设计将图像生成分解为多个节点,用户可按需定制流程。
- 直观的用户界面和强大的脚本功能,便于定制和优化图像生成。
2. **核心模块**:
- **模型加载器**:加载基础模型文件,包括Model、CLIP、VAE三部分。
- **CLIP模块**:将文本输入转换为模型可理解的latent space embedding。
- **解码器(VAE模块)**:将latent space中的embedding解码为像素级图像。
- **采样器**:控制图像生成,调节生成速度与质量平衡。
3. **图像生成流程**:
- 涉及降噪过程,通过多次采样将噪声信号转化为无噪声图像。
#### ComfyUI安装与使用
1. **安装步骤**:
- 在Notebook中选择PAI-DSW方式启动。
- 下载并安装ComfyUI代码文件,配置环境。
- 进入ComfyUI文件,一键运行并重启。
- 访问链接,开始使用。
2. **使用流程**:
- 导入模型,进行图像生成。
- 可选择不带Lora或带Lora工作,调整prompt以定制生成图像。
- 查看生成图片进度,调整采样器参数以优化结果。
#### 采样器参数说明
- **Positive/Negative**:正向/负向条件。
- **latent_image**:待去噪的潜在图像。
- **seed**:创建噪声的随机种子。
- **control_after_generate**:生成后更改种子的能力。
- **steps**:去噪步骤数,影响结果准确性和生成时间。
- **cfg**:分类器自由引导比例,决定采样器对提示内容的实现程度。
- **sampler_name/scheduler**:使用的采样器/计划。
- **denoise**:通过噪声擦除潜在图像信息的程度。
#### Lora微调
- **LoRA技术**:用于在预训练模型上进行高效微调,实现个性化调整,同时保持泛化能力和低资源消耗。
- **示例代码**:展示了如何使用LoRA进行模型训练的详细命令,包括模型路径、数据集、训练参数等设置。
#### 结语
本次学习不仅让我们掌握了微调技术和ComfyUI工具的使用,还激发了我们对AI知识的兴趣和探索欲。期待在未来的学习中继续与大家交流,共同进步。