Datawhale X 魔搭 AI夏令营第四期 AIGC task3

part 1：认识comfyUI

1.初识ComfyUI

1.1什么是Comfy UI

GUI是"Graphical User Interface"（图形用户界面）的缩写。简单来说，GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。

ComfyUI是GUI的一种，为基于节点工作的用户界面，用于操作图像的生成技术。

1.2Comfy UI核心模块

核心模块有模型加载器、提示词管理器、采样器、解码器。

模型加载器：

提示词管理器：

解码器：

采样器：

1.3Comfy UI图片生成流程

1.4Comfy UI的优势

模块化和灵活性，可视化界面，多模型支持，调试和优化，开放和可拓展，用户友好性。

2：安装Comfy UI

是哦那个魔搭社区提供的Notebook和免费的GPU算力体验来体验Comfy UI

2.1下载脚本代码文件

下载安装Comfy UI的执行文件和task1中微调完成的Lora文件

创建终端，复制下代码

git lfs install git clone https://www.modelscope.cn/datasets/maochase/kolors_test_comfyui.git mv kolors_test_comfyui/* ./ rm -rf kolors_test_comfyui/ mkdir -p /mnt/workspace/models/lightning_logs/version_0/checkpoints/ mv epoch=0-step=500.ckpt /mnt/workspace/models/lightning_logs/version_0/checkpoints/

下载所需文件

2.2进入Comfy UI安装文件

可一键执行安装程序（约十分钟）

注：若没有安装成功（比如我），最好一个模块一个模块执行，注意当前状态：

由此处看当前状态，等一个模块执行完成后再执行下一模块。

2.3进入预览界面

若再最后一模块输出了访问链接时，打开该链接即可

3.尝试Comfy UI工作流

3.1不带Lora的工作流样例

step1：下载工作流脚本

Docs

由load上传kolors_example.json。

执行生成图片

3.2带Lora的工作流样例

Task3：进阶上分-实战优化 - 飞书云文档 (feishu.cn)

与上面相同，上传模型并执行生成图像。

part2：Lora微调

LoRA (Low-Rank Adaptation) 微调是一种用于在预训练模型上进行高效微调的技术。它可以通过高效且灵活的方式实现模型的个性化调整，使其能够适应特定的任务或领域，同时保持良好的泛化能力和较低的资源消耗。

1.1Lora微调的原理

通过再预训练模型的关键层中添加低秩矩阵来实现

1.2Lora微调的优势

快速适应新任务

保持泛化能力

资源效率

2.Lora详解

针对可图比赛中的微调代码来理解

2.1Task2 中的微调代码

import os
cmd = """
python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \ # 选择使用可图的Lora训练脚本DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py
  --pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \ # 选择unet模型
  --pretrained_text_encoder_path models/kolors/Kolors/text_encoder \ # 选择text_encoder
  --pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \ # 选择vae模型
  --lora_rank 16 \ # lora_rank 16 表示在权衡模型表达能力和训练效率时，选择了使用 16 作为秩，适合在不显著降低模型性能的前提下，通过 LoRA 减少计算和内存的需求
  --lora_alpha 4.0 \ # 设置 LoRA 的 alpha 值，影响调整的强度
  --dataset_path data/lora_dataset_processed \ # 指定数据集路径，用于训练模型
  --output_path ./models \ # 指定输出路径，用于保存模型
  --max_epochs 1 \ # 设置最大训练轮数为 1
  --center_crop \ # 启用中心裁剪，这通常用于图像预处理
  --use_gradient_checkpointing \ # 启用梯度检查点技术，以节省内存
  --precision "16-mixed" # 指定训练时的精度为混合 16 位精度（half precision），这可以加速训练并减少显存使用
""".strip()
os.system(cmd) # 执行可图Lora训练

2.2参数详情表

参

数名称

参数值

说明

pretrained_unet_path

models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors

指定预训练UNet模型的路径

pretrained_text_encoder_path

models/kolors/Kolors/text_encoder

指定预训练文本编码器的路径

pretrained_fp16_vae_path

models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors

指定预训练VAE模型的路径

lora_rank

设置LoRA的秩（rank），影响模型的复杂度和性能

lora_alpha

设置LoRA的alpha值，控制微调的强度

dataset_path

data/lora_dataset_processed

指定用于训练的数据集路径

output_path

./models

指定训练完成后保存模型的路径

max_epochs

设置最大训练轮数为1

center_crop

启用中心裁剪，用于图像预处理

use_gradient_checkpointing

启用梯度检查点，节省显存

precision

"16-mixed"

设置训练时的精度为混合16位精度（half precision）

2.3UNet、VAE和文本编码器的协作关系

UNet：负责根据输入的噪声和文本条件生成图像。在Stable Diffusion模型中，UNet接收由VAE编码器产生的噪声和文本编码器转换的文本向量作为输入，并预测去噪后的噪声，从而生成与文本描述相符的图像

VAE：生成模型，用于将输入数据映射到潜在空间，并从中采样以生成新图像。在Stable Diffusion中，VAE编码器首先生成带有噪声的潜在表示，这些表示随后与文本条件一起输入到UNet中

文本编码器：将文本输入转换为模型可以理解的向量表示。在Stable Diffusion模型中，文本编码器使用CLIP模型将文本提示转换为向量，这些向量与VAE生成的噪声一起输入到UNet中，指导图像的生成过程

Part3 如何准备一个高质量数据集

明确你的需求和目标

关注应用场景：确定你的模型将被应用到什么样的场景中（例如，艺术风格转换、产品图像生成、医疗影像合成等）。

关注数据类型：你需要什么样的图片？比如是真实世界的照片还是合成图像？是黑白的还是彩色的？是高分辨率还是低分辨率？

关注数据量：考虑你的任务应该需要多少图片来支持训练和验证。

数据集来源整理

以下渠道来源均需要考虑合规性问题，请大家在使用数据集过程中谨慎选择。

来源类型

推荐

公开的数据平台

魔搭社区内开放了近3000个数据集，涉及文本、图像、音频、视频和多模态等多种场景，左侧有标签栏帮助快速导览，大家可以看看有没有自己需要的数据集。

其他数据平台推荐：

ImageNet：包含数百万张图片，广泛用于分类任务，也可以用于生成任务。

Open Images：由Google维护，包含数千万张带有标签的图片。

Flickr：特别是Flickr30kK和Flickr8K数据集，常用于图像描述任务。

CelebA：专注于人脸图像的数据集。

LSUN (Large-scale Scene Understanding)：包含各种场景类别的大规模数据集。

使用API或爬虫获取

如果需要特定类型的内容，可以利用API从图库网站抓取图片，如Unsplash、Pexels等。

使用网络爬虫技术从互联网上抓取图片，但需要注意版权问题。

数据合成

利用现有的图形引擎（如Unity、Unreal Engine）或特定软件生成合成数据，这在训练某些类型的模型时非常有用。

最近Datawhale联合阿里云天池，做了一整套多模态大模型数据合成的学习，欢迎大家一起交流。从零入门多模态大模型数据合成

数据增强

对于较小的数据集，可以通过旋转、翻转、缩放、颜色变换等方式进行数据增强。

购买或定制

如果你的应用是特定领域的，比如医学影像、卫星图像等，建议从靠谱的渠道购买一些数据集。

总结

### 文章总结：探索ComfyUI及LoRA微调与数据集准备
#### 第一部分：认识ComfyUI
**1. 初识ComfyUI**
ComfyUI是一种基于节点的图形用户界面（GUI），专门用于操作图像的生成技术。它提供了模块化、灵活及用户友好的方式来生成图像。
- **核心模块**：包括模型加载器、提示词管理器、采样器、解码器等，共同支撑图像生成流程。
- **优势**：模块化设计、灵活性高、支持多模型、可视化界面、便于调试和优化，以及开放和可拓展。
**2. 安装ComfyUI**
- 通过魔搭社区提供的Notebook和免费GPU算力来体验ComfyUI。
- 下载并执行安装脚本，通过简单的命令行操作（如clone仓库、运行安装程序）完成。
- 注意各模块执行状态，确保安装成功。
- 完成安装后，可通过提供的链接进入预览界面。
**3. 尝试ComfyUI工作流**
提供了不带Lora和带Lora的两种工作流样例，通过上传工作流脚本和模型文件，即可执行图像生成。
#### 第二部分：LoRA微调
**1. LoRA微调原理与优势**
- **原理**：通过在预训练模型的关键层中添加低秩矩阵实现高效微调。
- **优势**：快速适应新任务、保持泛化能力、资源效率高。
**2. LoRA详解**
主要通过理解Task2中的微调代码来了解LoRA的应用。详解了代码中的每个参数及其含义，如`pretrained_unet_path`、`pretrained_text_encoder_path`等。
- **参数详情表**列出了重要的参数及其设置值，方便用户理解和应用。
- 分析了UNet、VAE和文本编码器在Stable Diffusion模型中的协作关系，共同驱动图像生成。
#### 第三部分：如何准备一个高质量数据集
**1. 明确需求和目标**
- 确定模型应用场景（如艺术风格转换、产品图像生成等）。
- 关注数据类型和数据量需求，确保选择合适的数据集。
**2. 数据集来源整理**
- **公开数据平台**：如魔搭社区、ImageNet、Open Images、Flickr、CelebA和LSUN等。
- **API或爬虫获取**：利用API从特定网站获取图片或从互联网抓取（注意版权问题）。
- **数据合成**：使用图形引擎或特定软件生成合成数据。
- **数据增强**：对小数据进行旋转、翻转、缩放等变换以增加数据多样性。
- **购买或定制**：针对特定领域的数据集选择购买或定制。
通过上述内容，我们深入了解了ComfyUI和其背后的LoRA微调技术，以及如何高效地准备数据集以支持图像生成任务。这不仅有助于提升图像生成模型的性能，也为模特定化和个性化提供了可能。

Datawhale X 魔搭 AI夏令营 第四期 AIGC task3

明确你的需求和目标

数据集来源整理

Datawhale X 魔搭 AI夏令营第四期 AIGC task3