Datawhale X 魔塔AI夏令营 ——从零入门AI生图原理&实践_task 1

一. 基础知识

1.1 文生图发展历史

1.2 文生图基础知识

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

1.2.1 文生图流程图

1. 输入提示词用户提供描述图像内容和风格的文本提示词。 2. （可选）提供参考图像用户可以选择提供一张或多张参考图像，为模型提供视觉参考。 3. 使用Lora进行模型训练通过LoRA技术对预训练模型进行微调，使其适应新的任务需求。 4. 图像生成使用经过微调的模型，根据提示词（和参考图像）生成最终的图像。

1.2.2 提示词

提示词可以包含的内容有主题或主体、背景或环境、细节描述、风格或艺术效果、色彩、情感或氛围。

1.2.3 Lora

1.2.3.1 介绍

是一种用于微调大型预训练模型的技术，特别在处理生成任务和迁移学习时具有显著优势。其核心思想是通过引入低秩矩阵（Low-Rank Matrices）来高效地调整模型参数，从而使模型能够适应新的任务或数据集，而不需要重新训练整个模型。这种方法减少了计算和存储开销，同时保持了模型的强大性能。

1.2.3.2 基本原理

在LoRA中，模型的某些权重矩阵（如自注意力模块中的投影矩阵）会被分解为两个低秩矩阵的乘积。这意味着原本高维的矩阵可以被拆解为两个低维矩阵。这种低秩分解减少了训练参数的数量，使得微调过程更为轻量级。

具体来说，假设一个权重矩阵W被分解为两个低秩矩阵A和 B: ，其中，这里的 A 和 B 都是低秩矩阵。

1.2.4 ComfyUI

1.2.4.1介绍

ComfyUI 是一种用于图像生成和编辑的用户界面，设计目的是让用户能够更直观、简单地使用复杂的深度学习模型进行图像处理和生成任务。它通常与生成式模型（如扩散模型或GANs）配合使用，提供了一个友好且功能强大的交互界面，允许用户无需深入编程知识即可完成高质量的图像生成。

1.2.4.2 主要特性

模块化设计

可视化调试

灵活的配置

兼容性

简化部署

1.2.4.2 应用场景

快速原型设计

教育与培训

研究与开发

工业部署

1.2.5 参考图控制

参考图控制是一种用于指导图像生成过程的技术，它允许用户提供一张或多张参考图像，以影响生成的最终图像。通过这种技术，用户可以更精确地控制生成图像的细节，如图像的结构、颜色、风格等。特别是在生成模型（如扩散模型）中，参考图控制通过提供额外的输入信号，使得生成结果更符合用户的预期。

ControlNet 是一种基于参考图控制的技术组件，它附加在预训练的扩散模型（如 Stable Diffusion 模型）上，帮助模型更精确地执行特定任务。ControlNet 可以通过姿势关键点、分割图、深度图等控制信号引导生成过程，使得用户可以在生成图像的过程中施加更多的控制和指导。

参考图控制类型

简介

OpenPose姿势控制

输入是一张姿势图片（或者使用真人图片提取姿势）作为AI绘画的参考图，输入prompt后，之后AI就可以依据此生成一副相同姿势的图片；

Canny精准绘制

输入是一张线稿图作为AI绘画的参考图，输入prompt后，之后AI就可以根据此生成一幅根据线稿的精准绘制。

Hed绘制

Hed是一种可以获取渐变线条的线稿图控制方式，相比canny更加的灵活。

深度图Midas

输入是一张深度图，输入prompt后，之后AI就可以根据此生成一幅根据深度图的绘制。

颜色color控制

通过参考图控制和颜色控制，实现更加精准和个性化的图像生成效果。

1.3 实战训练

Step0：开通阿里云PAI-DSW试用

开通免费使用

链接：阿里云免费试用 - 阿里云

在魔搭社区进行授权

链接：https://www.modelscope.cn/my/mynotebook/authorization

如果这一步授权失败，可跳过此步骤，继续往下进行。

Step1: 报名赛事

报名赛事！(点击即可跳转)

赛事链接：https://tianchi.aliyun.com/competition/entrance/532254

Step2：在魔搭社区创建PAI实例！

在魔搭社区创建PAI实例！（点击即可跳转）

Step3：30 分钟体验一站式 baseline！

Step4: 微调结果上传魔搭

链接：https://www.modelscope.cn/models/create

Step5：关闭PAI实例！！!！！

链接：https://www.modelscope.cn/my/mynotebook/authorization

总结

### 文章总结
本文全面介绍了文生图（Text-to-Image）领域的基础知识及其实战训练流程，涵盖了文生图的发展历史、基础模型、技术要点及实战步骤。以下是文章的详细总结：
#### 一. 基础知识
##### 1.1 文生图发展历史
- 虽然文章中未具体展开文生图的详细历史，但指明了该领域的发展历程。
##### 1.2 文生图基础知识
###### 1.2.1 文生图流程图
1. **输入提示词**：用户提供描述图像内容和风格的文本。
2. **（可选）提供参考图像**：用户可选提供一张或多张参考图像，作为视觉参考。
3. **使用Lora进行模型训练**：通过LoRA技术微调预训练模型以适应新任务。
4. **图像生成**：利用微调后的模型生成图像。
###### 1.2.2 提示词
- 包含主题、背景、细节描述、风格、色彩、情感或氛围等要素。
###### 1.2.3 Lora
- **介绍**：一种用于微调预训练模型的技术，通过低秩矩阵分解减少计算与存储开销。
- **基本原理**：将权重矩阵分解为两个低秩矩阵的乘积，减轻模型微调负担。
###### 1.2.4 ComfyUI
- **介绍**：用于图像生成与编辑的用户界面，简化深度学习模型的使用。
- **主要特性**：模块化设计、可视化调试、灵活配置、兼容性强、简化部署。
- **应用场景**：原型设计、教育培训、研发及工业部署。
###### 1.2.5 参考图控制
- **技术概述**：通过参考图像影响生成图像的细节。
- **ControlNet**：附加在扩散模型上，利用多种控制信号（姿势、分割图、深度图等）生成精准图像。
- **参考图控制类型**：包括OpenPose姿势控制、Canny精准绘制、Hed绘制、深度图Midas、颜色控制等多种方式。
##### 1.3 实战训练
###### Step0：开通阿里云PAI-DSW试用
- 免费开通阿里云PAI-DSW，并在魔搭社区进行授权。
###### Step1: 报名赛事
- 提供赛事链接进行报名。
###### Step2：在魔搭社区创建PAI实例
- 指导用户在魔搭社区创建PAI实例。
###### Step3：30 分钟体验一站式 baseline
- 通过一站式baseline快速上手文生图任务。
###### Step4: 微调结果上传魔搭
- 提供模型微调结果上传的链接与步骤。
###### Step5：关闭PAI实例
- 操作完成后关闭PAI实例，避免不必要的资源占用。
### 总结
文章详细阐述了文生图的基础知识、核心技术与应用场景，并通过实战训练步骤引导用户从基础到实战逐步掌握文生图的技能，特别是利用阿里云PAI-DSW及魔搭社区等资源，提供了从理论到实践的全方位支持。

Datawhale X 魔塔AI夏令营 ——从零入门AI生图原理&amp;实践_task 1

一. 基础知识

1.1 文生图发展历史

1.2 文生图基础知识

1.2.1 文生图流程图

1.2.2 提示词

1.2.3 Lora

1.2.3.1 介绍

1.2.3.2 基本原理

1.2.4 ComfyUI

1.2.4.1介绍

1.2.4.2 主要特性

1.2.4.2 应用场景

1.2.5 参考图控制

1.3 实战训练

Step0：开通阿里云PAI-DSW试用

Step1: 报名赛事

Step2：在魔搭社区创建PAI实例！

Step3：30 分钟体验一站式 baseline！

Step4: 微调结果上传魔搭

Step5：关闭PAI实例！！!！！

Datawhale X 魔塔AI夏令营 ——从零入门AI生图原理&实践_task 1