一. 基础知识
1.1 文生图发展历史
1.2 文生图基础知识
文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。
1.2.1 文生图流程图
1. 输入提示词 用户提供描述图像内容和风格的文本提示词。 2. (可选)提供参考图像 用户可以选择提供一张或多张参考图像,为模型提供视觉参考。 3. 使用Lora进行模型训练 通过LoRA技术对预训练模型进行微调,使其适应新的任务需求。 4. 图像生成 使用经过微调的模型,根据提示词(和参考图像)生成最终的图像。1.2.2 提示词
提示词可以包含的内容有主题或主体、背景或环境、细节描述、风格或艺术效果、色彩、情感或氛围。
1.2.3 Lora
1.2.3.1 介绍
是一种用于微调大型预训练模型的技术,特别在处理生成任务和迁移学习时具有显著优势。其核心思想是通过引入低秩矩阵(Low-Rank Matrices)来高效地调整模型参数,从而使模型能够适应新的任务或数据集,而不需要重新训练整个模型。这种方法减少了计算和存储开销,同时保持了模型的强大性能。
1.2.3.2 基本原理
在LoRA中,模型的某些权重矩阵(如自注意力模块中的投影矩阵)会被分解为两个低秩矩阵的乘积。这意味着原本高维的矩阵可以被拆解为两个低维矩阵。这种低秩分解减少了训练参数的数量,使得微调过程更为轻量级。
具体来说,假设一个权重矩阵W被分解为两个低秩矩阵A和 B: ,其中,这里的 A 和 B 都是低秩矩阵。
1.2.4 ComfyUI
1.2.4.1介绍
ComfyUI 是一种用于图像生成和编辑的用户界面,设计目的是让用户能够更直观、简单地使用复杂的深度学习模型进行图像处理和生成任务。它通常与生成式模型(如扩散模型或GANs)配合使用,提供了一个友好且功能强大的交互界面,允许用户无需深入编程知识即可完成高质量的图像生成。
1.2.4.2 主要特性
模块化设计
可视化调试
灵活的配置
兼容性
简化部署
1.2.4.2 应用场景
快速原型设计
教育与培训
研究与开发
工业部署
1.2.5 参考图控制
参考图控制是一种用于指导图像生成过程的技术,它允许用户提供一张或多张参考图像,以影响生成的最终图像。通过这种技术,用户可以更精确地控制生成图像的细节,如图像的结构、颜色、风格等。特别是在生成模型(如扩散模型)中,参考图控制通过提供额外的输入信号,使得生成结果更符合用户的预期。
ControlNet 是一种基于参考图控制的技术组件,它附加在预训练的扩散模型(如 Stable Diffusion 模型)上,帮助模型更精确地执行特定任务。ControlNet 可以通过姿势关键点、分割图、深度图等控制信号引导生成过程,使得用户可以在生成图像的过程中施加更多的控制和指导。
参考图控制类型
简介
OpenPose姿势控制
输入是一张姿势图片(或者使用真人图片提取姿势)作为AI绘画的参考图,输入prompt后,之后AI就可以依据此生成一副相同姿势的图片;
Canny精准绘制
输入是一张线稿图作为AI绘画的参考图,输入prompt后,之后AI就可以根据此生成一幅根据线稿的精准绘制。
Hed绘制
Hed是一种可以获取渐变线条的线稿图控制方式,相比canny更加的灵活。
深度图Midas
输入是一张深度图,输入prompt后,之后AI就可以根据此生成一幅根据深度图的绘制。
颜色color控制
通过参考图控制和颜色控制,实现更加精准和个性化的图像生成效果。
1.3 实战训练
Step0:开通阿里云PAI-DSW试用
开通免费使用
链接:阿里云免费试用 - 阿里云
在魔搭社区进行授权
链接:https://www.modelscope.cn/my/mynotebook/authorization
如果这一步授权失败,可跳过此步骤,继续往下进行。
Step1: 报名赛事
报名赛事!(点击即可跳转)
赛事链接:https://tianchi.aliyun.com/competition/entrance/532254
Step2:在魔搭社区创建PAI实例!
在魔搭社区创建PAI实例!(点击即可跳转)
Step3:30 分钟体验一站式 baseline!
Step4: 微调结果上传魔搭
链接:https://www.modelscope.cn/models/create
Step5:关闭PAI实例!!!!!
链接:https://www.modelscope.cn/my/mynotebook/authorization
总结
### 文章总结本文全面介绍了文生图(Text-to-Image)领域的基础知识及其实战训练流程,涵盖了文生图的发展历史、基础模型、技术要点及实战步骤。以下是文章的详细总结:
#### 一. 基础知识
##### 1.1 文生图发展历史
- 虽然文章中未具体展开文生图的详细历史,但指明了该领域的发展历程。
##### 1.2 文生图基础知识
###### 1.2.1 文生图流程图
1. **输入提示词**:用户提供描述图像内容和风格的文本。
2. **(可选)提供参考图像**:用户可选提供一张或多张参考图像,作为视觉参考。
3. **使用Lora进行模型训练**:通过LoRA技术微调预训练模型以适应新任务。
4. **图像生成**:利用微调后的模型生成图像。
###### 1.2.2 提示词
- 包含主题、背景、细节描述、风格、色彩、情感或氛围等要素。
###### 1.2.3 Lora
- **介绍**:一种用于微调预训练模型的技术,通过低秩矩阵分解减少计算与存储开销。
- **基本原理**:将权重矩阵分解为两个低秩矩阵的乘积,减轻模型微调负担。
###### 1.2.4 ComfyUI
- **介绍**:用于图像生成与编辑的用户界面,简化深度学习模型的使用。
- **主要特性**:模块化设计、可视化调试、灵活配置、兼容性强、简化部署。
- **应用场景**:原型设计、教育培训、研发及工业部署。
###### 1.2.5 参考图控制
- **技术概述**:通过参考图像影响生成图像的细节。
- **ControlNet**:附加在扩散模型上,利用多种控制信号(姿势、分割图、深度图等)生成精准图像。
- **参考图控制类型**:包括OpenPose姿势控制、Canny精准绘制、Hed绘制、深度图Midas、颜色控制等多种方式。
##### 1.3 实战训练
###### Step0:开通阿里云PAI-DSW试用
- 免费开通阿里云PAI-DSW,并在魔搭社区进行授权。
###### Step1: 报名赛事
- 提供赛事链接进行报名。
###### Step2:在魔搭社区创建PAI实例
- 指导用户在魔搭社区创建PAI实例。
###### Step3:30 分钟体验一站式 baseline
- 通过一站式baseline快速上手文生图任务。
###### Step4: 微调结果上传魔搭
- 提供模型微调结果上传的链接与步骤。
###### Step5:关闭PAI实例
- 操作完成后关闭PAI实例,避免不必要的资源占用。
### 总结
文章详细阐述了文生图的基础知识、核心技术与应用场景,并通过实战训练步骤引导用户从基础到实战逐步掌握文生图的技能,特别是利用阿里云PAI-DSW及魔搭社区等资源,提供了从理论到实践的全方位支持。