简介
从零入门AI生图原理&实践,是 Datawhale 2024 年 AI 夏令营第四期的学习活动(“AIGC”方向),基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习
适用人群:
想入门并实践 AIGC文生图、工作流搭建、LoRA微调的学习者
内容概述:
前期偏理论,后期简单介绍应用
赛题解读
关于可图Kolors-LoRA风格故事挑战赛
要求:
在可图Kolors 模型的基础上训练LoRA 模型,生成 8 张图片组成连贯故事,故事内容可自定义。
初赛截至:-2024年8月31日23:59
文生图历史
文生图是什么?
文生图(Text-to-Image Generation)是一种通过文本生成图像的技术,其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。
发展历程
早期探索(20世纪60年代-20世纪90年代):
1. 主要依赖于规则和模板匹配,将文本转换为简单的图形。
2.生成的图像质量较低,应用场景也非常有限。
基于统计模型的方法(2000年代):
1.利用概率图模型和统计语言模型来生成图像。
2. 多样性和质量上有了一定提升,但较为粗糙,不够逼真。
深度学习的崛起(2010年代):
卷积神经网络(CNN)和生成对抗网络(GAN)快速发展
大规模预训练模型(2020年代):
大规模的文本和图像配对数据训练,文本和图像高度一致 提升图像的创意和细节表现能力,通过简单的文本描述生成高质量、复杂图像成为可能。文生图基础知识介绍
运行原理:
提示词
写法:
主体描述,细节描述,修饰词,艺术风格,艺术家
Lora
一类通过特定微调技术应用于基础模型的扩展应用。
用途:
针对性优化预训练好的大模型,以实现对特定主题、风格或任务的精细化控制。
ComfyUI
用途:
简化和优化 AI 模型的配置和训练过程。 用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。参考图控制
ControlNet是一种用于精确控制图像生成过程的技术组件。
用途:
引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。
控制类型:
OpenPose姿势控制
Canny精准绘制:用于线稿图
Hed绘制:获取渐变线条的线稿图
深度图Midas:更有层次
颜色color控制:实现更加精准和个性化的图像生成效果。
小白零基础 30 分钟 速通指南
从跑通最简的Baseline,到了解竞赛通用流程、深入各个竞赛环节,精读Baseline与进阶实践,这些一个都不会少!
Step0:开通阿里云PAI-DSW试用
链接:阿里云免费试用 - 阿里云
- 在魔搭社区进行授权:
链接:魔搭社区
Step1:报名赛事!
赛事链接:可图Kolors-LoRA风格故事挑战赛_创新应用大赛_天池大赛-阿里云天池的赛制
Step2:在魔搭社区创建PAI实例!
链接:魔搭社区
Step3:30 分钟体验一站式 baseline!
1.下载baseline文件(大约需要2分钟)
2.进入文件夹,打开baseline文件
3.安装环境,然后重启kernel:
安装 Data-Juicer 和 DiffSynth-Studio
Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程
DiffSynth-Studio:高效微调训练大模型工具
4.调整prompt,设置你想要的图片风格,依次修改8张图片的描述(可选)
正向描述词:你想要生成的图片应该包含的内容
反向提示词:你不希望生成的图片的内容
5.依次顺序运行剩余的代码块,点击代码框左上角执行按钮,最终获得图片(大约需要20分钟)
Step4:微调结果上传魔搭(点击即可跳转)
移动结果文件
下载结果文件: 双击进入output文件夹,分别下载两个文件到本地
创建并上传模型所需内容: 点击魔搭链接,创建模型
来到创空间,查看自己的模型是否发布
Step5:关闭PAI实例
运行完成后,别忘了回到魔搭,【关闭】实例,否则会一直消耗你的试用额度!
每小时消耗大概7个试用额度!(总共5000个,有效期三个月)
总结
### 文章总结:从零入门AI生图原理&实践**简介**
- **活动背景**:基于魔搭社区的“可图Kolors-LoRA风格故事挑战赛”,是Datawhale 2024年AI夏令营第四期的学习活动,聚焦于AIGC(人工智能生成内容)方向的文生图学习和实践。
**适用人群**
- 针对希望入门AIGC文生图、工作流搭建、LoRA微调的学习者。
**内容概述**
- 活动前期偏重理论讲解,后期则简单介绍实际应用。
**赛题解读**
- **比赛要求**:在可图Kolors模型基础上训练LoRA模型,生成8张连贯故事图片,故事内容自定义。
- **时间节点**:初赛截止至2024年8月31日23:59。
**文生图历史**
- **文生图定义**:通过文本描述生成图像的技术,其发展经历了多个阶段。
- **早期探索(20世纪60年代-90年代)**:依赖规则和模板匹配,图像质量低且应用场景有限。
- **基于统计模型的方法(2000年代)**:利用概率图模型提升图像多样性和质量,但仍显粗糙。
- **深度学习的崛起(2010年代)**:CNN和GAN技术的快速发展促进了文生图技术的飞跃。
- **大规模预训练模型(2020年代)**:通过大规模文本和图像配对数据训练,提升图像创意和细节表现力,实现了高质量复杂图像的生成。
**文生图基础知识**
- **运行原理**:基于深度学习和预训练模型的图像生成技术。
- **提示词**:包括主体描述、细节描述、修饰词、艺术风格和艺术家等内容,用于指导图像生成。
- **Lora**:一种通过特定微调技术应用于基础模型的扩展应用,用于优化大模型以实现精细化控制。
- **ComfyUI**:简化和优化AI模型配置和训练过程的工具,支持通过节点/流程图界面设计AIGC文生图pipeline。
- **参考图控制(ControlNet)**:通过引入额外的控制信号(如姿势、分割图、深度图、颜色等),精确控制图像生成过程。
**小白零基础30分钟速通指南**
- **Step0**:开通阿里云PAI-DSW试用并完成魔搭社区授权。
- **Step1**:报名参加比赛并获取赛事链接。
- **Step2**:在魔搭社区创建PAI实例。
- **Step3**:体验一站式Baseline(约30分钟):
- 下载并打开Baseline文件。
- 安装Data-Juicer和DiffSynth-Studio环境,并重启kernel。
- 调整prompt设置图片风格,修改图片描述(可选)。
- 顺序运行代码块并获取图片结果。
- **Step4**:将结果上传至魔搭,并检查模型是否发布成功。
- **Step5**:关闭PAI实例,以免继续消耗试用额度。
通过这一系列步骤,即便是零基础的学习者也能在较短时间内入门并实践AI生图技术,探索LoRA微调和AIGC的无限可能。