Datawhale AI夏令营第四期魔搭-AIGC方向 task 01笔记

简介

从零入门AI生图原理&实践，是 Datawhale 2024 年 AI 夏令营第四期的学习活动（“AIGC”方向），基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习

适用人群：

想入门并实践 AIGC文生图、工作流搭建、LoRA微调的学习者

内容概述：

前期偏理论，后期简单介绍应用

赛题解读

关于可图Kolors-LoRA风格故事挑战赛

要求：

在可图Kolors 模型的基础上训练LoRA 模型，生成 8 张图片组成连贯故事，故事内容可自定义。

初赛截至：-2024年8月31日23:59

文生图历史

文生图是什么？

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。

发展历程

早期探索（20世纪60年代-20世纪90年代）：

1. 主要依赖于规则和模板匹配，将文本转换为简单的图形。

2.生成的图像质量较低，应用场景也非常有限。

基于统计模型的方法（2000年代）：

1．利用概率图模型和统计语言模型来生成图像。

2. 多样性和质量上有了一定提升，但较为粗糙，不够逼真。

深度学习的崛起（2010年代）：

卷积神经网络（CNN）和生成对抗网络（GAN）快速发展

大规模预训练模型（2020年代）：

大规模的文本和图像配对数据训练，文本和图像高度一致提升图像的创意和细节表现能力，通过简单的文本描述生成高质量、复杂图像成为可能。

文生图基础知识介绍

运行原理：

提示词

写法：

主体描述，细节描述，修饰词，艺术风格，艺术家

Lora

一类通过特定微调技术应用于基础模型的扩展应用。

用途：

针对性优化预训练好的大模型，以实现对特定主题、风格或任务的精细化控制。

ComfyUI

用途：

简化和优化 AI 模型的配置和训练过程。用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。

用途：

引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

控制类型：

OpenPose姿势控制

Canny精准绘制：用于线稿图

Hed绘制：获取渐变线条的线稿图

深度图Midas：更有层次

颜色color控制：实现更加精准和个性化的图像生成效果。

小白零基础 30 分钟速通指南

从跑通最简的Baseline，到了解竞赛通用流程、深入各个竞赛环节，精读Baseline与进阶实践，这些一个都不会少！

Step0：开通阿里云PAI-DSW试用

链接：阿里云免费试用 - 阿里云

- 在魔搭社区进行授权：

链接：魔搭社区

Step1：报名赛事！

赛事链接：可图Kolors-LoRA风格故事挑战赛_创新应用大赛_天池大赛-阿里云天池的赛制

Step2：在魔搭社区创建PAI实例！

链接：魔搭社区

Step3：30 分钟体验一站式 baseline！

1.下载baseline文件（大约需要2分钟）

2.进入文件夹，打开baseline文件

3.安装环境，然后重启kernel：

安装 Data-Juicer 和 DiffSynth-Studio

Data-Juicer：数据处理和转换工具，旨在简化数据的提取、转换和加载过程

DiffSynth-Studio：高效微调训练大模型工具

4.调整prompt，设置你想要的图片风格，依次修改8张图片的描述（可选）

正向描述词：你想要生成的图片应该包含的内容

反向提示词：你不希望生成的图片的内容

5.依次顺序运行剩余的代码块，点击代码框左上角执行按钮，最终获得图片（大约需要20分钟）

Step4：微调结果上传魔搭（点击即可跳转）

移动结果文件

下载结果文件：双击进入output文件夹，分别下载两个文件到本地

创建并上传模型所需内容：点击魔搭链接，创建模型

来到创空间，查看自己的模型是否发布

Step5：关闭PAI实例

运行完成后，别忘了回到魔搭，【关闭】实例，否则会一直消耗你的试用额度！

每小时消耗大概7个试用额度！（总共5000个，有效期三个月）

总结

### 文章总结：从零入门AI生图原理&实践
**简介**
- **活动背景**：基于魔搭社区的“可图Kolors-LoRA风格故事挑战赛”，是Datawhale 2024年AI夏令营第四期的学习活动，聚焦于AIGC（人工智能生成内容）方向的文生图学习和实践。
**适用人群**
- 针对希望入门AIGC文生图、工作流搭建、LoRA微调的学习者。
**内容概述**
- 活动前期偏重理论讲解，后期则简单介绍实际应用。
**赛题解读**
- **比赛要求**：在可图Kolors模型基础上训练LoRA模型，生成8张连贯故事图片，故事内容自定义。
- **时间节点**：初赛截止至2024年8月31日23:59。
**文生图历史**
- **文生图定义**：通过文本描述生成图像的技术，其发展经历了多个阶段。
- **早期探索（20世纪60年代-90年代）**：依赖规则和模板匹配，图像质量低且应用场景有限。
- **基于统计模型的方法（2000年代）**：利用概率图模型提升图像多样性和质量，但仍显粗糙。
- **深度学习的崛起（2010年代）**：CNN和GAN技术的快速发展促进了文生图技术的飞跃。
- **大规模预训练模型（2020年代）**：通过大规模文本和图像配对数据训练，提升图像创意和细节表现力，实现了高质量复杂图像的生成。
**文生图基础知识**
- **运行原理**：基于深度学习和预训练模型的图像生成技术。
- **提示词**：包括主体描述、细节描述、修饰词、艺术风格和艺术家等内容，用于指导图像生成。
- **Lora**：一种通过特定微调技术应用于基础模型的扩展应用，用于优化大模型以实现精细化控制。
- **ComfyUI**：简化和优化AI模型配置和训练过程的工具，支持通过节点/流程图界面设计AIGC文生图pipeline。
- **参考图控制（ControlNet）**：通过引入额外的控制信号（如姿势、分割图、深度图、颜色等），精确控制图像生成过程。
**小白零基础30分钟速通指南**
- **Step0**：开通阿里云PAI-DSW试用并完成魔搭社区授权。
- **Step1**：报名参加比赛并获取赛事链接。
- **Step2**：在魔搭社区创建PAI实例。
- **Step3**：体验一站式Baseline（约30分钟）：
- 下载并打开Baseline文件。
- 安装Data-Juicer和DiffSynth-Studio环境，并重启kernel。
- 调整prompt设置图片风格，修改图片描述（可选）。
- 顺序运行代码块并获取图片结果。
- **Step4**：将结果上传至魔搭，并检查模型是否发布成功。
- **Step5**：关闭PAI实例，以免继续消耗试用额度。
通过这一系列步骤，即便是零基础的学习者也能在较短时间内入门并实践AI生图技术，探索LoRA微调和AIGC的无限可能。

Datawhale AI夏令营第四期 魔搭-AIGC方向 task 01笔记

简介