Datawhale X魔搭 AI夏令营

Datawhale X魔搭AI夏令营 AIGC方向Task01学习笔记

（本人水平有限，文章中引用了一些大佬写的内容，引用的图片上已注明出处）

1.活动简介

从零入门AI生图原理&实践是 Datawhale 2024 年 AI 夏令营第四期的学习活动（ “AIGC”方向），基于魔搭社区 “ 可图Kolors-LoRA风格故事挑战赛 ” 开展的实践学习——

适合想入门并实践 AIGC文生图、工作流搭建、LoRA微调的学习者参与

学习内容提要：从通过代码实现AI文生图逐渐进阶，教程偏重图像工作流、微调、图像优化等思路，最后会简单介绍AIGC应用方向、数字人技术（选学）

2.理论部分

在开始实践部分前，简要了解一下文生图技术的历史：从受限的早期探索————主要依赖于规则和模板匹配，通过预定义的规则将文本转换为简单的图形————只能生成不够逼真图画的基于统计模型的方法，再到2010年代的深度学习崛起（此时文生图技术在生成逼真图像方面达到了前所未有的高度）

而在如今的2020年代，文生图技术进入了全新的大规模预训练模型阶段。此时出现了如OpenAI的CLIP、DALL-E以及Stable Diffusion等模型。CLIP通过大规模的文本和图像配对数据训练，能够理解和生成高度一致的文本和图像；DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力，使得通过简单的文本描述生成高质量、复杂图像成为可能。

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。

3.实践部分

了解了理论之后，我们就可以开始实操了，当前环节可让你在 30分钟内，从一个完全小白的选手，跑通 “可图Kolors-LoRA风格故事挑战赛” ！

Step0：开通阿里云PAI-DSW试用

Step1：报名赛事！(点击即可跳转)

赛事链接：https://tianchi.aliyun.com/competition/entrance/532254

Step2：在魔搭社区创建PAI实例！（点击即可跳转）

Step3：30 分钟体验一站式 baseline！

1.下载baseline文件（在终端输入以下两行命令）

git lfs install

git clone https://www.modelscope.cn/datasets/maochase/kolors.git

2.进入kolors文件夹，双击进入baseline文件

3.安装环境，然后重启kernel

在开发环境中，需要安装一些特定的包来支持数据处理和大模型的微调工作。

i. 安装环境和依赖包：
- 使用`pip`命令安装`simple-aesthetics-predictor`包。
- 安装`data-juicer`包，它是一个高效的数据处理工具，能够简化数据的抽取、清洗、转换和加载流程。可以将其想象为一个高级榨汁机，能够接收多种数据原料，自动进行清洗和加工，最终提供一杯新鲜、纯净的数据果汁。

ii. 卸载并重新安装相关包：
- 首先，使用`pip uninstall`命令卸载`pytorch-lightning`包，这是因为需要更新或更换该包的版本。
- 然后，安装`peft`、`lightning`、`pandas`和`torchvision`包，这些包提供了额外的技术支持或功能，如模型微调、数据处理和计算机视觉。

iii. 安装DiffSynth-Studio：
- 使用`pip install -e`命令安装`DiffSynth-Studio`，这是一个专为大模型微调设计的高效训练工具。

通过上述步骤，就可以为大模型的应用开发和微调训练准备一个合适的环境。

4.调整prompt，设置想要的图片风格，依次修改8张图片描述（可选）

备注：1.正向提示词：你希望图片时什么样的

2.反向提示词：你希望图片规避什么问题

建议输入的反向提示词：坏手，低分辨率，糟糕的解剖结构，糟糕的手，缺失的手指，裁剪，低质量，模糊

5.点击“》》”一键运行

6.最后运行完成后，别忘了回到魔搭，【关闭】实例，否则会一直消耗你的试用额度！

文末附上我上传到模型，感兴趣的可以调用

总结

**Datawhale X魔搭AI夏令营 AIGC方向Task01学习笔记总结**
**活动简介**
- **目的**：从零入门AI生图原理与实践，是基于Datawhale 2024年AI夏令营第四期的学习活动，聚焦于“AIGC”方向，依托魔搭社区的“可图Kolors-LoRA风格故事挑战赛”。
- **适宜人群**：适合想入门并实践AIGC文生图、工作流搭建、LoRA微调的学习者。
- **内容概要**：从代码实现AI文生图基础逐步进阶至图像工作流、微调与优化，并简要介绍AIGC应用方向与数字人技术（作为选学）。
**理论部分**
- **文生图技术演进**：
- 早期：依赖规则与模板匹配，生成图像质量不高。
- 2010年代：深度学习发展，推动文生图技术在生成逼真图像上达到新高度。
- 2020年代：大规模预训练模型阶段，以OpenAI的CLIP、DALL-E及Stable Diffusion为代表，实现了文本与图像的深度理解与生成，促进了高质量、复杂图像的生成。
**实践部分**
- **目标**：30分钟内从零基础跑通“可图Kolors-LoRA风格故事挑战赛”的基线模型。
**实践步骤**
1. **Step0**：开通阿里云PAI-DSW试用
2. **Step1**：报名赛事（提供赛事链接）
3. **Step2**：在魔搭社区创建PAI实例
4. **Step3**：体验一站式baseline
- 下载基线代码和文件
```bash
git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git
```
- 安装环境与依赖包，包括`simple-aesthetics-predictor`、`data-juicer`、调整并安装`pytorch-lightning`、`peft`、`lightning`、`pandas`、`torchvision`，以及`DiffSynth-Studio`。
- 调整描述文本（prompt），包含正向提示与反向提示词优化图片生成效果。
- 运行基线模型，快速生成图片。
5. **关闭实例**：完成后关闭魔搭实例以节省资源。
**小贴士**
- 提供了反向提示词建议，帮助生成更优质的图片。
- 附上了个人上传模型链接，供感兴趣者调用。
通过此次实践活动，学习者能够快速上手AIGC领域的文生图技术，实现从理论到实践的飞跃。