Datawhale X魔搭AI夏令营 AIGC方向Task01学习笔记
(本人水平有限,文章中引用了一些大佬写的内容,引用的图片上已注明出处)
1.活动简介
从零入门AI生图原理&实践 是 Datawhale 2024 年 AI 夏令营第四期的学习活动( “AIGC”方向),基于魔搭社区 “ 可图Kolors-LoRA风格故事挑战赛 ” 开展的实践学习——
适合想 入门并实践 AIGC文生图、工作流搭建、LoRA微调 的学习者参与
学习内容提要:从通过代码实现AI文生图逐渐进阶,教程偏重图像工作流、微调、图像优化等思路,最后会简单介绍AIGC应用方向、数字人技术(选学)
2.理论部分
在开始实践部分前,简要了解一下文生图技术的历史:从受限的早期探索————主要依赖于规则和模板匹配,通过预定义的规则将文本转换为简单的图形————只能生成不够逼真图画的基于统计模型的方法,再到2010年代的深度学习崛起(此时文生图技术在生成逼真图像方面达到了前所未有的高度)
而在如今的2020年代,文生图技术进入了全新的大规模预训练模型阶段。此时出现了如OpenAI的CLIP、DALL-E以及Stable Diffusion等模型。CLIP通过大规模的文本和图像配对数据训练,能够理解和生成高度一致的文本和图像;DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力,使得通过简单的文本描述生成高质量、复杂图像成为可能。
文生图(Text-to-Image Generation)是一种通过文本生成图像的技术,其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。
3.实践部分
了解了理论之后,我们就可以开始实操了,当前环节可让你在 30分钟 内,从一个完全小白的选手,跑通 “可图Kolors-LoRA风格故事挑战赛” !
Step0:开通阿里云PAI-DSW试用
Step1:报名赛事!(点击即可跳转)
赛事链接:https://tianchi.aliyun.com/competition/entrance/532254
Step2:在魔搭社区创建PAI实例!(点击即可跳转)
Step3:30 分钟体验一站式 baseline!
1.下载baseline文件(在终端输入以下两行命令)
git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git
2.进入kolors文件夹,双击进入baseline文件
3.安装环境,然后重启kernel
在开发环境中,需要安装一些特定的包来支持数据处理和大模型的微调工作。
i. 安装环境和依赖包:
- 使用`pip`命令安装`simple-aesthetics-predictor`包。
- 安装`data-juicer`包,它是一个高效的数据处理工具,能够简化数据的抽取、清洗、转换和加载流程。可以将其想象为一个高级榨汁机,能够接收多种数据原料,自动进行清洗和加工,最终提供一杯新鲜、纯净的数据果汁。
ii. 卸载并重新安装相关包:
- 首先,使用`pip uninstall`命令卸载`pytorch-lightning`包,这是因为需要更新或更换该包的版本。
- 然后,安装`peft`、`lightning`、`pandas`和`torchvision`包,这些包提供了额外的技术支持或功能,如模型微调、数据处理和计算机视觉。
iii. 安装DiffSynth-Studio:
- 使用`pip install -e`命令安装`DiffSynth-Studio`,这是一个专为大模型微调设计的高效训练工具。
通过上述步骤,就可以为大模型的应用开发和微调训练准备一个合适的环境。
4.调整prompt,设置想要的图片风格,依次修改8张图片描述(可选)
备注:1.正向提示词:你希望图片时什么样的
2.反向提示词:你希望图片规避什么问题
建议输入的反向提示词:坏手,低分辨率,糟糕的解剖结构,糟糕的手,缺失的手指,裁剪,低质量,模糊
5.点击“》》”一键运行
6.最后运行完成后,别忘了回到魔搭,【关闭】实例,否则会一直消耗你的试用额度!
文末附上我上传到模型,感兴趣的可以调用
总结
**Datawhale X魔搭AI夏令营 AIGC方向Task01学习笔记总结****活动简介**
- **目的**:从零入门AI生图原理与实践,是基于Datawhale 2024年AI夏令营第四期的学习活动,聚焦于“AIGC”方向,依托魔搭社区的“可图Kolors-LoRA风格故事挑战赛”。
- **适宜人群**:适合想入门并实践AIGC文生图、工作流搭建、LoRA微调的学习者。
- **内容概要**:从代码实现AI文生图基础逐步进阶至图像工作流、微调与优化,并简要介绍AIGC应用方向与数字人技术(作为选学)。
**理论部分**
- **文生图技术演进**:
- 早期:依赖规则与模板匹配,生成图像质量不高。
- 2010年代:深度学习发展,推动文生图技术在生成逼真图像上达到新高度。
- 2020年代:大规模预训练模型阶段,以OpenAI的CLIP、DALL-E及Stable Diffusion为代表,实现了文本与图像的深度理解与生成,促进了高质量、复杂图像的生成。
**实践部分**
- **目标**:30分钟内从零基础跑通“可图Kolors-LoRA风格故事挑战赛”的基线模型。
**实践步骤**
1. **Step0**:开通阿里云PAI-DSW试用
2. **Step1**:报名赛事(提供赛事链接)
3. **Step2**:在魔搭社区创建PAI实例
4. **Step3**:体验一站式baseline
- 下载基线代码和文件
```bash
git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git
```
- 安装环境与依赖包,包括`simple-aesthetics-predictor`、`data-juicer`、调整并安装`pytorch-lightning`、`peft`、`lightning`、`pandas`、`torchvision`,以及`DiffSynth-Studio`。
- 调整描述文本(prompt),包含正向提示与反向提示词优化图片生成效果。
- 运行基线模型,快速生成图片。
5. **关闭实例**:完成后关闭魔搭实例以节省资源。
**小贴士**
- 提供了反向提示词建议,帮助生成更优质的图片。
- 附上了个人上传模型链接,供感兴趣者调用。
通过此次实践活动,学习者能够快速上手AIGC领域的文生图技术,实现从理论到实践的飞跃。