#目录#
一、夏令营内容介绍
适宜学习人群
学习内容提要
二、挑战赛介绍
比赛要求
样例
三、跑通baseline的过程及tips
搭建环境
报名赛事
创建PAI实例
体验baseline
四、课外知识补充
文生图的发展历程
LoRA微调
ComfyUI工具
ControlNet模型
一、夏令营内容介绍
从零入门AI生图原理&实践是Datawhale 2024年暑期夏令营第四期的学习活动(“AIGC方向”),是基于魔塔社区“可图Kolors-LoRA风格故事挑战赛”开展的实践+学习活动。
适合以下人群进行学习——
1)想入门并亲手实践AIGC文生图
2)想学习工作流搭建
3)想实践LoRA微调
学习内容提要:从文生图实现方案逐渐进阶,教程偏重图像工作流、微调、图像优化等思路,最后会简单介绍AIGC应用方向、数字人技术等等
附:Datawhale官方速通教程链接:Task 1 从零入门AI生图原理&实践
此笔记主要介绍我作为一个新手小白对于Task 1 的学习、实践、理解和拓展知识点的汇总
二、挑战赛介绍
比赛官网地址:https://tianchi.aliyun.com/s/ce4dc8bf800db1e58d51263ff357d28f
比赛要求:
1、参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
2、基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性
样例:偶像少女养成日记
附:作品讨论区:魔塔社区相关作品及讨论
三、跑通baseline的过程及tips
第一步——搭建环境(可结合上附速通链接食用)
step1 :注册阿里云账号(新用户食用,老用户可跳过此步骤)
step2 :免费试用算力
step3 :进入魔塔社区授权
(同样的新用户需要先注册+绑定,下为新用户注册绑定步骤)
魔塔社区授权
第二步——报名赛事
链接:https://tianchi.aliyun.com/competition/entrance/532254
第三步——创建PAI实例
第四步——体验baseline
step1 :下载baseline文件
git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git
在终端内粘贴以上代码直接回车即可
step2 :进入文件夹,打开baseline文件
step3 :安装环境,重启kernel
step4 :调整prompt,运行(等待约15-20分钟)
step5 :下载结果图(可选择心仪的上传至比赛官网作品)
mkdir /mnt/workspace/kolors/output & cd
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/
在终端输入这段代码回车,之后在左侧output文件夹内把对应图片作品的两个文件都下载到本地
step6 :关闭!
最后完成后要返回魔塔社区关闭才能不浪费算力啦!
四、课外知识补充
知识点一:文生图的发展进程
其实这是我第一次接触文生图,对此还是感觉很神奇的,也很希望能够继续深入地学习调控AI来进行绘图和创作,以及开发其他的功能。
文生图(Text-to-Image Generation)是一种通过文本生成图像的技术,其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。
知识点二:LoRA微调
Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。
我个人的理解就是:
LoRA的方法是保持整体大板块不动的情况下去分解小矩阵进行调整,来提高效率和稳定性。
附:
1、关于LoRA更深层次的学习:浙大发表的LoRA的综述
2、关于LoRA相比于其他方法的优势点:如何在保持高效的同时提高微调效果
知识点三:ComfyUI工具
ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。
我个人的理解就是:
ComfyUI主要是通过固定自己设计的一个一个的模块,来让数据和图像生成流动起来,成为一个流水线一样的工具。相当于我自己创造了一个最适合我研发和使用的小帮手,里面一步一步按照我生产创作的流程来实现。
附:
1、ComfyUI的基础介绍:comfyUI好在哪?
2、ComfyUI的入门和自学:ComfyUI完全入门
知识点四:ControlNet模型
ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面。
Stable Diffusion 的基本工作原理就是以文字作为引导条件,生成符合条件的图像。其短板就是无法对图像细节做精准控制,例如构图、动作、面部特征、空间关系等。ControlNet 的出现弥补了这一不足,更是成为SD绘画中必须熟练掌握的工具。
我个人的理解是:
ControlNet就是一种通过观察所给图像、动作、特殊图形等等先进行输入和学习之后按照所给数据和要求来生成图片的一个大模型工具。
附:
1、对ControlNet最简洁的介绍:一文搞懂Stable Diffusion最重要的插件
2、对ControlNet的简单教学:又小又全的集成 ControlNet 模型
以上就是我对于Datawhale夏令营第四期的AIGC方向Task1的笔记和学习过程的总结和理解感悟,当中有非常多对于其他优秀作者和开发者的引用,非常感谢他们的付出,才能让我们这些小白越来越清晰和快速地能够接触、理解和掌握一项项AI技能。我非常期待后期的继续学习和探索,希望我们可以共同进步!
总结
文章总结如下:---
**Datawhale 2024年暑期夏令营第四期AIGC方向学习笔记**
**一、夏令营内容介绍**
本次夏令营以“从零入门AI生图原理&实践”为主题,基于魔塔社区的“可图Kolors-LoRA风格故事挑战赛”开展。学习内容适合希望入门AIGC、学习工作流搭建以及实践LoRA微调的人群。课程从基础知识讲起,逐步深入图像工作流、微调、图像优化等,并简要介绍AIGC应用方向及数字人技术。此外,官方提供了速通教程和详细的学习、实践经验分享。
**二、挑战赛介绍**
挑战赛官网地址:[https://tianchi.aliyun.com/s/ce4dc8bf800db1e58d51263ff357d28f](https://tianchi.aliyun.com/s/ce4dc8bf800db1e58d51263ff357d28f)
参赛需基于可图Kolors模型训练LoRA模型,生成多种风格图像,并创作一个由8张图片组成的连贯故事。评估标准包括LoRA风格的美感度和故事连贯性。附有官方提供的样例和作品讨论区链接。
**三、跑通baseline的过程及Tips**
详细步骤包括搭建环境、报名赛事、创建PAI实例和体验baseline。注册阿里云账号、获取免费算力、魔塔社区授权、下载并运行baseline文件,调整prompt后生成图像并下载。完成后需及时关闭算力以节约资源。
**四、课外知识补充**
1. **文生图的发展进程**:介绍了Text-to-Image技术的发展历程,展示了AI绘图的神奇和未来潜力。
2. **LoRA微调**:解释了Lora作为轻量级微调方法的原理,及其在Stable Diffusion模型中的应用,强调其在保持效率的同时提高微调效果。
3. **ComfyUI工具**:概述了ComfyUI作为AI工作流工具的主要功能和优势,提高了模型配置、训练和图像生成的工作效率。
4. **ControlNet模型**:介绍了ControlNet作为图像生成精确控制技术的功能和重要性,填补了Stable Diffusion对图像细节控制不足的短板,详细解释了其工作原理和在实际应用中的重要性。
**总结**
本学习笔记详细记录了Datawhale夏令营第四期AIGC方向的学习和实践过程,涵盖了从基础知识到挑战赛准备、从环境治理到baseline运行的全方位内容。同时,通过课外知识补充,加深了对文生图技术、LoRA微调、ComfyUI及ControlNet模型的理解和应用。对未来的学习和探索充满期待,并与同行们共勉进步。