当前位置:AIGC资讯 > AIGC > 正文

Datawhale X 魔搭 AI夏令营–AIGC Task1

Datawhale X 魔搭 AI夏令营–AIGC Task1

文章目录

Datawhale X 魔搭 AI夏令营--AIGC Task1 赛事介绍 文生图基础知识介绍 实践操作 step0:开通阿里云PAI-DSW试用 step1:报名赛事 step2:创建PAI实例 step3:运行 step4:保存、上传 最终结果 第一组 第二组

官方参考

​ 这是Datawhale 2024 年 AI 夏令营第四期的学习活动(“AIGC”方向),目标是从通过代码实现AI文生图逐渐进阶,偏重图像工作流、微调、图像优化等思路,最后简单了解AIGC应用方向、数字人技术。

赛事介绍

赛事任务:

参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格等。 基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性

评分标准:本次比赛通过客观评分判断选手提交作品的有效性,但最终评分以主观评分为准。

主观评分:由评委对参赛作品进行投票,评审标准可以从技术运用(40%)、组图风格连贯性(30%)、整体视觉效果(30%)几方面进行评判投票。 客观评分:美学分数仅作评价提交是否有效的标准,其中美学分数小于6(阈值可能根据比赛的实际情况调整,解释权归主办方所有)的提交被视为无效提交,无法参与主观评分。

此外,会核实选手上传的模型文件,选手需提交训练的LoRA 模型文件、LORA 模型的介绍、以及使用该模型生成的至少8张图片和对应 prompt,以便我们能够复现生成效果,对于生成效果明显无法复现的,取消获奖资格。

文生图基础知识介绍

文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。

提示词prompts

一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家 负向prompts如“丑陋、变形、嘈杂、模糊、低对比度”

Lora:Low-Rank Adaptation

LoRA模型是一种轻量级的微调方法,代表低秩适应。 Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。 在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。

ComfyUI

这是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。 通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件,是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。 扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。

具体参考图控制类型参见(https://datawhaler.feishu.cn/wiki/CMYkwKow0ihxOikg1G9cd9Zhnng#SGhSd73NIooluxx7j7UcIz7On0g)

实践操作
step0:开通阿里云PAI-DSW试用

前往阿里云

前往魔搭社区授权

若阿里云试用失败或到期,可以使用魔搭免费GPU额度

step1:报名赛事

可图Kolors-LoRA风格故事挑战赛

step2:创建PAI实例

魔搭社区

step3:运行

下载baseline

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

进入脚本

安装环境,然后重启kernel

Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程 DiffSynth-Studio:高效微调训练大模型工具

调整prompt

点击代码框左上角执行按钮(restart kernal and run all cells),最终获得图片(耗时较久),代码块功能:

使用Data-Juicer处理数据,整理训练数据文件 使用DiffSynth-Studio在基础模型上,使用前面整理好的数据文件进行训练微调 加载训练微调后的模型 使用微调后的模型,生成用户指定的prompt提示词的图片

注:模型训练完成后,若因error重启kernal,不需要全部重新运行,将涉及部分变量的代码块运行即可,耗时最长的训练部分不需要再次运行

step4:保存、上传

打开终端,移动结果

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/*.jpg /mnt/workspace/kolors/output/

使用通配符*来匹配所有*.jpg

下载结果

上传结果,关闭PAI实例

最终结果
第一组

二次元,日系动漫,一个金色长发碧绿瞳孔小女孩,在家中沙发上坐着,双手托腮,盯着电视机,全身,浅蓝色连衣裙

二次元,日系动漫,演唱会的观众席,人山人海,一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙坐在演唱会的观众席,舞台上衣着华丽的歌星们在唱歌

二次元,一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙坐在演唱会的观众席,露出憧憬的神情

二次元,一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙,对着流星许愿,闭着眼睛,十指交叉,侧面

二次元,一个金色长发碧绿瞳孔小女孩穿着浅蓝色吊带漏肩连衣裙,在练习室练习唱歌

二次元,一个金色长发碧绿瞳孔小女孩,穿着浅蓝色吊带漏肩连衣裙,在练习室练习唱歌,手持话筒

二次元,一个金色长发碧绿瞳孔小女孩,穿着浅蓝色连衣裙,试衣间里两手交叉,心情忐忑

二次元,一个金色长发碧绿瞳孔小女孩,穿着浅蓝色礼服,连衣裙,在台上唱歌

负prompt:丑陋、变形、嘈杂、模糊、低对比度

第二组
彩铅作画,中国小女孩,羊角辫,低头看狸花猫幼崽 彩铅作画,中国小女孩,羊角辫,在前面奔跑,狸花猫幼崽在后面追逐 彩铅作画,晚上,漆黑的夜幕,亭子下,中国小女孩,中等长度头发,坐在地上,和狸花猫一起抬头,几颗星星,若隐若现,朦胧 彩铅作画,中国女生,12岁,单马尾,上学路上,穿着校服,背着书包,在前面走,狸花猫,在后面,坐着,看着女生 彩铅作画,教室里,中国女生,15岁,单马尾,趴在桌子上,睡觉,孤独,思念 彩铅作画,房门前,狸花猫,坐着,望着远方,孤独,思念,背面 彩铅作画,中国女生,18岁,长发,站在门口,右手扶门,左手拿着帽子,远望,狸花猫,苍老,寿命将尽,毛发干枯,在路上走 彩铅作画,中国女生,18岁,长发,站在门口,远望,背对,孤独

总结

### 文章总结:Datawhale X 魔搭 AI夏令营–AIGC Task1
#### 赛事概述
- **名称**:Datawhale 2024年AI夏令营第四期(AIGC方向)
- **目标**:通过学习与实践,从基础到进阶掌握AI文生图技术,尤其是图像工作流、微调和图像优化,并了解AIGC应用及数字人技术。
- **任务**:以可图Kolors模型为基础,训练LoRA模型生成多种风格图像(如水墨画、水彩画),并构建连贯的8张图片故事,评估LoRA模型的美感度与图片连贯性。
#### 评分标准
- **主观评分**(70%):技术运用(40%)、组图风格连贯性(30%)、整体视觉效果(30%),由评委投票判定。
- **客观评分**(美学分数):仅作提交有效性判断,低于阈值(如6分)的提交视为无效。
- **提交要求**:LoRA模型文件、模型介绍、8张生成图片及对应prompts,确保复现生成效果。
#### 文生图基础知识
- **SD系列模型**:文生图的主要基础模型。
- **Lora(Low-Rank Adaptation)**:轻量级微调方法,用于精细控制预训练大模型,如Stable Diffusion。
- **ComfyUI**:工作流工具,简化AI模型配置与训练。
- **ControlNet**:附加在预训练模型上的神经网络模块,用于精确控制图像生成过程(如姿势、分割、颜色等)。
#### 实践操作指南
- **Step 0**:开通阿里云PAI-DSW试用/使用魔搭免费GPU额度。
- **Step 1**:报名赛事,“可图Kolors-LoRA风格故事挑战赛”。
- **Step 2**:在魔搭社区创建PAI实例。
- **Step 3**:
- 下载baseline(使用git命令)。
- 安装环境,包括Data-Juicer(数据处理工具)和DiffSynth-Studio(微调训练工具)。
- 调整prompts,运行脚本生成图片。
- **Step 4**:将生成结果保存、上传,关闭PAI实例。
#### 示例结果
- **第一组**:围绕金色长发碧绿瞳孔的二次元女孩展开一系列情节,如看电视、在演唱会、对着流星许愿、在练习室唱歌等,展现了连贯的二次元故事。
- **第二组**:彩铅风格的图组,描绘了中国小女孩与狸花猫的多个生活场景,从日常观察到夜晚星空下的静谧,再到学校、家中的情绪表达,展现了故事的多样性和连贯性。
本次夏令营立足于AI文生图的实践,通过与实际项目的结合,让学员掌握从技术应用到创意实现的全流程,为未来的AIGC应用和数字人技术发展打下坚实基础。

更新时间 2024-08-18