第一次任务比较简单,只需要配置好环境,简单运行一次
项目背景
赛题任务
可图Kolors-LoRA风格故事挑战赛
1.参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
2.基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性 样例:偶像少女养成日记
文生图基础知识
文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。
提示词
提示词prompt很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家
Lora
LoRA模型,全称Low-Rank Adaptation of Large Language Models,是一种用于微调大型语言模型的低秩适应技术。它最初应用于NLP领域,特别是用于微调GPT-3等模型。LoRA通过仅训练低秩矩阵,然后将这些参数注入到原始模型中,从而实现对模型的微调。这种方法不仅减少了计算需求,而且使得训练资源比直接训练原始模型要小得多,因此非常适合在资源有限的环境中使用。
在Stable Diffusion(SD)模型的应用中,LoRA被用作一种插件,允许用户在不修改SD模型的情况下,利用少量数据训练出具有特定画风、IP或人物特征的模型。这种技术在社区使用和个人开发者中非常受欢迎。例如,可以通过LoRA模型改变SD模型的生成风格,或者为SD模型添加新的人物/IP。
ComfyUI
ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。
参考图控制
ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。
Task01实践过程
搭建环境
开通阿里云PAI-DSW试用
链接:阿里云免费试用 - 阿里云
按照以下步骤开通3个月试用PAI-DSW
在魔搭社区进行授权
链接:https://www.modelscope.cn/my/mynotebook/authorization
进入链接中的页面一步步进行授权即可,授权后方便在魔搭社区进行后续实践
报名赛事
赛事链接:https://tianchi.aliyun.com/competition/entrance/532254
可以选择报名比赛
创建实例
在魔搭社区创建PAI实例
如果前面成功进行魔搭社区授权,可以在魔搭社区上进行操作,否则需要在阿里云平台上操作
这里在魔搭社区上完成的以下操作
运行baseline
下载baseline文件
打开实例中的Jupyter Lab,在终端运行git指令下载baseline文件
git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git
打开baseline文件,安装环境,重启
调整prompt,设置想要的图片风格
因为这里只是简单的初步测试,所以仅对第一张图片的prompt进行了调整
依次顺序运行剩余的代码块,点击代码框左上角执行按钮,最终获得图片,过程较长,耐心等待
结果上传
通过终端移动并保存结果文件,在魔搭社区创建并发布自己的简单模型
#移动结果文件终端指令
mkdir /mnt/workspace/kolors/output & cd
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/
文件保存本地
上传模型链接:魔搭社区
模型成功发布
关闭PAI实例
运行完成后,切记回到魔搭,关闭实例,否则试用额度不知不觉就消耗殆尽了
个人感悟
本次Task01初步体验了一下AIGC的运行,但对于各个代码块功能尚不了解,对于其后的原理和相关知识也不是很了解,还需要进一步去学习和实践
总结
### 文章总结#### 项目背景
**赛题任务**:可图Kolors-LoRA风格故事挑战赛,要求参赛者在可图Kolors模型基础上训练LoRA模型,生成多种风格图片(如水墨画、水彩、赛博朋克、日漫等),并基于这些风格图片创作一个连贯的8图故事,评估LoRA风格的美感度和连贯性。
#### 文生图基础知识
- **提示词(Prompt)**:是文生图的关键,包含主体描述、细节描述、修饰词、艺术风格和艺术家等元素。
- **LoRA模型**:用于微调大型语言模型的低秩适应技术,特别适合资源有限的环境。在Stable Diffusion(SD)模型中,LoRA被用作插件,实现特定画风或人物特征的模型微调。
- **ComfyUI**:工作流工具,简化AI模型配置和训练过程,提升工作效率和生成效果。
- **ControlNet**:用于精确控制图像生成的技术组件,引入额外控制信号,指导图像生成的各个方面。
#### Task01实践过程
1. **搭建环境**:
- 开通阿里云PAI-DSW试用并授权魔搭社区。
- 在魔搭社区创建PAI实例。
2. **报名赛事**:通过提供的链接报名比赛。
3. **运行baseline**:
- 下载baseline文件,并在Jupyter Lab中安装环境。
- 调整prompt,设置图片风格,并运行代码生成图片。
4. **结果上传**:
- 将生成的图片和模型文件移动到指定目录并保存。
- 在魔搭社区上传并发布模型。
5. **关闭PAI实例**:运行完成后关闭实例,避免不必要的资源消耗。
#### 个人感悟
初次体验AIGC运行,对代码块功能和背后原理尚不熟悉,需要进一步学习和实践来深入理解。