当前位置:AIGC资讯 > AIGC > 正文

Datawhale X 魔搭 AI夏令营第四期 AIGC方向 Task02笔记

一.认识通义千问

通义千问是一款具有信息查询、语言理解、文本创作等多能力的AI助手。其中,编程与技术支持能力是它的强项之一。

我们可以利用通义千问帮助辅助分析代码结构和功能

二.精读baseline

文生图代码的框架结构:

可以看到,这段代码主要分为以下几个部分:

安装和卸载依赖包:使用 !pip 命令来安装或卸载 Python 包

加载数据集:使用 ModelScope 的 MsDataset 类加载名为 AI-ModelScope/lowres_anime 的数据集,并指定子集名称为 default 和分割为 train,缓存目录设置为 /mnt/workspace/kolors/data

数据预处理:将数据集中的图像转换模式,并保存到指定目录,同时创建包含图像路径和文本描述的元数据文件,并编写配置文件

使用 Data-Juicer 进行数据处理:使用 dj-process 命令根据配置文件对数据进行过滤和处理,生成 result.jsonl 文件。

数据整理与训练:读取数据,下载模型,使用lora进行微调训练,最后加载微调后的模型

图像生成:根据所给的prompt提示词生成图像

合并图像:将生成的多个图像合并成一个大图像,并调整大小。

三.基于话剧的连环画制作

1.原提示词:

你是一个文生图专家,我们现在要做一个实战项目,就是要编排一个文生图话剧 话剧由8张场景图片生成,你需要输出每张图片的生图提示词

具体的场景图片 :1、女主是一个小萝莉,十分开心的走在回家的路上 2、女主放学回到家,发现家里一个人也没有 3、女主拨打电话,但无人接听 4、女主十分伤心,开始哭泣 5、女主走向自己的房间 6、门铃响了,女主走向大门口 7、打开房门,门口放着一个大蛋糕 8、女主由悲转喜

生图提示词要求 1、风格为现代 2、根据场景确定是使用全身还是上半身 3、人物描述 4、场景描述 5、做啥事情

例子: 动漫风,二次元,一个粉色头发萝莉,在漫展上,脸红,摆手​​​​​​​

2.AI生成提示词:

场景1:现代风格,全身构图,一个开心的小萝莉背着书包走在回家的路上,手里拿着一朵花

场景2:现代风格,上半身构图,小萝莉放学回家后发现家里没有人,脸上带着疑惑的表情

场景3:现代风格,上半身构图,小萝莉坐在客厅的沙发上,手持电话,表情焦虑地尝试联系家人

场景4:现代风格,上半身构图,小萝莉坐在沙发上,低头哭泣,手里捏着未接通的电话

场景5:现代风格,全身构图,小萝莉从客厅缓缓走向自己的房间,脚步沉重

场景6:现代风格,全身构图,小萝莉听到门铃声后从走廊走向大门口,步伐加快

场景7:现代风格,全身构图,小萝莉打开大门,惊喜地发现门外放着一个装饰精美的大蛋糕

场景8:现代风格,上半身构图,小萝莉站在门口,脸上从悲伤逐渐转变为惊喜和开心的笑容

3.个人调整后提示词:

场景1:二次元,全身构图,一个双马尾小萝莉,白色连衣裙,背着书包,走在回家的路上,开心,手里拿着一朵花

场景2:二次元,上半身构图,一个双马尾小萝莉,白色连衣裙,在家中,坐在沙发上,脸上带着疑惑的表情

场景3:二次元,上半身构图,一个双马尾小萝莉,白色连衣裙,坐在沙发上,手持电话,表情焦虑

场景4:现代风格,上半身构图,小萝莉坐在沙发上,白色连衣裙,低头哭泣,手里捏着未接通的电话

场景5:二次元,全身构图,一个双马尾小萝莉,白色连衣裙,在家中,准备打开自己房间的房门

场景6:二次元,全身构图,一个双马尾小萝莉,白色连衣裙,在家中,走向家门口

场景7:二次元,动漫风,家门外的地上放着一个草莓小蛋糕

场景8:二次元,全身构图,一个双马尾小萝莉,白色连衣裙,捧着草莓小蛋糕,在家门口,开心的

四.执行Baseline(复用Task01的步骤)

修改prompt提示词,运行程序

生成如下图片:

总结

### 文章总结
#### 认识通义千问
通义千问是一款功能强大的AI助手,拥有信息查询、语言理解、文本创作等能力。特别是其在编程与技术支持方面的表现尤为突出,能够辅助进行代码分析等功能。
#### 精读Baseline
- **框架概述**:文章详细解析了文生图(Text-to-Image)代码的框架结构,涵盖了从安装依赖包、加载数据集、数据预处理、数据处理、数据整理与训练到图像生成的完整流程。

- **具体步骤**:
1. **安装和卸载依赖包**:使用`!pip`命令管理Python包。
2. **加载数据集**:利用`MsDataset`加载特定数据集并进行初步设置。
3. **数据预处理**:包括图像模式转换、保存处理后的数据、创建元数据文件和配置文件。
4. **Data-Juicer数据处理**:通过`dj-process`命令对数据进行处理和过滤。
5. **数据整理与训练**:围绕数据的读取、模型下载与微调、加载最终模型。
6. **图像生成**:根据提供的提示词生成相应图像。
7. **图像合并**:将多个图像合并为单一大图像并进行调整。
#### 基于话剧的连环画制作
- **项目背景**:请求AI助手为一部包含8个场景的话剧生成每张图片的生图提示词。
- **生图提示词要求**:具体场景描述(如人物情感、姿态、环境)、风格统一(现代或二次元)以及详细的人物和场景说明。
- **示例过程**:
- **AI生成提示词**:初始生成的提示词简洁直观地描绘了每个场景。
- **个人调整后提示词**:进一步细化,添加了更多细节(如双马尾发型、草莓小蛋糕等),使画面更加生动具体。
#### 执行Baseline
- **操作**:根据调整后的prompt提示词,运行程序生成相应的图像。
### 总结
本文围绕通义千问AI助手的应用,详细介绍如何通过其辅助功能,从理论到实践完成了从文生图代码框架的理解到具体话剧连环画制作的全过程,展示了AI在内容创作过程中的强大助力。

更新时间 2024-08-24