Datawhale X 魔搭 AI夏令营-AIGC方向 task01笔记

文生图技术的相关知识储备

SD结构图

种子

提示词

生成过程简单介绍

接下来开始随教程操作

Ⅰ开通阿里云PAI-DSW试用

Ⅱ在魔搭社区进行授权

Ⅲ报名“可图Kolors-LoRA风格故事挑战赛

Ⅳ在魔搭社区创建PAI实例编辑

Ⅶ体验一站式baseline

反思

文生图技术的相关知识储备

文生图技术，全称为文本生成图像技术，属于人工智能领域的一项前沿技术，旨在通过输入文本描述来生成对应的图像。这种技术的核心是使用深度学习模型，特别是生成对抗网络（GANs）或扩散模型（Diffusion Models），将自然语言处理与计算机视觉结合，实现从文字到图像的转换。

在本次学习活动中文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

SD结构图

由结构图可以看出，在使用SD时，我们需要两个输入：种子与提示词

种子

种子（seed）是一个用于控制生成图像随机性的数值。每次生成图像时，SD会从种子开始，依据给定的文本描述和模型参数生成图像。种子值的不同会导致图像生成过程中随机数序列的不同，从而生成不同的图像。一个固定的种子+固定的分辨率，生成的噪声图就是固定的。

提示词

提示词（Prompt）是用户输入的文本描述，用于引导Stable Diffusion创建图像，通常包含具体的描述性的自然语言语言，指明图像的内容、风格、色彩、构图等。

Prompt：你想要生成的

Negative prompt：你不想要生成的。

生成过程简单介绍

提示词（prompt）在提供给模型之前，需要进行一些处理，这是因为模型无法直接识别文本。

第一步是使用CLIP，其作用是将提示词（prompt）转换成Tokenizer(也叫token)，也就是数字。关于这个“数字”有一下解释

1.一个词不一定只生成一个token，可能会生成多个；
        2.中文一个词生成的token数量会比较多，而且很多词模型是不认识的，所以最好使用英文；
        3.逗号等标点符号甚至空格也会生成token，所以你的词中如果多加了一个逗号，重新生成图片就会发生变化；
        4.token数量存在上限。

第二步是将token转换成Embedding，Embedding是一个768维的向量，简单理解就是768个数字。第三步将Embedding通过Text transformer转换成模型的输入。

最后便是条件引导去噪（Conditioned Denoising)。模型会根据当前图像和文本Embedding引导的条件信息来通过多个去噪步骤，直到输出最终的图像。

接下来开始随教程操作

Ⅰ开通阿里云PAI-DSW试用

Ⅱ在魔搭社区进行授权

链接： https://www.modelscope.cn/my/mynotebook/authorization

Ⅲ报名“可图Kolors-LoRA风格故事挑战赛

链接：https://tianchi.aliyun.com/competition/entrance/532254

Ⅳ在魔搭社区创建PAI实例

过程也是十分顺利

Ⅶ体验一站式baseline

1.下载baseline文件

2.进入文件夹，打开baseline.ipynb

3.安装Data-Juicer与DiffSynth-Studio（此步骤之后需要重启Kernel，作者也是在这里重启了好多次，才开始下一步来确保成功率）

4.按照自己的想法依次调整提示词

5.依次运行代码块，等待执行

6.获得结果：

创建terminal，粘贴如下命令，回车执行

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

7.上传output中的内容到创空间讨论区

最后不要忘记关闭实例，负责按时计费会给你一个小惊喜^ ^

反思

从工程上来看，按照教程指引一步步地来完全没有问题，中间可以说是格外的顺利（对比我做的其他的项目）。

从结果上来看，生成的图片如倒数第二张的更衣室并没有很好的展现，其次最后两张的变化有点太大，连贯性不足。不过刨除这些不足点，可取之处也是不少，首先生成的图片干净、清晰，内容准确，基本上是在按照作者给的提示词生成，生成的小姑娘也是特别的可爱^ ^。

总的来说，收获了不少的新知识，也看到了改进的方向，期待下一次Task能够做的更好！

总结

本文概述了一项关于文生图技术的学习与实践流程，详细介绍了文生图的基本原理、操作步骤以及个人反思。以下是总结内容：
### 文章总结
**1. 文生图技术概述**：
- **技术定义**：文生图（文本生成图像）技术，通过深度学习模型将文字描述转化为图像，是人工智能领域的前沿技术。
- **核心技术**：利用生成对抗网络（GANs）或扩散模型（Diffusion Models），融合自然语言处理（NLP）与计算机视觉（CV）技术。
- **基底模型**：本文中以SD系列基础模型为主，并涉及的微调模型有LoRA和人物基础模型。
**2. SD结构图及关键要素**：
- **结构图**：展示SD模型在生成图像时需两个输入——种子（seed）与提示词（prompt）。
- **种子（Seed）**：控制生成图像随机性的数值，不同种子生成不同图像，具有固定的重复性。
- **提示词（Prompt）**：用于指导图像生成的文本描述，包括内容、风格、色彩等。
**3. 生成过程简介**：
- **文本处理**：提示词通过CLIP转换成token，继而转换为Embedding向量，最终被Text Transformer处理成模型输入。
- **图像生成**：利用条件引导去噪算法，通过多个去噪步骤生成最终图像。
**4. 操作步骤**：
- **开通阿里云PAI-DSW试用**
- **魔搭社区授权**
- **报名挑战赛**（链接提供）
- **创建PAI实例**并在社区中操作，流程顺畅。
- **体验一站式baseline**：下载、安装、调整提示词、执行代码，最终生成图像。特别提到重启Kernel的重要性及输出结果的上传步骤。
**5. 反思与总结：**
- **工程流程**：按照教程指引操作顺利，过程体验良好。
- **生成效果**：图像清晰、内容准确但部分图像表现不佳，如连贯性不足。强调总体成果的积极面，如生成的小女孩图像的可爱度。
- **话题展望**：收获新知，明确改进方向，期待未来任务能有更好表现。
### 核心观点
本文通过理论与实践相结合的方式，展现了文生图技术的魅力及其实际应用流程。尽管遇到了一些挑战，但整体过程顺利，收获颇丰，为未来在该领域的深入探索奠定了基础。

提示词文生图 token kol prompt tpu 基础模型自然语言图像生成 diffusion 一站式 clip 控制生成 cli gan 生成对抗网络自然语言处理语言处理扩散模型人工智能