使用Stable Diffusion生成的图像合成数据集

使用Stable Diffusion生成图像合成数据集

相关论文
Stable Diffusion
DALL-E series
DALL-E series
Imagen

一、Stable Diffusion的原理

Stable Diffusion是一种基于Latent Diffusion Models（潜在扩散模型，LDMs）的文图生成（text-to-image）模型。它的主要原理包括：

潜在扩散模型：Stable Diffusion通过在一个潜在表示空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像。这使得文图生成能够在消费级GPU上，在10秒级别时间生成图片，大大降低了落地门槛。感知压缩：Stable Diffusion的核心思想是，由于每张图片满足一定规律分布，利用文本中包含的这些分布信息作为指导，把一张纯噪声的图片逐步去噪，生成一张跟文本信息匹配的图片。这种将高维特征压缩到低维，然后在低维空间上进行操作的方法具有普适性，可以很容易推广到文本、音频、视频等领域。条件机制：Stable Diffusion引入了条件机制（Conditioning Mechanisms），通过cross-attention的方式来实现多模态训练，使得条件图片生成任务也可以实现。论文中提到的条件图片生成任务包括类别条件图片生成（class-condition Text-to-image）等。这种条件机制使得模型可以根据给定的条件生成符合条件的图像。稳定性：Stable Diffusion的一个重要特性是它的稳定性。在训练过程中，模型会逐步去除噪声，最终生成稳定的图像。这种稳定性使得模型在生成过程中不容易受到噪声的影响，从而能够生成高质量的图像。

总的来说，Stable Diffusion是一种强大的文图生成模型，它通过在潜在表示空间中迭代去噪数据，然后将表示结果解码为完整的图像，从而实现了高质量的图像生成。同时，它还引入了条件机制，使得模型可以根据给定的条件生成符合条件的图像。这些特性使得Stable Diffusion在图像生成领域具有广泛的应用前景。

二、Stable Diffusion 云部署

电脑有GPU的话可以自行去部署，没有GPU的话可以在云上部署，这里比较推荐AutoDL平台平台（便宜）
揽睿星舟（Lanrui-ai）平台
第一步：注册/登录官网，登录后点击左上角LOGO回到主页，再点击应用市场：

第二步：安装/打开 Stable Diffusion

第三步：新建实例

第四步，进入Web UI，开启你的炼图之旅（恭喜你上路了！）

第五步，设置中文

AutoDL平台

第一步：登录注册，注意第一次使用需要实名认证

第二步：租用实力与安装

第三步，进入Web UI，开启你的炼图之旅（恭喜你上路了！）

三、Stable Diffusion的UI界面介绍

基础模型调用栏

最左上角是基础模型调用栏，这里可以切换我们用来绘画使用的基础模型（简称：底模），基础模型的调用，确定AI绘图的画风。

提示词栏

在这里输入需要让AI明白你想让他画什么，不能画什么的内容描述关键词，叫prompt，也叫Tag。

另外，你可能会看到别人发的 Tag 里面会有一些符号？比如大小括号等等。以 girl 这个 Tag 作为例子。

(girl) 加权重，这里是1.1倍。括号是可以叠加的，如（(girl)) 加很多权重。1.1*1.1=1.21倍

[girl] 减权重，一般用的少。减权重也一般就用下面的指定倍数。

(girl:1.5) 指定倍数，这里是1.5倍的权重。还可以 (girl:0.9) 达到减权重的效果。

采样器和步数

采样步数不需要太大，一般在30以内。通常24是一个不错的值。

采样器没有优劣之分，因基础模型不同，呈现的效果也不同，全看个人喜好。

提示词相关性CFG

提示词相关性代表你输入的 Tag 对画面的引导程度有多大，可以理解为 “越大AI越自由发挥”太大会出现锐化、线条变粗的效果，越小，线条会越精细。一般用默认的7值就好。

随机种子

生成图片时的随机性：当随机种子设置为-1时，图画随机生成。

结果的可重现性：当遇见中意的图片时，复制下面的种子数值，填入随机种子框内，后续生成的图画基本都是一个样子。使用相同的种子将会产生完全相同的结果，这对于实验和比较模型的性能非常重要。

参数调优：通过调整种子的数值，我们可以控制生成图片的外观，进行结果复现以及参数调优。

差异随机种子：在随机种子后的方框勾选后，会出现差异随机种子选项以及差异强度选项，这两项和随机种子是配合使用的，作用是：将随机种子值的图和差异随机种子值的图按差异强度进行融合。

微调模型lora调用栏

LoRA（Low-Rank Adaption，低秩自适应）是一种微调大语言模型的方法1234。它的主要作用包括：

降低微调的计算成本和内存需求：LoRA在微调期间仅适应语言模型中的一部分参数，同时保持其余参数不变4。这降低了微调的计算成本和内存需求。保持与传统微调相似的性能：尽管LoRA只适应了部分参数，但它能够保持与传统微调相似的性能。快速适应新任务：LoRA使模型能够使用更少的特定于任务的数据快速适应新任务。不会引入额外的延迟：LoRA在训练完后其参数可以与原有预训练模型直接合并，变回单分支结构，不会引入额外的延迟。只需要保存LoRA本身的参数：使用LoRA进行微调，在训练完毕后只需要保存LoRA本身的参数。

ControlNet调用栏

ControlNet是一个神经网络结构，它可以通过添加额外的条件来控制扩散模型。它的主要作用包括：

增强稳定扩散的方法：ControlNet提供了一种增强稳定扩散的方法，在文本到图像生成过程中使用条件输入，如涂鸦、边缘映射、分割映射、pose关键点等。这使得生成的图像将更接近输入图像，这比传统的图像到图像生成方法有了很大的改进。提高AI绘画的可控性：ControlNet提供了包括canny边缘，语义分割图，关键点,涂鸦在内的多种输入条件，拓展了SD的能力边界，使得AI绘画的可控性大幅提高。解决空间一致性问题：ControlNet的革命性之处在于其解决了空间一致性问题。提供预处理器功能：ControlNet的核心能力就是能让我们通过设置各种条件来让AI更可控地生成最终图像结果。这些条件就是通过调节预处理器参数来实现的。

四、生成效果图

五、Stable Diffusion生成图像合成数据集优缺点

优点：

创新性：Stable Diffusion是一种新颖的生成模型，它能够生成具有高度复杂性的数据。在研究中，为研究提供丰富的数据。灵活性：Stable Diffusion可以通过调整模型的参数来控制生成数据的特性。这意味着我们可以根据研究的需要来生成不同类型的数据。这种灵活性使得我们可以更好地适应研究的需求。实用性：由于Stable Diffusion可以生成大量的数据，因此它可以用来进行大规模的研究。

缺点：

数据真实性：虽然Stable Diffusion可以生成大量的数据，但这些数据都是模拟生成的，可能无法完全反映真实的情况。模型复杂性：Stable Diffusion是一种复杂的生成模型，需要一定的专业知识才能理解和使用。计算资源：Stable Diffusion需要大量的计算资源来生成数据。

总结

### 文章总结：使用Stable Diffusion生成图像合成数据集
**一、Stable Diffusion原理解析**
Stable Diffusion作为一种基于Latent Diffusion Models（潜在扩散模型，LDMs）的文图生成（text-to-image）模型，其核心原理在于通过潜在表示空间中的迭代去噪过程生成图像，随后将结果解码为完整图像。这一过程显著缩短了图像生成时间至10秒量级，降低了落地门槛。Stable Diffusion利用文本中信息作为指导，在潜在空间中对噪声图像逐步去噪，形成与描述相符的图像。同时，通过感知压缩和条件机制，模型实现了高质量、可控的图像生成，具备广泛应用前景。
**二、Stable Diffusion云部署指南**
对于不具备GPU资源的用户，可通过云平台如AutoDL和揽睿星舟（Lanrui-ai）来部署Stable Diffusion。部署步骤大致包括注册登录、安装模型、新建实例及通过Web UI进行图像生成等操作。此类云平台提供了便捷高效的部署方案，降低了个人用户的使用难度。
**三、Stable Diffusion UI界面深度介绍**
- **基础模型调用栏**：切换基础模型以确定绘画风格。
- **提示词栏（Prompt/Tag）**：输入关键词描述绘画内容，支持通过符号调整权重，控制生成图像的细节与主题。
- **采样器和步数**：影响生成图像的细节与速度，用户可根据个人偏好进行调节。
- **提示词相关性CFG**：设定输入标签对画面引导的程度，影响画面的自由度和精细度。
- **随机种子**：控制生成图像的随机性和可重现性，是进行参数调优的重要工具。
- **LoRA与ControlNet调用栏**：提供模型微调和图像生成控制功能，进一步提升图像生成的灵活性和可控性。
**四、生成效果展示**
文章虽未直接展示生成效果图，但根据Stable Diffusion的能力，可期待其生成图像的高度复杂性和与文本描述的高度一致性。
**五、Stable Diffusion生成图像合成数据集的优缺点**
- **优点**：
- **创新性**：生成具有高度复杂性的数据，为研究提供丰富的数据源。
- **灵活性**：可根据研究需求调整模型参数，生成不同类型的数据。
- **实用性**：支持大规模研究，生成大量数据。
- **缺点**：
- **数据真实性**：生成的数据虽仿真度高，但可能无法完全反映真实情况。
- **模型复杂性**：使用和维护需要一定的专业知识背景。
- **计算资源**：对计算资源需求较高，可能增加研究成本。