使用Stable Diffusion生成图像合成数据集
相关论文
Stable Diffusion
DALL-E series
DALL-E series
Imagen
一、Stable Diffusion的原理
Stable Diffusion是一种基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。它的主要原理包括:
潜在扩散模型:Stable Diffusion通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像。这使得文图生成能够在消费级GPU上,在10秒级别时间生成图片,大大降低了落地门槛。 感知压缩:Stable Diffusion的核心思想是,由于每张图片满足一定规律分布,利用文本中包含的这些分布信息作为指导,把一张纯噪声的图片逐步去噪,生成一张跟文本信息匹配的图片。这种将高维特征压缩到低维,然后在低维空间上进行操作的方法具有普适性,可以很容易推广到文本、音频、视频等领域。 条件机制:Stable Diffusion引入了条件机制(Conditioning Mechanisms),通过cross-attention的方式来实现多模态训练,使得条件图片生成任务也可以实现。论文中提到的条件图片生成任务包括类别条件图片生成(class-condition Text-to-image)等。这种条件机制使得模型可以根据给定的条件生成符合条件的图像。 稳定性:Stable Diffusion的一个重要特性是它的稳定性。在训练过程中,模型会逐步去除噪声,最终生成稳定的图像。这种稳定性使得模型在生成过程中不容易受到噪声的影响,从而能够生成高质量的图像。总的来说,Stable Diffusion是一种强大的文图生成模型,它通过在潜在表示空间中迭代去噪数据,然后将表示结果解码为完整的图像,从而实现了高质量的图像生成。同时,它还引入了条件机制,使得模型可以根据给定的条件生成符合条件的图像。这些特性使得Stable Diffusion在图像生成领域具有广泛的应用前景。
二、Stable Diffusion 云部署
电脑有GPU的话可以自行去部署,没有GPU的话可以在云上部署,这里比较推荐AutoDL平台平台(便宜)
揽睿星舟(Lanrui-ai)平台
第一步:注册/登录官网,登录后点击左上角LOGO回到主页,再点击应用市场:
第二步:安装/打开 Stable Diffusion
第三步:新建实例
第四步,进入Web UI,开启你的炼图之旅(恭喜你上路了!)
第五步,设置中文
AutoDL平台
第一步:登录注册,注意第一次使用需要实名认证
第二步:租用实力与安装
第三步,进入Web UI,开启你的炼图之旅(恭喜你上路了!)
三、Stable Diffusion的UI界面介绍
基础模型调用栏
最左上角是基础模型调用栏,这里可以切换我们用来绘画使用的基础模型(简称:底模),基础模型的调用,确定AI绘图的画风。
提示词栏
在这里输入需要让AI明白你想让他画什么,不能画什么的内容描述关键词,叫prompt,也叫Tag。
另外,你可能会看到别人发的 Tag 里面会有一些符号?比如大小括号等等。以 girl 这个 Tag 作为例子。
(girl) 加权重,这里是1.1倍。括号是可以叠加的,如((girl)) 加很多权重。1.1*1.1=1.21倍
[girl] 减权重,一般用的少。减权重也一般就用下面的指定倍数。
(girl:1.5) 指定倍数,这里是1.5倍的权重。还可以 (girl:0.9) 达到减权重的效果。
采样器和步数
采样步数不需要太大,一般在30以内。通常24是一个不错的值。
采样器没有优劣之分,因基础模型不同,呈现的效果也不同,全看个人喜好。
提示词相关性CFG
提示词相关性代表你输入的 Tag 对画面的引导程度有多大,可以理解为 “越大AI越自由发挥”太大会出现锐化、线条变粗的效果,越小,线条会越精细。一般用默认的7值就好。
随机种子
生成图片时的随机性:当随机种子设置为-1时,图画随机生成。
结果的可重现性:当遇见中意的图片时,复制下面的种子数值,填入随机种子框内,后续生成的图画基本都是一个样子。使用相同的种子将会产生完全相同的结果,这对于实验和比较模型的性能非常重要。
参数调优:通过调整种子的数值,我们可以控制生成图片的外观,进行结果复现以及参数调优。
差异随机种子:在随机种子后的方框勾选后,会出现差异随机种子选项以及差异强度选项,这两项和随机种子是配合使用的,作用是:将随机种子值的图和差异随机种子值的图按差异强度进行融合。
微调模型lora调用栏
LoRA(Low-Rank Adaption,低秩自适应)是一种微调大语言模型的方法1234。它的主要作用包括:
降低微调的计算成本和内存需求:LoRA在微调期间仅适应语言模型中的一部分参数,同时保持其余参数不变4。这降低了微调的计算成本和内存需求。 保持与传统微调相似的性能:尽管LoRA只适应了部分参数,但它能够保持与传统微调相似的性能。 快速适应新任务:LoRA使模型能够使用更少的特定于任务的数据快速适应新任务。 不会引入额外的延迟:LoRA在训练完后其参数可以与原有预训练模型直接合并,变回单分支结构,不会引入额外的延迟。 只需要保存LoRA本身的参数:使用LoRA进行微调,在训练完毕后只需要保存LoRA本身的参数。ControlNet调用栏
ControlNet是一个神经网络结构,它可以通过添加额外的条件来控制扩散模型。它的主要作用包括:
四、生成效果图
五、Stable Diffusion生成图像合成数据集优缺点
优点:
创新性:Stable Diffusion是一种新颖的生成模型,它能够生成具有高度复杂性的数据。在研究中,为研究提供丰富的数据。 灵活性:Stable Diffusion可以通过调整模型的参数来控制生成数据的特性。这意味着我们可以根据研究的需要来生成不同类型的数据。这种灵活性使得我们可以更好地适应研究的需求。 实用性:由于Stable Diffusion可以生成大量的数据,因此它可以用来进行大规模的研究。缺点:
数据真实性:虽然Stable Diffusion可以生成大量的数据,但这些数据都是模拟生成的,可能无法完全反映真实的情况。 模型复杂性:Stable Diffusion是一种复杂的生成模型,需要一定的专业知识才能理解和使用。 计算资源:Stable Diffusion需要大量的计算资源来生成数据。总结
### 文章总结:使用Stable Diffusion生成图像合成数据集**一、Stable Diffusion原理解析**
Stable Diffusion作为一种基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型,其核心原理在于通过潜在表示空间中的迭代去噪过程生成图像,随后将结果解码为完整图像。这一过程显著缩短了图像生成时间至10秒量级,降低了落地门槛。Stable Diffusion利用文本中信息作为指导,在潜在空间中对噪声图像逐步去噪,形成与描述相符的图像。同时,通过感知压缩和条件机制,模型实现了高质量、可控的图像生成,具备广泛应用前景。
**二、Stable Diffusion云部署指南**
对于不具备GPU资源的用户,可通过云平台如AutoDL和揽睿星舟(Lanrui-ai)来部署Stable Diffusion。部署步骤大致包括注册登录、安装模型、新建实例及通过Web UI进行图像生成等操作。此类云平台提供了便捷高效的部署方案,降低了个人用户的使用难度。
**三、Stable Diffusion UI界面深度介绍**
- **基础模型调用栏**:切换基础模型以确定绘画风格。
- **提示词栏(Prompt/Tag)**:输入关键词描述绘画内容,支持通过符号调整权重,控制生成图像的细节与主题。
- **采样器和步数**:影响生成图像的细节与速度,用户可根据个人偏好进行调节。
- **提示词相关性CFG**:设定输入标签对画面引导的程度,影响画面的自由度和精细度。
- **随机种子**:控制生成图像的随机性和可重现性,是进行参数调优的重要工具。
- **LoRA与ControlNet调用栏**:提供模型微调和图像生成控制功能,进一步提升图像生成的灵活性和可控性。
**四、生成效果展示**
文章虽未直接展示生成效果图,但根据Stable Diffusion的能力,可期待其生成图像的高度复杂性和与文本描述的高度一致性。
**五、Stable Diffusion生成图像合成数据集的优缺点**
- **优点**:
- **创新性**:生成具有高度复杂性的数据,为研究提供丰富的数据源。
- **灵活性**:可根据研究需求调整模型参数,生成不同类型的数据。
- **实用性**:支持大规模研究,生成大量数据。
- **缺点**:
- **数据真实性**:生成的数据虽仿真度高,但可能无法完全反映真实情况。
- **模型复杂性**:使用和维护需要一定的专业知识背景。
- **计算资源**:对计算资源需求较高,可能增加研究成本。