Stable Diffusion 是一种潜在的文本到图像扩散模型,能够在给定任何文本输入(称为提示)的情况下生成逼真的图像。
在本文中,我将讨论和探索一些提高提示有效性的方法。从在提示中添加某些关键字和组合词、从更改单词顺序及其标点符号开始到更改画面,颜色比例。
内容:
添加关键词 添加复合材料 改变单词的顺序 更改标点符号 改变指导尺度1.添加关键词
我们将尝试其对图像生成的影响:第一个更改是在输入提示中添加不同的单词并观察其效果。我们将使用相同的句子,仅添加一些单词,并将其与使用原始提示生成的图像进行比较,以便更好地直观地了解哪些有效,哪些无效。原来的提示将是:
一只戴着蒸汽朋克帽子的赛博朋克猫
添加的文字如下:
聚焦的 锐利的 绘画 粉笔艺术 概念艺术 网络流行 佳能 m 50 特写 素描 错综复杂因此,我们首先运行原始提示并查看图 1 中的结果:
图 1:一只戴着蒸汽朋克帽子的赛博朋克猫。
现在让我们运行相同的提示,但添加词语聚焦后:
一只戴着蒸汽朋克帽子的赛博朋克猫,聚焦
图 2一只戴着蒸汽朋克帽子的赛博朋克猫,聚焦
将这些图像与原始图像进行比较,我们可以看到图像变得更加集中,这正是这个词应该做的。因此,添加“聚焦”一词可以使图像更加集中并实现预期的效果。
让我们添加单词锐利并查看图 3 中的结果:
图 3
对于“锐利这个词,我们可以观察到图像变得更清晰一些,但我认为它没有多大作用,所以添加这个词会产生一定的效果,但效果不会那么大。
我们来看看添加图4中“绘画”一词的结果:
图4
这个词的效果非常明显,我们现在可以看到所有的图像都在绘画,所以肯定添加这个词会对生成的图像产生强烈的影响。
让我们添加单词概念艺术并查看图 5 中的结果:
图 5
而且,这个词对生成的图像有很强的影响。我们可以看到所有图像都是粉笔、创建的,因此在提示中添加这个词对生成的图像有很强的影响。
我们来看看在生成的图像上添加概念艺术后的效果,如图 6 所示:
图 6
我们可以观察到,添加这个词使生成的图像发生了显着的变化,它们看起来就像是由概念艺术家生成的。
现在我们添加网络流行,看看结果如图 7 所示:
图 7
我们要添加的下一个单词是canon m50,结果如图 8 所示。
图 8
我们可以看到生成的图像变化并不明显,所以添加这个词不会导致生成的图像发生变化。接下来我们看看在生成的图片上添加提示中的特写词的效果如图9所示。
图9
在生成的图像上的提示上添加特写词的效果是显而易见的,我们可以看到图像被放大和关闭。接下来,我们将尝试使用素描,看看它对生成图像的效果,如图 10 所示。
图 10
我们可以看到,添加素描对生成的图像有很强的影响,看起来就像是用木炭绘制的。我们要添加的最后一个词是复杂的词,生成的图像如图 11 所示。
图 11
我们可以看到,与使用原始提示生成的图像相比,该关键字为生成的图像添加了额外的细节。接下来,我们将尝试组合提示中的一些关键字,并观察在提示中添加这些组合的效果。
2. 添加复合材料
我们将添加到提示中的第二个变体是添加我们在上一节中使用的关键字的组合。以下是我们将使用的变体:
素描,复杂,概念艺术 佳能 m50,特写,锐利,聚焦让我们从第一个合成开始,它在提示中添加了素描、复杂的和概念艺术:
图 12
我们可以看到生成的图像符合我们对添加的关键字的期望,并且图像看起来好像考虑了这三个词并且也对生成的图像产生了影响。我们可以看到生成的图像细节丰富,并且使用木炭绘制,具有概念艺术的味道。
接下来,我们尝试第二个关键字组合,即 canon m50、特写、锐利和 聚焦。结果如图 13 所示。
图 13:
我们可以看到,添加的单词的影响比前面的示例要小,因为正如我们在前面的示例中提到的,这里使用的单词已经产生了很小的影响。对生成的图像影响最强的关键词是特写词,这在生成的图像中非常明显,因为它们靠近猫的脸部。
我们还可以尝试更改关键字的顺序,看看是否会对生成的图像产生影响。让我们在下一节中看看改变词顺序的效果。
3.改变词序
我们已经看到了添加某些关键词的效果以及组合这些关键词的效果。现在我们将看看更改提示中的单词顺序是否会对生成的图像产生影响。我们将从下面的提示开始,然后更改单词的顺序,并查看这对生成的图像的效果。
图 14:使用“戴着蒸汽朋克帽子的赛博朋克猫,复杂,绘画”提示生成的图像。
现在,让我们更改关键字的顺序,并将“绘画”一词添加到提示的开头。结果如图 15 所示。
图 15:使用“绘画,一只戴着蒸汽朋克帽子的赛博朋克猫,错综复杂”提示生成的图像。
我们可以看到,在提示符开头添加关键字绘画使得生成的图像看起来更像一幅画,尤其是左栏图像。您可以看到生成的图像看起来像猫的画。因此,如果您想在提示中强调某个单词,明智的做法是将其放在提示的开头。
现在让我们看看如果我们在提示的开头添加两个关键字会发生什么。结果如图 16 所示。
图 16:使用“绘画,错综复杂,戴着蒸汽朋克帽子的赛博朋克猫”提示生成的图像。
我们再次可以看到,在提示的开头添加关键字使得这些单词对生成的图像有更强的影响。因此,如果您希望生成的图像遵循提示,那么一个非常好的举措是将某些关键字放在提示的开头。
现在我们已经看到了更改提示中的词序的效果,您认为更改提示中的标点符号会对生成的图像产生强烈的影响吗?让我们在下一节中尝试一下,以了解这个问题的答案。
4. 改变标点符号
现在我们将更改提示的标点符号,特别是对于添加的关键字。我们将只尝试三种变体:
首先,我们将在提示末尾添加句号。 其次,我们将添加三个句号。 最后,我们将删除所使用的两个关键字之间的逗号。像往常一样,我们将从上一节中使用的原始提示开始,这样我们就可以有一个基线进行比较:
图17:一只戴着蒸汽朋克帽子的赛博朋克猫,错综复杂,绘画
让我们在提示末尾添加句号并观察生成的图像的变化,如图 18 所示。
图 18:一幅复杂的绘画,画中一只戴着蒸汽朋克帽子并带有句号的赛博朋克猫。
我认为生成的图像没有太大差异,这意味着在提示末尾添加句号对生成的图像影响很小。
接下来,我们将在提示符末尾添加三个句号,并观察这是否会改变生成的图像。生成的图像如图 19 所示。
图 19:使用“一只戴着蒸汽朋克帽子的赛博朋克猫,错综复杂,绘画……”提示生成的图像。
我们可以看到,在提示末尾添加三个句号不会对生成的图像产生影响。最后,我们删除两个关键字之间的逗号并观察图 20 所示的结果。
图 20:使用“戴着蒸汽朋克帽子的赛博朋克猫,复杂的绘画”提示生成的图像。
同样,我们可以观察到这些图像与第一张图像之间没有太大差异。所以总而言之,我们可以说标点符号的变化不会对生成的图像产生巨大的影响。在下一节中,我们将观察引导比例对生成图像的影响。
5. 改变引导比例
最后,我们将更改引导比例并查看其对生成图像的影响。引导比例决定了生成的图像在多大程度上遵循输入提示,但是在达到一定限制后,它会添加随机内容。我们将使用下面的提示,并尝试使用以下值进行缩放:10(用于上一图像生成的原始值)、15、20、25 和 30。
图 21:一幅复杂的绘画,画的是一只戴着蒸汽朋克帽子的赛博朋克猫,引导比例 = 10。
现在让我们尝试相同的提示,但将引导比例增加到15:
图 22:一幅复杂的绘画,画的是一只戴着蒸汽朋克帽子的赛博朋克猫,引导比例 = 15。
我们可以看到图像现在比之前的图像有了更多的细节并且更加遵循提示。接下来,我们将指导尺度增加到20,观察变化:
图 23:一幅复杂的绘画,画的是一只戴着蒸汽朋克帽子的赛博朋克猫,引导比例 = 20。
该图像现在具有越来越多的细节,并且比前两张图像更遵循提示。然而,如果我们将引导比例增加得更多,它将开始丢失一些定义,并且将开始拥有更多的随机对象。我们可以在图 24 和 25 中观察到这一点,指导比例分别设置为 25 和 30。
图 23:一幅复杂的绘画,画的是一只戴着蒸汽朋克帽子的赛博朋克猫,引导比例 = 25。
图 24:一幅复杂的绘画,画的是一只戴着蒸汽朋克帽子的赛博朋克猫,引导比例 = 30。
总之,添加某些关键字并更改单词的顺序将对生成的图像产生很大的影响。值得注意的是,这是基于 stable diffusion v2 的,因此如果您尝试使用较旧或较新的版本,结果可能会有所不同。