前言
超级干货来了,我们耗费大量时间精力整理编写的Stable Diffusion提示词手册正式公开!
Stable Diffusion 和提示词介绍
Stable Diffusion 是一种开源的基于文本的图像生成模型,可以根据任何文本输入生成逼真的图像。它使用了一种叫做潜在扩散模型(LDM)的扩散模型(DM),这种模型可以逐步去除训练图像上的高斯噪声,从而得到对应的图像。该模型是在 LAION-5B 数据集中的图像上训练的。它由 CompVis、StabilityAI和RunwayML 开发。
提示词是构建由文本到图像模型解释和理解的单词的过程。可以把它理解为你告诉 AI 模型要画什么而需要说的语言。
要出好一张图提示词也至关重要,在这里我分享这份提示词大全给大家!需要的自行领取哦~
提示词的内容和格式
在构建提示词之前我们需要明确自己的目的,可以向自己提出以下几个问题:
**1、****我想要的图片类型是什么?**照片、插画还是油画
**2、****图片的主题是什么?**人、动物还是风景
**3、**是否还需要什么细节描述?
**a) 所处环境?**室外、室内、太空、水下
**b) 灯光效果?**柔和、霓虹、强光
**c) 配色方案?**柔和、阴暗、阳光
**d) 构图角度?**正面、侧面、背面
**e) 背景?**纯色、森林、城市
**4、是否指定特定的风格?**3D、电影、动漫、国风
5、如果是艺术作品,是否需要特定艺术家的风格?
**6、如果是照片,是否需要特定的照片类型?**长焦、微距、鱼眼
当然,这些只是一张图片必须明确的几个因素,只有具备这几个因素才能算是一张合格的图片,而想要生成一张完美的图片还需要更多的修饰词。我们必须在实际操作中试验更多具体的修饰词,并找出自己喜欢的记录下来。
注意:在多个提示词组成的词组中,单个提示词越靠前就越重要,会在生成图中突出显示。另外,我们在构建提示词时,应尽量使用单独的单词,而不是将其构建成一个句子。
A painting ,a cute goldendoodle wearing a suit, natural light, in the sky, with bright colors, by Studio Ghibli
这里狗狗背景并没有天空下,这时候我们“in the sky”前移,重新生成,就是下图的效果。
A painting of a cute goldendoodle in the sky, wearing a suit, natural light, with bright colors, by Studio Ghibli
提示词的修饰关键词
修饰关键词是可以改变图像的风格、格式或视角的词。添加具体详细的修饰词可以大大提高图像的质量。
Tiny cute boy holding camera toy, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, pop surrealism, physically based rendering, square image
摄影照片
摄影照片常用提示词
照片类型:Close-up、 Extreme Close-up、 POV、 Medium shot、 Long shot
照片风格:Polaroid、Monochrome、 Long exposure、Color splash、 Tilt-shift
灯光:Soft、 Ambient 、Ring 、Sun 、Cinematic
环境:Indoor、 Outdoor 、At night 、In the park、 Studio
使用镜头:e-angle、Telephoto 、24mm、 EF 70mm、 Bokeh
使用设备:iPhone、 Surveillance cameras、 Nikon Z FX、 Canon 、Drone
Close-up polaroid photo, of a husky, soft lighting, outdoors, 24mm Nikon Z FX
艺术形式
我们可以通过添加不同的艺术形式提示词生成特定艺术形式的图像。如:涂鸦(Graffiti)、水彩画(Water Colors)、油画(Oil Painting)、水墨画(ink painting)、素描(sketch)、铅笔画(Pencil Drawing)、雕塑(sculpture)等等。
ink painting sun mountains water fisherman holding a boat
艺术家
可以将艺术家的名字作为提示词,生成对应艺术家风格的图像,也可以将多个艺术家混合起来生成独特的风格,同样的提示词添加不同艺术家之后可能会生成完全不一样的作品。
Stable Diffusion中收录的部分艺术家:
肖像艺术家:Derek Gores, Miles Aldridge, Jean Baptiste-Carpeaux, Anne-Louis Girodet
景观艺术家:Alejandro Bursido, Jacques-Laurent Agasse, Andreas Achenbach, Cuno Amiet
漫画艺术家:Makoto Shinkai, Katsuhiro Otomo, Masashi Kishimoto, Kentaro Miura
科幻艺术家:Chesley Bonestell, Karel Thole, Jim Burns, Enki Bilal
摄影艺术家:Ansel Adams, Ray Earnes, Peter Kemp, Ruth Bernhard
概念艺术家:Emerson Tung, Shaddy Safadi, Kentaro Miura
例:肖像艺术家
Portrait by Miles Aldridge
Portrait by Derek Gores
风景艺术家
Landscape by Cuno Amiet
Landscape by Alejandro Burdisio
两个艺术家风格混合
Portrait by Derek Gores and Miles Aldridge
插画
Stable diffusion可以创建任何风格、任何形式的插画,包括各种风格的3D插画、甚至设计3D角色(只要输入的提示词足够清晰)。
常见插画图像提示词:(3D)origami、Needle felted、Isometric assets、Low Poly、Pixar Renders、3D Item Render;(非3D)Children’s book、Vector、Scientific Illustration、Comic、Propaganda Poster、Movie Poster、Psychedelic Art、Splash Art、Ukiyo-e、Stickers、Fantasy Maps
kawaii low poly squirrel character, 3d isometric render, white background, ambient occlusion, unity engine
3d fluffy Lion, closeup cute and adorable, cute big circular reflective eyes, long fuzzy fur, Pixar render, unreal engine cinematic smooth, intricate detail, cinematic
氛围修饰词
在Stable Diffusion中一两个简单的氛围修饰词,就能改变整幅图像的色调和氛围感。
常见的情绪提示词:(积极)Cosy、Romantic、Joyful、Energetic、Hope、Lust、Peaceful、Satisfaction、(消极)Depressing、Loneliness、Grim、Regret、Suffering、Hopelessness、Fear、Disgust
Cute sad girl toy, curly hair, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, physically based rendering, square image
美术风格
一些专业的美术风格词汇在Stable Diffusion中同样适用。
常见美术风格提示词:(充满活力)Weirdcore、 Acidwave、Dreamcore、Vaporwave、(阴沉)Liminal Space、After Hours、Brutalism、Post-Apocalyptic、(历史风格)Baroque、Sovietwave、Wild West、Film Noir
一些提高图像质量的词
一些表示清晰度和具体风格的词可以使图像出现巨大的变化和提升。
常见提示词:HDR, UHD, 4K, 8k, 64K、Highly detailed、Studio lighting 、Professional、Trending on artstation、Unreal engine、Vivid Colors、Bokeh 、High resolution scan、Sketch、Painting
A cinematic film still of Morgan Freeman starring as 50 Cent, portrait, 40mm lens, shallow depth of field, close up, studio lighting
A cinematic film still of Morgan Freeman starring as 50 Cent, portrait, 40mm lens, shallow depth of field, close up
提示词的权重问题
可以通过语法调整关键字的权重(keyword: factor)。keyword是所要调整权重的关键词,factor是一个值,默认值是1,小于 1 意味着不太重要,降低权重;大于 1 意味着更重要,提高权重。
() 和 [] 语法
调整关键词权重的等效方法是使用()and []。(keyword)将关键字的强度增加 1.1 倍,与(keyword:1.1)效果相同。[keyword]将强度降低 0.9 倍,与(keyword:0.9)效果相同。
也可以同时使用其中的多个,他们的叠加效果是相乘的。
(关键字):1.1
((关键字)):1.21
(((关键字))):1.33
同样[]的叠加效果也是如此。
[关键字]:0.9
[[关键字]]:0.81
[[[关键字]]]:0.73
关键字混合
可以通过混合两个关键字来创造一种新的效果。其语法是[keyword1:keyword2:factor]。
factor控制关键字 1 切换到关键字 2 的步数。它是一个介于 0 和 1 之间的数字。
例如一张图像的关键字是[cat:tiger:0.3],采样步数为30步,这意味着其采样的前9步为猫,后21步为老虎,该因素确定何时更改关键字。它是在 30 步 x 0.3 = 9 步之后。
需要注意的一点是第一个关键字决定了全局效果。早期的扩散步骤设定了整体风格,后面的步骤会细化细节。
混合面孔是关键字混合的一个常用场景,我们可以将两个已知模型能识别的面孔进行混合,通过调整比例,可以精确地得到我们想要的面孔。
关键字混合的另外一个用处就是通过调整factor来改变图像中的某个部分。
holding an [apple: fire: 0.9]
holding an [apple: fire: 0.2]
提示词的限制
1、提示词的工作原理是在你输入提示词之后Stable Diffusion 使用的CLIP 模型自动将提示转换为标记,但标记不等于单词,当你输入一个不能识别的标记时模型会自动将标记拆分,直到拆分至模型能识别。
2、提示词并不一定总是有效的,当你想要生成某个艺术家风格的图像时,你首先需要测试一下模型是否认识这个艺术家。
3、Stable Diffusion的核心是一个图像采样器,用来生成我们认为合法且良好的图像。甚至可以在没有提示的情况下使用它,它也会生成许多不相关的图像。用技术术语来说,这称为无条件或非引导扩散。提示其实就是一种将扩散过程引导到其匹配的采样空间的方法。之前说过提示需要详细和具体。这是因为详细的提示可以缩小其采样空间。越详细具体的提示词,生成的图像变化越少。
4、Stable Diffusion的联想效应,在Stable Diffusion中一些属性是强相关的。当你指定一个时,它同时会生成最有可能具有相关联效果的图像。例如你想生成一位蓝眼睛的女性,当你不指定肤色时,它很大可能会生成一位欧洲白人。
否定提示词
否定提示提供了另一种控制文本到图像生成的方法。在Stable Diffusion 1.4 或 1.5 模型中,否定提示不是必须存在的。但在Stable Diffusion v2 系列模型中,必须要有否定提示,如果缺少否定提示,生成图像的画面效果将远不如Stable Diffusion 1.4 或 1.5 系列模型。
否定提示词的常见使用场景:
常用的否定提示词,对于人物图像来说,这些提示词能很好避免一些部位容易出现的问题:
ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face。
除了常用的否定提示词,否定提示词还有一些其他作用。
去除图片中不必要的素材,假如你生成了一张雨中的巴黎街道景象的图片,就像这样
autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell.
可以看到图片中有很多人,如果你想要一张空荡荡的街道,这时候不需要重新构建提示词,使用相同的提示词和种子值,并在否定提示词中添加people,这样你就会得到一张去除了大多数人物的图像。
可能已经注意到上图中还剩下一个人。
可以通过强调否定提示 来告诉 Stable Diffusion更大程度的去除人物,和提示词中一样,就像这样(people:1.3)这告诉 Stable Diffusion关键字people现在的重要性提高了 30%。
修改图像内容,可以通过添加否定提示词在不完全删除任何内容的情况下对主题进行细微更改。
就像下面这张图片,头发有漂浮起来,通过在否定提示词中添加Windly避免头发被风吹起来。
修改样式,否定提示不仅对修改内容有用,对修改样式也很有用。在提示词中添加大量的样式风格词很可能会混淆主题风格,可以通过在否定提示词中添加想要风格的反义词来修改样式风格。
例如在一张图片,我们想让它更加清晰,可以在否定提示词添加“Blurry(模糊)”来使其变清晰,想要真实感,可以通过添加cartoon、planting来去除卡通化。
Stable Diffusion 的一些参数意义和设置
分辨率 ‒ 默认为 512x512,Stable Diffusion是在 512x512 图像上训练的,通常这些尺⼨提供最佳质量和构图。
Classifier Free Guidance(GFC)— 默认值为 7,可以将此参数视为“创造⼒与提示词”的⽐例。较低的数值让AI 有更多的创意⾃由,⽽较⾼的数字则迫使AI完全按照提示词创作。
CFG 2 - 6:有创意,但可能不会按照提⽰操作。
CFG 7 - 10:推荐⽤于⼤多数提⽰。如果提⽰很详细,可能会影响图片的连贯性,创造⼒和引导⽣成之间达成平衡的数值。
CFG 10 - 15:当你确定你的提示词 ⾜够好和具体。
CFG 16 - 20:⼀般不推荐,除⾮提示词很详细,否则会影响图片的连贯性。
Step count(采样步数)— 默认为20,Stable Diffusion从充满马赛克的画布开始并逐渐对其进⾏去噪以达到最终输出来创建图像。
此参数控制这些去噪步骤的数量。通常越高越好,但更高的步数生成的时间会更长。
Seed(种子)— 默认为随机,种⼦是控制初始画面的数字,也是每次在所有参数都固定时⽣成不同图像的原因。默认情况下,每次生成种子都是随机的,如果保持提示词、种子以及其他参数都不变,那么可以多次生成相同的图像。
注意:某些种子可能会一些提示词适配度很高,所以可以通过使用相同的种子来测试更改提示词带来的影响。
Sampler(采样器)— 采样器是在⽣成过程中⽤于对图像进⾏去噪的⽅法,并且由于它们在图像⽣成中计算下⼀步的⽅式不同,因此它们需要不同的持续时间和不同数量的步骤才能获得可⽤的图像。
建议初学者使⽤DDIM ,因为它速度快,通常只需 10 步就可以⽣成好的图像,可以轻松快速地进⾏实验。
这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。
有需要的朋友,可以点击下方免费领取!
AIGC所有方向的学习路线思维导图
这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
AIGC工具库
AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合,通过使用AIGC工具库,能更加快速,准确的辅助我们学习AIGC
有需要的朋友,可以点击下方卡片免费领取!
精品AIGC学习书籍手册
书籍阅读永不过时,阅读AIGC经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验,结合自身案例融会贯通。
AI绘画视频合集
我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,科学有趣才能更方便的学习下去。
总结
### 文章内容总结本文详细介绍了Stable Diffusion这一开源的基于文本的图像生成模型,以及如何使用提示词(Prompts)来指导AI生成高质量的图像。文章主要内容包括以下几个方面:
#### 1. **Stable Diffusion模型简介**
- **定义与工作原理**:Stable Diffusion利用潜在扩散模型(LDM)逐步去除图像上的高斯噪声,从而生成逼真的图像。该模型在LAION-5B数据集上进行训练,并由CompVis、StabilityAI和RunwayML联合开发。
- **文本到图像生成**:通过输入具体的描述性文本(即提示词),Stable Diffusion能够生成对应风格的图像。
#### 2. **提示词(Prompts)详解**
- **内容及格式规范**:构建提示词前需明确图片类型(照片、插画、油画)、主题、环境、灯光、配色、构图角度、背景等因素,并尽量使用简洁的单词而非句子。
- **关键提示词示例**:包括风格(3D、电影、动漫等)、艺术家名称、图片细节描述等。
- **修饰词的作用**:通过添加详细具体的修饰关键词,可以显著提升图像质量。
#### 3. **特定风格与艺术家风格**
- **摄影照片**:常用提示词包括照片类型、风格、灯光、环境及设备使用等。
- **艺术形式**:涵盖涂鸦、水彩画、油画、素描等多种艺术形式,并可通过指定艺术家名字生成特定风格的图像。
- **插画**:能够创建各种风格的2D及3D插画、角色设计等。
- **氛围修饰词**:通过情绪词改变图像的色调和氛围。
- **美术风格**:支持专业的美术风格如Weirdcore、Dreamcore等。
#### 4. **提升图像质量的词**
- 运用具有高清晰度、高质量描述的词汇,如“4K”、“HDR”等,可以显著提升图像的细节和视觉效果。
#### 5. **提示词的权重与语法**
- **权重调整**:通过语法如`(keyword:factor)`来调整关键词权重,`()`加强,`[]`减弱。
- **关键字混合**:使用`[keyword1:keyword2:factor]`混合两个关键字以创造新的效果。
#### 6. **限制与注意事项**
- 并非所有输入的提示词都能被模型识别,需进行试验。
- 详细具体的提示词能缩小采样空间,提高生成图像的连贯性和准确性。
- 联想效应可能影响生成结果,需注意属性间的相关性。
#### 7. **否定提示词(Negative Prompts)**
- 在高级模型中,否定提示词必不可少,用于避免不需要的元素并调整图像内容。
- 常用否定词包括对人物绘制错误、低对比度等的避免。
#### 8. **参数设置**
- **分辨率**、**Classifier Free Guidance (CFG)**、**Step Count(采样步数)**、**Seed(种子)**和**Sampler(采样器)**等参数的详细解释与设置建议。
#### 9. **附加资源与工具推荐**
- 文章最后还分享了AIGC学习路线图、AIGC工具库、学习书籍和AI绘画视频教程合集等,帮助读者更系统地学习AIGC技术。
通过这些详细内容和实用技巧,文章为希望利用Stable Diffusion进行图像创作的用户提供了全面的指导和实用工具。