Stable Diffusion——外挂VAE模型

stablediffusion种的vae作用是什么?

Stable Diffusion 是一种基于变分自编码器（VAE）的深度学习模型，其作用主要是用于文本生成图像。

具体来说，VAE是一种生成模型，可以学习到数据的潜在表示空间，并将其用于生成新的数据样本。Stable Diffusion 的 VAE 模型在训练过程中会学习到一组潜在变量，这些潜在变量可以捕捉到图像中丰富的语义和结构信息。在生成新的图像时，VAE 可以将输入的文本表示转化为潜在变量，然后再从潜在表示空间中生成新的图像。这种基于文本生成的图像具有很高的稳定性和可复现性，因此得名“Stable Diffusion”。

总的来说，Stable Diffusion VAE 模型的作用是通过学习潜在表示空间，将文本表示转化为图像，从而实现高质量、稳定且可复现的文本生成图像任务。

我们平时主要应用的是：Vae-ft-mse-840000-ema-pruned. Safetensors 因为它是最能接近实际拍摄的效果的。

测试模型：

chilloutmix_NiPrunedFp32Fix.safetensors [fc2511737a]

测试AVE模型：

vae-ft-mse-560000-ema-pruned.safetensors

vae-ft-mse-840000-ema-pruned.safetensors

正向提示词：

1 girl,minneapolis \(wild huntress schoolgirl\) \(azur lane\),

反向提示词：

(semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime:1.4),text,close up,cropped,out of frame,worst quality,low quality,jpeg artifacts,pgly,duplicate,morbid,mutilated,extra fingers,mutated hands,poorly drawn hands,poorly drawn face,mutation,deformed,blurry,dehydrated,bad anatomy,bad proportions,extra limbs,cloned face,disfigured,gross proportions,malformed limbs,missing arms,missing legs,extra arms,extra legs,fused fingers,too many fingers,long neck,

迭代步数：

20Steps

采样方法：

DPM++ 2M Karras

高度*宽度

512x512

随机种子

1993120101

vae-ft-mse-560000-ema-pruned.safetensors效果

vae-ft-mse-840000-ema-pruned.safetensors效果

560000与840000对比效果

两者的训练基数不同，更大的训练资源反馈的结果当然更好一些，所以我们可以默认选择使用比较高的版本，因为最接近实际的拍摄。

其它的vae

ClearVAE-NansLessTest.safetensors

madebyollin-sdxl-vae-fp16-fix.safetensors

对应的还有vae-ft-mse-840000-ema-pruned.ckpt版本。

diffusion stable diffusion 文本生成提示词 fix 生成模型高质量稳定性 stablediffusion 深度学习 utm 图像任务 cgi sdxl sem clone url