Stable Diffusion 是用 LAION-5B 的子集(图像大小为512*512)训练的扩散模型。此模型冻结 CLIP 的 ViT-L/14 文本编码器建模 prompt text。模型包含 860M UNet 和123M 文本编码器,可运行在具有至少10GB VRAM 的 GPU 上。
1. 安装环境
conda create -n diffenv python=3.8
conda activate diffenv
pip install diffusers==0.4.0
pip install transformers scipy ftfy
# pip install "ipywidgets>=7,<8" 这个是colab用于交互输入的控件
如果后面执行代码时报错 RuntimeError: CUDA error: no kernel image is available for execution on the device
,说明cuda版本和pytorch版本问题,根据机器的 cuda 版本重新装一下:
pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 torchaudio==0.12.0 -f https://download.pytorch.org/whl/torch_stable.html
如果用官方 colab,需要输入 huggingface 的 access token 来联网校验你是否同意了协议。如果不想输入的话,就执行以下命令先把模型权重等文件下载到本地:
git lfs install
git clone https://huggingface.co/CompVis/stable-diffusion-v1-4
这样加载模型时直接 DiffusionPipeline.from_pretrained("./MODEL_PATH/stable-diffusion-v1-4")
,就不用加 use_auth_token=AUTH_TOKEN
2. 加载模型
如果要确保高精度(占显存也高),删除 revision="fp16"
和 torch_dtype=torch.float16
import torch, os
from diffusers import StableDiffusionPipeline
os.environ["CUDA_VISIBLE_DEVICES"] = "2"
pipe = StableDiffusionPipeline.from_pretrained(
"CompVis/stable-diffusion-v1-4", # 本地地址也行
revision="fp16", # 如果不想用半精度,删掉这行和下面一行
pipe = pipe.to("cuda")
3. 生成图像
3.1 直接生成
默认长宽都是512像素,可以指定 pipe(height=512, width=768)
prompt = "a photograph of an astronaut swimming in the river"
image = pipe(prompt).images[0] # PIL格式 (https://pillow.readthedocs.io/en/stable/)
3.2 非随机生成
刚才 3.1 部分生成的每次都不一样,若需非随机生成,则指定随机种子,pipe()
中传入 generator
参数指定 generator。
import torch
generator = torch.Generator("cuda").manual_seed(1024)
image = pipe(prompt, generator=generator).images[0]
3.3 推理步数控制图像质量
使用 num_inference_steps
参数更改推理 steps。通常步数越多,结果越好,推理越慢。Stable Diffusion 比较强,只需相对较少的步骤效果就不错,因此建议使用默认值50。如图把 num_inference_steps
设成 100,随机种子保持不变,貌似效果差距并不大。
import torch
generator = torch.Generator("cuda").manual_seed(1024)
image = pipe(prompt, num_inference_steps=100, generator=generator).images[0]
3.4 生成多张图片
from PIL import Image
def image_grid(imgs, rows, cols):
assert len(imgs) == rows*cols
w, h = imgs[0].size
grid = Image.new('RGB', size=(cols*w, rows*h))
grid_w, grid_h = grid.size
for i, img in enumerate(imgs):
grid.paste(img, box=(i%cols*w, i//cols*h))
return grid
一次性生成 3 幅图,此时 prompt 为 list 而不是 str。
num_images = 3
prompt = ["a traditional Chinese painting of a squirrel eating a banana"] * num_images
images = pipe(prompt).images
grid = image_grid(images, rows=1, cols=3)
