当前位置:AIGC资讯 > AIGC > 正文

AI专业教您保姆级在暗影精灵8Windows11上本地部署实现AI绘画:Stable Diffusion(万字教程,多图预警)

目录

一、Stable Diffusion介绍   

二、Stable Diffusion环境搭建

1.Anaconda下载与安装

2.Pycharm(IDE)下载与安装

3.CUDA、CuDNN下载与安装

三、Stable Diffusion的本地部署

1.克隆项目到本地

2.初始化打开项目

3.安装环境所需库

4.运行代码以及效果展示

        至此,AI绘画 Stable Diffusion本地部署以及初步功能实现完成!制作不易,望喜欢!

一、Stable Diffusion介绍   

        最近火热的AI绘画技术吸引了很多人的目光,AI绘画今年取得如此广泛关注的原因,有很大的功劳得益于Stable Diffusion的开源。它是由德国慕尼黑大学机器视觉与学习研究小组和Runway的研究人员基于CVPR2022的一篇论文:《High-Resolution Image Synthesis with Latent Diffusion Models》,并与其他社区团队合作开发的一款开源模型。

        以上是Stable Diffusion的效果图。有经验、有条件的小伙伴可以去翻阅大佬们的Paper,刚接触AI绘画的零基础小白也可以随我去一步步部署、搭建、复现这篇论文的功能哦!此项目有显卡门槛,建议显存越大越好。

        Stable Diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。具体来说,得益于Stability AI的计算资源支持和LAION的数据资源支持,Stable Diffusion在LAION-5B的数据库子集上训练了一个Latent Diffusion Models,该模型专门用于文图生成。Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文本转图片生成能够在10G显存的GPU下运行,并在几秒钟内生成图像,无需预处理和后处理,这确实是速度和质量上的突破。

二、Stable Diffusion环境搭建

1.Anaconda下载与安装

        1.Anaconda介绍:Anaconda是开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换。总之,它是放实现代码条件的容器!

        2.Anaconda下载:Anaconda | The World's Most Popular Data Science Platform

进入官网后如下图所示,点击Download即可开始下载:

下载完成后在文件夹中有一个exe程序文件,双击打开:

        3.Anaconda安装:依次点击Next-I agree-All Usrs-Next,然后到如下图片所示:

把两个选项都勾选上,这样省去自己去添加环境变量,之后点击Install-Next-Next-Finish就完成安装了。

        4.测试Anaconda:按下win+R,输入cmd,打开终端,输入conda有输出即可,输入conda -V可查看Anaconda版本。

        至此Anaconda安装完成!底下是一些配置。

        5.添加Anaconda镜像:添加镜像源之后底下的安装各种库速度会快很多

打开Anaconda PowerShell Prompt(建议添加桌面快捷方式以后要经常打开):

输入如下代码即可:

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

        6.继续输入以下代码创建本项目AI绘画的基础环境(其中包含了python,名字可自定):

conda create -n ai-painting python=3.10

2.Pycharm(IDE)下载与安装

        1.Pycharm介绍:PyCharm是一种Python IDE(Integrated Development Environment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。总之它是运行代码的地方啦!

        2.Pycharm下载:PyCharm: the Python IDE for Professional Developers by JetBrains

 进入官网后如下图所示,点击Download即可开始下载:​

 选择Community日常学习就已足够:


下载完成后在文件夹中有一个exe程序文件,双击打开:​

点击Next-选择路径再点Next-勾选所有选项再点Next-Install-Finish,至此Pycharm安装完成。

3.CUDA、CuDNN下载与安装

        1.CUDA、CuDNN介绍:

        CUDA 是 NVIDIA 发明的一种并行计算平台和编程模型。它通过利用GPU的处理能力,可大幅提升计算性能;

        CuDNN (NVIDIA CUDA 深度神经网络库) 是一个 GPU 加速的深度神经网络基元库,能够以高度优化的方式实现标准例程(如前向和反向卷积、池化层、归一化和激活层)。

        全球的深度学习研究人员和框架开发者都依赖CuDNN 来实现高性能 GPU 加速。借助 CuDNN,研究人员和开发者可以专注于训练神经网络及开发软件应用,而不必花时间进行低层级的 GPU 性能调整。

        CuDNN 可加速广泛应用的深度学习框架,包括 Caffe2、Chainer、Keras、MATLAB、MxNet、PaddlePaddle、PyTorch 和 TensorFlow。我们接下来就需要用到Pytorch深度学习框架。

        2.CUDA下载与安装:

首先需要查看自己的笔记本最高支持CUDA多少,方法是:win+R,输入cmd,在命令行输入

nvidia-smi

可以看到中间的Driver Version驱动版本以及右上角的CUDA VersionCUDA版本,我最高支持到12.0,而底下的Pytorch官网推荐只支持最新的11.6和11.7,所以我们只需下载其中之一就可,此处我下载的是11.7(前提是你的算力得达到11.7,所以电脑配置不高的小伙伴就不好做了哦),下面可查看驱动版本和CUDA版本匹配情况,各位根据实际情况来。如果达不到最新的CUDA版本,可以去官网搜索下载低等级的,但是能做这个项目的显卡门槛都得3060以上,一般都往最新的去下载就行。

 下面我们打开如下网址来下载CUDA11.7:CUDA Toolkit Archive | NVIDIA Developer

此处我选择了第二个CUDA11.7.1版本,点击Windows=>x86-64=>11=>exe(local)(本地离线下载),最后点击Download,这里大家根据自己电脑实际情况来操作,此处我只在win11上完成。

下载完安装CUDA时,首先设置临时解压目录,默认就好,继续往下。

选择自定义安装,自己设置安装目录,可放C盘可放D盘,放D盘的话可以新建一个跟预设一样的路径,看着舒服。

 自定义安装选项如下:如需要CUDA的部分就行,然后把VS取消。​

 自定义安装位置,我在D盘相同位置新建了个文件夹存放。​

 继续往下,到最后CUDA安装完成!

至于环境变量问题,一般是都设置好了,但如果你有之前版本的CUDA环境变量最好删掉,把新安装的优先级往前放。

如何打开并查看系统环境变量:此电脑右击,选择属性,点击中间的高级系统设置,

点击环境变量,

 点击系统环境变量,可查看到CUDA_PATH是否为自己新安装的版本。​

 下面验证是否安装成功:win+R,输入cmd,打开终端,输入:

nvcc -V

 ​

 至此,CUDA安装完毕,下面介绍CuDNN的下载与安装。

         3.CuDNN下载与配置

下载CuDNN的网址如下:cuDNN Archive | NVIDIA Developer

要想下载CuDNN,首先得注册一下NVIDIA的账号,建议用网易163或者有条件的Gmail邮箱都可,QQ邮箱劝退,可能收不到验证邮件。

 验证完邮件会填写相关信息,其中NVIDIA的Organization URL,随便找个URL就可。

注册完毕,出现CuDNN下载界面,根据提示,选择for CUDA 11.x的版本就可,点击选择Windows版本即可下载,这是一个zip文件。

下载解压到D盘,打开可以发现CuDNN并不是一个exe,而是三个配置文件夹,是给CUDA锦上添花的,能更强悍地通过GPU进行高性能加速。

 于是,把这三个文件夹复制到CUDA的安装路径的文件夹下:D:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7,即可完成CUDA与CuDNN的合体。

 检查是否合体成功,需要验证功能,打开如下文件夹:D:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\extras\demo_suite,在文件夹空白处右击,选择在终端打开,输入ba然后迅速TAB(键盘左边),意思就是打开bandwidthTest.exe文件,开始验证。

验证如下,如看见Result = PASS,即成功安装。

还需验证下deviceQuery.exe文件,运行下PASS即可。

至此,CUDA与CuDNN的安装配置全部完成!

三、Stable Diffusion的本地部署

1.克隆项目到本地

Stable Diffusion项目地址:GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

可以选择直接在终端git,但需要下载git相关工具,我选择直接点击如上图的绿色图标,选择Download ZIP即可下载项目压缩包,下载完解压到你的D盘,D盘是我的学术盘,我所有的代码以及配置都存放在D盘里。

2.初始化打开项目

解压后的文件夹可以直接拖到Pycharm图标上打开:

打开之后的第一件事就是配置解释器,因为我们之前已经创建过Anaconda的环境,直接选择先前配置的解释器,选中自己创建的环境即可。

3.安装环境所需库

此时我们新创建的解释器里只有于Python相关的最基础的几个库,如下图所示:

我们还要根据项目所需,安装相应的库。可以发现,项目里有一个environment.yaml文件,里面保存着项目作者实现项目所需要的库以及版本,我们可以根据它的版本来一键安装。但是,一键安装有时候会因为网速等问题出现一系列报错失败,所以因为库的数量不多,本人选择单独一个个安装库,并记录版本。

 1.numpy库安装:

打开如下Anaconda终端,激活创建的环境:

conda activate ai-painting

 底下要安装的库都会安装在这个环境(容器)里,这样一个项目一个环境,很舒服。

执行如下代码安装numpy库:

pip install numpy

 再次介绍一下pip工具,是下载python库的工具,但是有的时候会遇到网速问题,可以参考我以前的博客pip配置镜像源。国内常用pip镜像源地址及使用+永久修改_YIBO0408的博客-CSDN博客_pip 资源

2.Pytorch下载与安装:

        Pytorch下载踩坑特别多,比如根据官网指令下载没有反应、网速慢等问题,在此本人选择如下方法可避坑。

        首先去官方版本匹配网址查看版本https://github.com/pytorch/vision/blob/main/README.rst

下图是torch与torchvision以及python版本的对应关系:

https://github.com/pytorch/audio

下图是torch与torchaudio的对应关系:

        从上图可总结出我们要下载的torch、torchvision、torchaudio版本分别为:torch 1.13.0, torchaudio 0.13.0, torchvison 0.14.0。torchvision是pytorch的一个图形库,它服务于PyTorch深度学习框架的,主要用来构建计算机视觉模型;torchaudio 支持以 wav 和 mp3 格式加载声音文件,有加载声音、数据增强、特征提取等功能。此项目对于torchaudio可下载可不下载,但总体完整的pytorch是需要的。

        由于在线下载的不确定性,我们选择离线下载,速度快而且下载安装简单。以下是torch离线安装包下载地址:

https://download.pytorch.org/whl/torch_stable.html​​​​​​

我们找到以下三个whl文件,文件名cu117代表CUDA11.7版本,cp310代表python3.10版本,win_amd86_64代表Windows版本。

        下载完需要安装,同样需要在环境ai-painting里的终端指令行输入指令,打开Anaconda Powershell Prompt,激活ai-painting环境,此时需要cd(切换)到下载的目录下,我是默认下载到Downloads里的,于是直接cd Downloads即可。

 此处教一下怎么切盘,切到D盘:

 返回上一级:(中间有空格)

 于是,安装三个torch的whl文件指令为:

pip install .\torch-1.13.0+cu117-cp310-cp310-win_amd64.whl

pip install .\torchvision-0.14.0+cu117-cp310-cp310-win_amd64.whl

​ 

 pip install .\torchaudio-0.13.0+cu117-cp310-cp310-win_amd64.whl

         至此Pytorch框架全部安装完毕!

最后来验证一下Pytorch是否成功安装:

python

import torch

torch.cuda.is_available()

        如果结果是True,代表安装完毕啦! 

3.其他库的安装:

        大部分库只需要如下一键pip install就好了,前提是配置好pip源,这样底下下载就不会卡住了,方法是提前在指令行输入如下:

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

        之后可以输入以下指令一键安装。 

pip install albumentations diffusers opencv-python pudb invisible-watermark imageio imageio-ffmpeg pytorch-lightning omegaconf test-tube streamlit einops torch-fidelity transformers torchmetrics kornia

        我自己一个个试完发现无阻碍无错误,所以大家也可以直接根据environment.yaml文件来一键配置环境。要cd到项目目录下(因为下面还要把另外两个项目克隆配置到本项目目录下):

        一键配置指令如下:

conda env create -f environment.yaml

        最后还需把另外两个项目克隆到本地项目新建的src工作目录中,运行指令如下:

pip install -e git+https://github.com/CompVis/taming-transformers.git@master#egg=taming-transformers
pip install -e git+https://github.com/openai/CLIP.git@main#egg=clip  

        此处两个指令需要kexue上网才能成功,想了解可私信我。全部配置完项目目录如下:

        可以发现新建了src目录,目录下有clip和taming-transformers两个文件夹。

4.模型的下载:

        模型下载地址:CompVis (CompVis)

这里我们下载的版本是stable-diffusion-v-1-4-original(也可下载其他版本),点击下载权重:sd-v1-4.ckpt,此处同样需要kexue上网才可下载,如需要模型下载ckpt文件,本人已存百度网盘,可私信自取。

        接下来,在项目目录models/ldm下手动创建stable-diffusion-v1文件夹,用来存放下载好的权重文件,即需要把下载文件夹里的sd-v1-4.ckpt文件改名为model.ckpt,然后粘贴到手动创建的stable-diffusion-v1文件夹下即可。(注意文件名遵照原作者的名称来,否则下面运行代码会找不到文件)操作完项目目录如下图所示。

        权重文件介绍:Stable-Diffusion-v-1-4 checkpoint使用 Stable-Diffusion-v-1-2 checkpoint的权重进行初始化,随后在“laion-aesthetics v25+”分辨率为 512x512 的 225k steps上进行微调,下降 10% 改进无分类器指导抽样的文本调节。

        至此,调试代码前的所有准备工作完成!

4.运行代码以及效果展示

 1.文本转图片(Txt To Image(Txt2Img)):

        打开终端,激活环境,cd到项目目录,运行如下官方基础代码:

python scripts/txt2img.py --prompt "a photograph of an astronaut riding a horse" --plms 

BUG解决:

(1)ModuleNotFoundError: No module named 'ldm'

解决方式:在txt2img.py第二行添加如下代码,旨在获取当前工作目录加入路径。

sys.path.append(os.getcwd())

(2)在huggingface_hub下载文件时出现使用警告如下:

UserWarning: `huggingface_hub` cache-system uses symlinks by default to efficiently store duplicated files but your machine does not support them in C:\Users\XX\.cache\huggingface\hub. Caching files will still work but in a degraded version that might require more space on your disk. This warning can be disabled by setting the `HF_HUB_DISABLE_SYMLINKS_WARNING` environment variable. For more details, see https://huggingface.co/docs/huggingface_hub/how-to-cache#limitations.

解决方式:如果想从Windows11的基于符号链接的缓存系统中受益,需要激活开发者模式或以管理员身份运行Python。

激活开发者模式:打开设置-->点击隐私与安全性-->点击开发者选项-->开发人员模式-开

以管理员身份运行Python:右击Anaconda Powershell Prompt (Anaconda3)终端-->点击以管理员身份运行

(3)torch.cuda.OutOfMemoryError: CUDA out of memory.

解决方式:换大显存的显卡,我的是6G显存的3060笔记本GPU,按照官方基础代码运行会出现如上情况,我们需要调整batch size,也就是后缀说明里的--n_samples,设置其值为1;还需要把生成图片的尺寸大小(默认512*512)改为256*256。以上是我在github问题里搜集到的,亲测无效。

python scripts/txt2img.py --prompt "a photograph of an astronaut riding a horse" --plms --n_samples 1 --H 256 --W 256

         以上对于我的显存依旧不够,大家有比我更好的条件的可以试试以上代码。适当地增加batch size(1,2,4,8,16,32...)以及图片尺寸大小(512*512...)

        经过各种资料调研,只为降低显存占用,

        一种有效的解决方式(对于我的6G笔记本GPU显存):打开pycharm,打开txt2img.py文件,找到如下代码,添加一行:

model.half()

        它的原理是:保存模型时,调用model.half(),将算子存储为fp16(半精度)格式,低精度带来了性能和功耗的优势,但需要解决量化误差问题。这是Pytorch框架提供的一个方便好用的trick:开启半精度。直接可以加快运行速度、减少GPU占用,并且只有不明显的accuracy损失。对于本项目误差图片差别属实不大,本人认为可忽略。

        添加完一行代码,后输入如下指令可实现跑图:

python scripts/txt2img.py --prompt "a photograph of an astronaut riding a horse" --plms --n_samples 1 --H 512 --W 512 --n_iter 50

以上是显存使用情况,可以看出刚好快占满显存。 

        prompt可以自定义一段英文或者关键单词以英文逗号分开,尺寸可根据显卡自行设置512*512,生成图片50张。下图可以看出效果还是很不错的。

        以下是txt2img.py的使用后缀说明:

usage: txt2img.py

optional arguments:
  -h, --help            show this help message and exit 显示此帮助信息并退出
  --prompt [PROMPT]     the prompt to render 要渲染的提示信息
  --outdir [OUTDIR]     dir to write results to 渲染结果路径
  --skip_grid           do not save a grid, only individual samples. Helpful when evaluating lots of samples 不保存网格,仅保存单个样本,在评估大量样品时很有用
  --skip_save           do not save individual samples. For speed measurements. 不保存单个样本,用于速度测量。
  --ddim_steps DDIM_STEPS
                        number of ddim sampling steps ddim采样的steps数量
  --plms                use plms sampling 使用plms采样 
  --laion400m           uses the LAION400M model 使用LAION400M模型
  --fixed_code          if enabled, uses the same starting code across samples 如果支持,跨样本使用相同的起始代码
  --ddim_eta DDIM_ETA   ddim eta (eta=0.0 corresponds to deterministic sampling
  --n_iter N_ITER       sample this often
  --H H                 image height, in pixel space 图片高度
  --W W                 image width, in pixel space 图片宽度
  --C C                 latent channels 潜在通道
  --f F                 downsampling factor 下采样因子
  --n_samples N_SAMPLES
                        how many samples to produce for each given prompt. A.k.a. batch size 每个给定prompt要生成多少样本。又名batch size(批大小)
  --n_rows N_ROWS       rows in the grid (default: n_samples) 网格中的行(默认值:n_samples)
  --scale SCALE         unconditional guidance scale: eps = eps(x, empty) + scale * (eps(x, cond) - eps(x, empty))
  --from-file FROM_FILE
                        if specified, load prompts from this file 如果指定,从该文件加载提示
  --config CONFIG       path to config which constructs model 构造模型的配置路径
  --ckpt CKPT           path to checkpoint of model 模型checkpoint的路径
  --seed SEED           the seed (for reproducible sampling) 种子(用于可重复采样)
  --precision {full,autocast}
                        evaluate at this precision 以此精度进行评估

2.图片转图片(Image To Image(Img2Img)):

        以下是官方基础代码,同样我的显卡跑不动:

python scripts/img2img.py --prompt "A fantasy landscape, trending on artstation" --init-img <path-to-img.jpg> --strength 0.8

        strength是一个介于 0.0 和 1.0 之间的值,它控制添加到输入图像的噪声量。 接近 1.0 的值允许很多变化,但也会产生与输入在语义上不一致的图像。

        以下是img2img.py的使用后缀说明:

usage:img2img.py

options:
  -h, --help            show this help message and exit
  --prompt [PROMPT]     the prompt to render
  --init-img [INIT_IMG]
                        path to the input image
  --outdir [OUTDIR]     dir to write results to
  --skip_grid           do not save a grid, only individual samples. Helpful when evaluating lots of samples
  --skip_save           do not save indiviual samples. For speed measurements.
  --ddim_steps DDIM_STEPS
                        number of ddim sampling steps
  --plms                use plms sampling
  --fixed_code          if enabled, uses the same starting code across all samples
  --ddim_eta DDIM_ETA   ddim eta (eta=0.0 corresponds to deterministic sampling
  --n_iter N_ITER       sample this often
  --C C                 latent channels
  --f F                 downsampling factor, most often 8 or 16
  --n_samples N_SAMPLES
                        how many samples to produce for each given prompt. A.k.a batch size
  --n_rows N_ROWS       rows in the grid (default: n_samples)
  --scale SCALE         unconditional guidance scale: eps = eps(x, empty) + scale * (eps(x, cond) - eps(x, empty))
  --strength STRENGTH   strength for noising/unnoising. 1.0 corresponds to full destruction of information in init image
  --from-file FROM_FILE
                        if specified, load prompts from this file
  --config CONFIG       path to config which constructs model
  --ckpt CKPT           path to checkpoint of model
  --seed SEED           the seed (for reproducible sampling)
  --precision {full,autocast}
                        evaluate at this precision

        目前原作者的开源代码并没有对GPU显存消耗量大的问题进行优化,经搜索有另外的分支,另一个作者对项目进行了优化,具体地址如下:https://github.com/basujindal/stable-diffusion

        大家可去自行下载,复制粘贴相关模型去model文件夹就行,出现bug,上述已经提及并解决,其他都一样。他把显存消耗降到了一半,经检测我的降到3GB,而效果可以说是同样的好。这个项目你可以用docker也提供了GUI图形界面,如果你不想在交互式终端执行,可以用GUI方便操作。

        要想使用GUI,需要下载一个库:

pip install gradio

        要想运行Txt2Img:

python optimizedSD/txt2img_gradio.py

        要想运行Img2Img:

python optimizedSD/img2img_gradio.py

        出现一个地址,点击地址即可进入GUI:

        以下是GUI界面,各种参数可以方便在上面调节:

        以下是我根据我的证件照跑出来的图,可以看到效果不错,与现在市场上的AI绘画程序效果相当。

        至此,AI绘画 Stable Diffusion本地部署以及初步功能实现完成!制作不易,望喜欢!

        最后放一张俺女朋友的初中证件照,咱就是说妥妥的二次元美少女哇!!!

更新时间 2023-11-10