当前位置:AIGC资讯 > AIGC > 正文

Stable Diffusion 商业变线与绘画大模型多场景实战讠果fx

Stable Diffusion 商业变现与绘画大模型多场景实战
扌并讠果:Ukoou·ㄷㅁΜ

Stable Diffusion介绍
Stable Diffusion是2022年发布的深度学习文本到图像生成模型。 它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产生图生图的转变。 它是一种潜在扩散模型,由慕尼黑大学的CompVis研究团体开发的各种生成性人工神经网络之一。

Stable Diffusion 商业绘画大模型多场景实战 - Stable Diffusion本地安装指南

Q1:为什么我们要本地部署?

A1:stable diffusion本地部署的运行完全基于用户的本地电脑,给使用者带来极大的自由度,比如可以使用不同的微调模型,同时也能有效避免你的创作作品泄露。

Q2:本地部署的stable diffusion WEBUI和在线版有什么不同?

A2: stable diffusion WEBUI是典型的开源集成,一个月内迭代几十次,增加一大堆功能。标准化的本地部署能让你体验到这个和创新同步的过程。这是很多懒人版直接解压版本(无法用git升级)和网页版无法带给你的。

重要:在本地部署之前,确保你所使用的电脑满足所需的依赖项。

一般来说,内存不应低于16G.硬盘可用空间不小于50G。

要求一张显存大于4GB(最好高于6GB,建议8GB以上)的高性能显卡,我们的建议是GPU不低于Nvidia 10系,因为N卡在专业应用生态上一枝独秀,因此我们推荐NVidia卡(强烈推荐)。

1、自建python环境支持,完全独立。

2、从原版仅支持6G显存以上显卡优化到目前仅仅需要4G显存的显卡(理论上甚至仅用CPU都可以跑,速度很慢,不推荐)。

3、提供多种采样方法和图片放大、仿制优化,参考图等功能。

4、多模型支持,支持微调模型。

以下是WINDOWS10 的标准安装步骤:

1、安装Python 3.10.6,最好在默认路径,勾选“将Python添加到路径”,(如果电脑有其他python,需要加上步骤3.1)

2、安装git工具包

3、下载stable-diffusion库。在WIN10环境下CMD进入命令行, CD命令进入准备好的安装目录(最好不要在C盘,要求硬盘剩余空间大于50G以上),运行安装步骤。

Stable Diffusion 商业变现与绘画大模型多场景实战 - Stable Diffusion运行原理

AI 模型最新展现出的图像生成能力远远超出人们的预期,直接根据文字描述就能创造出具有惊人视觉效果的图像,其背后的运行机制显得十分神秘与神奇,但确实影响了人类创造艺术的方式。

Stable Diffusion 的发布是 AI 图像生成发展过程中的一个里程碑,相当于给大众提供了一个可用的高性能模型,不仅生成的图像质量非常高,运行速度快,并且有资源和内存的要求也较低。

相信只要试过 AI 图像生成的人都会想了解它到底是如何工作的,这篇文章就将为你揭开 Stable Diffusion 工作原理的神秘面纱。

Stable Diffusion 从功能上来说主要包括两方面:1)其核心功能为仅根据文本提示作为输入来生成的图像(text2img);2)你也可以用它对图像根据文字描述进行修改(即输入为文本 + 图像)。

下面将使用图示来辅助解释 Stable Diffusion 的组件,它们之间如何交互,以及图像生成选项及参数的含义。

Stable Diffusion 是一个由多个组件和模型组成的系统,而非单一的模型。

当我们从模型整体的角度向模型内部观察时,可以发现,其包含一个文本理解组件用于将文本信息翻译成数字表示(numeric representation),以捕捉文本中的语义信息。

虽然目前还是从宏观角度分析模型,后面才有更多的模型细节,但我们也可以大致推测这个文本编码器是一个特殊的 Transformer 语言模型(具体来说是 CLIP 模型的文本编码器)。

模型的输入为一个文本字符串,输出为一个数字列表,用来表征文本中的每个单词 / token,即将每个 token 转换为一个向量。

然后这些信息会被提交到图像生成器(image generator)中,它的内部也包含多个组件。

图像生成器主要包括两个阶段:

这个组件是 Stable Diffusion 的独家秘方,相比之前的模型,它的很多性能增益都是在这里实现的。

该组件运行多个 steps 来生成图像信息,其中 steps 也是 Stable Diffusion 接口和库中的参数,通常默认为 50 或 100。

图像信息创建器完全在图像信息空间(或潜空间)中运行,这一特性使得它比其他在像素空间工作的 Diffusion 模型运行得更快;从技术上来看,该组件由一个 UNet 神经网络和一个调度(scheduling)算法组成。

扩散(diffusion)这个词描述了在该组件内部运行期间发生的事情,即对信息进行一步步地处理,并最终由下一个组件(图像解码器)生成高质量的图像。

更新时间 2024-03-24