Stable diffusion的架构解读（本博客还是以unet架构为主）

博客只是简单的记录一下自己学的，基于自己的一些情况，所以简单了一些只是将来忘记，用来回顾用。

论文的大体框架

stable diffusion生成的图本质上是通过prompt进行引导从噪声中生成的，text是唯一的输入
unet结构位于

unet会接受prompt特征、latent特征、和t时间步特征，最后生成新一轮的特征

可以参考知乎大佬https://zhuanlan.zhihu.com/p/639952809佳作
https://blog.csdn.net/weixin_62403633/article/details/131022283