当前位置:AIGC资讯 > AIGC > 正文

Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

香港理工大学&bytedance&alibaba https://github.com/yangxy/PASD/ https://arxiv.org/pdf/2308.14469 问题引入 当前的基于SD的方法缺乏对图片结构的保持,所以本文提出pixel-aware cross atten来引入图片的结构信息,并且引入了degradation removal module来预处理作为生成条件的图片; methods
Degradation Removal Module:提取degradation无关的low level特征作为生成条件,使用一个金字塔形的网络,最后训练通过toRGB的输出和HR做L1损失完成; Pixel-Aware Cross Attention (PACA):condition的feature与原始unet进行交互的方式有变化,原始的交互方式通过简单的zero-convolution然后相加实现,但是无法保证图片原有的结构,所以本文提出了另一种方法,对于原始unet和controlnet的feature x , y x,y x,y,首先将两者进行reshape x ′ ∈ R h ∗ w × c , y ′ ∈ R h ∗ w × c x'\in\mathbb{R}^{h*w\times c},y'\in\mathbb{R}^{h*w\times c} x′∈Rh∗w×c,y′∈Rh∗w×c,之后进行cross attention P A C A ( Q , K , V ) = S o f t m a x ( Q K T d ) ⋅ V PACA(Q,K,V) = Softmax(\frac{QK^T}{\sqrt{d}})\cdot V PACA(Q,K,V)=Softmax(d ​QKT​)⋅V,其中 Q = t o Q ( x ′ ) , K = t o K ( y ′ ) , V = t o V ( y ′ ) Q = toQ(x'),K = toK(y'),V = toV(y') Q=toQ(x′),K=toK(y′),V=toV(y′),因为controlnet分支的输入没有经过encoder所以可以比较好的保持图片结构; Adjustable Noise Schedule (ANS):测试时候和训练时候的在T时刻z的状态不一样,在测试的时候是纯噪声,所以本文在测试的时候T时刻的z是由LR加噪声得到的; High-Level Information:之前的模型将text prompt用null来代替训练超分模型,本文使用resnet yolo和blip来获取信息代替; 实验

总结

### 文章总结:香港理工大学携手ByteDance与Alibaba,革新图像超分辨率技术
在当前图像超分辨率(Super-Resolution, SR)领域,传统基于稳定扩散(Stable Diffusion, SD)的方法常因缺乏对图片原始结构的精确维持而受限。为解决这一痛点,香港理工大学联合ByteDance与Alibaba的研究团队在PASD(Potential-guided Attention and Structure-Distillation framework)的基础上,提出了一系列创新方法,显著提升了图像超分辨率的质量与效果。以下是对该研究的精华总结:
**1. 降级去除模块(Degradation Removal Module, DRM)**:
- 设计了一种金字塔形网络结构,旨在从待超分的图片中提取与降质因素无关的底层特征,作为生成条件。
- 通过优化toRGB层的输出与高清原图(High-Resolution, HR)之间的L1损失,有效去除了图像中的噪声、模糊等降质因素,为后续的超分辨率处理打下坚实基础。
**2. 像素感知交叉注意力(Pixel-Aware Cross Attention, PACA)**:
- 针对传统方法中U-Net与ControlNet特征融合时可能丢失图像结构的问题,PACA机制被提出。
- 通过将U-Net和ControlNet的特征图重塑为像素级别的矩阵(形如`R^{h*w × c}`),并应用交叉注意力机制(Cross-Attention),实现了更精准的引导与控制,有效保持了图像的结构信息。
**3. 可调节噪声时间表(Adjustable Noise Schedule, ANS)**:
- 针对训练和测试阶段噪声状态不一致的问题,提出在测试时通过低分辨率(Low-Resolution, LR)图像加噪声的方式生成T时刻的潜在向量(z),确保了测试环境对训练环境的更好逼近,提升了模型在实际应用中的稳定性与表现。
**4. 高层次信息融合(High-Level Information Integration)**:
- 不同于传统方法以null文本提示直接训练,本研究创新性地利用ResNet YOLO与BLIP模型提取图像的高层次语义信息,作为额外的控制信号,进一步提升了超分辨图片的真实性与细节丰富度。
**实验验证**:
通过一系列严谨的对比实验与评估,该方法不仅在多个基准数据集上取得了显著优于现有方法的超分辨率重建质量,还展示了在保持图像结构细节、去除降质因素能力上的突出表现,为图像超分辨率技术的高质量发展开辟了新思路。
总结而言,香港理工大学、ByteDance与Alibaba的此次合作,通过引入降解去除模块、像素感知交叉注意力机制、可调节噪声时间表以及高层次信息的深度融合,为图像超分辨率领域带来了颠覆性的创新。这些成果不仅推动了超分辨技术的前沿发展,更为图像增强、视频处理等相关领域的实际应用开辟了广阔的前景。

更新时间 2024-07-27