每日AIGC最新进展(24)：用于图像质量和审美评估的统一视觉-语言预训练模型UniQA、可控生成图像压缩框架Control-GIC、3D感知扩散模型Ouroboros3D

Diffusion Models专栏文章汇总：入门与实战

UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment

本文提出了一种名为UniQA的统一视觉-语言预训练模型，用于图像质量和美学评估（IQA和IAA）。与现有方法独立处理这两个任务不同，UniQA通过学习与人类主观感知一致的通用感知表示，同时提升IQA和IAA任务的性能。该模型利用多模态大型语言模型（MLLMs）生成高质量的文本描述，以解决IQA数据集中缺少文本的问题，并净化IAA数据集中的噪声文本。

UniQA的构建包括几个关键步骤。首先，使用MLLMs为IQA和IAA数据集