Diffusion Models专栏文章汇总:入门与实战
UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment
本文提出了一种名为UniQA的统一视觉-语言预训练模型,用于图像质量和美学评估(IQA和IAA)。与现有方法独立处理这两个任务不同,UniQA通过学习与人类主观感知一致的通用感知表示,同时提升IQA和IAA任务的性能。该模型利用多模态大型语言模型(MLLMs)生成高质量的文本描述,以解决IQA数据集中缺少文本的问题,并净化IAA数据集中的噪声文本。
UniQA的构建包括几个关键步骤。首先,使用MLLMs为IQA和IAA数据集