Kolors 是由 Kuaishou Kolors 团队(快手可图)开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿对文本图像的训练,Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面,与开源和专有模型相比都具有显著优势。此外,Kolors 还支持中文和英文输入,在理解和生成中文特定内容方面表现出色。更多详情,请参阅本技术报告。
在SD3中采用了T5来实现文本和图像之间的转换,而在Kolors中则采用清华智普的ChatGLM来实现中英文的能力。同时相较于腾讯的混元大模型采用DiT的架构,它则继续沿用sdxl的vae架构,估计DreamBooth和Lora稍加修改就可以适配它的微调
人工评估
在人工评估方面,我们邀请了 50 位图像专家对不同模型生成的结果进行比较评估。专家们根据三个标准对生成的图像进行评分:视觉吸引力、文本忠实度和总体满意度。在评估中,Kolors 的总体满意度得分最高,在视觉吸引力方面也明显领先于其他模型。
Model 总体满意度平均值 视觉效果平均值 文字忠实度平均值 Adobe-Firefly 3.03 3.46 3.84 Stable Diffusion 3 3.26 3.50 4.20 DALL-E 3 3.32 3.54 4.22 Midjourney-v5 3.32 3.68 4.02 Playground-v2.5 3.37 3.73 4.04 Midjourney-v6 3.58 3.92 4.18 Kolors 3.59 3.99 4.17机器评估
我们使用 KolorsPrompts 的 MPS(多维人类偏好分数)作为机器评估的评价指标。Kolors 获得了最高的 MPS 分数,这与人工评估的结果一致。
Models Overall MPS Adobe-Firefly 8.5 Stable Diffusion 3 8.9 DALL-E 3 9.0 Midjourney-v5 9.4 Playground-v2.5 9.8 Midjourney-v6 10.2 Kolors 10.3Quick Start
要求
Python 3.8 或更高版本 PyTorch 1.13.1 或更高版本 Transformers 4.26.1 或更高版本 建议使用CUDA 11.7 或更高版本版本库克隆和依赖安装:
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
Weights 下载:
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
或
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
推理
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
# 图片将保存至 "scripts/outputs/sample_test.jpg"
本地测试结果
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!
总结
### 文章总结**Kolors 模型介绍:**
Kolors 是由快手可图团队开发的基于潜在扩散技术的大规模文本到图像生成模型。通过数十亿对文本图像的训练,Kolors 在视觉质量、复杂语义理解及中英文文本渲染上展现出显著优势。支持中英文输入,特别是对中国特定内容的理解和生成尤为出色。
**技术架构亮点:**
- **模型架构**:不同于SD3的T5架构,Kolors采用清华智普的ChatGLM来增强中英文处理能力,并沿用VAE架构,使得如DreamBooth和Lora等微调方法易于适配。
- **对比优势**:相较于其他模型,如Adobe-Firefly、Stable Diffusion 3、DALL-E 3、Midjourney等,Kolors在视觉吸引力和文本忠实度上均有不俗表现。
**性能评估**:
- **人工评估**:通过50位图像专家的评分,Kolors在总体满意度和视觉吸引力上领先,特别是在复杂中文内容的生成上表现出色。
- 总体满意度平均值:3.59(满分未知,假定高分表示高度满意)
- 视觉效果平均值:3.99(高分表示图像视觉质量高)
- 文字忠实度平均值:4.17(高分表示文本内容忠实于输入描述)
- **机器评估**:采用MPS(多维人类偏好分数)进行自动评估,Kolors同样获得最高分10.3,验证其在图生成领域的卓越性能。
**快速上手指南**:
提供了完整的开发环境配置流程,包括Python、PyTorch、Transformers等版本要求以及CUDA版本建议。详细说明了如何克隆仓库、安装依赖、下载权重文件和执行推理以生成图像的步骤。
**前景展望:**
该文章不仅介绍了Kolors的先进技术和出色性能,还通过翔实的评估数据证明了其在文本到图像生成领域的领先地位。同时,提供了易用的快速上手指南,便于科研人员和技术爱好者实践探索。期待未来有更多创新的应用落地,为用户带来更多高质量的图像生成体验。