当前位置:AIGC资讯 > AIGC > 正文

【AI绘画】零基础入门ComfyUI(二)快手可图Kolors大模型

大家好,我是写编程的木木。

7月6日,快手在世界人工智能大会(WAIC)上宣布,快手旗下的文生图大模型可图(Kolors)将全面开源。可图(Kolors)支持中英文双语,生成效果比肩 Midjourney-v6水平,支持长达256字符的文本输入,具备英文和中文写字能力。在中文特色内容理解方面更具竞争力。

1、可图(Kolors)文生图大模型介绍

可图大模型是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。Kolors 在数十亿图文对下进行训练,在视觉质量、复杂语义理解、文字生成(中英文字符)等方面,相比于开源/闭源模型,都展示出了巨大的优势。Kolors 支持中英双语,在中文特色内容理解方面更具竞争力。可图在人工评测和机器评测中,整体满意度方面处于第一梯队水平,其中画面质量显著领先其他模型。

实际体验有如下优势:

中文文字生成能力(能用,但看具体文字场景)

支持中英双语输入

视觉质量与复杂语义准确性

项目开源,未来可期

2、ComfyUI使用可图(Kolors)

截止到 7 月 9 日,Comfyui 已支持 Kolors,感谢开源社区老哥们的支持;

2.1. ComfyUI-Manager插件安装

ComfyUI 丰富的插件是他的一大亮点,能让这个插件体系玩转的第一步是安装 ComfyUI-Manager 的插件,以后你就能轻松搞定其他插件。

安装 ComfyUI-Manager 有如下方式

1. 进入 ComfyUI/custom_nodes 目录

2. 通过 git 下载插件内容

3. 重启 ComfyUI

若网络不好,也直接将 ComfyUI-Manager 的压缩包解压至 ComfyUI/custom_nodes 目录,以上两种方式都可以,你说,我的 chrome 可以连上 github,但终端连不上,那可以去上一期的内容,里面有解决方法。

2.2. ComfyUI-Manager安装插件

点击Manager按钮

点击Custom Nodes Manager

在搜索框里搜索kolors,选择ComfyUI-Kolors-MZ,点击下载,下载完成后,记得重启comfyui,有些同学可能发现重启后并发现没有对应的节点,记得还要再刷新下页面,才能生效。

3、模型文件准备

(无法下载的可以文末领取,无偿分享)

3.1. UNET 模型下载

作用:U-Net的卷积神经网络架构,kolors是基于sdxl实现

存放路径:models/unet/ 文件夹下

下载地址:

https://huggingface.co/Kwai-Kolors/Kolors/resolve/main/unet/diffusion_pytorch_model.fp16.safetensors

3.2. ChatGLM3模型下载

作用:大语言模型复杂文本理解能力

存放路径:models/LLM/ 文件夹下(LLM 默认是没有这个文件夹的,需要自己创建)

下载地址:

https://huggingface.co/Kijai/ChatGLM3-safetensors/resolve/main/chatglm3-fp16.safetensors

3.3. 官方 IP-Adapter-Plus

作用:可看下图查看具体变化

存放路径:models/ipadapter/ 文件夹下

下载地址:

https://huggingface.co/Kwai-Kolors/Kolors-IP-Adapter-Plus/resolve/main/ip_adapter_plus_general.bin

3.4. Clip_vision模型

作用:视觉模型,图像编码器

存放路径:models/clip_vision/ 文件夹下

下载地址:

https://huggingface.co/Kwai-Kolors/Kolors-IP-Adapter-Plus/resolve/main/image_encoder/pytorch_model.bin

3.4. vae 模型下载

作用:类别熟悉的滤镜,让生成的图片调整饱和度

存放路径:models/vae/ 文件夹下

下载地址:

https://civitai.com/models/296576/sdxl-vae

网络不好,别担心,关注公众号,回复 kolors,即可获取百度网盘下载链接

4、一张试一试

在 glm 大语言模型的加持下,可图(Kolors)展现出强大的复杂文本理解能力。下面是一些示例:

提示词:一个机器人, 可爱,末日废土风格,瓦力,丰富细节,两个履带,手里端着一个花盆,花盘里有一个小花苗

分辨率:1024 * 1024

采样器:euler_ancestral

vae:使用 sdxl vae。

写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

若有侵权,请联系删除

总结

### 文章总结:可图(Kolors)大模型开源与应用指南
#### 引言
快手在世界人工智能大会(WAIC)上宣布,旗下的文本到图像生成大模型可图(Kolors)将全面开源。该模型支持中英文双语,生成能力堪比Midjourney-v6,特别在中文特色内容理解上表现出色。
#### 可图(Kolors)大模型介绍
- **开发背景**:由快手可图团队基于潜在扩散技术开发的大规模文本到图像生成模型。
- **训练数据**:使用数十亿图文对进行训练,提升视觉质量、复杂语义理解和文字生成能力。
- **优势特点**:
- 支持中英文双语输入,特别在中文内容理解上有竞争优势。
- 在人工与机器评测中,整体满意度和画面质量均处于领先水平。
#### ComfyUI与可图(Kolors)结合使用
- **ComfyUI插件安装**:
- 安装ComfyUI-Manager插件,为后续操作打下基础。
- 提供GitHub下载或压缩包直接解压两种方式安装插件。
- **装配Kolors插件**:
- 在ComfyUI-Manager中搜索并下载Kolors插件,重启并刷新页面以启用。
#### 模型文件准备
- **下载必要的模型文件**:包括U-Net、ChatGLM3、官方IP-Adapter-Plus、Clip_vision、vae等模型,分别用于图像生成、文本理解、视觉编码等关键环节。
- **存放路径与下载链接**:文章中详细列出各模型文件的存储路径及下载链接,并提供网络不佳时的备用下载方式。
#### 示例体验
- 在Kolors模型的支持下,通过输入具体描述(如“一个机器人, 可爱,末日废土风格...”),结合适当的设置(分辨率、采样器等),可生成高质量的图像。
#### 写在最后
- **AIGC技术前景展望**:强调AIGC技术的未来发展潜力,预测其在游戏和计算领域更广泛的应用,以及与人工智能技术的深度融合。
- **学习资源分享**:为感兴趣的读者提供全套AIGC学习资料,包括学习路线、必备工具、学习笔记、视频教程和实战案例等,助力深入学习与实践。
#### 结语
文章全面介绍了快手可图(Kolors)大模型的开源信息、技术特点和应用方法,同时为对AIGC技术感兴趣的学习者提供了丰富的资源和指导,助力其在AIGC领域的探索与学习。

更新时间 2024-09-19