当前位置:AIGC资讯 > AIGC > 正文

【AI绘画发展史】AI绘画从历史到技术突破,何以突飞猛进?

文章目录

AI绘画的进展 开源贡献 一、CLIP+VQGAN 二、CLIP 三、LAION-5B和LAION-Aesthetics AI绘画模型/产品 一、Disco Diffusion 二、MidJourney 三、Stable Diffusion MidJourney (VS) Stable Diffusion AI绘画的突破对人类意味着什么 数学真是世界至高法则 文章本天成,妙手偶得之

AI绘画的进展

感到吃惊是完全正常的, 因为从去年到今年, AI绘画的技术确实出现了连续的突破性的进展, 从CLIP模型基于无需标注的海量互联网图片训练大成, 到CLIP开源引发的AI绘画模型嫁接热潮, 然后找到了Diffusion扩散化模型作为更好的图像生成模块, 最后使用潜空间降维的改进方法解决了Diffusion模型时间和内存资源消耗巨大的问题

开源贡献

一、CLIP+VQGAN

计算机数据科学家 Katherine Crowson 利用CLIP计算出文字和图像特征值相匹配, 把这个匹配验证过程链接到负责生成图像的AI模型 (比如VQ-GAN) , 负责生成图像的模型反过来推导一个产生合适图像特征值, 能通过匹配验证的图像, 就得到一幅符合文字描述的作品了 CLIP+VQGAN 引领了全新一代 AI图像生成技术的风潮,现在所有的开源 TTI(Text to Image, 文本文本生成图像)模型的简介里都会对 Katherine Crowson 致谢,她是当之无愧的全新一代AI绘画模型的奠基者。 没火起来的原因:GAN类模型的生成结果始终不尽如人意,由Disco Diffusion这个线上服务所引爆 另外一种图像生成方式:Diffusion扩散模型,基本原理其实就是"去噪点"。就是我们熟悉的手机拍照(特别是夜景拍照)的自动降噪功能。如果把这个去噪点的计算过程反复进行,在极端的情况下,可能把一个完全是噪声的图片还原为一个清晰的图片

二、CLIP

2021年初,OpenAI团队开源发布CLIP 图像生成引擎DALL-E。DALL-E内部用了CLIP,但DALL-E并不开源

三、LAION-5B和LAION-Aesthetics

LAION 是一个跨全球的非营利机器学习研究机构。 2022年3月开放了当前最大规模的开源[跨模态数据库]LAION-5B,包含接近60亿(5.85 Billion)个图片-文本对。 提供的海量训练素材库,可以被用来训练所有从文字到图像的的生成模型,也可以用于训练 CLIP这种用于给文本和图像的匹配程度打分的模型,而这两者都是现在 AI 图像生成模型的核心。 LAION 还训练 AI 根据艺术感和视觉美感,给LAION-5B 里图片打分,高分的图片形成LAION-Aesthetics 数据集。 最新的AI绘画模型都是利用LAION-Aesthetics这个高质量数据集训练出来的。

AI绘画模型/产品

一、Disco Diffusion

第一个基于CLIP + Diffusion 模型的实用化AI绘画产品。 缺点:并没有取代人工创作的能力的核心原因:无法刻画具体细节、渲染时间特别长

二、MidJourney

在线AI作画神器优点:零门槛的交互和非常好的输出结果 利用基于Discord的MidJourney bot进行对话式绘画创作 付费服务,迭代更新快

三、Stable Diffusion

开源研发团队 EleutherAI 作为技术核心团队支持了Stability.AI,推出了AI绘画模型 Stable Diffusion,并承诺完全开源。 Stable Diffusion和之前的Diffusion扩散化模型相比,把模型的计算空间,从像素空间经过数学变换,在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间里,然后再进行繁重的模型训练和图像生成计算。

MidJourney (VS) Stable Diffusion

从输出风格上看

MidJourney针对人像做了一些优化,细腻讨巧、油腻一点点。出人像图或者糖水风格美图 Stable Diffusion的作品,更淡雅一些,更艺术化一些,风格变化多样性。

AI绘画的突破对人类意味着什么

2022年的AI领域,基于文本生成图像的AI绘画模型是风头无两的主角。

2月份 Disco Diffusion上线 4月 DALL-E 2和MidJourney邀请内测 5月和6月 Google发布两大模型Imagen 和Parti (不开放内测只有论文) 7月底 Stable Diffusion横空出世并开源

数学真是世界至高法则

类似Stable Diffusion这种AI生成模型和很多深度学习AI模型的一个核心思路

把人类创作的内容,表示为某个高维或者低维数学空间里的一个向量(更简单的理解,一串数字) 如果这个"内容->向量"的转化设计足够合理,那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。 而存在于这个无限的数学空间里的其他向量,正是那些理论上人类可能创造,但尚未被创造出来的内容。 通过逆向的"向量->内容"的转换,这些还没被创造的内容就被AI挖掘出来了。

文章本天成,妙手偶得之

AI可以说是在创作新的内容,也可以说是新绘画作品的搬运工。 AI产生的新绘画作品在数学意义上一直客观存在,只是被AI通过很聪明的方式,从数学空间里还原出来而已。 这句话放在这里非常合适。这"天",是那个无限的数学空间。而这"手",从人类换成了AI。

更新时间 2023-11-20