当前位置:AIGC资讯 > AIGC > 正文

【AI学习】AI绘画发展简史

无意中读了一篇发表自2022年的文章,《AI绘画何以突飞猛进? 从历史到技术突破, 一文读懂火爆的AI绘画发展史》,写的比较有意思,科普了好多我原来不知道的历史。

简单提炼一下,做个笔记。

AI绘画重要事件

2012年 Google两位大名鼎鼎的AI大神, 吴恩达和Jeff Dean进行了一场空前的试验,使用了来自youtube的1000万个猫脸图片, 1.6万个CPU整整训练了3天, 最终得到的模型:令人振奋的可以生成一个非常模糊的猫脸 2014年, 对抗生成网络GAN问世:输出的控制力弱,生成图像的分辨率比较低,以及只能模仿, 不是创新 2015年, Google发布图像工具深梦(Deep Dream):更像是一个高级AI版滤镜 2017年,Google通过成千张手绘简笔画图片训练模型:能够绘制一些简笔画,并开源 2017年7月, Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型, 号称创造性对抗网络 (CAN, Creative Adversarial Networks):仅限于一些抽象表达 2021年初, OpenAI发布了广受关注的DALL-E系统:AI绘画的水平一般, 画的狐狸勉强可以辨别,但可以按照文字输入提示来进行创作 2021年1月,OpenAI团队开源了新的深度学习模型 CLIP,利用40亿个"文本-图像"训练数据 CLIP开源发布几天后, Ryan Murdock,将BigGAN连接到CLIP,将代码发布为Colab笔记The Big Sleep 随后, 西班牙玩家@RiversHaveWings在此基础上发布了CLIP+VQGAN的版本和教程, 这个版本通过Twitter被广为转发传播,引起了AI研究界和爱好者们的高度关注。 而这个ID背后, 正是现在所被熟知的计算机数据科学家 Katherine Crowson 2022年初被大众首先熟知的AI绘画产品 Disco Diffusion:第一个基于CLIP + Diffusion模型的实用化AI绘画产品,问题是无法刻画具体细节并且运行耗时长 2022年7月,Stable Diffusion终于闪亮登场,效果好,并且开源! 同年的MidJourney,最大的优点就是零门槛的交互和非常好的输出结果。 创作者无需任何技术背景就能利用基于Discord的MidJourney bot进行对话式绘画创作

Stable Diffusion的成功

重点是做了一件事,将模型的计算空间, 从像素空间经过数学变换, 在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间。 大大降低了内存和计算要求。比如Stable Diffusion所使用的潜空间编码缩减因子为8, 就是图像长和宽都缩减8倍, 一个512x512的图像在潜空间中直接变为64x64, 节省了8x8=64倍的内存!

这就是Stable Diffusion之所以又快又好的原因, 它能快速(以秒计算)生成一张饱含细节的512x512图像, 只需要一张消费级的8GB 2060显卡即可!

事实上, 类似Stable Diffusion这种AI生成模型的一个核心思路, 或者说很多深度学习AI模型的核心思路, 就是把人类创作的内容, 表示为某个高维或者低维数学空间里的一个向量(更简单的理解, 一串数字)。如果这个"内容->向量"的转化设计足够合理, 那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。而存在于这个无限的数学空间里的其他向量, 正是那些理论上人类可能创造, 但尚未被创造出来的内容。通过逆向的"向量->内容"的转换, 这些还没被创造的内容就被AI挖掘出来了。

这正是目前MidJourney, Stable Diffusion这些最新AI绘画模型所做的事情。AI可以说是在创作新的内容, 也可以说是新绘画作品的搬运工。 AI产生的新绘画作品在数学意义上一直客观存在, 只是被AI通过很聪明的方式, 从数学空间里还原出来, 而已。

其他

LAION 是一个跨全球的非营利机器学习研究机构,2022年3月开放了当前最大规模的开源跨模态数据库LAION-5B,包含接近60亿(5.85 Billion)个图片-文本对, 可以被用来训练所有从文字到图像的的生成模型,也可以用于训练 CLIP这种用于给文本和图像的匹配程度打分的模型,而这两者都是现在 AI 图像生成模型的核心。
除了提供以上的海量训练素材库,LAION 还训练 AI 根据艺术感和视觉美感,给LAION-5B 里图片打分, 并把得高分的图片归进了一个叫 LAION-Aesthetics 的子集。
事实上, 最新的AI绘画模型包括 Stable Diffusion都是利用LAION-Aesthetics这个高质量数据集训练的。

总结

**AI绘画发展史总结**
近年来,AI绘画技术取得了显著进步,从最初的模糊尝试到如今的高精度、高创造力输出,其发展史充满了技术创新与突破。以下是对这一过程的精炼回顾:
### 重要里程碑
- **2012年**:谷歌AI专家吴恩达与Jeff Dean尝试用1.6万个CPU训练猫脸生成模型,虽结果模糊,却标志着AI绘画的起步。
- **2014年**:对抗生成网络(GAN)问世,虽有局限性,但开启了图像自动生成的新纪元。
- **2015年**:谷歌发布深梦(Deep Dream),更像是一款图像滤镜,增强而非创造。
- **2017年**:Google训练简笔画模型并开源,Facebook联合学术机构推出创造性对抗网络(CAN),尽管成果限于抽象表达。
- **2021年**:DALL-E和CLIP模型相继发布,前者虽水平一般但可按文本创作,后者提供文本-图像训练数据。紧接着,BigGAN联合CLIP的应用(The Big Sleep)及其在Twitter上的传播,激发了广泛兴趣。
- **2022年**:Disco Diffusion成为首个基于CLIP + Diffusion模型的实用化产品,但细节刻画不足、耗时较长。同年,Stable Diffusion以其高效率和开源特性迅速崛起,而MidJourney则以零门槛的交互体验吸引众多创作者。
### Stable Diffusion的成功之道
Stable Diffusion之所以能够迅速成为主流,关键在于其创新性的潜空间(Latent Space)编码技术。该技术通过数学变换将高维图像信息压缩至低维空间,大幅降低了内存和计算需求,使得高质量图像的快速生成成为可能。此外,Stable Diffusion及其同类模型的核心思想,是将创意内容映射至高维或低维数学空间的向量表示,再利用算法“挖掘”那些理论上存在但尚未被创造的内容,实现了创作与创新的深度融合。
### 背后的数据与资源
LAION-5B作为全球最大的开源跨模态数据库,为AI绘画模型的训练提供了海量的图片-文本对资源。在此基础上,LAION还开发了基于艺术感和视觉美感的图片评分系统,进一步促进了高质量数据集的形成,成为训练Stable Diffusion等最新AI绘画模型的关键。
综上所述,AI绘画从初具雏形到如今的百花齐放,离不开技术的不断创新和海量数据的支撑。随着技术的进一步发展,我们有理由相信AI将在艺术创作领域发挥更大作用。

更新时间 2024-10-03