主要围绕AI绘画的发展历程和应用,以及近期的一些热点新闻和趋势。AI绘画技术的发展成本很高,但其应用前景广阔,已经成为艺术创作的一个重要工具,所以值得关注.
2012年华裔人工智能科学家吴恩达跟美国计算机科学家杰夫 迪恩。两位都是Google的大神AI泰斗级别的大佬,他们牵头做了个实验,通过一种叫做深度自编码器的深度神经网络技术,基于来自平台的1000万张猫脸照片,23天时间生成了一张模糊的猫脸图片,但即便就只达到了这样的效果,他们这个实验花费了100万美元,并且使用了1000台电脑和16000个CPU.这个实验事实上成为了AI绘画技术的起点.
到了2014年,加拿大蒙特利尔大学的AI科学家伊恩古德费洛提出了生成对抗网络(Generative Adversarial Network),基于这个技术,AI第一次可以画出比较惊艳的图片,同时也可以切换图片的画面风格,值得一提的是GAN背后的原理,它有两个深度神经网络模型构成一个叫做生成器,一个叫做判别器.生成器负责根据要求不断作图交通给判别器,判别器负责判定,让生产器去改,继续改,不断改,这个过程会在很短的时间内持续上万次,当两者都达到某一平衡时,GAN就输出了一张最终的图片。虽然GAN这项技术已经可以让AI画出还不错的图片,但他的几个核心问题注定他无法成为AIGC革命的主角。首先它的运行非常消耗GPU, 在个人电脑上跑的时候呢,很容易一不小心就把你电脑卡死,另外就是GAN无法理解画面的局部,也就无法做出局部的修改,同时生成的图片分辨率也不是特别好.
2015年 出现了一项重大的技术进步,那就是图像识别技术开始成熟。其中最经典的场景就是人脸识别了,因为它可以直接在各种比如智能门禁,智能闸机这样的场景落地,所以在国内外都非常火爆。图像识别技术的成熟意味着我们已经可以把图像当中的信息提取出来并转换成文字,就有科学家提出来能不能把这个技术反过来用,研究人员就尝试反过来给图像识别的模型输入一些文字描述信息,结果AI真的生成出了一些32×32的小图片,虽然不太看得清,但命运的齿轮又开始转动。
2016年一种非常新颖的AI模型开始流行,因为它的出现AI绘图的质量迅速提升,并最终走出实验室来到我们的屏幕里,它的名字叫做Diffusion Model扩散模型,指令引导进行绘画,并在这个过程中不断理解补充信息,还可以再次发出指令引导信息,以达到想要的效果.
2021年1月,OpenAI发布了AI绘画产品DALLE,它因为结合了GT3的能力,直接支持用户通过文字能力直接支持用户通过文字提示来这图片,虽然画面还不够完美,但AI汇总终于迎来质的飞跃。2021年10月底一款开源的文本是图像工具disco diffusion诞生,为AI绘图产品的百花齐放打下基础。
到了2022年,事情的发展进一步加快,先是2022年4月DALLE-2的横空出世,展现出前所未有的理解和创造能力。一张又一张的超现实主义的画作喷涌而出
同样在2022年7月一家标榜”AI不是现实世界的复刻,而是人类想象力的延伸”的公司宣布他们的AI绘制产品开始公测这家公司就是Mid Journey。2022年39的游戏设计师艾伦使用Mid journey完成的绘画作品<<太空歌剧院>>,在美国科罗纳州博览会的艺术比赛上击败一众人类艺术家的作品获得头奖。这个事情在业内引发轰动AI绘画技术在研究成本上仍然非常高昂,需要大量的计算资源和资金投入
2023年3 月,OpenAI在第四代的基础上使用ChatGPT-4推出DALLE.3 Midjourney推出第五代绘图模型V5,同时拥有Photoshop的Adobe也在这个月发布了AI绘图软件Adobe Firefly
2023年12月22日Mid journey发布V6版本
(图片来源于网络及视频,如有侵权请联系删除)