AI圈,再次开卷图像生成。
一连串进展扎堆:
8月21日,Ideogram正式推出2.0版本,声称文本渲染能力更强。
没错,就是那个成立于去年8月,由谷歌AI绘画4大牛集体离职创业的项目,曾获得过一众AI大佬投资。
此番Ideogram还公开叫板Flux,官方自信表示其人类评估明显优于Flux Pro。
要知道,Flux由Stable Diffusion原班人马打造,最近正在因生成以假乱真的TED演讲“照片”而走红各大网络。
除此之外,一周前,谷歌正式放出了Imagen3,在官方评估中,号称表现优于DALL-E3、Midjourney v6、Stable Diffusion3等一众绘图模型。
或许是受刺激了(doge),Midjourney竟然也转性了,在8月22日直接向所有用户推出了免费网页版。
这下有好戏看了!
既然大家都宣称自己很强,那我们不妨把大家拉到一桌,来搞个面对面PK。
谁是最强绘图AI?
先请出咱们的4位参赛选手(全部使用网页版):
1号选手:Ideogram2.0。每天免费有10积分,1积分可以生成4张图,每天最多生成40张图;
2号选手:Flux.1。黑森林官方在Hugging Chat提供了免费demo(选FLUX.1Schnell版本);
3号选手:Imagen3。在Image FX上可以免费无限次使用;
4号选手:Midjourney。免费试用期一共只有生成25张图的机会;
下面正式进入比赛环节。
黑猴子全翻车了
一上来,为了检验这些国外AI是否理解中文提示词,咱们也来蹭一波当今顶流黑猴子的热度。
不出意外,意外发生了……
相信大家一眼都被3号的大红叉给吸引了。没错,同一提示词下,只有3号Imagen3拒绝了生成请求。
看到这儿,第一反应是我们的提示词是不是触发了版权保护。于是先删掉了提示词中的“游戏角色”,结果还是提醒无法生成。
难道是谷歌Imagen3不支持中文?于是又随机换了一个更简单的提示词,这下倒是有图了。
只不过结果一整个大错误,而且换了多个中文提示词,最终都是一些毫不相关的纹路图。
看来谷歌Imagen3确实对中文提示词不ok。
3号落榜之后,再看其他几位,也只有1号Ideogram2.0表现最佳。
2号倒还能看出国漫的影子,4号Midjourney则完全放飞自我了~(主打一个毫不相干)
最后还是要表扬下Ideogram2.0,精准命中了所有关键元素。
虽然不是本人心中想要的东西(想要黑神话),但提示词还原度确实没毛病。
是真人还是AI?傻傻分不清楚
接下来进入各位选手的舒适区——人像生成。
遥想当年,Midjourney以一张天台情侣合照火爆网络;眼下,Flux更是以一组TED演讲图风靡全网……
究竟谁更胜一筹?答案马上揭晓。
先单看2号和4号,很明显,Midjourney赢了!
从细节上看,2号Flux.1稍有偏差,衣服颜色多了两种,这在一水的蓝绿格子衬衫中尤为突出。
另外,一上来我们还发现了Imagen3独有的一个小亮点:在生成开始前圈出关键词。
借着它完成的工作,我们正好可以检验几位选手对关键元素(蓝绿色方格衬衫、50mm镜头等)的还原程度。
可以看到,整体上几位选手表现都不错(除了2号),还原度较高且都看向了镜头。
而且,要不是这些都是本人亲自用AI生成的,还真无法一下子辨认与真人的区别。(汗颜)
最后悄咪咪说一句,4号选手Midjourney颜值最高。
老大难:图片显示文字
成功骗过了所有人之后,是时候让AI吃点苦头了——
给图片加文字。
这事儿一直都是个老大难,也成了检验AI生图水平的标准之一。
话不多说,直接让几位选手制作一块精美的广告牌。请各位看官老爷自行带入甲方爸爸角色。
一眼扫过,是不是都还不错,好像都高度还原了提示词?
但是,一旦拿出甲方爸爸的犀利眼神,这2号可就藏不住了。
注意看,2号Flux.1偷工减料了,单词“Season”少了一个字母“S”。
不过除了2号,其他几位还是不错滴,看来各家AI在文字渲染功能上都下功夫了。
所以接下来就是,萝卜青菜各有所爱,大家凭个人喜好做选择。(私心投给了Midjourney)
对了,1号Ideogram这次型号升级还特意拿“文字渲染”功能做宣传了,大家不妨多试试。
参考麦当劳,整点AI广告
最近,麦当劳请了11个AI美女为薯条疯狂打call,狠狠火了一把~
其实原理也比较简单,无非是用AI生成不同角色宣传薯条的图片,再拼接成一个视频。
没想到效果惊人,仅在推特一个平台,相关视频就获得了近千万浏览量。
掌握财富密码后,咱们正式开干,身为中国人,AI助农高低得走起~
很好,3号选手再次“摆烂了”。不过这波着实令人费解,提示词既不是中文,也没有明显违禁的地方……
淘汰3号后,1号选手Ideogram2.0带货种类最为丰富,大白菜、西红柿、紫甘蓝等应有尽有。
而且它是唯一一个打出文字招牌来宣传有机食品的,看得出来相当卖力了~
另外,细看还能发现只有1号在尽力模仿真人,而2号和4号则完全走上了二刺猿。
u1s1,如果参考麦麦的广告风格,这一次的短暂生成确实没有达到理想效果。(希望更贴近真实一点)
但是,好在这几个AI工具目前都可以免费用,多来几次也不是不行,重点还是方法论。[doge]
别急着走,其实还有一个更靠谱的搞钱方法——
用AI轻松拿捏棚拍商业宣传海报,省下请摄影师、场地和后期的钱不香嘛。
考考大家,假如你要给身边某位女性挑一只口红,你会选哪只?(死亡考验来了)
嘿嘿,所以有人选4号了吗?
虽然4号Midjourney看起来灰常高级,但这个黑色可能有点小众了。(慎选)
除了它,接下来表现最好的是3号Imagen3,底下丝绒布料衬托出奢华感,且最重要的是,口红质地很真实。
对比之下,1号和2号都显得有点假,“塑料感”扑面而来。
因此这一局,整体来说3号选手获胜。
小结一下,整体而言4位选手表现都非常不错。中文提示词下,黑马选手Ideogram2.0表现最好。
谁是Ideogram?
今年2月,Ideogram推出了1.0版本,短短半年时间,它再次进化上线了2.0版本。
事实上,Ideogram与谷歌可谓“沾亲带故”。
成立于去年8月,创始团队中前4人都是谷歌文生图研究Imagen论文作者。
CEO Mohammad Norouzi,论文共同一作,他在多伦多大学计算机科学博士就读期间拿到了谷歌ML博士奖学金。
毕业后他加入谷歌大脑工作了7年,职位也一路升至高级研究科学家,主要研究的就是生成模型。
此外,他也是谷歌神经机器翻译团队的原始成员,Hinton团队自监督对比学习框架SimCLR的合著者。
CTO William Chan(陳俊樂),论文共同一作,他先后就读于加拿大滑铁卢大学、卡内基梅隆大学。
他2012年加入谷歌时先做的机器学习广告工程,后转到谷歌大脑作NLP研究。
联合创始人 Jonathan Ho,博士毕业于UC伯克利,曾在OpenAI工作一年,后加入谷歌。
他除了是Imagen论文的核心贡献者,还是去噪扩散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作,这篇论文合著者中的Pieter Abbeel也是Ideogram AI的投资人。
联合创始人 Chitwan Saharia,论文共同一作,本科毕业于孟买理工学院,2019年加入谷歌,在谷歌主要负责领导image-to-image扩散模型的工作。
创始团队中的另外三人,Shayaan Abdullah曾是Twitter的机器学习工程师,于去年4月离职,后加入Ideogram AI。
Jacob Lu为软件工程师,加入Ideogram之前曾在亚马逊等公司任职;Jenny Lei是软件工程实习生,加入Ideogram AI之前曾在谷歌实习。
可以看出,Ideogram由顶级扩散模型研究团队组成,自成立之初便获得了资本青睐。
Ideogram种子轮融资由a16z和Index Ventures领投,金额1650万美元(当时约1.2亿人民币)。
个人投资者中也不乏Andrej Karpathy、强化学习大牛Pieter Abbeel,GitHub联合创始人Tom Preston-Werner等。
另外,今年2月,多方消息传出Ideogram进行了新一轮融资。
据称成功筹集了8000万美元(约57亿人民币)A轮融资,领投方为Andreessen Horowitz,其他参与投资者包括Index Ventures、Redpoint Ventures、Pear VC和SV Angel。
看来有钱、有技术的Ideogram无疑又是AI生图领域的一匹黑马。
卷,继续卷。
Ideogram2.0链接:
https://ideogram.ai/t/explore
Midjourney链接:
https://www.midjourney.com/home
Flux链接:
https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
Imagen3链接:
https://aitestkitchen.withgoogle.com/tools/image-fx
参考链接:
[1]https://x.com/ideogram_ai/status/1826277550798278804
[2]https://ideogram.ai/launch
[3]https://x.com/AIandDesign/status/1826277963681370213
—完—
总结
AI圈,再次开卷图像生成。
一连串进展扎堆:
8月21日,Ideogram正式推出2.0版本,声称文本渲染能力更强。
没错,就是那个成立于去年8月,由谷歌AI绘画4大牛集体离职创业的项目,曾获得过一众AI大佬投资。
此番Ideogram还公开叫板Flux,官方自信表示其人类评估明显优于Flux Pro。
要知道,Flux由Stable Diffusion原班人马打造,最近正在因生成以假乱真的TED演讲“照片”而走红各大网络。
除此之外,一周前,谷歌正式放出了Imagen3,在官方评估中,号称表现优于DALL-E3、Midjourney v6、Stable Diffusion3等一众绘图模型。
或许是受刺激了(doge),Midjourney竟然也转性了,在8月22日直接向所有用户推出了免费网页版。
这下有好戏看了!
既然大家都宣称自己很强,那我们不妨把大家拉到一桌,来搞个面对面PK。
谁是最强绘图AI?
先请出咱们的4位参赛选手(全部使用网页版):
1号选手:Ideogram2.0。每天免费有10积分,1积分可以生成4张图,每天最多生成40张图;
2号选手:Flux.1。黑森林官方在Hugging Chat提供了免费demo(选FLUX.1Schnell版本);
3号选手:Imagen3。在Image FX上可以免费无限次使用;
4号选手:Midjourney。免费试用期一共只有生成25张图的机会;
下面正式进入比赛环节。
黑猴子全翻车了
一上来,为了检验这些国外AI是否理解中文提示词,咱们也来蹭一波当今顶流黑猴子的热度。
不出意外,意外发生了……
相信大家一眼都被3号的大红叉给吸引了。没错,同一提示词下,只有3号Imagen3拒绝了生成请求。
看到这儿,第一反应是我们的提示词是不是触发了版权保护。于是先删掉了提示词中的“游戏角色”,结果还是提醒无法生成。
难道是谷歌Imagen3不支持中文?于是又随机换了一个更简单的提示词,这下倒是有图了。
只不过结果一整个大错误,而且换了多个中文提示词,最终都是一些毫不相关的纹路图。
看来谷歌Imagen3确实对中文提示词不ok。
3号落榜之后,再看其他几位,也只有1号Ideogram2.0表现最佳。
2号倒还能看出国漫的影子,4号Midjourney则完全放飞自我了~(主打一个毫不相干)
最后还是要表扬下Ideogram2.0,精准命中了所有关键元素。
虽然不是本人心中想要的东西(想要黑神话),但提示词还原度确实没毛病。
是真人还是AI?傻傻分不清楚
接下来进入各位选手的舒适区——人像生成。
遥想当年,Midjourney以一张天台情侣合照火爆网络;眼下,Flux更是以一组TED演讲图风靡全网……
究竟谁更胜一筹?答案马上揭晓。
先单看2号和4号,很明显,Midjourney赢了!
从细节上看,2号Flux.1稍有偏差,衣服颜色多了两种,这在一水的蓝绿格子衬衫中尤为突出。
另外,一上来我们还发现了Imagen3独有的一个小亮点:在生成开始前圈出关键词。
借着它完成的工作,我们正好可以检验几位选手对关键元素(蓝绿色方格衬衫、50mm镜头等)的还原程度。
可以看到,整体上几位选手表现都不错(除了2号),还原度较高且都看向了镜头。
而且,要不是这些都是本人亲自用AI生成的,还真无法一下子辨认与真人的区别。(汗颜)
最后悄咪咪说一句,4号选手Midjourney颜值最高。
老大难:图片显示文字
成功骗过了所有人之后,是时候让AI吃点苦头了——
给图片加文字。
这事儿一直都是个老大难,也成了检验AI生图水平的标准之一。
话不多说,直接让几位选手制作一块精美的广告牌。请各位看官老爷自行带入甲方爸爸角色。
一眼扫过,是不是都还不错,好像都高度还原了提示词?
但是,一旦拿出甲方爸爸的犀利眼神,这2号可就藏不住了。
注意看,2号Flux.1偷工减料了,单词“Season”少了一个字母“S”。
不过除了2号,其他几位还是不错滴,看来各家AI在文字渲染功能上都下功夫了。
所以接下来就是,萝卜青菜各有所爱,大家凭个人喜好做选择。(私心投给了Midjourney)
对了,1号Ideogram这次型号升级还特意拿“文字渲染”功能做宣传了,大家不妨多试试。
参考麦当劳,整点AI广告
最近,麦当劳请了11个AI美女为薯条疯狂打call,狠狠火了一把~
其实原理也比较简单,无非是用AI生成不同角色宣传薯条的图片,再拼接成一个视频。
没想到效果惊人,仅在推特一个平台,相关视频就获得了近千万浏览量。
掌握财富密码后,咱们正式开干,身为中国人,AI助农高低得走起~
很好,3号选手再次“摆烂了”。不过这波着实令人费解,提示词既不是中文,也没有明显违禁的地方……
淘汰3号后,1号选手Ideogram2.0带货种类最为丰富,大白菜、西红柿、紫甘蓝等应有尽有。
而且它是唯一一个打出文字招牌来宣传有机食品的,看得出来相当卖力了~
另外,细看还能发现只有1号在尽力模仿真人,而2号和4号则完全走上了二刺猿。
u1s1,如果参考麦麦的广告风格,这一次的短暂生成确实没有达到理想效果。(希望更贴近真实一点)
但是,好在这几个AI工具目前都可以免费用,多来几次也不是不行,重点还是方法论。[doge]
别急着走,其实还有一个更靠谱的搞钱方法——
用AI轻松拿捏棚拍商业宣传海报,省下请摄影师、场地和后期的钱不香嘛。
考考大家,假如你要给身边某位女性挑一只口红,你会选哪只?(死亡考验来了)
嘿嘿,所以有人选4号了吗?
虽然4号Midjourney看起来灰常高级,但这个黑色可能有点小众了。(慎选)
除了它,接下来表现最好的是3号Imagen3,底下丝绒布料衬托出奢华感,且最重要的是,口红质地很真实。
对比之下,1号和2号都显得有点假,“塑料感”扑面而来。
因此这一局,整体来说3号选手获胜。
小结一下,整体而言4位选手表现都非常不错。中文提示词下,黑马选手Ideogram2.0表现最好。
谁是Ideogram?
今年2月,Ideogram推出了1.0版本,短短半年时间,它再次进化上线了2.0版本。
事实上,Ideogram与谷歌可谓“沾亲带故”。
成立于去年8月,创始团队中前4人都是谷歌文生图研究Imagen论文作者。
CEO Mohammad Norouzi,论文共同一作,他在多伦多大学计算机科学博士就读期间拿到了谷歌ML博士奖学金。
毕业后他加入谷歌大脑工作了7年,职位也一路升至高级研究科学家,主要研究的就是生成模型。
此外,他也是谷歌神经机器翻译团队的原始成员,Hinton团队自监督对比学习框架SimCLR的合著者。
CTO William Chan(陳俊樂),论文共同一作,他先后就读于加拿大滑铁卢大学、卡内基梅隆大学。
他2012年加入谷歌时先做的机器学习广告工程,后转到谷歌大脑作NLP研究。
联合创始人 Jonathan Ho,博士毕业于UC伯克利,曾在OpenAI工作一年,后加入谷歌。
他除了是Imagen论文的核心贡献者,还是去噪扩散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作,这篇论文合著者中的Pieter Abbeel也是Ideogram AI的投资人。
联合创始人 Chitwan Saharia,论文共同一作,本科毕业于孟买理工学院,2019年加入谷歌,在谷歌主要负责领导image-to-image扩散模型的工作。
创始团队中的另外三人,Shayaan Abdullah曾是Twitter的机器学习工程师,于去年4月离职,后加入Ideogram AI。
Jacob Lu为软件工程师,加入Ideogram之前曾在亚马逊等公司任职;Jenny Lei是软件工程实习生,加入Ideogram AI之前曾在谷歌实习。
可以看出,Ideogram由顶级扩散模型研究团队组成,自成立之初便获得了资本青睐。
Ideogram种子轮融资由a16z和Index Ventures领投,金额1650万美元(当时约1.2亿人民币)。
个人投资者中也不乏Andrej Karpathy、强化学习大牛Pieter Abbeel,GitHub联合创始人Tom Preston-Werner等。
另外,今年2月,多方消息传出Ideogram进行了新一轮融资。
据称成功筹集了8000万美元(约57亿人民币)A轮融资,领投方为Andreessen Horowitz,其他参与投资者包括Index Ventures、Redpoint Ventures、Pear VC和SV Angel。
看来有钱、有技术的Ideogram无疑又是AI生图领域的一匹黑马。
卷,继续卷。
Ideogram2.0链接:
https://ideogram.ai/t/explore
Midjourney链接:
https://www.midjourney.com/home
Flux链接:
https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
Imagen3链接:
https://aitestkitchen.withgoogle.com/tools/image-fx
参考链接:
[1]https://x.com/ideogram_ai/status/1826277550798278804
[2]https://ideogram.ai/launch
[3]https://x.com/AIandDesign/status/1826277963681370213
—完—