?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦!
? 抖音知名绘画博主被曝作品是AI制作的,然后道歉也是 ChatGPT 生成的?
2月21日,抖音知名绘画博主 @曾bobi 发布了最新作品,是他们几名美院学生根据「你有高速运转的机械进入中国……黄龙江一派全都带蓝牙……
」抽象热梗进行的绘画。
视频内容显示,在经过几人一番「肝疼」的创作后,最终作品也的确是……更抽象了…… (? 如上图所示)
本以为这就是一个热梗创作,结果越来越多的博主开始指出,这幅画是由AI生成的,博主在骗人!毕竟 @曾bobi 在视频中丝毫没有提及AI参与创作的事情,还用几人正在创作场景引导观众以为这是他们手绘的作品。
本次「露馅儿」的主要原因,还是画作左上角其中一个人物的7根手指。手指数量不正确是AI绘画最常见的漏洞之一,没想到成了这次抓包的关键证据。
@曾bobi 随后发布了道歉声明,狡辩之词先搁在一边不说,有观众根据遣词造句的蛛丝马迹扒出,这份道歉稿也是AI生成的!几轮发酵还把这件事推上了抖音热榜。
嘶… 这后续就比较难搞了啊…
? 看看 Sora 炸出来多少好东西:文生视频 & 文生图最新进展汇总
? Stable Video 官网正式开放公测,号称 Sora 之外最强?
https://stablevideo.com | ⋙ 点击查看演示视频
2月21日,Stability AI 公司的视频生成网站 Stable Video 正式开放公测,所有人都可以注册并体验了。官方非常大方,每日赠送150 个积分 (其中,图片生成视频消耗10个积分,文本生成视频消耗11个积分)。
Stable Video 目前支持「图生视频」「文生视频」两种模式,生成视频长度不超过4秒 (与 Sora 的60秒相形见绌),并且支持通过相机运动来控制视频的生成过程。
通过官网演示视频和多位博主的测评视频来看,Stable Video 生成的视频质量非常不错,是Runway 强有力的竞争者 ⋙ 详细测评
? CapCut (剪映海外版) 推出文生视频功能
https://www.capcut.com/editor-tools/ai-video-generator | ⋙ 点击查看演示视频
2月21日,CapCut (剪映海外版) 推出了「文生视频」功能,所有人都可以注册体验。生成的视频时长4秒左右,每个账户每天有5次免费生成额度。
? Pika 官方发推暗示将发布长视频生成功能
https://pika.art | ⋙ 点击查看演示视频
2月23日,Pika 官方推特账号发布了一条 13 秒的生成视频,内容是经典的 Will Smith 吃面,并且还有配音和配乐。
这可能意味着,Pika 即将发布的新功能中,可能包含着更长的视频时长、音频生成 (甚至可以和口型同步)。如果是真的,那 Pika 尚能一战啊!
? Midjourney V7 中将包含视频生成功能
https://twitter.com/doganuraldesign/status/1760764398485020756
2月23日,推特博主 Dogan Ural @doganuraldesign 发推透露,Midjourney 的视频生成能力将随 V7 一起发布。
随后,他在评论区互动中透漏了更多消息:Midjourney 更早的时候就在研究视频功能,并为此工作了很长时间 (意思是与 Sora 无关);Midjourney 最终的目标是 3D,相关产品也在研发过程中,非常值得期待 <(^-^)>
? Stability AI 即将发布文生图模型 Stable Diffusion 3
https://stability.ai/news/stable-diffusion-3
Stable Diffusion 3 目前还没有全面开放,体验申请地址 https://stability.ai/stablediffusion3
2月22日,Stability AI 继续放大招,宣布即将发布更强大的「文生图」模型 Stable Diffusion 3。与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了。
Stability AI 在官网文章 ? 中表示,Stable Diffusion 3 是一个模型系列,参数量从 800M 到 8B 不等。这意味着它可以在很多便携式设备上直接跑,大大降低了 AI 大模型的使用门槛。
此外,Stability AI 还透露,Stable Diffusion 3 采用了 diffusion transformer 架构 (与 Sora 相同),并在博客中链接了 William (Bill) Peebles 和谢赛宁合著的 DiT 论文。
? 字节发布文生图开放模型 SDXL-Lightning,1024 分辨率下最快模型
模型 https://huggingface.co/ByteDance/SDXL-Lightning
论文 https://arxiv.org/abs/2402.13929
字节最近发布了文生图开放模型 SDXL-Lightning,经实测的确像官方说的那样——实现了前所未有的速度和质量。SDXL-Lightning 不但跻身 Hugging Face 模型趋势榜,还成为了 Hugging Face Spaces 的热门模型。
根据字节跳动官方公众号的介绍,SDXL-Lightning 通过渐进式对抗蒸馏 (Progressive Adversarial Distillation) 技术,在提升生成质量的同时加快了速度。
SDXL-Lightning 模型能够在2步或4步内生成极高质量和分辨率的图像,将生成速度加快了十倍,还是1024分辨率下速度最快的文生图模型,计算成本降低为之前的十分之一 ⋙ 官方详细介绍
? 眼镜、项链、胸针、小方块:所以AI手机未来就长这个样子了?
https://interconnected.org/home/2024/01/26/hardware
ShowMeAI 在上周一的 日报 里介绍过,魅族和 OPPO 先后决定押注「AI手机」赛道。OPPO 更是在2月20日举行了战略发布会并发布了「AI手机白皮书」,对AI手机、AI手机的特征、AI手机产业链进行了定义和展望。
虽然厂商在全力吆喝,但综合目前已有的信息来看,「AI手机」还是一个比较抽象的概念,也没有看到富有想象力的描述 ? 社群里的伙伴们也在讨论「AI手机未来到底长啥样」。
难道!真的!会像最近发布的那些「AI硬件」产品一样?! 哦漏。。我好像还没有做好这个心理准备。。SO,先简单梳理一下近期发布的这些AI硬件产品 (产品图片如上所示):
助手类
特点:通过新的用户界面和代理能力来帮助用户完成任务,旨在替代智能手机设备
Rabbit r1:多功能手持设备,具有屏幕、旋转摄像头、大按钮和滚动轮,Rabbit OS 操作系统能够理解用户的语音指令并与之交互
Humane AI Pin:可穿戴设备,集成了麦克风和摄像头,能够响应用户的请求,并用绿色激光投影仪展示结果
Ray-Ban Meta:智能眼镜,主要用于拍照和视频,不过新增AI功能可以解答用户对所看到的场景的相关提问
Tab AI:内置麦克风的项链,用户可以与其对话,官方介绍说它可以帮助建立一种新的透明关系,类似人们过去与上帝之间的关系 (well ?)
非助手类
特点:将AI嵌入到产品的核心功能中
Google Clips:这是一款智能相机,能够实时拍摄并筛选照片,展示了嵌入式AI的可能性
? Sora 舆论调查报告:刷屏一周后,9大中文平台的年轻人们怎么看?
补充一份背景:OpenAI Sora 文生视频模型自发布后席卷了社交平台的信息流,距离 OpenAI 上一次的 ChatGPT 爆火差不多正好一年的时间
在铺天盖地对于 Sora 的讨论中,中文社区微信、知乎、微博、抖音、快手、小红书、B站、淘宝、闲鱼这几个不同平台呈现出了明显的差异化:
微信、知乎:技术干货+行业影响
微信和知乎承担了深度分析的角色,有大量的长文分析和丰富的细节论证。圈内人大多关注技术原理和实现,更多科技行业 KOL 则在讨论对行业的影响微博:吃瓜辩论
微博群众热衷的不是 Sora 本身,而是「中美人工智能发展差距」等一系列延展话题,各方展开激烈辩论,观点和情绪输出同时拉满抖音、快手:一时热度
短视频是各方一致共识的 Sora 将产生颠覆性影响的行业,但是,抖音快手等短视频平台对 Sora 的讨论热度倒是一般般,并且很快就过去了小红书:焦虑与赚钱
小红书上的打工人们,对Sora表现出了亿点点担忧,一边焦虑被技术取代,一边焦虑会错过赚钱的风口,还焦虑公司倒闭、技术诈骗、假新闻泛滥等等淘宝、闲鱼:有些人在悄悄挣钱
借着 Sora 这一波天降热度,淘宝和闲鱼不少店铺纷纷上架 Sora 相关使用教程和内测账号,由于单价很低吸引了不少人付款下单 ⋙ 了解详情? 300天里,我帮你踩遍了AIGC创业的各种坑
一年前,OpenAI ChatGPT 彻底火爆大江南北。现在,Sora 横空出世,再次闪瞎了人们的双眼。
一年前的人们,怀揣着「第四次工业革命」的澎湃心情纷纷投身创业浪潮。一年后的现在,人们对于AI创业似乎冷静了很多。这中间的三四百天时间,发生了什么?
这篇文章的作者分享了他过往一年时间里踩过的各种坑。如果你希望踩着 Sora 的风口做点事情,不妨看一看,少走一些弯路:
第一个反常识的陷阱:你学习了很多提示词,不等于你就能用它来创业
苦水:提示词的使用依赖于特定的AI平台,有效的提示词会成为公司资产而不是个人竞争优势,没有足够坚固的护城河……靠提示词创业并不容易
经验:大语言模型的 Fine-tuning,扩散模型的 LoRA,以及未来视频模型的训练,你至少要有一个独门绝技;论重要性,Fine-tuning = LoRA >> Prompt
,如果追求的是公司价值的跃迁,那么就应该重视前两者,如果只是想挣点快钱,搞个 Prompt 教程就能开工
第二个反常识的陷阱:AI暂时还不是一套端到端的解决方案,而是一个前缀很长的定制工具
苦水:AI产品的落地必须是一把手工程,因为打工人没有足够的资源来调动和协调跨部门合作,也不能指望外行人能轻而易举就能超越原来在行业中摸爬滚打多年的从业者……
经验:要细致地拆分工作任务,每一个流程节点都尽可能细分,细到由谁来打开 word/excel文 档,写下一些什么内容,再将这些内容转交给谁……然后才有可能用 AIGC 工具为这个环节带来一些改变
第三个反常识的陷阱:To C看着很热闹,但To B才是AIGC的用武之地
苦水:没有人打开AI产品是为了刷短视频、玩游戏,或者社交聊天,哪怕是AI女友或者AI角色扮演,你的持续兴趣也不会超过短短几周
经验:能够促使用户持续使用的动力有且只有一个,那就是为了挣钱——无论是提供特定服务增加收入 (开源),或者降低生产成本增加利润 (节流),亦或者为了在公司里提高自己的地位升职加薪,结果都是为了挣钱。
经验:如果想在这个浪潮中分到一杯羹,最好是冷静下来,先让自己成为一个重度AI用户——读论文,用产品,动手加以改造 (不是做成个案demo,而是能够工程化实现),然后再考虑你手上有哪些资源能够与产品结合 ⋙ 阅读原文
? 经典图解 Stable Diffusion 教程:直观理解 Stable Diffusion的工作原理
https://jalammar.github.io/illustrated-stable-diffusion
这是一篇非常经典的 Stable Diffusion 原理教程,用全文图解的方式,展示了 Stable Diffusion 的工作原理。如果你想比较透彻地搞清楚 Stable Diffusion 的完整过程,这篇文章应该是首选。
以下是原文内容的简略整理版,原文有更细致和完整的介绍,感兴趣的话推荐阅读原文呐!
Stable Diffusion 由 Text Encoder、Image Generator 两大部分组成,其中:
Text Encoder 文本编码器:使用特殊的 Transformer 语言模型(CLIP模型的文本编码器)将文本信息转换为数值表示
Image Generator 图像生成器:包含两个阶段
1) Image Information Creator 图像信息创建器:在图像信息空间(或潜在空间)中运行,通过多步生成图像信息
2) Image Decoder 图像解码器:在过程结束时运行一次,从信息创建器得到的信息生成最终像素图像
Diffusion 过程是使用 Text Encoder 生成文字对应的 embedding,然后和随机噪声 embedding,time step embedding 一起作为 Diffusion 的输入,最后生成理想的图片。
Diffusion 中间的 Image Information Creator 是由多个 UNet 模型组成。更详细一点说,扩散过程是分步进行的,每一步都会使潜在数组更接近输入文本的描述,并且更符合模型在训练过程中学习到的所有图像的视觉信息。
其中,CLIP 是根据从网络上抓取的图像及其文字说明进行训练的
CLIP 是图像编码器和文本编码器的组合,它的训练过程可以简化为给图片加上文字说明
首先分别使用图像和文本编码器对它们进行编码
然后使用余弦相似度刻画是否匹配。最开始训练时,相似度会很低
然后计算 loss,更新模型参数,得到新的图片 embedding 和文字 embedding
通过在训练集上训练模型,最终得到文字的 embedding 和图片的 embedding
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!
◉ 点击 ?日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ 点击 ?生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!