“这可能是本届WAIC上欢呼声最多的一场发布”
在刚刚闭幕的世界人工智能大会(WAIC)上,快手晒出了可灵发布一个月以来的成绩单:
“超50万人申请,已开放给超30万用户使用,生成超700万条短视频。”
作为全球首个用户可用的真实影像级视频生成大模型,可灵一经问世便引发了强烈反响,连外国网友都纷纷投来了羡慕的目光……
甚至Stability AI的前CEOEmad Mostaque看了也表示,中国这次已经遥遥领先。
但快手似乎并不满足于此。
可灵Web端上线、更高清画质、首尾帧、镜头控制、文生视频开放到10s;可图开源……
随着快手高级副总裁、主站业务与社区科学线负责人盖坤宣布多个重磅消息,现场几度沸腾。
可灵网页端上线,文生图模型重磅开源
之所以一上线就火到出圈,是因为可灵生成的视频不仅质量高,而且更符合物理规律,大幅度的运动也能准确刻画。
比如这个在公路上高速奔跑的老虎,不仅画面连贯,随镜头角度的变化合理,老虎四肢的动作协调,而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。
两周之后的CVPR上,可灵又新上线了图生视频和视频续写两项功能。
其中图生视频功能,拥有很强的逼近世界运行规律的能力,比如网友利用可灵,让《戴珍珠耳环的少女》中的人物动了起来,玩手机、喝咖啡、吃苹果……动作真实又不失优雅。
而且,该功能还表现出了很强的泛化能力。
比如一幅水墨画,加上简单的提示词,可灵就能让水墨画中的动物惟妙惟肖地运动开来。
但盖坤介绍,水墨画这样的素材在可灵训练的过程中非常少见,甚至连团队自己都没见过。
更有意义的是,可灵的图生视频不仅能用来娱乐,还有网友用它“复活”了长辈的老照片,留下了一段感人的故事……
而视频续写功能,则可以把前面生成的视频不断延长,每次5秒,最长可以扩展到三分钟。
这次的WAIC上,快手高级副总裁、主站业务与社区科学线负责人盖坤又宣布,可灵再次迎来一系列重磅更新。这也是可灵从发布起一个月内的第三次大动作。
首先是基础模型的升级,可灵生成的视频,画质得到了进一步提升。
以这个名场面为例,可灵的作品在升级前后的对比是酱婶儿的,可以看出所有的细节处理都比原来更加精细。
另外,新版本可以一次性直接生成10秒的视频,不需要先生成5秒再延长了。
功能方面,这次可灵还新增了首尾帧控制(图生视频)和镜头控制(暂只支持文生视频)。
只需上传首尾两张图片,可灵就能自动“脑补”出中间的运动变化过程。
△素材图片由快手图片生成大模型“可图”生成
镜头控制功能则让创作者可以直接指定运镜方式,不会写镜头提示词也不需要再“开盲盒”了。
对于可灵背后的技术方案,快手视觉生成与互动中心负责人万鹏飞从模型设计、数据保障、计算效率、能力拓展等方面进行了深入剖析。
万鹏飞介绍,可灵最新发布的版本中,在运动生成、物理规律、视频画质、指令响应等七个方向的能力亮点实现了进一步升级。
未来,预计视频生成模型将对游戏、动画、泛视频行业带来新机遇,并有望作为世界模拟器,为具身智能提供互动仿真环境。
除了模型的升级和功能上的更新,快手还重磅发布了可灵Web版本(传送门见文末),可以在PC上更加方便地创作并管理作品了。
包括Web界面在内,这些新功能也是坚持了快手一以贯之的“不画饼”原则,发布即上线,目前限时免费体验。
另外,此次上线的Web界面同时整合了图片生成功能,它的背后是快手自研的文生图大模型——可图。
而且可图在这里与可灵深度联动,生成图片后可以一键转到图生视频,图生视频当中也可以直接选择可图绘制的图片。
说回可图本身,它和其他图像生成模型相比,拥有更高质量和语义跟随能力,支持的场景也更加丰富。
在内部进行的盲测当中,可图取得了第一名的耀眼成绩,超越了MidJourney、Stable Diffusion等一系列知名模型。
在北京智源研究院的第三方测试中,可图也以75.23分的成绩获得了第二名,仅次于76.66分的DALL·E-3。
另外,可图还拥有很强的“写字”能力,支持在图像中用真实的效果嵌入文本。
而且更懂中文,甚至能理解一些古诗词,比如韩愈的《春雪》中,一句“白雪却嫌春色晚,故穿庭树作飞花”就被可图还原得淋漓尽致。
仔细观察图中的细节,你会发现远处虚化的树木已经变成了绿色,还有树上已经绽放的花朵,都符合了诗句当中的季节设定。
可图的上线时间稍早于可灵,于今年的5月31日向公众开放,而就在这次的WAIC大会上,盖坤又隆重宣布,可图大模型正式开源。
目前可图的推理代码和Checkpoints已经在GitHub中公布,未来相关的LoRA、ControlNet和ComfyUI工作流也将陆续上线。
这部分的最后,我们再来展示个小彩蛋——
将于本月上线的快手首部AIGC短剧《山海奇镜之劈波斩浪》,就有可灵的深度技术支持。
在快手的大模型家族当中,可灵和可图因为可以直接用于创作,所以我们的感触更加直接。
但其实,快手还拥有更为庞大的“大模型矩阵”。
快手大模型家族全员亮相
除了可灵和可图这样的视觉生成大模型,快手的大模型矩阵还包括语言大模型、推荐大模型等等。
比如为了让你刷到的内容更符合你的偏好的、“默默无闻”的推荐大模型。
盖坤介绍,快手的推荐大模型基于SIM(Search Interest Model)模型打造,拥有10万亿参数量。
而且,对每一个用户,快手推荐大模型处理的行为序列长度,都可以达到百万。
现在,快手大模型团队正在积极研发基于Transformer的下一代推荐大模型技术。
还有语言模型“快意”,在内部盲测中,中文能力已经达到了GPT-4水平。
快手副总裁、大模型团队负责人张迪介绍,快意大模型从最早开始,已经研发了四个版本。
从早期的13B版本开始,到现在已经有了主力应用的175B版本和多模态版本,经过了多个版本的研发快意大模型已经在快手内部应用在包括素材创作、AI互动和内容生产等多个场景中。
在快手大模型家族中,快意是最基础的能力,未来除了持续提升快意大模型的基础能力之外,团队还将结合快手的应用场景,做出差异化的功能。
快手家族的这些大模型覆盖了生成、推荐和理解等多个层面,并已经深度服务于快手的各大业务场景。
另外,基于系列大模型能力,快手还搭建了数字人全流程AIGC服务。
这其中包括了数字人脚本创意生成、数字人渲染生成、数字人实时互动、智能客服问答等整个流程。
而在C端,快手也在APP评论区中上线了基于大模型的智能体“AI小快”,它是快手官方的智能互动小助手,定位是快手用户有用、有趣且有温度的聊天搭子。
你可以问他视频中各种各样的内容,基于多模态大模型的理解能力可以做出准确的回答,而且AI小快也非常有趣,你可以在评论区画图、画表情包,还能在评论区各种求安慰、求祝福,实现情绪价值。
目前,AI小快有超过1000万的粉丝量,同时有超过1.5亿次的累计互动,而且这还是在AI小快不会主动对你进行评论,只能被动召唤的条件下达到的。
总之,借助大模型矩阵中的各种模型,快手用AI把从B端到C端,从服务到产品的整个生态都武装到了牙齿。
那么,在这背后,快手又有怎样的战略布局呢?
坚持自研,拥抱开源开放
在快手的战略框架当中,坚持全栈自研、坚持技术创新是至关重要的一环。
快手团队在大模型的基础研究和前沿探索方面持续投入,从底层芯片算力、网络架构到顶层应用,都能看到快手自研技术的身影。
张迪表示,快手认为坚定投入自主研发长期来说会带来“技术雪球”效应以及巨大的成本优势。
放眼于具体,快手的大模型技术体系涵盖了文本(快意)、图像(可图)、视频(可灵)等多种数据模态,并且强调多模态大模型之间的关联互通,实现更加智能灵活的感知和生成能力。
在自研精神的驱动和不断的研发投入这下,快手已在视频生成、对话互动、数字人等方向取得了行业领先的突破。
当然,有了完备的技术体系,还要与实际应用场景深度融合,才能实现落地,快速产生商业价值。
这也是快手战略体系中的另一个重要环节。
当然,得益于庞大的内容平台和创作生态,快手的一个优势,正是更容易找准大模型技术的最佳应用落点。
具体说,快手重点聚焦在内容推荐、创作助手、互动社区、电商直播、数字营销等几大场景,力求将大模型技术嵌入业务的各个关键环节。
比如在电商直播场景,快手希望通过虚拟主播、智能导购助手等大模型应用,为商家提供了更加智能高效的直播带货解决方案;
又如在数字营销当中,快手将大模型技术与广告平台深度融合,强化多模态广告素材的智能创意生成,提升广告投放的性价比,为广告主创造出了更大价值。
独乐乐不如众乐乐,所以在不断强化自身之余,快手还积极致力于推动生态发展。
可图的开源就是一个很好的例证。
另外,快手不仅与多家高校或科研机构合作进行技术研发,还设立专项了基金支持,学术界的研究创新。
比如与中国计算机学会(CCF)与快手携手,共同宣布成立“CCF-快手大模型探索者基金”。
该基金针对“大语言模型”、“视觉理解与生成”等五大核心领域,于本年度推出共计12个研究项目,每项课题最高可获30万元人民币的支持。
纵观整个WAIC大会,大模型、算力、数据、AI治理等都是今年的热点议题。而谈及大模型,开源与否又是一个不可避免被谈及的问题。
但快手并没有参与这场口水仗,而是用行动给出了选择,用可图的成绩单证明了开源模型的实力。
这样的做法,亦是快手大模型一贯务实作风的体现,不搞花拳绣腿、不开空头支票,始终坚持产品发布即可用,坚定地为用户做最好的AI技术。
可灵Web版传送门:
https://klingai.kuaishou.com
可图GitHub页:
https://github.com/Kwai-Kolors/Kolors
可图模型权重:
https://huggingface.co/Kwai-Kolors/Kolors
—完—