如果想要度量国产大模型大小厂商的实力,WAIC(世界人工智能大会)是一个不错的切口。
众所周知,2023年是国产大模型元年,在去年的 WAIC 之后,腾讯发布混元大模型,字节跳动上线豆包 APP,而后通过豆包大模型正式开启对外服务,年轻的月之暗面、MiniMax 等创业公司形成了「五小虎」的格局,这让今年的 WAIC 有了更强的指向性:大模型选手们都已走向台前,给了 AI 行业更多的机会和答案。
相比去年,今年最大的变化就是,国内参与的互联网科技公司更多了。
除了老面孔腾讯、阿里、百度和蚂蚁之外,今年的互联网新面孔,包括 B 站和最近通过视频大模型可灵走红网络的快手,也包括「五小虎」中的智谱AI和百川智能,甚至还有号称要改变「五小虎」为「六小强」的阶跃星辰。
当然,没有出现的重要公司也不少,比如在大模型领域飞速进化的字节跳动和月之暗面等。
往年 WAIC 上厂商们比的是有无大模型,如今比的是大模型落地能力。所以,从时间的发展周期上来说,WAIC 已经有了国产大模型度量衡的意味,一系列国产大模型产品和落地应用进行公开展示,未来更加可期。
7月的 WAIC 结束后,国产大模型厂商将会密集发布一系列多模态大模型,行业进化的速度将进一步加快,比如 MiniMax 就在 WAIC 上透露,将在下个月发布 AI 视频生成产品。
1
腾讯猛提速,阿里拼落地
阿里一直是 WAIC 的重要一员。曾几何时,大模型尚未成为行业发展的共识,马斯克和马云就曾在 WAIC 上对人工智能的话题产生分歧。马云认为,人类无法创造出比自己聪明的生物;而马斯克对这一论断明确表示反对。
而今年 WAIC 上,负责传递阿里声音的人是阿里云创始人王坚。
王坚认为,在算法和数据等条件下,人工智能对大公司会友好一点,但是友好并不意味着宽容,一定会有新的大公司出现,也一定会让现在的大公司浴火重生。而大小企业的差别在于,大企业会觉得 AI 是工具的革命,小企业一定会觉得这是革命的工具,「大企业也要意识到这是革命的工具,那这个变化就来了。」
阿里如今是中国大模型背后的重要推手,最广为人知的标签,就是投资了5家大模型公司,把月之暗面、MiniMax、智谱 AI 、百川智能和零一万物这5个独角兽通通纳入版图之中。
而今年的 WAIC 上,阿里也成了现场火爆的体验打卡点。
阿里不光展示了国内用户规模第一的智能编码助手「通义灵码」,更是通过「通义十二时辰——体验 AI 助手陪伴的一天」,全方位通义千问大模型背后的对话、效率、智能体、视觉四大核心能力,让用户感知 AI 助手在生活、学习和工作中的实际作用。
此外,钉钉和支付宝也是阿里 AI 能力落地上的重要一面。钉钉通过「未来生产力」论坛,展示了钉钉在智能组织构建,以及 AI 在实际生产工作场景中的创新应用案例;支付宝的 AI 能力则通过支付宝智能助理、AI 金融助理和 AI 就医助理触达用户的生活场景。
相比阿里在 WAIC 场馆内的互动感,腾讯展示的更多则是场外发声和产品进化。
自5月30日腾讯正式上线混元大模型 APP 元宝以来,腾讯在大模型的推广和进化速度一直在提升。尤其是最近腾讯云与智慧产业事业群 CEO 汤道生的采访中谈到,腾讯对大模型并不是不着急,他跟马化腾在针对大模型技术变革的企业微信群聊中,经常讨论最新前沿并跟进业务进展。
「我们从技术长期布局投入,转到产品的市场去进攻。」汤道生认为,腾讯也不算在大模型上慢了一步,不是什么都唯快不破,过去半年腾讯在大模型上的新产品、新版本发布的频率越来越高,是因为腾讯的风格一贯是持续打磨产品,不断改善体验,随着市场慢慢成型,用户需求更明确、清晰,腾讯也会加快步伐。
事实上,元宝 APP 发布不到一个月,就已经更新了五六版。
根据腾讯混元大模型负责人刘煜宏最新透露,到目前为止,腾讯内部有接近700个业务接入混元,包括腾讯会议、文档,微信读书的 AI 助手等,基本上腾讯所有的(业务)都用,内部调用量大概将近3亿次。
相比较汤道生的态度,刘煜宏承认,去年混元大模型发布节奏慢,一部分原因是因为投了很多资源先服务好内部的「客户」,因为腾讯做事情,「对外开放前一定要先在内部打磨好,自己的狗粮自己先消化」。
更重要的一点是,刘煜宏谈及了腾讯在大模型上的思考变化。腾讯最初做混元大模型的逻辑,并没有想要做 toC 的产品,而是把基础模型打磨好,服务内部需求,后来不断调整方向,推出「混元模型助手」到后来的独立 APP,就是因为「不探索原生 AI 大模型应用,不知道怎么跟业务更好合作」。
是否 toC 这个大模型的逻辑起点,也是腾讯和字节最大的不同。字节的大模型能力最先就是通过豆包 APP 进行探索,最后用豆包成为大模型的名字开启对外服务。如今,混元大模型和豆包大模型走到了应用层竞争的同样逻辑,最大的变量就是腾讯的追赶速度。
2
中厂的焦虑
今年的 WAIC上,相比腾讯、阿里这样的大厂用大模型服务内部业务生态,Minimax、智谱 AI 这些大模型创业公司算是第一次登场,他们更焦虑于如何站稳脚跟后茁壮成长。
比如,展台紧靠阿里的阶跃星辰,就在 WAIC上发布了三个大模型,其中包括 Step-2:万亿参数的 MoE 模型,目前还需要申请才能体验;Step-1.5V:千亿参数多模态模型,除了图片理解能力提升外,也支持视频理解;Step-1X:图像生成模型,DiT 架构,600M、2B、8B 三种不同的参数量,对中国文化和元素进行了优化。
阶跃星辰的创办人是微软前全球副总裁姜大昕,正在进行一轮估值20亿美元的新融资,据传阿里也将参与阶跃星辰的这次融资。阶跃星辰入场虽晚,但极力想挤入「大模型五小虎」的战队中,在营销上试图把格局改变为「六小强」。
但卷模型还有出路吗?
正如百度创始人李彦宏在 WAIC 上所说,去年的百模大战造成了社会资源的巨大浪费,尤其是算力浪费,但同时也使得中国追赶世界上最先进基础模型的能力得到了建立。李彦宏呼吁行业不要卷模型,要去卷应用,「没有应用,光有一个基础模型,不管是开源还是闭源都一文不值」。
应用走在模型前面这一点上,快手可能是阶跃星辰的范例。
快手也是今年 WAIC 上的新面孔,也将在 WAIC 上发布快手大模型和新产品,但其着力点更具有落地属性,重点是通过大模型打开商业化的空间,以及通过视频生成技术给短视频行业注入新生机。目前,快手大模型家族包括1750亿参数规模的通用大语言模型「快意」、文生图大模型产品「可图」和视频生成大模型「可灵」。
此前《快手可灵,把压力给到了抖音剪映》已经提及,通过海外社交媒体的病毒式传播,在文生视频领域上,快手「可灵」比肩 Sora ,成为国产大模型中最先「交卷」的一家,虽然目前国内市场尚无对手,但更多的竞争对手正在赶来的路上。
而就在6月底,快手「可灵」更进一步,在文生视频的基础上,拓展到了图生视频领域,用户只需要上传图片,就可以使可灵对图像进行理解,赋予其5秒鲜活的生命力。同时,可灵还推出了视频续写功能,用户可以在已生成视频的基础上延续生成内容,能够最长生产约3分钟的连贯视频。
近期在微博等社交媒体上,已经流行起来通过快手可灵大模型进行视频创作,尤其是甄嬛吃汉堡、还珠格格喝可乐等一系列恶搞《甄嬛传》《西游记》《还珠格格》等经典作品的短视频,都是通过可灵制作的。截至目前,快手可灵注册申请用户数已经超过了54万。
但遗憾的是,快手大模型产品在 C 端市场引发的热度,没有反应到资本市场中,从6月6日可灵发布测试至今,快手的股价一直处于缓慢下跌趋势中,跌幅达到15%。
3
人形机器人是 AI 终极形态?
人形机器人已经成为 AI 从数字世界落地到现实物理世界的香饽饽。
今年 WAIC 上展出了45款智能机器人,其中有25款是人形机器人。尤其是大模型的加持下,有了大模型能力的人形机器人,相当于拥有了自主决策和分解任务能力的大脑。
特斯拉一直是 WAIC 的常客,而除了 Cybertruck 汽车和 FSD(全自动驾驶),今年特斯拉拿出来的最吸引人的产品就是二代人形机器人 Optimus。
2021年8月,特斯拉发布了 Optimus 第一款智能机器人,搭载了特斯拉自主研发的神经网络和计算机视觉技术。2023年12月,特斯拉公开了二代 Optimus(擎天柱)机器人,相比一代更灵活,能用手拿鸡蛋,识别物体,还能走路。
人形机器人的难度在于量产通用,特斯拉预计明年开始限量生产,将有超过1000个 Optimus 在特斯拉工厂帮助人类完成生产任务。马斯克预计,人形机器人将成为工业主力,数量有望超越人类,预计达到100-200亿。
特斯拉面对的挑战很大,因为其目标是年产10亿台,占据市场10% 以上份额。要实现这一目标必然要让机器人的成本降低,控制在1万美元左右,售价预计2万美元,这将为特斯拉带来25-30万亿的市场。
而最能跟特斯拉二代人形机器人 Optimus 产生对标的,是杭州的宇树科技在今年5月发布的第二款通用人形机器人G1,其标准版售价9.9万元,这个价格远低于特斯拉的 Optimus,这凸显出国内人形机器人的「降本」优势。
在宇树科技5个月前最新一轮融资中,投资方包括美团、源码资本等。更重要的是,在机器人展示中,G1机器人可以模拟人手的精准操控能力,不光能实现搬运重物等常规操作,还能实现汽水瓶开启、焊接等精细化工作。
相比于特斯拉人形机器人的团队,宇树科技的团队更加年轻,创始人王兴兴是一位90后的年轻创造者。而特斯拉则是当初从 OpenAI 挖来的深度学习专家安德烈·卡帕斯,统领特斯拉的自动驾驶工程师团队和人形机器人的开发。
马斯克和王兴兴瞄准的都是通用人形机器人,这是一个百亿美元级别的市场。马斯克认为,擎天柱机器人是将特斯拉转变为价值10万亿美元企业的关键,甚至人形机器人的潜力比特斯拉的电动汽车业务更重要。
而英伟达最新的财报也显示,其未来发展的战略三大方向,其中之一就是 AI 应用,确立以智能汽车、人形机器人、工业数字化和医学 AI 为未来增长曲线。
但通用人形机器人还有很长的进化成熟之路。此前王兴兴在采访中表示,目前大家做的事情很简单,就是把 AI 技术拿过来给机器人用,「目前 AI 跟机器人结合的技术临界点还没到,可能整个技术方案还没跑通」。
究其根本,挑战就在于如何用大模型让人形机器人的行动系统智能化,也就是让机器人的大脑足够成熟,确保可靠性和准确度。而一旦人工智能真正迈入通用人工智能阶段,人形机器人成为 AI 应用的终极形态之一的梦想才会成真,人机共生的时代才会到来。