智能涌现的浪涛,还在翻涌。以今年5月为节点,全球科技巨头在AI领域的成功与部署以更为密集的状态呈现。
其中一条步履鲜明的主线,是普遍在追求AI落地。硬件端,苹果在全球开发者大会上发布苹果智能,宣布将ChatGPT融入Siri,三星宣布GalaxyAI融入手机、平板、穿戴式设备;软件端,谷歌在Chrome浏览器集成Gemini AI助手……
图源备注:图片由AI生成,图片授权服务商Midjourney
一个公认的现况,AI应用即是国内AI产业当下的弱点环节,又是国内能够追赶甚至超越的机会所在。
有趣的是,抛开尚处于初级阶段的“百模大战”,仅从AI应用场景出发,抖音与快手这两大先天占据优势的短视频内容平台,各自大热的AI应用,又提供了两种截然不同的落地路径。
01
豆包,文生图文基底的AI Agent
AIGC相关的App中,豆包绕不过。据Questmobile数据显示,截至2024年6月,在国内AIGC App中,豆包、天工、Kimi智能助手、猫箱增长亮眼——其中豆包流量排名第一。
豆包并不严格“归属”于抖音,更确切来说归属于字节跳动。坊间流传的消息是,这个名字很接地气的AI产品,最开始的定位是抖音内的AI工具包,或者是抖音内的所有AI应用都包了,所以叫豆包。
在2023年8月上线以来,豆包本身的产品定位和能力也在不断迭代,直至跳脱出抖音本身的框架,单独成为一个App。与ChatGPT和文心一言等ChatBot产品形态类似但不同的是,尽管交互形态相似,但豆包的定位更倾向于一个综合性的AI Agent(AI智能体)平台。
通用场景下,用户可以和“豆包”默认智能体聊天对话,也可以寻找其他垂直应用的智能体对话解决垂直场景的问题,其中包含官方与第三方创建的智能体应用。
在不断迭代之下,其功能也愈发繁复。现在的豆包,不仅有App更有PC端,应用内的场景也扩展到了虚拟社交聊天、AI搜索、文档对话、文生图、内容创作等多种使用场景。而且AI能力的应用也开始扩展到了字节旗下的不同产品。
以抖音为例,一边是抖音应用内上线AI搜索功能,一边是用户在和豆包进行吃喝玩乐等特定类目内容交互时,豆包除了生成文字回复,还会推流一个抖音短视频来填补AI回复的准确性和及时性。
在今年上半年相对热门的AI应用中,字节基本都有入局,虚拟社交领域的猫箱,智能台开发平台领域的扣子,为主文生视频的即梦等等。然而,豆包之于字节的定位重要性毋庸置疑,先是持续在增长方面的投入并公布商业化路径,后是干脆将原来的大模型名称从云雀大模型改成豆包大模型等一系列动作,都足够验证。
集成、聚合、综合……豆包代表的产品路径,依旧保持着“超级App”或者说“超级入口”的思路,在市场相对空白阶段阶段,先通过应用端占领用户市场,并且在小步快跑中不断迭代,最终聚合成一个超级应用,来获取AI应用时代的优先船票。
与此同时,不同场景和不同产品的贯穿,又让字节生态内的用户数据进一步被累积,成为自身AI能力增长的数据养料。
02
可灵,视频世界的AI入口
对AI领域有关注的人们,或许还会记得2月Sora推出时引起的震动。这是堪比ChatGPT式的信标。丝滑的文生视频体验,代表着人机交互、内容创意之间的某个隔阂被消磨殆尽,转向通途。
很多人会以为,中国版“Sora”,会诞生在BAT和所谓“大模型五虎”上。作出这种判断并不令人意外,技术基底延伸产品应用的链路总是更短。但出乎意料的是,真正在用户层引起爆发式普及的文生视频产品,却是快手推出的可灵。
与还处于内测阶段的Sora相比,在6月公布的可灵直接对外开放。比较吸引人的点在于,可灵支持生成长达2分钟的30帧视频,分辨率最高1080p,并且可以自由定制宽高比。这样的产出能力,甚至远超还Sora和其余竞品(包括在可灵公布前一个月字节上线测试的文生视频应用“即梦”)。
在发布后不久,其又上线了图片生成视频功能。视频生成的效果,也符合其宣称的大幅度合理运动、物理世界特性模拟、具备概念组合能力和想象力等优势。这一度成为许多“内容创作者”们吸睛的利器,让老照片、手绘图片变成视频的“独家秘笈”甚至被许多人做成课程销售。
快手的AI产品路径,也值得思考。在可灵之前,快手先后发布了通用大语言模型“快意”、文生图大模型产品“可图”,均未有太大火花,反而是更符合自身内容生态的可灵迅速火爆。
而在可灵爆火后,在移动端唯一能使用的渠道依旧只有快手创作工具快影 App。但快手专门打造了Web端,并发布公告称此前的可图平台将在8月关闭,产品功能融入“可灵AI”中。从Web端入口可以看到,快手对可灵的官方定位是新一代AI创意生产力平台,突破了文生视频局限,集中在AI内容/创意生成方面,并且还有AI视频剪辑等功能方面的想象力留白。
这似乎又是一个方向:围绕自身核心业务场景,提供AI助力来实现扬长避短。而快手本身的内容生态,AI能力的喂养、AI产品的落地、用户的反馈,形成了一个完整闭环,用第三方平台、工具的形式,从创作到体验到生态提升了整体主站App的体验。
03
Agent和工具集,被动与主动
不难发现,尽管目前交互的形态还属于一问一答、一入一出的阶段,但豆包和可灵之间的差异,已经有了被动与主动的差别。
豆包尝试的AI Agent作为通往AGI(通用人工)的必经之路,发展方向无疑是能够独立思考、调用工具去逐步完成给定目标的独立助手。终极的发展目标,是用户只需要给出一个需求,就能根据需求拆解步骤并提供解法。用户被动享受着AI的主动响应。
可灵AI作为垂类平台,集成了对应的分类能力。用户依旧要为进行文字、图片和素材的输入,并且进行调试。产品用被动式的交互保持了用户的部分主动性。
无关优劣,这本就是非常有意思的阶段性发展。人机交互关系究竟应该是什么形态,人们需要一个万能的智能体助手,还是更垂直有效的工具,又是一个事关伦理的新命题。
而可以确认的是,至少在未来的一段时间内,我们不用担心AI产品的无趣了。
总结
### 智能涌现浪潮下的AI应用新趋势**概述**
随着全球科技巨头在AI领域的密集布局,AI应用正以前所未有的速度涌现并融入我们的日常生活。特别是在国内,虽然AI应用仍是相对薄弱的环节,但也是实现追赶乃至超越国际水平的重要机遇。在今年,两大短视频平台抖音与快手的AI应用实践,更是展现了AI落地的两种截然不同路径。
**豆包的全面崛起**
- **产品定位**:豆包作为字节跳动推出的综合性AI Agent平台,最初定位为抖音内部的AI工具包,后逐渐独立成App,成为AIGC领域的佼佼者。
- **功能迭代**:自2023年8月上线以来,豆包不断迭代其功能,现已扩展至虚拟社交聊天、AI搜索、文档对话、文生图、内容创作等多个场景,并支持字节旗下多个产品的联动。
- **市场战略**:字节通过持续投入和商业化路径公布,展现了对豆包的重视。其“超级App”或“超级入口”路径旨在占领市场,并不断迭代以聚合成一个强大的AI应用综合体。
**可灵的爆发式普及**
- **产品特色**:快手推出的可灵,以其强大的文生视频能力迅速获得用户喜爱。支持生成长达2分钟、分辨率最高1080p的视频,并可自由定制宽高比,远超竞品。
- **内容生态整合**:快手的AI产品策略围绕自身核心业务场景展开,可灵与快手的内容生态形成了完整闭环,通过AI助力提升整体创作和用户体验。
- **创作与工具**:可灵作为AI创意生产力平台,不仅限于文生视频,还拓展到AI视频剪辑等功能,为创作者提供了更多想象空间。
**对比与启示**
- **豆包与可灵的区别**:豆包倾向于发展成一个综合性的AI助手,致力于主动响应用户需求并提供解决方案。而可灵则作为垂类平台,通过集成分类能力让用户保持部分主动性。
- **人机交互的未来**:AI产品的未来发展路径涵盖了从被动服务到主动助手的广泛形态。这不仅是一个技术发展的过程,也是关于人机关系伦理的新讨论。
**总结**
在智能涌现的浪潮下,国内AI应用正处于快速发展阶段。抖音和快手的实践经验表明,通过适合自身生态的创新策略,可以实现对AI技术的有效落地和应用。未来,无论是综合性的AI助手还是垂类工具平台,都将为我们的生活带来更多可能,让AI产品变得更加有趣和有用。