过去几天,AI行业大事件高度密集。
先是OpenAI贴脸开大发布GPT-4o,而后谷歌I/O大会原地回击掏出华丽升级Gemini全家桶。放眼国内AI赛道,备受关注的则是字节终于高调发布豆包大模型家族。
昨天上午,当火山引擎总裁谭待宣布豆包通用模型推理输入价格为0.0008元/千tokens时,现场发出一声整齐的惊叹。
谁能想到,大模型的价格竟然被字节“打下来了”。
谭待由此在火山引擎春季Force原动力大会上宣布,大模型价格正式进入“厘时代”。
这是什么概念?按这个价格,一块钱可以买到豆包模型的125万Tokens,大约200万个汉字。换言之,花一块钱,就能让豆包大模型生成三本《三国演义》。
如果一位内容创作者每次发布的短图文在140-200字左右,那么1块钱,就可以让豆包生成上万篇图文内容。
豆包大模型定价,图片来源:头号AI玩家
在现场,谭待列举了目前主要模型的token价格,顺便调侃“阿里和百度最新的模型暂时没有128k,所以只能参照8k和32k的,但相信他们未来一定会有”。
大模型的价格至此彻底“卷起来了”。
对于这个略显夸张的定价,谭待在会后采访时回应称,背后主要有两个原因:“第一是我们能做到,第二是我们需要这么做。我们在技术上可以实现,火山引擎未来还有很多手段降低成本。”
他认为,当下不少玩家都在做大模型的尝试,但创新的风险成本很高,只有降低试错成本,才能让产品被更多人更广泛地使用起来。
市场的呼声是字节选择降低成本的核心原因。虽然目前来看,超低的定价是否对应真正的性价比,还有待检验。
此外他还补充,字节跳动不会以亏损来换收入,“我们对技术还是有信心的,这是最关键之处,亏损是接受不了的”。
除了掀起AI价格战,字节此次大会还聊了哪些跟AI有关的关键内容,豆包大模型家族具备哪些新特点,我们将在本文展开为大家盘一盘。
字节发布豆包大模型,
直接拿出了一个全家桶
事实上,豆包自去年8月上线后就引起了全网热议,800万个智能体、月活跃用户达2600万、应用总下载量1亿......这些亮眼的数据,让豆包成为国内AI应用的新晋顶流。
目前,豆包大模型已用于豆包App、星绘App、猫箱App、扣子开发平台等字节旗下的AI产品和业务中。
字节试图用一个模型家族,满足各种场景下的用户需求,比如:
1. AI一键化身御姐、奶狗、霸总......
除了AI原本具备的长文本内容理解、文案创作等偏向效率型能力之外,豆包大模型家族此次还加入了角色扮演模型,可以根据人物设定进行演绎,并保持设定一致性。
要知道,角色扮演向来是AI领域的热门赛道,前有Character.ai,后有网友们破解的“Dan”模式,都靠个性化拉拢了一波用户。
那么,豆包角色扮演大模型的效果如何?“头号AI玩家”体验了一把搭载角色扮演模型的猫箱App,其中有不同的角色智能体,囊括了武侠、神话、恋爱、霸总等不同题材。
用户可以选择不同题材的AI故事进行尝试,其中的AI NPC拥有不同的性格,并且会按照相应的人设进行“表演”,会根据我们的回答不同,解锁不同的剧情发展。
在昨天的大会现场,谭待演示了让大模型扮演一个教四川话的老师,在线解答四川话“耙耳朵”。
在角色扮演模型的助力下,用户可以捏出不同的角色智能体,校园、霸总、年下男、御姐信手拈来......
2. 语音识别、合成、复刻,AI情绪表达新阶段
而让角色扮演更真实,语音功能是与AI交互过程中非常重要的一环。像此前让人上头的Dan模式,其语音能力为他“渣男”的形象增色不少。可以说,好的语音交互能够显著提升用户体验。
谭待接受采访时表示,语音做得好不好,对于整个交互体验影响非常大。所以字节在语音上花了非常多的精力。
而此次发布的豆包语音识别、合成、声音复刻模型,让AI情绪表达又上升了一个台阶。
比如,会主动跟我们分享学习到的关于“宇宙”的新知识。如果我们表现出兴奋,那么豆包也会在交流过程中提升音调,传递出喜悦的情绪。
豆包语音功能测试,头号AI玩家,50秒
是不是更像真人了?
大模型能够捕捉用户的情感,再用对应的情感模拟表达出来。谭待还让豆包复刻了自己的声音,并改变了语种,会说英语和日语的“AI谭待”就这样出现在了现场。
豆包App也上线了声音复刻功能,可以创建自己的声音,并生成不同语种的声音分身,再也不怕自己学的是“哑巴外语”。
总的来说,和豆包语音聊天的过程中,你会感受到她在回答、语气和情绪方面越来越像真人。当前,各家科技大厂都奔着打造一个真实世界的“Her”,OpenAI推出的GPT-4o甚至可以视频通话,实时分析使用者的面部情绪,语音可能是未来和AI交互的新趋势。
上述这些只是基于豆包大模型的部分使用场景。字节跳动产品战略副总裁朱骏认为,大模型会变成越来越多的产品,供越来越多用户使用。
根据火山引擎官方数据,经过一年时间的迭代,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,日均处理1200亿Tokens文本,生成3000万张图片。
左手豆包右手扣子,
超级AI工厂雏形初现
此次的原动力大会,尽管句句提及豆包大模型,但字字离不开AI应用。
看起来,在互联网时代有着“超级App工厂”之称的字节跳动,来到AI时代,依然是产品和模型全要抓。
会上,火山引擎还宣布了旗下大模型服务火山方舟全面升级,着重完善插件生态。比如,可以提供抖音丰富视频图文的内容插件。在交互过程中,用户不仅可以获得大模型的文字回复,还能看到抖音的优选视频和图文。可以说,插件可以让字节的内容产品对外提供服务。
同样,火山引擎针对开发者群体,打造了“扣子专业版”。扣子(Coze)是字节直接对标GPTs推出的AI Bot创建平台。如果用户有更复杂的需求,可以在扣子上定制AI原生应用,无需任何代码,就能将各种插件集成到不同的Bot上,并发布到各个渠道。
比如,我们看到市面上已有的分析市场行情Bot、找工作助手Bot、课程辅导助手、实验室助教等等。
此次扣子更新了长时记忆、数据库、文件盒子等功能。在扣子产品经理潘宇扬的演示中,Bot可以记住用户说过的关键信息、喜好、甚至是偶然提到的灵感。
另外,为了满足更多复杂的场景,扣子打破了人和Bot一对一的交流模式,允许用户创建多角色进行互动。也就是说,你和你的多个Bot可以呆在同一个群聊中,接力解决问题、彼此陪伴。
就连最近火热的AI硬件设备赛道,扣子也没错过。潘宇扬现场演示了Bot一键发布到学习机、摄像头、桌面机器人等IOT设备中。
图片来源:特工宇宙;扣子图像流
除此之外,有网友发现字节这两天还悄悄上线了新的工作流——图像流,号称字节版的ComfyUI。其中涵盖了素材获取、素材编辑、素材导出三大环节,能够实现稳定的图像处理流程编排。据介绍,这些新功能预计在未来几个月内推出。
“先用起来再发布”,字节的AI打法
基于豆包大模型家族进行应用形态的探索,寻找更多AI落地场景,先去贴近用户,这或许是字节比较明确的思路。
和其他大模型公司“先发布,再陆续推出应用”恰恰相反,字节是让用户用起来了,再进行全面发布。正如谭待在发布会开头所说,“只有最大的使用量,才能磨出最好模型”。
但“磨”需要时间,AI时代多模态技术迭代是非常快的。值得一提的是,OpenAI和谷歌都在前两天相继更新了自己的模型,作为国内备受关注的大模型企业,字节跳动的豆包大模型家族看上去有些“姗姗来迟”。
在会后接受采访时,谭待也透露了豆包大模型此时才正式发布的原因。
“实事求是讲,OpenAI仍然是全球第一,要承认差距。但是字节跳动的大模型仍然在不断进化。目前不光是豆包大模型能力到位了,也已经有一些最佳实践案例出现,能够告诉大家怎么做AI应用,体验和用户量都在不断提升。”
以使用量来优化大模型的前提是,有足够好用可用的AI应用。越来越多开发者做更多的应用,再反过来驱动技术优化,形成正循环。
字节跳动产品战略副总裁朱骏分享了大模型构建AI应用的产品原则。他认为,第一原则就是拟人化,“用和人类对齐的交互体验,降低AI使用门槛,也让用户感受到温度”。
此外他还提到,“AI应用需要离用户很近,嵌入用户不同的使用环境。能被用户在任何地方唤起,并且帮助用户就近解决任务。比如基于PDF的总结和问答,在编程时就生成代码和注释”。
尽管通用大模型能够满足广泛的任务需求,但用户对于AI Bot依旧有个性化的需求,希望TA能懂外语、解决多任务、回答风格多变等等。
整体来看,基于这些产品设计原则,字节相继推出了豆包、扣子、猫箱、星绘、Dreamnina等满足不同赛道的AI应用。但更多的是想启发使用豆包大模型的企业个人开发者们,让他们构建出更优秀的AI应用。
2024年被视为AI应用的爆发年,无论是OpenAI还是谷歌,都在不断完善自己的AI应用生态。在这样的背景下,AI逐渐渗透到各个生态中的字节,会交出怎样的答卷,值得期待。
更多关于豆包大模型的内容可前往官网查阅:
https://www.volcengine.com/product/doubao