过去几天，AI行业大事件高度密集。

先是OpenAI贴脸开大发布GPT-4o，而后谷歌I/O大会原地回击掏出华丽升级Gemini全家桶。放眼国内AI赛道，备受关注的则是字节终于高调发布豆包大模型家族。

昨天上午，当火山引擎总裁谭待宣布豆包通用模型推理输入价格为0.0008元/千tokens时，现场发出一声整齐的惊叹。

谁能想到，大模型的价格竟然被字节“打下来了”。

谭待由此在火山引擎春季Force原动力大会上宣布，大模型价格正式进入“厘时代”。

这是什么概念?按这个价格，一块钱可以买到豆包模型的125万Tokens，大约200万个汉字。换言之，花一块钱，就能让豆包大模型生成三本《三国演义》。

如果一位内容创作者每次发布的短图文在140-200字左右，那么1块钱，就可以让豆包生成上万篇图文内容。

豆包大模型定价，图片来源:头号AI玩家

在现场，谭待列举了目前主要模型的token价格，顺便调侃“阿里和百度最新的模型暂时没有128k，所以只能参照8k和32k的，但相信他们未来一定会有”。

大模型的价格至此彻底“卷起来了”。

对于这个略显夸张的定价，谭待在会后采访时回应称，背后主要有两个原因:“第一是我们能做到，第二是我们需要这么做。我们在技术上可以实现，火山引擎未来还有很多手段降低成本。”

他认为，当下不少玩家都在做大模型的尝试，但创新的风险成本很高，只有降低试错成本，才能让产品被更多人更广泛地使用起来。

市场的呼声是字节选择降低成本的核心原因。虽然目前来看，超低的定价是否对应真正的性价比，还有待检验。

此外他还补充，字节跳动不会以亏损来换收入，“我们对技术还是有信心的，这是最关键之处，亏损是接受不了的”。

除了掀起AI价格战，字节此次大会还聊了哪些跟AI有关的关键内容，豆包大模型家族具备哪些新特点，我们将在本文展开为大家盘一盘。

字节发布豆包大模型，

直接拿出了一个全家桶

事实上，豆包自去年8月上线后就引起了全网热议，800万个智能体、月活跃用户达2600万、应用总下载量1亿......这些亮眼的数据，让豆包成为国内AI应用的新晋顶流。

目前，豆包大模型已用于豆包App、星绘App、猫箱App、扣子开发平台等字节旗下的AI产品和业务中。

字节试图用一个模型家族，满足各种场景下的用户需求，比如:

1. AI一键化身御姐、奶狗、霸总......

除了AI原本具备的长文本内容理解、文案创作等偏向效率型能力之外，豆包大模型家族此次还加入了角色扮演模型，可以根据人物设定进行演绎，并保持设定一致性。

要知道，角色扮演向来是AI领域的热门赛道，前有Character.ai，后有网友们破解的“Dan”模式，都靠个性化拉拢了一波用户。

那么，豆包角色扮演大模型的效果如何?“头号AI玩家”体验了一把搭载角色扮演模型的猫箱App，其中有不同的角色智能体，囊括了武侠、神话、恋爱、霸总等不同题材。

用户可以选择不同题材的AI故事进行尝试，其中的AI NPC拥有不同的性格，并且会按照相应的人设进行“表演”，会根据我们的回答不同，解锁不同的剧情发展。

在昨天的大会现场，谭待演示了让大模型扮演一个教四川话的老师，在线解答四川话“耙耳朵”。

在角色扮演模型的助力下，用户可以捏出不同的角色智能体，校园、霸总、年下男、御姐信手拈来......

2. 语音识别、合成、复刻，AI情绪表达新阶段

而让角色扮演更真实，语音功能是与AI交互过程中非常重要的一环。像此前让人上头的Dan模式，其语音能力为他“渣男”的形象增色不少。可以说，好的语音交互能够显著提升用户体验。

谭待接受采访时表示，语音做得好不好，对于整个交互体验影响非常大。所以字节在语音上花了非常多的精力。

而此次发布的豆包语音识别、合成、声音复刻模型，让AI情绪表达又上升了一个台阶。

比如，会主动跟我们分享学习到的关于“宇宙”的新知识。如果我们表现出兴奋，那么豆包也会在交流过程中提升音调，传递出喜悦的情绪。

豆包语音功能测试，头号AI玩家，50秒

是不是更像真人了?

大模型能够捕捉用户的情感，再用对应的情感模拟表达出来。谭待还让豆包复刻了自己的声音，并改变了语种，会说英语和日语的“AI谭待”就这样出现在了现场。

豆包App也上线了声音复刻功能，可以创建自己的声音，并生成不同语种的声音分身，再也不怕自己学的是“哑巴外语”。

总的来说，和豆包语音聊天的过程中，你会感受到她在回答、语气和情绪方面越来越像真人。当前，各家科技大厂都奔着打造一个真实世界的“Her”，OpenAI推出的GPT-4o甚至可以视频通话，实时分析使用者的面部情绪，语音可能是未来和AI交互的新趋势。

上述这些只是基于豆包大模型的部分使用场景。字节跳动产品战略副总裁朱骏认为，大模型会变成越来越多的产品，供越来越多用户使用。

根据火山引擎官方数据，经过一年时间的迭代，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，日均处理1200亿Tokens文本，生成3000万张图片。

左手豆包右手扣子，

超级AI工厂雏形初现

此次的原动力大会，尽管句句提及豆包大模型，但字字离不开AI应用。

看起来，在互联网时代有着“超级App工厂”之称的字节跳动，来到AI时代，依然是产品和模型全要抓。

会上，火山引擎还宣布了旗下大模型服务火山方舟全面升级，着重完善插件生态。比如，可以提供抖音丰富视频图文的内容插件。在交互过程中，用户不仅可以获得大模型的文字回复，还能看到抖音的优选视频和图文。可以说，插件可以让字节的内容产品对外提供服务。

同样，火山引擎针对开发者群体，打造了“扣子专业版”。扣子（Coze）是字节直接对标GPTs推出的AI Bot创建平台。如果用户有更复杂的需求，可以在扣子上定制AI原生应用，无需任何代码，就能将各种插件集成到不同的Bot上，并发布到各个渠道。

比如，我们看到市面上已有的分析市场行情Bot、找工作助手Bot、课程辅导助手、实验室助教等等。

此次扣子更新了长时记忆、数据库、文件盒子等功能。在扣子产品经理潘宇扬的演示中，Bot可以记住用户说过的关键信息、喜好、甚至是偶然提到的灵感。

另外，为了满足更多复杂的场景，扣子打破了人和Bot一对一的交流模式，允许用户创建多角色进行互动。也就是说，你和你的多个Bot可以呆在同一个群聊中，接力解决问题、彼此陪伴。

就连最近火热的AI硬件设备赛道，扣子也没错过。潘宇扬现场演示了Bot一键发布到学习机、摄像头、桌面机器人等IOT设备中。

图片来源:特工宇宙;扣子图像流

除此之外，有网友发现字节这两天还悄悄上线了新的工作流——图像流，号称字节版的ComfyUI。其中涵盖了素材获取、素材编辑、素材导出三大环节，能够实现稳定的图像处理流程编排。据介绍，这些新功能预计在未来几个月内推出。

“先用起来再发布”，字节的AI打法

基于豆包大模型家族进行应用形态的探索，寻找更多AI落地场景，先去贴近用户，这或许是字节比较明确的思路。

和其他大模型公司“先发布，再陆续推出应用”恰恰相反，字节是让用户用起来了，再进行全面发布。正如谭待在发布会开头所说，“只有最大的使用量，才能磨出最好模型”。

但“磨”需要时间，AI时代多模态技术迭代是非常快的。值得一提的是，OpenAI和谷歌都在前两天相继更新了自己的模型，作为国内备受关注的大模型企业，字节跳动的豆包大模型家族看上去有些“姗姗来迟”。

在会后接受采访时，谭待也透露了豆包大模型此时才正式发布的原因。

“实事求是讲，OpenAI仍然是全球第一，要承认差距。但是字节跳动的大模型仍然在不断进化。目前不光是豆包大模型能力到位了，也已经有一些最佳实践案例出现，能够告诉大家怎么做AI应用，体验和用户量都在不断提升。”

以使用量来优化大模型的前提是，有足够好用可用的AI应用。越来越多开发者做更多的应用，再反过来驱动技术优化，形成正循环。

字节跳动产品战略副总裁朱骏分享了大模型构建AI应用的产品原则。他认为，第一原则就是拟人化，“用和人类对齐的交互体验，降低AI使用门槛，也让用户感受到温度”。

此外他还提到，“AI应用需要离用户很近，嵌入用户不同的使用环境。能被用户在任何地方唤起，并且帮助用户就近解决任务。比如基于PDF的总结和问答，在编程时就生成代码和注释”。

尽管通用大模型能够满足广泛的任务需求，但用户对于AI Bot依旧有个性化的需求，希望TA能懂外语、解决多任务、回答风格多变等等。

整体来看，基于这些产品设计原则，字节相继推出了豆包、扣子、猫箱、星绘、Dreamnina等满足不同赛道的AI应用。但更多的是想启发使用豆包大模型的企业个人开发者们，让他们构建出更优秀的AI应用。

2024年被视为AI应用的爆发年，无论是OpenAI还是谷歌，都在不断完善自己的AI应用生态。在这样的背景下，AI逐渐渗透到各个生态中的字节，会交出怎样的答卷，值得期待。

更多关于豆包大模型的内容可前往官网查阅:

https://www.volcengine.com/product/doubao

花1块钱就有上万篇内容，新晋AI顶流把价格打下来了

字节发布豆包大模型，

直接拿出了一个全家桶

左手豆包右手扣子，

超级AI工厂雏形初现

“先用起来再发布”，字节的AI打法