智谱清影做“Stable Diffusion”，生数科技做“Midjourney”？

原创：亲爱的数据谭婧

以为夏天很长，

转眼就立秋了，

只要你在正确的方向上投入，

就别担心收获。

截止目前，

国产人工智能生成视频赛道，

两大功能（文生视频，图生视频）

和四大厂商，已经集齐了。

我更愿意聊前三，

快手可灵，智谱清影，生数科技Vidu。

这个赛道，

前三之后，

不用看了。

01.可灵，稳了

按照时间线讲，

生数科技的Vidu释放了一个现象级的视频（产品效果Demo）。

然后就没有然后了，

一目了然是产品没有跟上，

或许模型也还需要打磨。

虽然拉了一大波关注度，

但是泼天的流量没有接住。

好消息是技术的实力，

都被圈内人都看到了。

科技产品的难处就在于，

当你领先后，

你要持续领先。

可惜，

没有等来Vidu，

快手可灵爆发了。

这一把快手万鹏飞笑出了声，

一看抖音，

没有同款功能，

笑得更大声了。

早先的时候，

我在快手做了个

“手把手教你如何申请可灵的视频”，

后来这个视频爆了，

留言量一天增一堆，

每天都有用户吐槽申请人数，

翻留言成了乐趣，

快手可灵用户“涨粉”的每个阶段，

我都见证了，

也难怪，

我排队的时候是53930人，

而7月19日的时候，

有用户留言，

排队数量喜提100万以上了。

几天后，

无需申请，

全面放开。

显而易见，

快手在AI视频技术突破后，

在原先的用户基础上，

狠狠地给可灵带来了，

知名度，美誉度和付费用户。

不是我夸，

用快手可灵生成的和“吃”相关的视频，

效果真很好。

至此，快手可灵团队，

在整个快手技术界，

横着走了，

可灵团队成员也成了猎头眼里的香包包。

有的团队，

拢共几张破卡，

有的团队，

一堆顶配卡。

还好没有让人嫉妒得面目全非。

技术，产品，用户，

三位一体，

出道即巅峰。

至此，

快手可灵，稳了。

这是一个痛快的胜仗。

如果竞品再不发布，

可灵将一统江湖。

没有竞争对手的梦，

总会被清晨的闹钟吵醒，

继续睡也没有用。

挑战者杀到，

智谱清影上线6天百万任务生成量，

生数Vidu生成量紧追其后。

不过，声量上，

可灵依然吊打了两家清华系的创业公司。

有图为证：

02.智谱CogVideoX开源

2024年8月6日，

开源宇宙（Github）里，

THUDM仓库“上新了”。

也就是说，

智谱清影的基座模型开源了。

开源细节我后面讲，

我先讲观察结论：

拿文生图的两大巨头打个比方，

这是一个比方，

智谱清影想做Stable Diffusion，

生数Vidu想做Midjourney。

这标志着这类AI产品的成熟化节奏加快。

一个产品在早期，

往往按照未经实践，

全凭设想的逻辑发展，

能做什么，

擅长做什么。

随着竞争越来越激烈，

在同一赛道的同类产品中，

难免同质化，

产品的发展不得不自我约束，

发展出特色定位，

形成各自成熟的产品定位。

而今看来，

智谱和生数都将这个过程尽力缩短，

这也是将技术转化为产品这一能力日渐成熟的体现。

我知道这样一个情况：

CogVideoX（姑且就叫智谱清影的底座），

很早就决定开源，

至少，我很早就知道了，

小圈子里，

大约一个月前就知道这件事了。

如果不信，

可以去找智谱公司的员工去确认。

你甚至还可以确认一下，

智谱的创始人和生数的创始人，

是不是好朋友。

从开源闭源的决策时间点上，

就能看出来，

智谱清影和生数Vidu，

各自路线非常清楚。

软件的世界里，

开源和闭源软件并存的模式，

是行业成熟的标志，

就像苹果iOS和安卓在移动操作系统领域的竞争一样。

开源和闭源有益竞争，

谁强就跟随谁，

谁强就谁引领，

最后受益的是用户和所有参与厂商，

为用户提供了更多样的选择。

给企业间提供更多的竞争选择。

这比同质化，

一顿乱内卷要好得多，

专业得多。

卷出了质量，

卷出了境界。

这里确实要给智谱点赞。
不过，很遗憾，

这里有个误会，

是智谱公司传播工作失误，

原因是对开源技术社区缺乏了解。

自古以来，

就有“老二开源”

或者“打不过才开源的惯例”。

开发和算法人员默认，

你“大方”开源的原因是，

你不是第一。

等到所有的竞品都发布了，效果不如竞品，

所以，才开源？

误解智谱开源是“打不过”，

那真是天大的冤枉。

这对技术品牌来说是一种伤害。

毕竟，我的解释是有限的。

从公司层面就应该良好规划，

产品上线和开源应该设定为同一天，

哪怕开源工作还没有准备好，

可以提前在THUDM里面把READ ME放出来。

反正距离发布也没有差几天。

但是区别在于，

你是早早想开源，

还是

所有的竞争对手都发布了，

一看水平不行，

做不了第一，

那就开源吧。

白白让别人误会。

这将带给公司开源负面口碑。

另外，有人还说智谱是OpenAI，

这是高级黑吗？

智谱开源开得非常凶猛，

OpenAI可是鼎鼎大名的CloseAI。

世界上除了夸中国人工智能企业像OpenAI，

就没有别的赞美之词了吗？

谭老师我非常鼓励视频生成技术开源，

该技术非常前沿，

开源所创造的价值更大，

能极大促进地技术的推广与进步，

想普及，开源是重要一步。

从经济角度讲，

我推测智谱会在这类产品的部署服务上抢到一些量，

但也会引入新的玩家，

对很多不能上手AI视频生成技术的企业，

哪怕仅看开源细节，

也是一种学习。

从这个角度上，

对生态里的所有企业都有益处。

这次开源，无疑是慷慨的。

这种慷慨不仅体现在技术层面，

也体现了开发者的一种开放、共享的理念，

希望能够推动整个技术社区的发展。

开源细节

实际上，

现在有CogVideoX和CogVideo，

两个版本开源代码，

其中CogVideoX是一个系列，

推测后面还会以后版本放出来，

均为文本到视频生成模型这个类型，

就目前的两个版本，

较早的模型版本是2023年的CogVideo

（顶级学术会议ICLR 2023），

2024年8月开源的CogVideoX-2B，

是更高级的模型版本，

也是CogVideoX系列中的首个开源模型。

具体参数要求包括至少18GB的GPU内存，

和720 x 480的视频分辨率。

目前CogVideoX-2B 模型，

不支持量化推理和多卡并行推理，

但这些功能有望在未来实现。

伴随着这次开源，

前三强的的市场区隔也更加明显。

虽然此前也细分了地域市场。

生数Vidu在发布那天就说了，

产品是全球上线，

会更重视海外市场，

产品Vidu没有中文名，是英文We do的同音词。

而智谱清影暂时没有听说进军海外市场的动静。

03.商业化

这类AI视频模型公司的商业化主要分为两块，

第一，美术或视频创作背景的专业用户，

走平台订阅的方式；

也就是是大C的订阅。

比如，动画制作的厂商，

各类传媒大学动画与数字艺术学院背景的工作室，

再比如，谭老师的公众号就是工作室

对于像我们这种常年投入IP建设的团队来说，

只要视频（动画）效果好，

肯定有付费意愿，

痛点就是有漫画做不了视频

原因是纯手绘费用太过高昂，

现在有这个可能了，

不过，性价比仍要摸索。

早先，谭老师有幸预先使用了Vidu，

对IP漫画变成视频的功能比较满意，

还剪辑在了自己视频里，

可能大家都没有留意。

（视频前几秒，为漫画IP生成的动画片）

没有留意是好事情，

难不成过来吐槽我，

谭老师你这个视频素材太差了，

AI一眼假。

那就不能用了。

想做视频的专业用户，

需要自己进行测试，

以用量来换对产品的理解，

确定到底适合哪个产品。

第二，把API接入到自有的专业产品平台上，

比如广告投放平台，

以调用的方式，

以更低的价格来获得更大量的生成次数，

来批量生成视频物料，或者广告物料。

这种属于B端机构调用API。

这类用户，有一篇文章可以参考，

就是腾讯的广告平台，

他们已经把文生图功能嵌入了。

腾讯混元大模型“干”广告创意：那我走，都让AI来？

余下的就是普通用户，

俗称老百姓。

老百姓修图是刚需，

但是视频生成的使用频率没有修图改图类的高。

不属于持续付费的用户。

04.谁家效果好

到底谁家的效果（技术）好呢？

一言以概之就是，

各有千秋。

有人可能说我和稀泥，

实际情况就这样，

各有擅长。

某种程度上，

智谱清影和生数Vidu，

难分伯仲。

凭什么这么说呢，

凭我对这两款产品的对比测试，

搞了30个小时左右，

累得不行，

还拉了一个人帮我一起搞。

据我所观察，

智谱清影更重视“美”和“酷炫”“精致”维度，

而生数Vidu则在提示词理解上有优势。

智谱清影在一些特有的中国元素的生成上很强

比如像丹顶鹤这种中国特有的动物。

Vidu对动作的理解好，

视频动幅大，动漫效果好。

风格画方面两者都需要比较好的提示词。

“亲爱的数据”视频号中的例子里有一个，

“一个男孩变身成为超人，

画出变身前后的过程”

我所设计的提示词重点是“过程”，

我不管你变身是冒白烟，

还是刮龙卷风。

哪怕是《聊斋志异》里的妖怪出场，

我就是要这个过程。

结果，在“过程”这件事情上，

Vidu效果好，

超人全身被蓝色光波笼罩，

很酷很炫，

可是智谱清影的“美感”也很强呀，

很好看，

虽然它没有“变身”过程。

但是你看超人自带背景光，

而且光线自然。

不过，

智谱清影的超人是个“成年人”。

它可能没有理解“男孩”。

但是三家的美感，

都不错。

夸完就该批评了，

价格策略真的是一言难尽，

不信可以自行对比，

价格都是公开的。

产品刚上市，

虽然都有一些优惠，

都是体验送积分的形式。

但是，快手可灵和生数Vidu都好贵，

生数Vidu甚至比快手可灵更贵，

生数Vidu打五折后，

才在月度费用上和快手可灵打个平手，

而智谱清影在打骨折，

199元高级会员用一年。

我合理怀疑在亏本卖，

因为现在的算力资源实在很贵。

04.

最后聊聊手机厂商，

手机依然是三大超级入口之一，

据我所知，

智谱和生数科技的高管都和荣耀高层都接触了，

AI视频生成的技术壁垒太高了，

我不相信国产手机厂商，

能够深入到如此基础的技术领域去，

荣耀终端有限公司产品线总裁方飞，

最近就在内部的会议上说，

把人工智能做好，是现在迫切的事。

手机厂商卷得也很厉害。

他们希望AI文生图，

文生视频，

能带来新的产品亮点。

感谢硅谷闯出了道路，

给国产AI视频启发与借鉴。

如今，这项技术中的很多原创工作我们也搞得定。

不过现在八方风雨，

讲这句话特别要加一个时间节点，

在2024年8月，

在Sora还没有发布新产品的时候。

毕竟，

还不知道，

Sora后面要搞点啥新玩意。

更多阅读：

《作者直到最近才费劲弄清楚的……》

1.是时候发力AI推理了，吴恩达都说需求远超想象

2.AI推理红海战：百万Token一元钱，低价背后藏何种猫腻？

3.质疑美国芯片Etched：AI领域最大赌注的尽头是散热？

4.机会在哪？原理是啥？哈佛辍学融资1.2亿造AI芯片

5.Llama 3.1模型有4050亿参数量，还是保守了？

长文系列

1. 2023年终盘点：图文大模型编年简史

2. 跳槽去搞国产大模型，收入能涨多少？

3. 大模型下一场战事，为什么是AI Agent？

4. 假如你家大模型还是个二傻子，就不用像llya那样操心AI安全

5. 指令数据：训练大模型的“隐形助力”

6. 对话百度孙珂：想玩好AI Agent，大模型的“外挂”生意怎么做？

7. 再造一个英伟达？黄仁勋如何看待生物学与AI大模型的未来？

8. 科大讯飞刘聪：假如对大模型算法没把握，错一个东西，三个月就过去了

9.美国AI芯片公司“赢”大模型？Samba-CoE v0.2超过多个业界知名对手

10.美国玩大模型那帮人：好几万卡集群+超级节点

11.如何辨别真假“AI刘强东”？10亿参数，数字人实时生成视频

漫画系列

1. 搞掂大模型，如何榨干每一滴算力？

2. 大模型用于腾讯广告，难在哪？

3. 卷大模型开源，正确姿势是什么？

4. 腾讯混元大模型“干”广告创意：那我走，都让AI来？

5. AI大模型技术路线之争：你可以信仰多模态，也可以无视多模态

《我看见了风暴：人工智能基建革命》，

作者：谭婧

总结

大模型 ide ai视频视频生成人工智能文生图提示词生成视频 2024 openai 广告创意 ai视频生成 ai agent 商业化混元大模型生成技术创始人 ai推理竞争对手技术社区