清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到Sora级别的视频大模型，标志着中国在视频生成技术领域的重要进展。

Vidu的主要特点和技术创新包括:

模型结构: Vidu采用了创新性的U-ViT架构，该架构融合了Diffusion（扩散）与Transformer技术。

视频生成能力: Vidu能够一键生成长达16秒、分辨率高达1080P的高清视频内容，满足长视频内容的生成需求。

实际应用演示: 官方资料中的一个视频示例展示了“画室中的一艘船驶向镜头”的场景，船和海浪的逼真效果体现了Vidu的强大生成能力。

高级功能: Vidu不仅能够模拟真实物理世界，还具备丰富的想象力，支持多镜头生成和高时空一致性，为视频创作提供了更多可能性。

技术先进性:

全球首创: Vidu的U-ViT架构是全球首个将Diffusion与Transformer融合的架构，早于其他类似模型使用的技术。

开源成就:2023年3月，团队开源了基于U-ViT架构的多模态扩散模型UniDiffuser，这是全球首个此类模型，验证了U-ViT架构的大规模可扩展性。

产品入口:https://top.aibase.com/tool/vidu