来源|晨山资本
作者|吴文超
晨山资本副总裁,主要关注底层技术创新、人工智能和信息安全等领域。曾主导并参与了优锘科技、达观数据、雪浪数制、摩尔元数、LinkedMe、富数科技等多个企业的投资。在加入晨山资本之前,吴文超曾就职于明略科技集团,从事大数据研发工作,任高级研发工程师。
随着 5G 大带宽网络时代的到来,人们对更具有视觉表现力的数字内容越来越渴望。传统数字内容的生成效率已成为新时代的瓶颈。作为下一个探索热点,「AI 自动化内容生成」激发了大量行业需求,也让我们看到了人工智能技术新的引爆点。
自动化内容生成并不是第一天诞生。但过去的 2D/3D 非结构化内容生成效果不尽人意,而且遗留了很多历史问题给创业者去解决。近年来,AI 在 CG 领域的应用,尤其是若干革命性模型的提出,给整个方向带来全新思路,其影响还在持续发酵中。但技术终将服务于商业。我们也看到,AI 内容生成技术正在各类显性的商业场景中落地,创造越来越多的现实价值。
本文将阐述 AI 与内容生成的发展现状,探究目前技术的难点和机会,同时也会带大家从不同角度看未来的商业价值,欢迎行业内的公司一起来探讨。
自动化内容生成并不是第一天出现
2022 百度世界大会上,百度首席技术官王海峰展示了利用 AI「补全」《富春山居图》让历史画作重现当代。风格与现存真迹的一致程度也让专家大为震撼。
▲ 浙江博物馆馆藏《富春山居图·剩山图》局部(左),台北故宫博物院馆藏《富春山居图·无用师卷》局部(右)
▲ AI 补全《富春山居图》并题诗(上图红框处)
李彦宏在大会上分享了 AIGC(AI Generated Content)将走过的三个发展阶段:
第一阶段是「助手阶段」,AIGC 辅助人类进行内容生产;第二阶段是「协作阶段」,AIGC 以虚实并存的虚拟人形态出现,形成人机共生的局面;第三阶段是「原创阶段」,AIGC 将独立完成内容创作。
AIGC 这个词听上去比较时髦,但自动化内容生成并不是个很新的概念。利用计算机辅助人类进行内容生产其实很早就出现,比如在计算机编程领域 IDE 的代码提示、使用 Office Word 编辑内容的错误修正,到后来利用 NLG 自动化文本生成等都可以算作这个范围。
近年来,承载内容的媒介越来越丰富,从最早的文本到图文、视频到 3D 内容。同时也带来了对内容快速生产的更大诉求,激发了大家持续探索自动内容生成的动力。深度学习的出现和发展,进一步带来了从 CV(Computer Vision)延展到 CG(Computer Graphics)领域的各种新尝试。让传统的通过规则、数据的富媒体内容生成方法逐步延伸到基于深度学习的内容生成。这也是目前大家狭义理解的 AIGC 概念。
2D/3D 非结构化内容生成更具有挑战性
数字内容的载体越来越丰富,针对各种形态的 AI 内容生成的研究也越来越多,包括文字的 NLG(自然语言生成)、图片/视频的自动风格迁移和生成、通过点云/图片信息自动生成 3D 内容等。本文更加关注和深度学习算法更加契合也更有视觉表现力的「2D 和 3D 非结构化内容生成」。
2D 内容生成
毋庸置疑,2D 最常见的表现形式是图像,视频本质上是多帧的连续图像。
传统的 2D 图像生成的主流方式是通过摄像头拍摄的方式物理采集实景图片,或者通过 Photoshop 等设计/绘图工具绘制数字图片。实景拍摄图片受限于环境、光照和拍摄技术等因素,导致优质图片的生成难度较高。而数字图片更多是体现作者的绘画和美术功底。
如何通过既有素材快速且批量生产可用优质图片,也是近年来 2D 内容生成的重要研究方向,而这里面大放异彩的深度学习算法莫过于 GAN(对抗神经网络)。
3D 内容生成
3D 内容生成更加复杂。要理解 3D 内容生成,首先可能还是得明确下什么是 3D 内容。
D 是 dimension 的缩写,顾名思义,3D 是指物体本身的 3 个纬度(X-Y-Z)。在物理世界比较好理解,大家能看到的空间中所有物体都是三维的,因为我们的空间就存在 XYZ 三个纬度。
但在 2D 平面的计算机世界 3D 又该如何理解?
其实很简单,以我们常见的 3D 建模软件为例,我们建立的模型虽然是在 2D 屏幕上呈现,但你可以按照计算机设定的 XYZ 三个坐标轴进行移动(Move、Rotate、Scale)来从各个角度看到物体的各个面。所以多角度的概念才是我们通常理解的 3D 数字内容。
如果要在体验上有真正的 3D 感,需要突破 2D 屏幕的限制,那就只能等待 AR/VR、全息显示等新交互设备的发展了。