AIGC：自动化内容生成，AI 的下一个引爆点？

来源｜晨山资本
作者｜吴文超

晨山资本副总裁，主要关注底层技术创新、人工智能和信息安全等领域。曾主导并参与了优锘科技、达观数据、雪浪数制、摩尔元数、LinkedMe、富数科技等多个企业的投资。在加入晨山资本之前，吴文超曾就职于明略科技集团，从事大数据研发工作，任高级研发工程师。

随着 5G 大带宽网络时代的到来，人们对更具有视觉表现力的数字内容越来越渴望。传统数字内容的生成效率已成为新时代的瓶颈。作为下一个探索热点，「AI 自动化内容生成」激发了大量行业需求，也让我们看到了人工智能技术新的引爆点。

自动化内容生成并不是第一天诞生。但过去的 2D/3D 非结构化内容生成效果不尽人意，而且遗留了很多历史问题给创业者去解决。近年来，AI 在 CG 领域的应用，尤其是若干革命性模型的提出，给整个方向带来全新思路，其影响还在持续发酵中。但技术终将服务于商业。我们也看到，AI 内容生成技术正在各类显性的商业场景中落地，创造越来越多的现实价值。

本文将阐述 AI 与内容生成的发展现状，探究目前技术的难点和机会，同时也会带大家从不同角度看未来的商业价值，欢迎行业内的公司一起来探讨。

自动化内容生成并不是第一天出现

2022 百度世界大会上，百度首席技术官王海峰展示了利用 AI「补全」《富春山居图》让历史画作重现当代。风格与现存真迹的一致程度也让专家大为震撼。
▲ 浙江博物馆馆藏《富春山居图·剩山图》局部（左），台北故宫博物院馆藏《富春山居图·无用师卷》局部（右）

▲ AI 补全《富春山居图》并题诗（上图红框处）

李彦宏在大会上分享了 AIGC(AI Generated Content)将走过的三个发展阶段：

第一阶段是「助手阶段」，AIGC 辅助人类进行内容生产；第二阶段是「协作阶段」，AIGC 以虚实并存的虚拟人形态出现，形成人机共生的局面；第三阶段是「原创阶段」，AIGC 将独立完成内容创作。

AIGC 这个词听上去比较时髦，但自动化内容生成并不是个很新的概念。利用计算机辅助人类进行内容生产其实很早就出现，比如在计算机编程领域 IDE 的代码提示、使用 Office Word 编辑内容的错误修正，到后来利用 NLG 自动化文本生成等都可以算作这个范围。

近年来，承载内容的媒介越来越丰富，从最早的文本到图文、视频到 3D 内容。同时也带来了对内容快速生产的更大诉求，激发了大家持续探索自动内容生成的动力。深度学习的出现和发展，进一步带来了从 CV(Computer Vision)延展到 CG(Computer Graphics)领域的各种新尝试。让传统的通过规则、数据的富媒体内容生成方法逐步延伸到基于深度学习的内容生成。这也是目前大家狭义理解的 AIGC 概念。

2D/3D 非结构化内容生成更具有挑战性

数字内容的载体越来越丰富，针对各种形态的 AI 内容生成的研究也越来越多，包括文字的 NLG（自然语言生成）、图片/视频的自动风格迁移和生成、通过点云/图片信息自动生成 3D 内容等。本文更加关注和深度学习算法更加契合也更有视觉表现力的「2D 和 3D 非结构化内容生成」。

2D 内容生成

毋庸置疑，2D 最常见的表现形式是图像，视频本质上是多帧的连续图像。

传统的 2D 图像生成的主流方式是通过摄像头拍摄的方式物理采集实景图片，或者通过 Photoshop 等设计/绘图工具绘制数字图片。实景拍摄图片受限于环境、光照和拍摄技术等因素，导致优质图片的生成难度较高。而数字图片更多是体现作者的绘画和美术功底。

如何通过既有素材快速且批量生产可用优质图片，也是近年来 2D 内容生成的重要研究方向，而这里面大放异彩的深度学习算法莫过于 GAN（对抗神经网络）。

3D 内容生成

3D 内容生成更加复杂。要理解 3D 内容生成，首先可能还是得明确下什么是 3D 内容。

D 是 dimension 的缩写，顾名思义，3D 是指物体本身的 3 个纬度(X-Y-Z)。在物理世界比较好理解，大家能看到的空间中所有物体都是三维的，因为我们的空间就存在 XYZ 三个纬度。

但在 2D 平面的计算机世界 3D 又该如何理解？

其实很简单，以我们常见的 3D 建模软件为例，我们建立的模型虽然是在 2D 屏幕上呈现，但你可以按照计算机设定的 XYZ 三个坐标轴进行移动(Move、Rotate、Scale)来从各个角度看到物体的各个面。所以多角度的概念才是我们通常理解的 3D 数字内容。