ChatGPT研究(三)——AIGC多模态交互功能，奠定多场景商用基础

✏️写作：个人博客，InfoQ，掘金，知乎，CSDN

?公众号：进击的Matrix

?特别声明：创作不易，未经授权不得转载或抄袭，如需转载可联系小编授权。

前言

最近ChatGPT，想必大家已经是耳熟能详了，一度认为ChatGPT的到来是人工智能的奇点到来，那么到底ChatGPT是什么？为什么ChatGPT为代表的人工智能技术不仅受到平民用户的喜爱，还受到资本市场追捧呢？

上篇文章《ChatGPT研究(二)——AI平民化的里程碑》中从技术角度，解读ChatGPT的AI发展和应用，本篇文章将会更多的从商业场景使用中来介绍ChatGPT的应用。

AIGC多模态交互功能持续演化，奠定多场景商用基础

AIGC：利用人工智能产生内容，提升生产力曲线

AIGC: Artificial Intelligence Generated Context，即可以利用人工智能技术自动产生内容，常见如代码生成，文本问答等

ChatGPT已成为AIGC功能矩阵中的重要板块

ChatGPT是AIGC“数字内容智能编辑”功能中的重要组成部分，ChatGPT模型的出现对于文字/语音模态的AIGC应用具有重要意义

✔️ 随着深度学习技术的快速突破以及数字内容的海量增长，AIGC领域相关技术打破了预定义规则的局限性，使得快速便捷且智慧地输出多模态的数字内容成为可能。
✔️ 在技术创新以及多模态模型的持续突破下，AIGC根据功能和对象的不同，按顺序可包括三种主要实用功能: 数字内容孪生，数字内容的智能编辑、数字内容的智能创作。
这三种功能相互嵌套与结合，可以让AIGC产品具备超越人类的创作潜力。而ChatGPT正是AIGC的数字内容编辑这一大功能领域中的重要组成部分。

AIGC相关技术包含了三大前沿能力

数字内容孪生能力构建现实世界-虚拟世界映射

孪生能力包括智能增强与转译技术，其中增强技术弥补内容数字化过程中的信息损失，转译技术在理解基础上对内容进行多种形式的呈现

数字编辑能力打通现实世界虚拟世界交互通道

编辑能力包括智能语义理解与属性控制，语义理解帮助实现数字内容各属性的分离解耦，属性控制则在理解基础上对属性进行精确修改、编辑与二次
生成，最终反馈于现实世界，形成孪生-反馈闭环

数字创作能力从数据理解走向数据创作

创作能力可分为基于模仿的创作与基于概念的创作，前者基于对某一类作品数据分布进行创作，而后者从海量数据中学习抽象概念，并基于概念创作出现实世界不存在的内容

AIGC行业发展经历了三个主要时期

AIGC发展经历了早期萌芽、沉淀积累和2014年之后的快速发展阶段

从分析式AI到生成式AI逐步演化，生成式AI赋予AIGC创新力

生成式AI起源于分析式AI，分析式AI发展过程汇总的技术积累为生成式AI的产生奠定基础

分析式AI其学习的知识局限于数据本身；生成式AI在总结归纳数据知识的基础上可生成数据中不存在的样本
最新生成式AI技术如GAN，Diffusion等，催生多款AIGC产品如:OpenAI系列、DALL·E2(Diffusion)，Starry A.I.(基于GAN)等

AIGC：学习范式更新奠定基础，模型结构升级助力腾飞

人工智能技术推动AIGC行业不断发展，其中学习范式的更新赋予AI模型主动学习能力，模型结构升级提升AI模型学习，归纳与创新能力

AIGC产业链涵盖了从硬件到多类终端应用的广泛领域

AIGC关联产业可分为应用层、模型层、云计算平台与计算硬件层

计算硬件层结合云计算平台为AIGC提供机器学习训练与推理算力，其中GPU与TPU为硬件核心，主要参与厂商包括英伟达(GPU)与谷歌 (TPU)；
云平台参与厂商则包含AWS，GCP，Azure以及 Coreweave;计算硬件层中云计算平台厂商分布稳定，竞争出现于模型层面与应用层面

模型层面，闭源基础模型提供商如OpenAI通过API向用户提供服务，而开源基础模型则通过在托管平台如Hugging Face、Replica公开模型权重。
模型训练其高计算力需求推动了模型层厂商与云计算厂商建立合作关系(如 OpenAI+Azure，GCP+DeepMind。模型层面闭源模型较为普遍，各厂商依靠模型建立技术壁垒。

在应用层面，MidJourney，Runway等自主研发、持有模型;而 Jasper，Github Copilot则通过调用闭源模型商提供的API或采用托管平台共享的模型。

AIGC产业链上下游玩家百家齐放

AIGC上游主要包括数据供给方、算法机构、创作者生态以及底层配合工具等，中游主要是文字、图像、音频和视频处理厂商，其中玩家众多；下游主要是各类内容创作及分发平台以及内容服务机构等

AIGC厂商之间的竞争在于模型层面竞争

追根溯源，AIGC依赖于底层机器学习模型产生内容，因此模型为AIGC行业厂商真正竞争力所在

文本生成产品多依赖GPT系列模型，自己训练的模型在图像/视频模态产品中较为普遍(图像/视频模态产品通常拥有自己训练的模型，而不是如文本模态调用OpenAI提供的模型服务)

比较而言，OpenAI依靠模型建立先发竞争优势，技术到产品转化相对亮眼

AIGC取长补短，有望成为主流内容生产模式

AIGC所属内容生产生态的发展经历了专家生产内容(PGC)、用户生成内容(UGC)、AI辅助生产内容、AI生产内容 (AIGC)四个阶段，目前处于一、二阶段为主，第三阶段为辅的境况 AIGC克服PGC与UGC存在的质量、产量无法兼具的缺点，其有望成为未来主流的内容生产模式

AIGC生成技术可按模态进行分类

AIGC根据其内容模态不同可分为文本、视频、图像，音频与跨模态生成

AIGC不同模态对应着各种生成技术及应用场景

AIGC不同模态对应的技术应用场景也有着各自的细分品类

AIGC文本生成技术场景可分为交互式和非交互式

AIGC非交互式文本生成技术中，结构化写作其形式相对固定，生成难度较小，商业化应用较为广泛；而创作型写作开放性较大，在长文本生成中难度较大，仍需技术进一步发展随着通信互联网技术发展，线上社交需求快速增长，如闲聊机器人等交互式文本产品将迎来快速发展

AIGC文本生成技术商业化落地有望优势先发

文本领域预训练大模型技术成熟，文本领域细分垂类较多，产品数量居首位，模型数量发展超过其他模态技术数字内容中，文字模态数据远大于图片/视频/音频等，发展前景相对较大基于GPT-3的文字生成功能已嵌入如Writesonic、Conversion.ai、Copysmith等软件中，商业化前景相对清晰

AIGC图像生成技术随着模型结构的优化而明显提升

模型结构不断进化提高了AIGC生产图像的多样性，但要求较高的功能实现还有待于技术的进一步提升

“图像编辑” 难度低于“图像生成” 与“2D-3D” 转换，目前已存在多款产品支持“图像编辑” ，而对于“图像生成”任务，由于图片相
较包含更多元素，其生成效果仍存在不稳定性，对于要求较高的功能类图像生成仍需要技术上的提升

AIGC音频生成技术正朝更富情感等人类特征演化

文本到语音任务已比较成熟，语音质量已达到自然的标准，未来将朝更富情感、富韵律的语音合成以及小样本语音学习方向发展

音乐生成任务中仍需解决音乐数据难以标注的问题，数据标注其颗粒度大小影响音乐生成任务的可控性。若可控性得以解决，则可指定风格、
情绪等因素的音乐生成任务有希望在影视、游戏等场景下的到大量应用。

视频生成为AIGC应用生态中的高潜力场景

视频生成本质上与图片生成类似，通过对视频进行帧数级别的切割，实现对每一帧的处理

视频生成过程包括三个阶段:数据的提取、训练和转换，当前技术正在着重提升视频修改精准度和实时性两个维度。鉴于视频本身的文本、图像和音频的综合属性，
视频生成也是跨模态生成领域的重要应用场景。

跨模态生成技术是真正实现认知和决策智能的转折点

现实世界的信息是文本、音频、视觉、传感器以及人类各种触觉的综合体系，要更为精准地模拟现实世界，就需要将各种模态能力之间打通，例如文字-图像、文字-视频等跨模态生成能力

大型预训练模型的发展使得跨模态逐步成熟，“文本-图像” 生成正在快速落地，“文字-视频”的实验效果也已较为理想(视频时长、清晰程度、逻辑等还有较大提升空间)。

AIGC改变数字内容生产模式

AIGC作为新的内容生产模式，其具有内容多样，可控性强与生产效率高的优点，符合传媒，电商，影视，娱乐等行业对内容数字化程度高、内容多样以及内容更新快的要求，AIGC在以上行业逐渐替代传统内容生产模式的趋势十分显著

AIGC渗透传媒领域各个环节

AIGC技术逐渐渗透传媒领域包括采集、编辑、传播等环节，有助于加快内容生产效率，提高内容质量，扩宽内容影响力

AIGC化2D为3D，拓展电商展示维度

AIGC 2D图像生成3D模型技术为传统电商提供多维度的展示空间虚拟合成主播为客户提供更及时、可靠、亲和的服务体验

AIGC打破传统娱乐体验边界

AIGC技术打破物理边界，使粉丝可与偶像亲密互动，并形成新的发展点 AIGC为用户打开虚拟世界入口，通过趣味方式体验虚拟世界

AIGC拓宽影视行业创意边际

AIGC技术以其内容多样性为作品内容带来更多灵感 AIGC技术帮助拍摄突破物理限制，还原剧本效果，提高作品质量

AIGC促进各行业转型升级

AIGC技术在各行业数字内容相关领域均有发挥空间

最后欢迎大家点赞、收藏、评论，转发！

欢迎大家关注我的微信公众号！随机分享无用的计算机知识，

微信搜索：进击的Matrix