AIGC时代下阿里云视频云媒体内容生产技术实践

编者按

AIGC时代下，媒体内容生产领域随着AI的出现也涌现出更多的变化与挑战。面对AI的巨大冲击，如何优化或重构媒体内容生产技术架构？在多样的应用场景中媒体内容生产技术又有着怎样的实践效果？LiveVideoStackCon2023深圳站邀请到阿里云智能资深技术专家邹娟，与大家分享阿里云视频云的媒体内容生产技术实践。

文/邹娟

整理/LiveVideoStack

大家好，很荣幸来到LiveVideoStackCon和大家分享阿里云视频云媒体内容生产技术实践。

本次分享分为四个部分：

分享AIGC时代下阿里云视频云媒体内容生产的技术架构；

媒体底层需要将多种AI能力与媒体处理能力融合起来，这部分将介绍AI与媒体处理融合的一体化媒体引擎关键技术；

AIGC在阿里云视频云媒体内容生产服务的应用场景和技术实践

未来展望

AIGC时代的

媒体内容生产技术架构

首先给大家分享阿里云视频云媒体服务的顶层架构设计，这为AIGC的快速落地奠定了基础。媒体服务整体架构分三层。

最底层是云原生底座，阿里云视频云构架在分布式云原生框架之上，视频云与我们的客户一样，自身也是云的使用者，可以获得云计算IaaS层弹性、按需按量、规模化的红利。

中间层为媒体基础层，即媒体服务的底层技术核心。

这一层分为三个部分：左侧的算法区域包括音视频编解码与增强算法、特效渲染算法、视觉AI算法、3A算法等。中间的媒体引擎是执行各类媒体处理任务、AI任务的发动机，负责集成算法及工程优化，设计统一的媒体处理框架，实现媒体处理Pipeline的高质量运行。最右侧为媒体计算调度，与媒体引擎紧密配合，把不同类型的媒体任务调度到最合适的集群和机器上，形成性能、画质、成本的综合最优解。

顶层为阿里云视频云提供的PaaS媒体服务——PaaS服务层，媒体服务PaaS以媒体内容生产为核心，其产物自然也是媒体内容消费的输入。例如转码输出的多格式多码率文件/流，大多为播放服务。PaaS服务层的模块划分思路即按照音视频生产消费的数据流向及模块依赖关系，划分为音视频采集-媒体处理-生产制作-媒资管理-媒体消费5个部分，其中“媒体汇聚”代表入方向，“媒体消费”代表出方向，“媒体处理”和“生产制作”用于媒体数据的内部处理和二创，“媒资”则是媒体数据/业务流程/生命周期策略管理的底座。

早在2017年，阿里云视频云就提供了视频AI相关服务，比如智能封面、视频DNA、智能审核等，那时这些服务以原子能力的形式提供，独立于视频云的媒体处理、生产制作、媒资服务之外。但随着AI能力的丰富，很多AI服务的输出产物就是音视频（比如视频集锦），或者需要与媒体处理同步进行才能有更好的效果（比如视频旧字幕擦除后叠加新字幕）。

因此技术架构迭代的第一步就是考虑媒体底层的AI能力融合。AIGC时代，媒体底层需要灵活融合各种AI能力，这种融合并不是业务层工作流的Activity编排，这样一般会引入多次编解码，带来画质与性能的损耗。我们选择把AI处理直接融入音视频处理pipeline，在Frame层面做最细颗粒度的编排。

回归到媒体业务流本身，在AI时代下，媒体服务PaaS可以在哪些方面优化？其实媒体业务流本身没有太大变化，变化的核心是使用了AI，希望AI能够模拟人类的思维，包括理解人的意图以及正确执行人的指令。当技术发展到一定程度，AI可以模拟人类的思维模式，场景就会被重构。阿里云视频云技术架构的迭代也会围绕这一思路展开。

阿里云视频云媒体内容生产技术架构在AIGC时代的迭代，也将从内容生产的三驾马车--媒体生产制作、媒资管理、媒体处理三个板块开展。

生产制作板块，我们的迭代方向是从单个制作环节使用AI技术转向全智能制作。除创意依赖人之外，AI可以参与到生产制作的其他环节，包括素材的挑选和生成、时间线的制作编排、以及效果渲染的大模型算法优化。

媒资板块的传统实现需要较多人工投入，例如专业媒体机构的编目软件需要大量人工编目数据录入的工作，阿里云视频云设计的新一代媒资系统能够像人一样理解媒资内容，使用自然语言进行搜索与管理，并为下一步的挖掘与图谱分析打下基础。

媒体处理的迭代方向聚焦于效果的极致优化。媒体处理可以抽象为单入单出的模型，基于此模型实现最大程度的效果优化，包括高清晰度的增强场景，低清晰度的重生场景，使用音频的双声道设备获得全景声或环绕声效果的场景等。

文章前面提到，媒体任务的最终执行会收口到媒体引擎层，这需要媒体引擎把AI处理融入媒体处理Pipeline。随着AI能力的日渐丰富，阿里云视频云的媒体引擎也进行了架构优化与技术升级，在AIGC爆发前完成了媒体底座的迭代，成为融合AI与媒体处理的一体化媒体引擎，为视频云快速引入并落地大模型算法节约了时间，接下来将分享一体化媒体引擎的关键技术。

融合AI与媒体处理

一体化媒体引擎关键技术

大模型的引入带来庞大的算力消耗，对媒体引擎性能的挑战尤为突出，我们设计的高性能智能媒体引擎的要点总结为以下三个方面：

第一，架构方面，做分布式处理，提高多机并行。这里的分布式处理并非表示将海量任务分布式调度到不同机器，而是指单个任务的分布式处理架构。当任务的复杂度较高时，将其不同环节分散到不同的机器上，解决单机无法满足任务算力的问题，或者任务的特定环节需要指定机型的问题。

第二，进程方面，统一pipeline。视频云的ToB模式，要求我们支持不同客户的多种场景和应用，统一pipeline可以减少各场景的计算冗余，同时对底层算法库和媒体处理框架的统一则让引擎层执行不同任务具有更好的鲁棒性。

第三，算法方面，阿里云视频云实现软硬一体的优化，通过CPU、GPU以及AISC编解码加速，支持云上各时期的多种机型规格，同时从算法和工程两个维度优化单帧处理性能，在大模型算力紧张的时代最大程度的利用现有算力。

以单任务分布式处理——超高清视频AI处理为例，1080P超分到4K使用了深度学习算法，那么将该任务调度到高配GPU机器上运行，可能会导致机器的CPU空闲而不利于资源的整体利用。阿里云视频云的媒体引擎支持对单任务进行分布式处理，可以将解码、前处理、编码、Merge放在不同的机器执行，也可以将单任务切片成多个子任务再进行分布式处理。比如超分处理可以放在GPU的机器上，解码、编码以及Merge可以调度到另外的集群，对于是帧级别传输的场景，媒体引擎会在pipeline内部进行媒体数据的YUV交换和无损压缩，从而实现单任务多环节计算资源的最优搭配。

媒体引擎会接收到各种各样的媒体计算任务，接上一个技术点“单任务的分布式处理”继续探讨，如何判断哪些任务需要走分布式，哪些任务单机执行反而效率最高呢？阿里云视频云媒体引擎设计并实现了Worker-Brain决策大脑，对单任务消耗的资源做精准预估，自动判断进程和算子所需机型，对任务是否切片和算子编排流程进行决策，同时在任务执行时自动根据算法复杂度进行升降机，消除cpu毛刺，实现稳定性自保护机制。

另外，阿里云视频云在媒体引擎层统一了媒体处理任务框架。由于直播、点播、生产制作以及云剪辑等业务的发展阶段不一样，存在算法依赖库不统一或版本不一致的历史问题。媒体引擎将自研算法依赖版本进行了统一，用相同的媒体处理框架支持不用的任务类型，甚至在一些版本上实现云和端的统一。宏观来讲，阿里云视频云将各种业务资源并池，不同的业务共用异构的资源池，资源池之间也可互备来保证整体服务的稳定。

这是综合应用“单任务分布式处理”和“Work-Brain智能决策”的全智能媒体处理引擎实践，以“数字人抠像并且将其与云剪辑融合”的场景为例，左边是素材和时间线涉及的原材料，时间线可能需要对素材做ASR，同时还存在数字人的生成与同步、人声克隆、抠像背景替换、画质增强等要求。整个任务相当复杂，且涉及多个算子，通过Worker-Brain进行资源评估后，该任务既需要将pipeline的不同环节拆到不同的机型执行，进行单任务分布式处理，也需要将长视频切片，对任务进行并行处理。而另一个标准转码任务（比如单入单出1080p 264转480p 264）经过Worker-Brain决策后，在单机完成整个任务的执行是最优的。

最后分享软硬一体的异构计算。CPU加速相对比较传统，涉及多线程的帧间优化、帧内优化、指令集优化以及数据读写优化。结合到AI异构场景下，经常需要考虑CPU与GPU之间的关系，以前大多选择一台CPU+GPU的机器完成整个任务，现在可以基于前面提到的架构，把单个AI任务分离，把CPU和GPU的部分调度到不同机器上处理再合并。

阿里云视频云还支持各种异构计算，包括CPU/GPU/AISC等，比如ASIC的硬解硬编需要平衡性能、画质、延时、成本等多种指标，还需要考虑稳定性因素，因为单台AISC服务器一般拥有更大的吞吐量，出现异常受影响的任务数更多，这时还需要考虑主备模版的兜底和任务的降级切换策略。因此媒体引擎层的异构计算需要统筹CPU、GPU、ASIC的算力和特性，将云端资源充分利用起来。

媒体内容生产AIGC技术实践

第三部分是阿里云视频云关于内容生产AIGC的技术实践。

在AIGC爆发前，用户已经开始使用AI，AI相关话题已经“火”了好几次，阿里云视频云的AI服务也上线超过6年。

此前用户更多是在单点环节使用AI，例如图上展示的生产制作和媒体处理的能力，在AIGC爆发前，许多厂家、开发者、创业者都使用过，此类能力大多针对特定场景，要进行规模化时，只能进行一些微调，如果不针对特定场景，则存在效果泛化性不够导致准召率不高的情况出现。

在AIGC时代到来后，阿里云视频云重新审视了媒体内容生产业务流程，媒体处理/媒资/媒体处理三驾马车都值得用AI再度重构或优化。

媒体处理的AIGC重构较多依赖于媒体引擎的底层技术。各种架构的升级改造都是为了满足或迎合传统的音视频前处理与AI算法、编码器结合的场景，而前面提到的，媒体引擎的统一媒体处理框架和引擎架构优化，可以完全复用在AIGC时代，媒体任务在底层的执行，本质与前AI时代没有区别。

媒体处理PaaS服务层的重构设计则体现在API与流程编排上。在API层面，阿里云视频云把AI和传统的媒体处理在媒体与管道协议上进行统一，这种统一不仅是协议层面的统一，也代表着底层调度资源可以进行混部或混合调度。关于流程编排，AI环节和媒体处理环节可以在相同的工作流引擎中自由编排。

媒体处理AIGC重构的核心在算法与媒体引擎的联合优化。下面展示两个案例：

阿里云视频云用更精细的图像纹理细节提取方式，来进行细节修复和生成，算法优化的思路是还原图像的真实面貌，这与我们在2015年、2016年开始研发的窄带高清思路如出一辙。多年以来，这个方向一直没有变过，也比较契合许多行业和场景的诉求。

我们在4K超分+HDR超高清的实践，算法侧采用局部变化策略，使亮度更有层次感。展示案例对树木纹理的细节进行了增强，在色彩方面进行了调整优化。另外值得一提的是，此任务刚上线时处理速度非常慢，通过媒体引擎的单任务分布式框架，对任务切片并行处理后，最终的处理速度达到刚上线时的100倍，大大缩短了客户app发布高质量视频的周期。

阿里云视频云的媒资系统架构分为三层，分别是媒体数据层、基础服务层和智能服务层。

关于媒体数据层，我们大概在三年前将媒资的元数据体系重构为可灵活定义和组织的任意实体，可零代码接入AI生成的各类媒资元数据，同时实现了统一MediaID，支持视频云内部多产品的媒资互通。近一年对媒资索引进行了重构，将基于文本元数据的索引和基于特征值的向量索引整合起来，通过统一的API提供搜索服务。

关于媒资智能服务层，我们在媒体数据之上，采用多模态语义重构了媒资内容的结构化逻辑，采用自然语言搜索替代关键词搜索。这两项基础又可以应用到智能编目和智能资源管理模块，比如智能编目可以自动填充内容描述字段，以及根据内容结构化结果自动拆分片段；基于定向指令的搜索结果可以用于媒体资源之间的关联和聚类等。

内容理解是搜索的基础，在大模型之前的多模态内容理解，是将视觉信息、语音信息等都转换为文本，如视频画面内容识别为各种标签，语音识别为ASR文本等，视音频映射为文本本身就会造成信息的丢失，对近义词和同义词的扩展理解就更不敏感，无法真正从视音频维度理解语义。阿里云视频云在 9 月底上线了基于大模型的智能搜索，将视频的图、音、文统一到一个高维的向量空间中，避免语义损失。同时，搜索的文字也转化为高维向量，不再分词，与传统视频 AI 搜索相比，Top5 的准召率大幅提升。

搜索广泛应用于媒体服务的各个环节。除了媒体管理本身，制作素材的选择和时间轴素材的智能匹配也可以通过重组后的搜索服务获得更准确的结果。内容理解是搜索的基础，大模型之前的多模态内容理解，是将视觉信息、语音信息和其他信息均转换为文本，比如视频画面内容识别为各种标签，语音识别为ASR文本等，视觉和音频映射成文本本身就会造成信息的丢失，对于近义词、同义词的扩展理解就更加不敏感，无法真正从视觉和音频的维度理解语义。阿里云视频云在9月底上线了基于大模型的智能搜索，将视频的画面、音频和文本统一到一个高维向量空间，避免语义丢失。同时搜索的文本也转成高维向量，不再进行分词，相较于传统的视频AI搜索，Top5的准召率有明显提升。

搜索在媒体服务各板块都有广泛应用，除了媒资管理本身，生产制作的素材挑选和时间线素材智能匹配，也可以通过重构后的搜索服务获得更精准的结果。

阿里云视频云对于生产制作的顶层设计比媒资更早进行，早在2017年的第一版就考虑到了AI可能会参与到时间线Timeline的生产、编排和渲染中，因此第一张图的基础架构沿用至今。而这一轮的AIGC重构点主要有两个，1）AI完全融入时间线，例如在时间线的素材和效果定义中加入AI因子，即定义AI类型的素材（比如素材由AI生成）和AI类型的效果。2）实现了并行剪辑的智能分片策略，并提升了Timeline的可切分比例，以前Timeline Split点需要避开Timeline中的各种特效和循环素材，优化后，几乎兼容了95%的Timeline。智能分片策略则与媒体引擎的Worker-Brain配合，以时间线合成的时效性为目标，决策最优算子和流程编排。

接下来，会介绍几个已经在阿里云视频云生产制作产品应用AIGC技术的实践。

Case1：数字人剪辑。这是目前AIGC商业化最成功的场景，数字人在视频制作、虚拟主播、在线教育和广告行业中，提供与真人难以区分的视觉、音频和互动体验，降低了内容生产的成本和时间，在实时场景可以不间断地工作，在非实时场景可以规模化生产，满足了全球市场定制化规模化生产Presentation视频的需求。

2023年10月底的云栖大会，央视采访并播出了题为《生成式大模型进军视频领域 “数字人”应用场景拓展》的报道，介绍了阿里云视频云的数字人剪辑技术和应用。阿里云视频云使用数字人剪辑技术，结合批量混剪timeline，采用不同的数字人形象渲染，接近真人语音的人声克隆，一小段文案，通义万相生成若干背景，多项技术共同配合，完成了视频的规模化生产。目前我们的不少客户使用这个方案减少真人主播的成本支出，提升成片制作的数量。

Case2：智能实时制作。阿里云视频云基于大模型升级了云导播产品虚拟演播室场景的实景抠像效果，这次升级有三个核心点：第一，由原来的单层抠像升级为多层多实体抠像，既可以仅抠人像，也可以把人像连同部分物品抠除，保留需要的物品和背景；第二，抠像效果显著增强，体现在面对极为杂乱的背景（比如云栖大会展会现场），仍然在分割边缘有发丝级精度的效果，这将大大降低虚拟演播室的环境门槛，让随时随地的外场直播也可获得演播室的体验；第三，大模型对算力消耗较大，实时制作场景需要从算法到工程进行优化，以保证实时性，比如模型裁剪、大小模型结合改造、多线程优化等，这是大模型技术应用在直播及更低延时场景的必经之路。

Case3: 一键成片。一键成片是阿里云云剪辑智能生产的综合应用，覆盖生产制作业务流程中，包括素材预挑选、片段截取、素材补充生成在内的素材准备与选取、智能时间线编排、效果包装、合成渲染等多个环节。AIGC在每个环节都可能发挥作用，比如基于多模态语义的视频搜索与摘要可用于素材预挑选，文生图或文生视频可用于素材的补充，数字人+人声复刻可用于配音和包装，支持AI与媒体处理帧级别编排的媒体引擎用于最终的合成渲染，这绝非单点算法、单个框架或者单项能力之功，而是AIGC技术与媒体服务多环节多层次融合的完整系统工程。

春节期间Sora爆火，突破了文生视频大模型以前只能生成几秒钟空镜头的固有印象。Sora有更深入的文本指令理解能力与互动能力，生成的镜头层次更多，内容更丰富，时长可达1分钟，以Sora为代表的新一代文生视频大模型，让AIGC距离完美成片更近一步。

回归生产制作的业务流本质，AIGC完美创作并生产成品，仍然需要经历创意、素材、编排、剪辑与包装、渲染与合成这几个阶段。目前几乎所有剪辑的“创意”仍然由人来主导，AI还无法自主进行原创，尤其是针对故事性视频的原创；“素材”则是AIGC深入贡献的环节，从已有素材的搜索、到各种文/图生图/视频、风格化带来的新素材、素材的修复与画面修改等，都有大模型的身影；基于大模型的技术在“剪辑包装”和“渲染合成”这两个环节提供较为散装的支持，整体仍以传统AI和标准剪辑技术渲染技术为主。总的来说，媒体内容的“素材”生产随着文生视频大模型的快速进展有了巨大的突破，但是“完美成片”的全智能生产制作仍然处在初级阶段，从另一角度看，这也代表AIGC未来在生产制作领域还有巨大的发展空间。

未来展望

当前AIGC的整体思路还是向人学习，下一步的发展可能会像人一样，以及在某些领域超越人，比如AIGC的效率在绝大多数场景下已经超越了人，而在思考力和决策力方面大多需要依赖人的反馈，以便进行持续优化。

如何创作内容有故事性、有质感的视频，是生产制作领域追求的目标。我们期待未来AI能够自行挖掘创意点，自主设计原创剧本，贯通前期拍摄和后期制作技术，生产出高质量的成片，而非仅仅生成空镜头或单镜头素材。AIGC用于媒体处理最直接的收益是音视频效果的增强，而在所有的增强场景中，电影修复无疑是难度较大的，要把老电影修复到还不错的状态，目前部分环节仍然需要人工参与。我们期待未来即便在电影修复场景，也能有更好的泛化性和更逼真的效果。在媒资领域，阿里云视频云希望建立一套自然语言理解的体系，实现媒体资源的多模态全语义理解，让媒资中“沉默的大多数”通过新一代的AI分析，语义挖掘、关联、图谱技术再次焕发光彩。

以上就是我的分享内容，谢谢大家。

媒体处理 aigc 大模型内容生产媒体内容分布式时间线数字人 cpu gpu 音视频 paas 多模态内容理解自然语言元数据业务流程云剪辑 ide 高质量