当前位置:AIGC资讯 > 数据采集 > 正文

沉浸式音频技术的制作,采集,播放及应用

沉浸式音频技术近年来逐渐扩大其应用范围,常见应用于VR,影视,会议等场景。本文由时代拓灵创始人&CEO,孙学京博士LiveVideoStack线上分享的内容整理而成,从声场采集,传输,渲染播放算法以及软硬件等方面详细介绍了沉浸式音频技术的发展与应用。

文 / 孙学京

整理 / LiveVideoStack

大家好,我是来自时代拓灵的孙学京。本次分享将主要介绍沉浸式音频的从采集制作一直到播放整个链条上所需要的一些软件和硬件的技术。

内容可以分为以下五个方面:

1. 沉浸式音频简介

2. 声场采集技术,硬件和软件

3. 制作、存储、传输

4. 渲染播放

5. 行业现状和相关应用

1. 沉浸式音频简介

1.1 什么是沉浸式音频?

什么是沉浸式音频?大家最近可能经常听到“沉浸式音频”,“全景声”这两个名词,那么它们与之前的环绕声或者3D音频有什么本质的区别吗?

通俗地讲,它们之间可能有很多的相似之处。但就技术层面来说,从底层架构,到最终的展现形式都有非常大的变化。

首先我们把传统的5.1音频扩展为不仅包含声道也包含对象和场景。目前,沉浸式音频类型主要分为三大类:基于声道Channel based audio (CBA)、基于对象Object-based audio (OBA)、基于场景Scene-based Audio (SBA)。

目前市面上一些主流的系统主要是Dolby Atmos、MPEG-H以及影视行业的SMPTE 2098协议。其主体还是基于Dolby Atmos,但同时它还允许其它不同标准被兼容在此协议内,也就是说Dolby Atmos某种意义上是SMPTE 2098的一个子集,我们可以在兼容Dolby Atmos的同时,推出自己的标准。因此我相信,接下来沉浸式音频将来会迎来一个非常大的利好。

1.2 沉浸式音频-传统到3D音效

基于扬声器的沉浸式音频,常见的是5.1或7.1,如果是耳机设备,则会有HRTF双耳3D环绕的音频。5.1音频实际上是固定的声道位置,由左前、右前、左后、右后构成,而7.1就是在5.1基础上再加两个背后的声道位置,.1就是低频通道的意思。

目前新的沉浸式音频,不再局限于平面式的声道,进一步支持全面360度*360度的沉浸式音频(支持高度)。例如影院的杜比影厅,顶部都会布有很多的喇叭;如果是家庭的话,我们经常叫做5.1.2,就是在顶上再设置两个音箱,或者7.1.4就是在顶上再设置4个音箱。

真正想要达到一个非常好的沉浸式效果,顶部的高度信息带来的对人的感官冲击感是非常强烈的,比如下雨或者打雷的声音。即使在平时可能感觉不到很明显的差别,但当你真的专注于音频效果时,增加了高度信息的音频感觉就会非常震撼。

这种变革如果停留在传统的5.1格式上是很难实现的。尽管传统的做法通过布多层的方式也可以模拟出高度信息,但是并没有从根本上,即制作混音端来改变底层的架构。因此,高度信息的增加实际上是对影视行业沉浸式音频制作的巨大改变。加入高度信息的音频会有很高的沉浸感,并且底层的渲染技术比传统的5.1混音要复杂很多,方位的渲染精度也会大大的提升,所以整体的渲染质感有很大的提升。另外,近几年在AR或者VR时代,非常强调交互的特性。比如VR头显设备的头部跟踪、旋转,不仅要旋转视频,同时还需要旋转声场。这些都是传统的5.1音频(事先混音)很难实现的,而新的渲染技术,沉浸式音频架构是可以实现的。

至于其它的应用方面,在看电视节目的时候,沉浸式音频还可以灵活的根据不同的场合控制选择不同的语言,选择声场中不同的方位进行体验等。这些都是通过传输一个对象或者传输一个声场的概念来实现的,而传统的5.1或者立体声传输是没办法实现的(无法实现单音轨分离)。

最后一点,制作与播放设备的分离。无论是5.1音箱、立体声耳机或是其它设备,其中的混音都由渲染引擎中的软件算法来实现。在制作的时候,如图,混音师就会假想出一个球形的空间场景,也就不再完全依赖必须有一个5.1的混音厅才能将声音混好,并且完成一次混音就可以在任何地方进行播放。

1.3 Object Audio

DolbyAtmos的混音界面如图右下角所示,是一个模拟电影院的方盒子,屏幕在前方。其中小球代表的是音频对象,其在三维空间中会有一个运动的轨迹。混音师会戴耳机或者通过自己的混音环境来体验混音(音频对象)的轨迹,但实际最终播放的时候有可能是一个5.1或者7.1.4的混音环境,这个是由渲染引擎来完成的。

对象音频是现在比较流行,并且逐渐占据主流的。其源自于游戏,杜比作为一个商业公司将对象音频彻底商业化推行到影院中,并进行了许多商业算法上的创新,解决了很多复杂的场景问题。

对象音频的一项核心组成部分就是元数据,我们实际上是通过位置、扩展度或者运动特性等来描述对象音频,这些元数据都要传输到渲染端,同时会进行一些编码压缩操作。对象音频的渲染方法一般是基于Panning,就是声音如何通过幅值、相位的关系在多个喇叭或者耳机里产生一定的方位感。

1.4 Scene-Based Audio

Scene-Based Audio主要是以MPEG-H为代表(实际指MPEG-H中Scene-Based Audio部分所占比例较高)。Scene-Based Audio主要是用来描述场景的声场,其核心的底层算法是HigherOrder Ambisonic(HOA),因此一些新的沉浸式音频的底层技术也不完全是新的,算法以及新的技术都是渐进的,近几年随着带宽的加大,随着复杂度即算力的增强,以及AR、VR新的交互方式的产生促进了技术的迅猛提升。Ambisonic也焕发了青春,VR成功将其带到了大众的面前。Ambisonic 描述三维空间中的声场,例如一阶Ambisonic更多的是通过极坐标。

一阶Ambisonics :FOA

Ambisonics 中存在一种阶的概念,一阶Ambisonics我们称之为FOA(First-Order Ambisonics),零阶即没有任何方向,也就是全向麦克风来描述声场。通常情况下,在Ambisonic中B格式为中间格式,声场采集设备得到的原始信号为A格式。为了便于后续的运算,无论麦克风是什么样子,通常都会转化为通用格式即B格式。

如图,X代表一个点元,通过Ambisonic的(W,X,Y,Z)表示,将其映射到一个声场中是非常简单的,主要是应用了三角函数进行一系列公式的计算。将其通用化后在高阶时的表现即为球面谐波函数。

高阶Ambisonics :HOA

描述声场其实就是通过物理学的球面谐波函数来描述声波在空间中的传播,存在非常高的阶数,如之前提到的零阶、一阶函数,甚至三阶函数(右下角图)。

2. 声场采集技术

2.1 双耳录音

接下来介绍声场采集技术,在音频平台中比较常见的有双耳录音,模仿人类大脑工作方式,模拟人左/右耳听到的声音。常见的使用工具为3Dio人工头麦克风。

上图为VR时代,3Dio的升级(复杂)版本,适合于四个方向的Omni Binaural Microphone。Binaural录音可以理解为声场采集的上限,抛开人耳个性化的差异,达到的仿真效果要比HRTF等要好得多。这个录音的输出格式通常叫作Quad Binaural (QB)。

2.2 Ambisonic 录音

Ambisonic 声场录音的优势是更加灵活,通过录音设备得到的Ambisonic信号,可以直接做很多的后续处理。但是如果用Ambisonic信号转成Binaural,效果在某一点上会逊色于Binaural信号。我们也曾做过一些比较,如果是用于VR 360度的声场采集,与Omni Binaural录音或者QB格式相比,Ambisonic录音整体表现会比较平均,也就是最好方向比QB差,但也会比QB最差的方向要好一些。

有关声场采集的算法以及麦克风的设备,相对来说比较复杂。简单地说,与其它设备的麦克风阵列使用类似,都有同样的需求:核心参数有信噪比、一致性、灵敏度、频响;选择MEMS麦克风还是ECM麦克风。早期一般会选择ECM,但ECM的一致性稍差,所以比较贵的麦克风出场时都会自带匹配的校准参数。目前新的麦克风更多的是MEMS,一致性相对较好,可以达到,可以满足很多需求。Ambisonic声场采集得到的阵列信号,在刚性球体上,可以近似的用刚性球体球面谐波函数,把传感器得到的信号转成球面谐波函数的一些系数来表示,然后针对系数进行后续的声场的旋转等操作。

3. 沉浸式音频的制作,存储,传输

那么,有了沉浸式音频声场的采集,之后应该如何进行进行制作?目前主流的工具Pro Tools、Reaper、Nuendo都是在影视行业比较常用的。主流的Pro Tools目前已经全面支持Dolby Atmos,也可以支持一些高阶的HOA;Reaper因为其功能强大,价格便宜,性价比高,被越来越多的音频行业人士所喜爱。

以上提到的我们称为音频工作站,实际上大部分的工作还是通过插件来完成的,工作站完成主流的工作,靠插件来完成具体的如混响算法或者VR相关的一些工作。常见的插件主要有:Ambix、Facebook 360workstation、Dolby Atmos。

图为时代拓灵公司的插件,叫做Twirling Works,最初是为了VR制作来设计的。

多通道音频压缩一般是通过提取相位差、幅值差等一些Parametric Stereo,多通道通常选择降维或者去相关的方式。

MPEG-H HOA编码的核心是其中的HOA Decomposition部分,将有方向的,细节部分的信号取出来。将无方向的,环境声音信号分离开。

HOA的优势是存在分层的编码机制,如果在带宽精度要求不高,带宽不够的时候,可以传输输入较少的低阶信号,如果带宽足够的话,则可以传输高阶信号。

对象音频的编码主要是来自杜比的科学家的贡献,首先是兼容5.1开发了Joint object coding(JOC),可以将多个对象音频下混到5.1声道,通过传统的5.1通道,生成的信号可以被5.1解码器很好的兼容播放。并且如果同时支持对象音频,就可以将其还原成为支持Dolby Atmos的沉浸式音频。Spatial coding可以理解为是在JOC之上的前处理,面向更多的对象,可以通过一些准则如:对象的重要性,能量等对多个对象做聚类。

4. 渲染与播放

渲染与播放是非常关键的一个部分,渲染的方式通常叫做Panning,在三维空间中的渲染方式称为Vector-based Amplitude Panning。

HOA的渲染相对更复杂一些,主要需要考虑的是如何将不同的HOA的信息给到不同的喇叭。

以上是优化HOA decoding所使用的准则之一Max rE。

以上是Decoding的几种不同方式,传统的主要Sampling or projection decoding和Mode-matchingdecoding两种;此外,还有一些新的进展,尽可能的使得渲染更均匀,最大程度保证音质不受损。

5. 行业现状与相关应用

有关行业现状,声场采集部分一阶Ambisonics(FOA,First-Order Ambisonics)已经很常见了,并且同时也出现很多高阶Ambisonics (HOA,Higher-Order Ambisonics) 的采集。VR对于Ambisonic存在很强大的助推,Google和Facebook也在提供支持。得益于一些主流公司的支持,大家对此技术有了更多的认知和重视。

专业领域则主要是Object Audio和HOA两大趋势,接下来随着5G、AR、VR的发展沉浸式音频技术的未来是非常可期的。

关于沉浸式音频技术的相关应用,毫无疑问影视娱乐,VR是最主要的应用,例如各家影院的杜比全景声可以说是非常常见的。此外,在我认为会议其实是非很好的应用点,大家都希望能有一个很好的沉浸式的会议体验。另外,还有声场采集以及在其它声学领域的应用,例如声学事件监测,定位等也逐渐开始出现一些应用。

更新时间 2023-11-08