【论文阅读笔记 + 思考 + 总结】MoMask: Generative Masked Modeling of 3D Human Motions

创新点：

VQ-VAE ? Residual VQ-VAE，对每个 motion sequence 输出一组 base motion tokens 和 v 组 residual motion tokens bidirectional 的 Masked transformer 用来生成 base motion tokens Residual Transformer 对 residual motion tokens 进行建模

1. Residual VQ-VAE

VQ 0：就是和 T2M-GPT 一样的 codebook（T2M-GPT 的 VQ-VAE 只有这一级） ? base motion tokens

VQ 1：就是把 Encoder 的 output - VQ 0 codebook 的 embedding，对 residual（差值）的结果建立一个 codebook ? residual motion tokens

VQ V：（以此类推） ? residual motion tokens

decode 的时候，把每个层级的 token embedding 加起来，得到一个 embedding，送入 Decoder 里。

训练：

这里和 T2M-GPT 的 VQ-VAE （下面这个公式）有一点区别：

T2M-GPT 的 loss 由三部分组成，对比 MoMask 里 RVQ 只有 T2M-GPT 里 VQ 的 commit loss，不包含 embed loss

MoMask 里 RVQ 的 b 是编码过后，codebook 里的 embedding；T2M-GPT 的 Z 是进入 codebook 前的 embedding

sg 里的是 codebook 里的 embedding

效果：

这个是 T2M-GPT 里 VQ 的结果，FID 在 0.07 左右

这个是 MoMask 里 RVQ 的结果：

1. 不用 Residual（w/o RQ）就是单层级的 VQ（和 T2M-GPT 里 VQ 类似），FID 在 0.091 左右，比 T2M-GPT 里 VQ 稍微差一点（估计的 reconstruction loss 少了那一部分的原因？）

2. 用了多层级 motion tokens 后，也就是 with residual（MoMask）后，FID 是 0.019，提升蛮多。说明 residual 多层级 motion tokens 影响还蛮大的。

注意：

作者不希望 residual motion tokens 削弱 base motion tokens 的表达能力，还是希望 base motion tokens 能存储尽可能多的信息。所以在训练的时候还提出了一个 Quantization Dropout 的策略，即 randomly disables the last 0 to V layers with probability q ∈ [0, 1] during training.

Implementation Details

q = 0.2；V = 5

2. Masked transformer

1. 随机替换掉序列中占比 mask ratio 这么多的 motion tokens，替换为 a special [MASK] token

2. 在给定 text embedding（用 CLIP 提取）和 the sequence after masking 的情况下，去预测 masked tokens

注意：

训练时，mask ratio 是变化的，取值范围在 0-1.

训练过程中用了 BERT 的 remasking 策略：如果某个 token 要被 mask，那它有：（1）80% 的可能被替换为 [MASK] token；（2）10% 的可能被随机替换为其他 tokens；（3）10% 的可能不变。

预测：

First，所有的 tokens 都是被 mask 的。给定 text embedding，预测所有 tokens.

Next，保留置信度大的 tokens，mask 住置信度小的 tokens，预测被 mask 的 tokens.

让 Masked transformer 预测 L 次（L = 10），得到最终的 base motion tokens

3. Residual transformer

结构和 Mask Transformer 类似，区别在 Residual transformer 有 V 个不同的 token embedding layers

训练时，随机选择一个层级 j 进行学习：该层级之前所有层级（0 到 j-1）的 tokens 会经过各自的 token embedding layers，得到对应的 embedding，然后相加，作为当前层级的 input token embedding。

那么，当前层级 j 的学习任务就为：给定（1）当前层级的 input token embedding、（2）text embedding，和（3）层级 id，目标是去预测（predict）当前层级 j 的 residual motion tokens

注意：为了高效训练，第 j 个层级的 token predicting layers 和第 j+1 个层级的 token embedding layers 共享参数。

整体推理流程

此外，他们还采用了 classifier-free guidance (CFG)，即

在训练时，10% 的时候，不给 text embedding

推理时，推理两遍：一遍不给 text embedding，一遍给 text embedding。两遍的 final linear projection layer before softmax 的输出值按如下公式加和，得到最终的 logits.

limitations

diversity 不高。生成 motion 的时候，需要 motion 的序列长度。面对这类 fast-changing root motions, such as spinning 的动作，生成还是会有一些问题（VQ 普遍存在的问题）。

总结

本文介绍了MoMask模型在运动序列生成方面的创新点，主要集中的三个方面：Residual VQ-VAE、Masked Transformer以及Residual Transformer。下面是文章的总结：
### 创新点总结
**1. Residual VQ-VAE**
- **出发点**：为了更细致、多层次地捕捉运动序列信息，提出Residual VQ-VAE结构。
- **结构**：通过多层级的VQ（Vector Quantization）机制，生成基础的motion tokens（base motion tokens）和多层级的residual motion tokens。每一层VQ利用上一层的残差（即实际输出与上一层VQ编码的嵌入之差）建立codebook。
- **解码**：将所有层级的token embeddings相加后，送入Decoder进行最终的运动序列生成。
- **训练与效果**：
- 相比T2M-GPT的单层VQ-VAE，MoMask的Residual VQ-VAE通过多层残差tokens显著提高了重建质量（FID从0.091提升至0.019）。
- 引入了Quantization Dropout策略，确保base motion tokens能存储尽可能多的信息，避免被多层残差削弱。
**2. Masked Transformer**
- **任务**：预测被随机mask掉的高质量motion tokens。
- **方法**：
- 序列中的motion tokens以一定比例被mask，替换为[MASK] token。
- 利用给定的text embedding和未mask的motion tokens序列，通过BERT的remasking策略预测masked tokens。
- 多轮迭代（L=10）预测，逐步提升预测的精度。
**3. Residual Transformer**
- **结构**：类似于Masked Transformer，但针对每个层级j的residual motion tokens进行建模。
- **训练**：随机选择一个层级j，使用之前层级的token embedding之和作为输入，结合text embedding和层级id，预测当前层级j的residual tokens。
- **高效训练**：通过共享相邻层级token predicting layers和token embedding layers的参数，提高训练效率。
**整体推理流程**
- **Classifier-free Guidance**：在训练时部分情况下不提供text embedding，推理时通过混合有text embedding和无text embedding的两次输出，以生成最终的运动序列。
**局限性与挑战**
- **多样性不足**：生成的motion多样性有限。
- **需要序列长度信息**：模型在生成运动序列时需要知道序列的期望长度。
- **处理快速变化的动作**：在处理像旋转这样的快速变化的root motions时，效果仍有提升空间。
综上所述，MoMask通过引入Residual VQ-VAE、Masked Transformer和Residual Transformer创新性地提升了运动序列的生成质量和多样性，同时面临一些局限性和未来改进的空间。