一文搞懂Tokenization！

语言模型是对文本进行推理，文本通常是字符串形式，但是模型的输入只能是数字，因此需要将文本转换成数字形式。

Tokenization是NLP的基本任务，按照特定需求能把一段连续的文本序列（如句子、段落等）切分为一个字符串序列（如单词、短语、字符、标点等多个单元），其中的元素称为token或词语。

具体流程如下图所示，首先将文本句子切分成一个个单元，然后将子单元数值化(映射为向量)，再将这些向量输入到模型进行编码，最后输出到下游任务进一步得到最终的结果。

文本切分

按照文本切分的粒度可以将Tokenization分为词粒度Tokenization、字符粒度Tokenization、subword粒度Tokenization三类。

1.词粒度Tokenization

词粒度Tokenization是最直观的分词方式，即是指将文本按照词汇words进行切分。例如：

The quick brown fox jumps over the lazy dog.

词粒度Tokenized结果：

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']

在这个例子中，文本被切分为一个个独立的单词，每个单词作为一个token，标点符号'.'也被视为独立的token。

如若是中文文本，则通常是按照词典收录的标准词汇或是通过分词算法识别出的短语、成语、专有名词等进行切分。例如：

我喜欢吃苹果。

词粒度Tokenized结果：

['我', '喜欢', '吃', '苹果', '。']

这段中文文本被切分成五个词语：“我”、“喜欢”、“吃”、“苹果”和句号“。”，每个词语作为一个token。

2.字符粒度Tokenization

字符粒度Tokenization将文本分割成最小的字符单元，即每个字符被视为一个单独的token。例如：

Hello, world!

字符粒度Tokenized结果：

['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']

字符粒度Tokenization在中文中是将文本按照每个独立的汉字进行切分。

我喜欢吃苹果。

字符粒度Tokenized结果：

['我', '喜', '欢', '吃', '苹', '果', '。']

3.subword粒度Tokenization

subword粒度Tokenization介于词粒度和字符粒度之间，它将文本分割成介于单词和字符之间的子词（subwords）作为token。常见的subword Tokenization方法包括Byte Pair Encoding (BPE)、WordPiece等。这些方法通过统计文本数据中的子串频率，自动生成一种分词词典，能够有效应对未登录词（OOV）问题，同时保持一定的语义完整性。

helloworld

假设经过BPE算法训练后，生成的子词词典包含以下条目：

h, e, l, o, w, r, d, hel, low, wor, orld

子词粒度Tokenized结果：

['hel', 'low', 'orld']

这里，“helloworld”被切分为三个子词“hel”，“low”，“orld”，这些都是词典中出现过的高频子串组合。这种切分方式既能处理未知词汇（如“helloworld”并非标准英语单词），又保留了一定的语义信息（子词组合起来能还原原始单词）。

在中文中，subword粒度Tokenization同样是将文本分割成介于汉字和词语之间的子词作为token。例如：

我喜欢吃苹果

假设经过BPE算法训练后，生成的子词词典包含以下条目：

我, 喜, 欢, 吃, 苹, 果, 我喜欢, 吃苹果

子词粒度Tokenized结果：

['我', '喜欢', '吃', '苹果']

在这个例子中，“我喜欢吃苹果”被切分为四个子词“我”、“喜欢”、“吃”和“苹果”，这些子词均在词典中出现。虽然没有像英文子词那样将汉字进一步组合，但子词Tokenization方法在生成词典时已经考虑了高频词汇组合，如“我喜欢”和“吃苹果”。这种切分方式在处理未知词汇的同时，也保持了词语级别的语义信息。

索引化

假设已有创建好的语料库或词汇表如下。

vocabulary = {
    '我': 0,
    '喜欢': 1,
    '吃': 2,
    '苹果': 3,
    '。': 4
}

则可以查找序列中每个token在词汇表中的索引。

indexed_tokens = [vocabulary[token] for token in token_sequence]
print(indexed_tokens)

输出：[0, 1, 2, 3, 4]。