01 从文本到 Token

学习目标

模型只能处理数字。Tokenization 就是把文本切成模型词表里的最小单位，再映射成 token id。它不等于按字切，也不等于按词切，更像“常见片段复用”：常见的字符组合会被合并成一个 token。

BPE 的核心循环很简单：

把文本拆成字符
↓
统计相邻 token pair 出现次数
↓
合并出现最多的 pair
↓
重复多轮

这样可以让高频片段变短，同时保留处理未知文本的能力。

nanoGPT 的 Shakespeare 入门配置使用字符级 tokenization，方便先理解训练循环。build-nanogpt 后续会切到 GPT-2 tokenizer，让你看到真实模型词表如何影响训练。

这个实验用最少 JS 代码复现 BPE 的“统计高频相邻片段并合并”过程。

运行：

npm run lab:01

预期你会看到 BPE 合并表、编码后的 token 和解码结果。重点观察：lower low 编码后的 token 数少于原始字符数，但解码仍能还原原文。