📚Papers

Tokenizer Scaling:从 32K 到 128K 之外——被当常量的那根杠杆

把 tokenizer 当作训练目标 + 系统成本 + 后训练债务的共同回归项

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

44 篇扩展证据(支持 4 · 反证 6 · 拓展 34)·知识聚类 10·悬问 5

领域综述

结论先行:tokenizer 不是“预处理常量”,而是会同时改变训练目标的可达字符串集合、训练信号在 token 之间的分配、以及推理系统的序列长度与 KV cache 成本,因此必须像 data mixture 或训练配方一样走强制回归。受控 fixed-compute 预训练已经把影响量级钉死:同一 2.6B 与预算下,仅替换 tokenizer 就能带来 0.6–5.1 pp 下游方差 [1]。工业侧也把收益写成可交付口径:128K vocab 对训练 loss 约 0.02–0.04 nats,并把主要来源归因到 non-English 与 code 的 bytes-per-token/fertility 改善,从而线性影响 KV cache 与吞吐 [2]。风险同样可回归:digit/date 的局部 merge 会在 3–5 位 carry-sensitive 算术与 temporal reasoning 上制造 10–20 pp 缺口 [9][4];词表尾部常见 3k–10k+ under-trained tokens,需要扫描定位并用短 continued pretrain 修复 [3]。跨 tokenizer 评估不能用 per-token PPL,因为分母变了;应切到 BPB、character-string likelihood 或 exact byte-level probability [7][10]。工程默认建议 64K–128K;256K+ 视为实验,必须同时交付 fixed-compute 曲线、系统账本与 tail 扫描,并把数字/日期任务设为 release gate。

TL;DR

tokenizer 变更需要像 data mixture 一样走强制回归,而不是“预处理常量”。受控 fixed-compute 预训练已给出量级:同一 2.6B 与预算下,仅替换 tokenizer 就带来 0.6–5.1 pp 下游方差 [1]。压缩率/平均 token 长度解释不完 [5][6],更像是归纳偏置与训练信号分配被改写。工业侧把 128K vocab 的收益写成 0.02–0.04 nats 更低 loss,并用 bytes-per-token/fertility 归因到 non-English 与 code 的序列缩短,直接影响 KV cache 与吞吐 [2][32]。风险同样可回归:digit/date 的局部 merge 会在 3–5 位 carry-sensitive 算术与 temporal reasoning 上制造 10–20 pp 缺口 [9][4];词表尾部常见 3k–10k+ under-trained tokens,需要扫描定位并用短 continued pretrain 修复 [3]。跨 tokenizer 评估不要用 per-token PPL;用 BPB、character-string likelihood 或 exact byte-level probability 才能对齐 [7][10]。工程默认:64K–128K;256K+ 视为实验,必须交付 fixed-compute 曲线、系统账本与 tail 扫描,并把数字/日期任务设为 release gate。

核心断言

#1在 fixed-compute 设定下,tokenizer 不是二阶变量:同一 2.6B 与预算,仅替换 tokenizer 就产生 0.6–5.1 pp 下游方差 [1],量级与常见 data mixture 改动相当。
#2把“更大 vocab = 更好压缩 = 更好模型”当默认会误导:压缩率与下游质量相关但不充分 [5],且存在“非压缩机制”解释空间 [6]。但词表也不是“随便挑”——Tao et al. 用三条互证路径(IsoFLOPs / 导数估计 / 参数化损失拟合)拟合到 V★ ∝ ^γ(γ ≈ 0.27),给出可外推的“最优词表”预算公式,并指出 Llama2-70B 应至少 ~216K 而非 32K [39]
#3跨 tokenizer 的 per-token PPL 不可比,因为分母与可达 token-string 集合都变了;可比主指标应切到 BPB/character-string likelihood [7][8],需要精确对齐时给 exact byte-level probability [10]
#4128K vocab 的收益可以落到 loss 与系统账本:训练 loss 约低 0.02–0.04 nats [2],主要来自 non-English 与 code 的 bytes-per-token/fertility 改善,从而线性降低 KV cache 占用并提高 serving 吞吐 [2][32]
#5digit/date 的局部 merge 会制造可复现的推理缺口:3–5 位 carry-sensitive 算术与 temporal reasoning 上出现 10–20 pp 级差 [9][4],因此“词表结构”比“词表大小”更先决定推理失真。
#6词表尾部的 3k–10k+ under-trained tokens 是可治理的训练债务:可扫描定位并用短 continued pretrain 修复 [3];因此 tokenizer 需要 post-training 流程,而不是一次性定稿。
#7Vocab 是继 (N, D) 之后的第三条 scaling 轴:在 fixed-FLOP 下,最优 vocab V★ 是 的可拟合幂律 [39],并且 [2] 用 128K 在 70B 量级把 loss 收紧 0.02-0.04 nats,证明这条轴是可工程化、可审计的,而不是“凭直觉调”。
#8Tokenizer 已经从“一次设定”变成 release-time 必审项:under-trained tokens 与 digit/date 碎片化是可扫描的训练债务,[3][4][9] 已经把它们做成可复现的发版 gate,单数清单里不该缺。

§0 演进谱系:从 BPE 到 vocab scaling 再到 tokenizer-free 的三次重写

Sennrich BPE -> ByT5/BLOOM -> Llama 32K -> Llama-3 128K + Tao V* -> Magikarp 审计 -> BLT / dynamic chunk

Tokenizer 在 LLM 上的演进经历了三次重写,每次都不是“换分词法”这一点改变。[37] 的 BPE 把 OOV 问题压成可控的子词重复,奠定了 NMT/LLM 的子词主线。[19][17] 走 byte / character 路径,把“分词不在管线里”作为对照组留给后来者;这条路径在 LLM 主线被搁置近三年,因为成本不划算。[34] 把 vocab 推到 250K 处理多脚本,但发现 vocab 做大并非线性收益。[36] 把 vocab 收回到 32K + balanced——这一阶段 vocab 仍被当作“工程默认值”。

第二次重写发生在 2024:[39] 把 vocab V 升级为 (N, D) 之外的第三轴,给出 V* = φ · ^k 的可拟合关系;[2] 把 128K vocab 工程化并报告训练 loss ~ 0.02-0.04 nats 的可观增益(系统侧只增几个 % 的 embedding/lm_head 显存)。vocab 第一次有了“算给人看的账本”。同时 [3] 把 under-trained tokens 做成可扫描的训练债务,[4][9] 把数字/日期碎片化做成可复现的 release gate;tokenizer 从“一次设定终身使用”变成 release-time 必须审的对象。

第三次重写仍在进行:[12][22][20][21] 把 tokenizer-free / dynamic chunk 的路径重新拉回主线,把 byte 序列上做 patch 形成自适应粒度。这条路线的核心赌注不是“BPE 不够好”,而是“分词层是 release 期不可控的债务源头,把它从训练循环里拿掉更稳”。另一支 [5][6][26] 在 BPE 主线内部继续做单位与对齐工程,保证 BPB / character-level 的可比性不被分词差异污染。本节后续把这条边界画成可执行的 decision flow,并在 §1–§5 里把每条工程账单收紧。

Tokenizer evolution: from rule-based BPE to a learned compute-axis Top: representative tokenizer recipe. Bottom: failure mode addressed at the time. 2015 2021 2022 2023 2024 H1 2024 H2 2025 BPE ByT5 / CANINE BLOOM 250K Llama-2 32K Llama-3 128K Magikarp scan BLT / Dynamic chunk subword units byte / character multilingual scale small & balanced vocab as compute axis undertrained-token audit tokenizer-free path OOV explosion arbitrary segmentation script imbalance code / numbers vocab scaling law V* dead tokens, prompt leak date / digit fragmentation [Sennrich2015BPE] [Xue2021ByT5][Clark2021CANINE] [BigScience2022BLOOM] [Touvron2023LLaMA] [Tao2024VocabScalingLaw][Dubey2024Llama3] [LandBartolo2024Magikarp] [Pagnoni2024BLT][Hwang2025DynamicChunking] Recipe / model that defined the tokenizer regime Failure mode the recipe was designed to address
图 1. 图 0.1 Tokenizer 演进时间线:每一代解决一个具体失败模式
正在渲染图示…
图 2. 图 0.2 给新预训练选 vocab 的执行式 decision flow
Llama-2 (32K)
32[Touvron2023LLaMA]
Llama-3 (128K)
128loss ~ -0.02 to -0.04 nats [Dubey2024Llama3]
BLOOM (250K)
250multilingual [BigScience2022BLOOM]
Tao2024 V* @ 70B
216fixed-FLOP optimum [Tao2024VocabScalingLaw]
Opus 4.7 (~减半,实测)
65[WeChatMP2025Opus47TokenizerShrink]
ByT5 byte-level
0tokenizer-free [Xue2021ByT5]
单位:vocab 大小 (千)
图 3. 图 0.3 主流 LLM 的 vocab 选择 (size + 训练 loss / 系统成本权衡 - 报告区间)

§1 Tokenizer 变更到底改了什么:目标、信号分配、系统成本三条链

tokenizer 变更至少同时改动三条链。第一是“训练目标”:tokenized LM 学到的是 token-string 分布,而应用侧关心的是 character-string;tokenizer 一变,可达 token-string 集合与同一字符串的分解方式都变,因此 per-token PPL 的分母不再可比 [7][8]。第二是“训练信号分配”:同一字符序列被切成更少/更多 token,会改变 early training 中哪些局部模式更容易被拟合,并由此改变归纳偏置;受控实验显示这种效应量级可达 0.6–5.1 pp 下游差异 [1],且压缩率/平均 token 长度不能完全解释 [5][6]。第三是“系统成本”:序列长度线性决定 KV cache footprint 与 batchability,serving 系统把它作为主约束来优化 [32];因此 bytes-per-token/fertility 改善可以直接转化为吞吐收益 [2]。三条链叠加后,tokenizer 变更的正确交付方式更接近训练配方变更:必须同时给出质量回归与系统账本,而不是只报告“平均 token 更短”。

Tokenizer history: from word-piece to byte-level to token-free Top: dominant scheme of the era. Bottom: failure mode that motivated the next move. 2015 2018 2019 2021 2023 2024 2025 Subword BPE SentencePiece / WordPiece Byte-level BPE (BBPE) Token-free / byte (ByT5, CANINE) MEGABYTE / MambaByte BLT / Dynamic Chunking Cross-tokenizer distill [Sennrich2015BPE] [FastWordPiece2020] GPT-2 / Llama family [Xue2021ByT5][Clark2021CANINE] [Yu2023MEGABYTE][Wang2024MambaByte] [Pagnoni2024BLT][Hwang2025DynamicChunking] [Minixhofer2025CrossTokenizerDistillation] OOV in MT multilingual unfair long sequences cost slow / hard at scale hierarchical patches dynamic boundary port across vocab word -> subword unicode-aware split arbitrary bytes no merge step multi-scale Transformer learned chunking migrate vocab Era-defining tokenizer scheme Failure / friction that motivated the next step
图 4. 图 1.1 tokenizer 演进:从 subword BPE 到 byte-level 再到 token-free
tokenizer 不是 I/O 细节:它同时改了“模型在优化什么”“哪些模式更容易学到”“推理时每个请求要占多少 KV cache”。

§2 32K→128K 的收益与 256K+ 的不确定性:先把账算清

把 vocab 从 32K 扩到 128K 的可交付收益主要来自序列缩短,而不是神秘的语义跃迁。Llama 3 报告给出的收益是 0.02–0.04 nats 更低训练 loss,并用 bytes-per-token/fertility 将其归因于 non-English 与 code 的 token 数下降 [2]。在 serving 侧,序列缩短会线性降低 KV cache 占用,从而提高并发与吞吐;PagedAttention 将 KV cache 作为核心内存瓶颈处理,使这种线性关系直接体现在 batchability 上 [32]

这条经验过去缺的是“最优词表到底应该多大”的量化预算。Tao et al. [39] 在 33M–3B / ≤500B characters 上把 vocab size 升格为独立 scaling 轴,并用三条互证路径(IsoFLOPs sweep、导数估计、参数化损失拟合)一致拟合出:compute-optimal 词表随非词表参数 成幂律 V★ ∝ ^γ,但 γ < 1(约 0.27)。因此模型变大时词表也应变大,但增速远慢于参数;按该公式外推,Llama2-70B 应至少 ~216K 而非 32K,许多现行 LLM 系统性偏小。同一论文的可执行实验也可作 sanity check:在 2.3e21 FLOPs 同算力下,把 33M 模型的词表从 32K 提到 43K,ARC-Challenge 从 29.1 升到 32.0,相当于不加参数也不加 tokens 获得 ~3 pp 下游收益 [39]

但仍不应把 256K+ 设为默认,因为 vocab 公式给出的是最优区间,而不是越大越好。Tao 2024 的结论同样意味着,小模型继续放大词表会过冲到欠训练区;同时,词表变大也会提高 embedding/softmax 成本、tokenize latency,以及 tail token 欠训练风险 [33][3]。可操作做法是:把 V 与 N、D 一起放进 IsoFLOP 小 grid(含 32K/64K/128K/256K 至少四点),用 BPB 而不是 per-token loss 做对齐回归,并把 systems ledger(吞吐、tokenize latency、KV cache)和 tail under-training 扫描作为同一份报告交付 [1][7][32]

维度32K→128K 常见收益256K+ 常见新增风险建议的回归指标
训练质量

loss 约低 0.02–0.04 nats(工业报告口径)[2]

收益可能饱和;结构性坏 merge 仍可制造缺口 [9][4]

fixed-compute loss/BPB 曲线 + 关键下游 pp [1][7]

推理系统

序列缩短→KV cache 线性下降→吞吐上升 [2][32]

tokenize latency 与 embedding/softmax 成本上升 [33]

bytes/token、吞吐/延迟、KV cache footprint(同 batch 策略)[32]

后训练债务

长尾 token 更少欠训练(不保证)

尾部 token 更长更稀有,欠训练更集中 [3]

tail 扫描(under-trained tokens)+ 短 continued pretrain 修复 [3]

把“更大词表”拆成可回归的交付维度(质量 / 系统 / 债务)
32K BPE -> 64K BPE
0.60压缩率小幅提升
64K -> 128K (Llama 3 配方)
1.40[Dubey2024Llama3]
BBPE -> SentencePiece (multi-lingual)
2.10[BigScience2022BLOOM]
数字/日期 merge 修复
3.40[Singh2024TokenizationCounts][Bhatia2025DateFragments]
under-trained 尾部修复
5.10[LandBartolo2024Magikarp]
单位:下游 pp 差距
图 5. 图 2.1 同 2.6B / 同算力下,只换 tokenizer 造成的下游分数 pp 区间 (illustrative;[Ali2024TokenizerChoice])

§3 结构性坏 merge:数字与日期为什么要做 release gate

“更大 vocab”最常见的失败点不是算力,而是局部结构选择把推理任务的归纳偏置带偏。算术中,single-digit 切分与多位 merge 的差异会在 3–5 位 carry-sensitive 任务上稳定放大为 10–20 pp [9];这更像表示空间可组合性被改写,而不是数据不足。时间上,日期常被 BPE 切成无语义边界的碎片(例如 YYYYMMDD 的中间片段),模型在 temporal reasoning 中形成系统性错误模式 [4];这些错误也很难靠后训练完全补齐,因为输入分解本身不稳定。把这两类任务设为 release gate,是因为它们对 token 边界极敏感,能快速暴露“局部 merge 是否破坏可组合性”。配套评估也必须对齐:跨 tokenizer 不看 per-token PPL,而看 character-string likelihood/BPB [7];解释 tokenization bias 时,可参考对 BPE/MPE 偏差的分析与缓解 [11]

Three structural bad-merge classes that need a release gate A. Digit / number tokens "1024", "0.001", "1e-5" Symptoms: - arithmetic accuracy drop - non-monotone in N - huge variance per number length Mitigations: - digit splitting - per-digit eval gate Anchors: [Singh2024TokenizationCounts][Zheng2025BrokenTokens] B. Date / time fragments "2026-04-19", "Apr 19, 2026" Symptoms: - year-of-event errors - format-sensitive failures - multi-token years skew loss Mitigations: - date-format normalization - date probe in release gate Anchors: [Bhatia2025DateFragments] C. Magikarp / orphan tokens rare bytes, never trained well Symptoms: - prompt injection surface - crash / NaN at inference - benchmark anomalies Mitigations: - prune / re-init under-trained - vocab audit on release Anchors: [LandBartolo2024Magikarp][Schmidt2024MoreThanCompression] All three classes are vocab-bug release gates -- catchable before pretrain spends real compute.
图 6. 图 3.1 三类结构性 bad-merge:digit / date / orphan token,各自的症状 + 缓解 + 释出闸
digit/date 不是“边角任务”,而是最便宜的结构探针:它们能把坏 merge 直接放大成 10–20 pp 的可复现缺口。

§4 三条路线的工程含义:扩大、减法、以及 tokenizer-free

路线一是常规扩大:32K→64K→128K 的主要收益来自 non-English 与 code 的 fertility 下降 [2],但必须用 fixed-compute + BPB 将质量收益与系统收益拆账交付 [1][7]。路线二是“词表减法”:长尾 token 欠训练与 tokenization bias 表明,删掉稀有长 token、回到更可训练的单位,可能让对齐与安全更稳;可操作证据包括 under-trained token 的可扫描性与可修复性 [3],以及清理 BPE 词表中 intermediate merge residues 的路径 [29]。第三条是 tokenizer-free:byte/patch/pixel 直接建模从根上消除 OOV 与分词偏置,但必须靠结构压低序列成本。BLT 用 entropy-based patching 在 FLOP-controlled setting 下对齐 tokenized baseline,并报告更好的 inference scaling [12];PixelGPT/PIXAR 将文本渲染为像素 patch 并做 autoregressive 建模,提供另一种“单位选择” [13][15],PIXEL 则是 encoder-only 的早期强基线 [14]。三条路线不互斥:更务实的顺序是先固化 BPE 的回归与债务流程(指标、gate、tail 扫描),再用同一套 fixed-compute 与系统账本评估 tokenizer-free 的端到端成本 [1][32][12]

正在渲染图示…
图 7. 图 4.1 三条 tokenizer 路线:扩大、修剪、token-free 的决策入口

§5 迁移与兼容:tokenizer 版本化之后,怎么不把生态打碎

tokenizer 版本化的现实约束是:模型、工具链与数据资产都绑定 token ID 语义。两类工作提供可落地的缓冲层。第一类是跨 tokenizer 的概率对齐:exact byte-level probability 将 tokenized LM 输出对齐到字节层,避免 tokenizer 变更使 FIM/ensemble 的概率不可比 [10];语言学侧也给出从 subword LM 计算 word probability 的方法,强调对齐目标应是字符串/词,而不是 token [26]。第二类是跨 tokenizer 的知识迁移:WECHSEL 通过子词 embedding 初始化降低换词表的冷启动成本 [24],universal cross-tokenizer distillation 则把“teacher/student tokenizer 必须一致”的约束放松为近似 likelihood matching [25]。同时必须处理非 canonical tokenization:同一字符串可能存在多个 token 序列表示;模型对非 canonical 分解的鲁棒性并非为零,但会引入推理与表示不一致的脆弱点 [27][28]。因此,tokenizer 变更的交付物不应只有“新 tokenizer 的质量”,还应包含兼容层策略与非 canonical 回归集。

时间线

  1. BPE 子词作为 open-vocab 折中方案进入主流[37]
  2. ByT5 把 byte-level 预训练作为可行替代路线[19]
  3. fixed-compute tokenizer-only ablation 给出 0.6–5.1 pp 量级[1]
  4. under-trained tail tokens 被流程化:扫描 + 短 continued pretrain 修复[3]
  5. 128K vocab 的收益被写成 loss 与 bytes/token 账本[2]
  6. vocab 升格为独立 scaling 轴:V★ ∝ ^0.27,多数 LLM 词表偏小[39]
  7. character-string likelihood 视角推动跨 tokenizer 评估对齐[7]
  8. BLT 在 FLOP-controlled setting 下把 tokenizer-free 拉到可比区间[12]
  9. BPE 词表“中间合并残渣”被明确为可清理的结构性噪声[29]

研究立场对比

阵营 A:tokenizer 是冻结的预处理;coverage 够了就行

立场 — 优先把预算放在参数/数据/训练配方;tokenizer 只要不 OOV、不乱码,就不应成为主训练周期里的主要变量。实践上常沿用上一代生态默认 tokenizer,以减少工具链与数据资产迁移成本 [36]

证据:[36]

反方 — fixed-compute 证据直接否定“影响可忽略”:同一 2.6B 与预算,仅替换 tokenizer 就有 0.6–5.1 pp 下游方差 [1]。而且跨 tokenizer 用 per-token PPL 会把分母差异当成质量差异,导致“看起来没问题”的错觉 [7][8]

判词 — 更稳的读法:把 tokenizer 当作“必须回归”的训练变量,但把变更频率控制在 release 节点;默认冻结不是原则,只是缺少回归流程时的权宜之计。

阵营 B:更大 vocab 近似单调更好;默认走到 256K+

立场 — 把更大 vocab 视为“免费压缩”:序列更短,attention 更省,长上下文更划算;embedding/softmax 的额外成本相对可忽略。对多语与代码尤其有利,应该继续扩词表并把压缩率当主要目标 [2][34]

证据:[2][34][35]

反方 — 两类证据要求把“单调更好”改成“结构优先、规模其次”。一是压缩率与质量相关但不充分 [5],存在非压缩机制与反例空间 [6]。二是局部 merge 会制造 10–20 pp 的推理缺口:digit/date 的坏 merge 与 vocab 大小无关,反而更容易在扩词表时被引入 [9][4]。此外,词表越大越需要处理 tail token 欠训练与 tokenization bias [3][11]

判词 — 更务实的定位:64K–128K 作为默认区间;256K+ 只能在交付 fixed-compute 曲线 + 系统账本 + digit/date gate + tail 扫描后进入主线。

阵营 C:tokenizer-free 才是终局;尽快放弃 BPE

立场 — BPE 的采样偏差、非唯一编码与跨语言不公平是结构性问题;byte/patch/pixel 直接建模从根上消除 OOV 与分词偏置。序列变长的成本应由结构创新解决:多尺度/latent/SSM/动态 chunking 等 [19][21][20][12][22][13][15]

证据:[19][21][20][12][22][13][15][14]

反方 — tokenizer-free 的关键门槛不是“能不能训”,而是“同 FLOPs、同延迟预算下是否更划算”。BLT 已经把一部分证据补上 [12],但工业主线仍需要与 BPE 的系统账本同台对照(KV cache、吞吐、tokenize latency 的替代成本)[32][33]。同时,tokenized LM 也在暴露非 canonical 表示的脆弱点 [28],但也显示一定的鲁棒性 [27];这意味着“完全抛弃 tokenization”并不是唯一修复路径。

判词 — 更稳的建议:把 tokenizer-free 当作“下一代基座”的候选,而不是对现有 BPE 基座的即时替换;短期先把 BPE 的回归、对齐指标与债务治理流程固化,再用同一套 fixed-compute 与系统账本评估 tokenizer-free 的净收益 [1][7][12]

阵营 E:缩词表/剪尾巴,换对齐与 RL 稳定性

立场 — 对齐阶段(RLHF/DPO/PPO)更在意数值稳定性与策略一致性;长尾 token 的低频与非唯一编码会放大 train/infer mismatch 与攻击面,因此应主动 prune tail、清理中间残渣,并把“更可训练的单位”作为对齐优先级 [30][29]

证据:[30][29][31]

反方 — 目前直接把“缩词表→对齐更稳”钉死的 controlled evidence 仍偏少,更多是机制推断与系统层面的合理性。可操作的中间版本是:先用 Magikarp 扫描 under-trained tail 并修复 [3],再评估 prune 对 RL 稳定性与下游质量的净影响;同时用字符串对齐指标避免把 token 分母差异误判为对齐收益 [7]

判词 — 结论层面的建议:把“剪尾巴”当作对齐阶段的实验开关,而不是预训练阶段的默认;但 tail 扫描与残渣清理可以先成为常规卫生流程 [3][29]

实践要点

可执行清单(按交付优先级):
1) DO:任何 tokenizer 变更都按 fixed-compute 回归交付:至少给 BPB 或 character-string likelihood + 关键下游 pp(把 0.6–5.1 pp 级风险显式化)[1][7]
2) DON'T:跨 tokenizer 用 per-token PPL 下结论;主指标切到 BPB/character-string likelihood,需要精确对齐时补 exact byte-level probability(FIM/ensemble 常用)[7][10]
3) DO:同时交付系统账本:bytes/token(或 fertility)、tokenize latency、推理吞吐/延迟、KV cache footprint;测量时固定 batch 策略与 serving 配置 [2][32][33]
4) DO:把 digit/date 设为 release gate:至少覆盖 3–5 位 carry-sensitive 算术与日期推理;目标是避免 10–20 pp 级缺口进入主线 [9][4]
5) DO:每次 tokenizer 发布都跑 tail 扫描,定位 under-trained tokens,并预留一次短 continued pretrain 的修复窗口;把它当作常规训练债务治理 [3]
6) DON'T:把“压缩率更高”当作充分理由;压缩与质量相关但不充分,必须给机制侧与下游侧的回归证据 [5][6]
7) DO:需要换 tokenizer 但不想重训时,优先走迁移/兼容层:WECHSEL 初始化或 cross-tokenizer distillation;并把非 canonical tokenization 加入回归集 [24][25][27][28]
8) DO:默认 vocab 64K–128K;256K+ 视为实验,只在交付 fixed-compute 曲线 + 系统账本 + gate + tail 扫描后进入主线 [2][1][3]
9) OPEN:tokenizer-free 只在同 FLOPs/同延迟预算下证明净收益时才进入主线评审;优先对照 BLT 与 pixel/patch 路线的系统成本 [12][13][32]
10) OPEN:若目标是对齐稳定性,先把“残渣清理 + 尾部治理”做成卫生流程,再评估 prune 的净收益 [29][3][30]

悬而未决的问题

  • Q1.缺口:32K/64K/128K/256K 的同配方 fixed-compute 预训练曲线(loss、BPB、关键下游)与系统账本(吞吐、KV cache、tokenize latency)同台对照仍不够;需要公开 artifact 才能判断 256K+ 的收益是否饱和或非单调。
  • Q2.缺口:明确主张“tokenizer 影响可忽略/已解决”的 controlled-compute 论文很少;现状更像是工程惯性而非证据结论,需要对照实验把这个 prior 变成可证伪命题。
  • Q3.缺口:digit/date merge 的因果链已在评测侧成立 [9][4],但缺少现代预训练阶段的系统 ablation(只改数字/日期规则,固定 compute 与数据)来量化“坏 merge”在训练早期如何塑形。
  • Q4.缺口:缩词表/剪尾巴是否提升对齐稳定性仍缺少直接证据;现有工作更多是机制推断或在特定 RL 设置下的结果,需要更标准化的对照与公开回归集 [30][31]
  • Q5.缺口:tokenizer-free(byte/patch/pixel/SSM)在同延迟预算、同 KV cache 约束下的端到端 serving 成本仍缺少公开对照;需要把“序列更长但单位更简单”的系统效应量化 [12][20][13]
  • Q6.缺口:非 canonical tokenization 的脆弱性与可修复性边界仍不清晰;需要把它与推理链路(CoT、tool use、FIM)绑定,形成可回归的 failure taxonomy [27][28]
  1. [1]
    Mehdi Ali, Michael Fromm, Klaudia Thellmann. Tokenizer Choice For LLM Training: Negligible or Crucial?. arXiv, 2024论文
  2. [2]
    Aaron Grattafiori, Abhimanyu Dubey, Abhinav Jauhri. The Llama 3 Herd of Models. arXiv, 2024论文
  3. [3]
  4. [4]
    Gagan Bhatia, Maxime Peyrard, Wei Zhao. Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning. arXiv, 2025论文
  5. [5]
    Omer Goldman, Avi Caciularu, Matan Eyal, Kris Cao, Idan Szpektor. Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance. arXiv, 2024论文
  6. [6]
    Craig W. Schmidt, Varshini Reddy, Haoran Zhang, Alec Alameddine, Omri Uzan. Tokenization Is More Than Compression. arXiv, 2024论文
  7. [7]
    Tim Vieira, Ben LeBrun, Mario Giulianelli, Juan Luis Gastaldi, Brian DuSell. From Language Models over Tokens to Language Models over Characters. arXiv, 2024论文
  8. [8]
    Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira. The Foundations of Tokenization: Statistical and Computational Concerns. arXiv, 2024论文
  9. [9]
  10. [10]
    Buu Phan, Brandon Amos, Itai Gat, Marton Havasi, Matthew Muckley. Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles. arXiv, 2024论文
  11. [11]
    Buu Phan, Marton Havasi, Matthew Muckley, Karen Ullrich. Understanding and Mitigating Tokenization Bias in Language Models. arXiv, 2024论文
  12. [12]
    Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li. Byte Latent Transformer: Patches Scale Better Than Tokens. arXiv, 2024论文
  13. [13]
    Yekun Chai, Qingyi Liu, Jingwu Xiao, Shuohuan Wang, Yu Sun, Hua Wu. Autoregressive Pre-Training on Pixels and Texts. arXiv / EMNLP 2024, 2024论文
  14. [14]
    Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux, Desmond Elliott. Language Modelling with Pixels. arXiv / ACL 2023, 2022论文
  15. [15]
    Yintao Tai, Xiyang Liao, Alessandro Suglia, Antonio Vergari. PIXAR: Auto-Regressive Language Modeling in Pixel Space. arXiv / ACL 2024, 2024论文
  16. [16]
    Julie Kallini, Shikhar Murty, Christopher D. Manning, Christopher Potts, Róbert Csordás. MrT5: Dynamic Token Merging for Efficient Byte-level Language Models. arXiv / ICLR 2025, 2024论文
  17. [17]
    Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting. CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation. arXiv, 2021论文
  18. [18]
    Yi Tay, Vinh Q. Tran, Sebastian Ruder, Jai Gupta, Hyung Won Chung, Dara Bahri. Charformer: Fast Character Transformers via Gradient-based Subword Tokenization. arXiv, 2021论文
  19. [19]
    Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang. ByT5: Towards a token-free future with pre-trained byte-to-byte models. arXiv, 2021论文
  20. [20]
    Junxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M. Rush. MambaByte: Token-free Selective State Space Model. arXiv, 2024论文
  21. [21]
    Lili Yu, Dániel Simig, Colin Flaherty, Armen Aghajanyan, Luke Zettlemoyer. MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers. arXiv, 2023论文
  22. [22]
    Sukjun Hwang, Brandon Wang, Albert Gu. Dynamic Chunking for End-to-End Hierarchical Sequence Modeling. arXiv, 2025论文
  23. [23]
    Darius Feher, Ivan Vulić, Benjamin Minixhofer. Retrofitting Large Language Models with Dynamic Tokenization. arXiv, 2024论文
  24. [24]
  25. [25]
    Benjamin Minixhofer, Ivan Vulić, Edoardo Maria Ponti. Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching. arXiv, 2025论文
  26. [26]
    Tiago Pimentel, Clara Meister. How to Compute the Probability of a Word. arXiv, 2024论文
  27. [27]
    Brian Siyuan Zheng, Alisa Liu, Orevaoghene Ahia, Jonathan Hayase, Yejin Choi, Noah A. Smith. Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations. arXiv, 2025论文
  28. [28]
    Navid Ayoobi, Marcus I Armstrong, Arjun Mukherjee. Say Anything but This: When Tokenizer Betrays Reasoning in LLMs. arXiv, 2026论文
  29. [29]
    Yike Sun, Haotong Yang, Zhouchen Lin, Muhan Zhang. LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers. arXiv, 2026论文
  30. [30]
    Yingru Li, Jiawei Xu, Jiacai Liu, Yuxuan Tong, Ziniu Li, Tianle Cai. Dynamic Vocabulary Pruning: Stable LLM-RL by Taming the Tail. arXiv, 2025论文
  31. [31]
    Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao. DPO Meets PPO: Reinforced Token Optimization for RLHF. arXiv, 2024论文
  32. [32]
    Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng. Efficient Memory Management for Large Language Model Serving with PagedAttention. arXiv, 2023论文
  33. [33]
    Xinying Song, Alex Salcianu, Yang Song, Dave Dopson, Denny Zhou. Fast WordPiece Tokenization. arXiv, 2020论文
  34. [34]
  35. [35]
    Prathamesh Kalamkar, Ned Letcher, Meissane Chami, Sahger Lad, Shayan Mohanty. The Tokenization Bottleneck: How Vocabulary Extension Improves Chemistry Representation Learning in Pretrained Language Models. arXiv, 2025论文
  36. [36]
    Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, et al.. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
  37. [37]
    Rico Sennrich, Barry Haddow, Alexandra Birch. Neural Machine Translation of Rare Words with Subword Units. arXiv, 2015论文
  38. [38]
    微信公众号文章(作者未署名/转载聚合). 探索Claude Opus 4.7反常的Tokenizer词表缩减(第三方实测与推测汇总). WeChat MP, 2025文章
  39. [39]
    Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong. Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies. NeurIPS 2024 (spotlight), 2024论文

论文列表

受控预训练与可比评估:把 tokenizer 变更变成可回归项(5)

聚焦两件事:一是 fixed-compute tokenizer-only ablation 把影响量级钉住;二是跨 tokenizer 的评估分母对齐,避免 per-token PPL 误判。

10

Tokenizer Choice For LLM Training: Negligible or Crucial?

Mehdi Ali,Michael Fromm,Klaudia Thellmann2024年2月1日
用 fixed-compute 把 tokenizer-only ablation 做成可复现回归:同一 2.6B 与预算下,仅替换 tokenizer 就造成 0.6–5.1 pp 下游方差,并显示 coverage/平均 token 长度不足以解释差异。
10

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Chaofan Tao,Qian Liu,Longxu Dou,Niklas Muennighoff,Zhongwei Wan,Ping Luo,Min Lin,Ngai Wong2024年7月18日
把 vocab size 升格为独立的 scaling 轴:在 fixed-FLOP 下,三条互证路径(IsoFLOPs / 导数估计 / 参数化损失拟合)给出一致结论 —— compute-optimal 词表随非词表参数成幂律增长但显著慢于参数本身,因此现行 LLM 多半词表偏小(例如 Llama2-70B 应 ≥216K 而非 32K);并在 2.3e21 FLOPs 同算力下把词表 32K→43K,ARC-Challenge 从 29.1 升到 32.0,给出 vocab 这一轴可外推的预算公式。
9

From Language Models over Tokens to Language Models over Characters

Tim Vieira,Ben LeBrun,Mario Giulianelli,Juan Luis Gastaldi,Brian DuSell2024年12月4日
形式化指出 per-token PPL 在跨 tokenizer 时分母不同、不可比;把评估目标改写为 character-string likelihood,从而把“模型分布”对齐到应用侧的字符串语义。
9

Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles

Buu Phan,Brandon Amos,Itai Gat,Marton Havasi,Matthew Muckley2024年10月11日
给出从 tokenized LM 推导 exact byte-level probability 的方法,使跨 tokenizer 的 likelihood 可精确对齐;对 FIM 与 ensemble 这类“需要字节级一致性”的场景是直接工程解法。
9

The Foundations of Tokenization: Statistical and Computational Concerns

Juan Luis Gastaldi,John Terilla,Luca Malagutti,Brian DuSell,Tim Vieira2024年7月16日
把 tokenization 作为“字符串到 token 序列的测度变换”来讨论,明确哪些比较在统计上不合法(如 per-token PPL),并把系统成本(序列长度、词表大小)纳入同一框架。

系统与效率账本:bytes/token、KV cache 与吞吐(3)

把 tokenizer 选择落到推理成本:序列长度决定 KV cache 占用与 serving 吞吐;同时 tokenizer 本身也有 runtime 成本。

10

The Llama 3 Herd of Models

Aaron Grattafiori,Abhimanyu Dubey,Abhinav Jauhri2024年7月31日
把 128K vocab 的收益写成工程口径:报告 0.02–0.04 nats 更低训练 loss,并用 bytes-per-token/fertility 说明 non-English 与 code 的序列缩短,直接关联 KV cache 与吞吐。
7

Efficient Memory Management for Large Language Model Serving with PagedAttention

Woosuk Kwon,Zhuohan Li,Siyuan Zhuang,Ying Sheng,Lianmin Zheng2023年9月12日
把 KV cache 作为 serving 的主内存瓶颈来建模,并给出分页式管理;对 tokenizer 来说,序列长度的线性缩短会直接转化为更高 batchability 与更低 OOM 风险。
6

Fast WordPiece Tokenization

Xinying Song,Alex Salcianu,Yang Song,Dave Dopson,Denny Zhou2020年12月31日
指出 tokenization 算法本身会成为线上延迟的一部分,并给出加速路径;在把 vocab 扩到 128K/256K 时,tokenize latency 需要进入系统回归账本。

失败模式与训练债务:数字/日期与词表长尾(4)

把 tokenizer 的具体结构选择(digit/date merge、尾部 token)映射到可复现的推理缺口与可治理的训练债务流程。

10

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

Sander Land,Max Bartolo2024年5月8日
把“词表尾部坏 token”做成可扫描、可修复的流程:在多款模型中发现 3k–10k+ under-trained tokens,并给出短 continued pretrain 的修复路径。
9

Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs

Aaditya K. Singh,DJ Strouse2024年2月22日
把算术正确率与数字切分方式绑定:single-digit 与多位 merge 的差异在 3–5 位 carry-sensitive 任务上稳定放大到 10–20 pp,并且在更大模型上不自动消失。
9

Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning

Gagan Bhatia,Maxime Peyrard,Wei Zhao2025年5月22日
把日期碎片化作为独立因果链:YYYYMMDD 等格式被切成无语义边界的片段,诱发系统性 temporal reasoning 错误模式,适合作为 tokenizer 变更的 release gate。
8

Understanding and Mitigating Tokenization Bias in Language Models

Buu Phan,Marton Havasi,Matthew Muckley,Karen Ullrich2024年6月24日
把 BPE/MPE 的 tokenization bias 形式化为采样与表示偏差,并给出缓解策略;与 under-trained tail 一起构成“tokenizer 需要 post-training 流程”的工程理由。

越过 BPE:tokenizer-free 与动态/非子词变体(4)

覆盖两条对立路线:一条是 tokenizer-free(byte/patch/pixel);另一条是在保留词表的前提下用动态/采样/非子词假设改造 tokenization。

10

Byte Latent Transformer: Patches Scale Better Than Tokens

Artidoro Pagnoni,Ram Pasunuru,Pedro Rodriguez,John Nguyen,Benjamin Muller,Margaret Li2024年12月13日
用 entropy-based patching 把 byte-level 的序列成本压到可训练/可推理,并在 FLOP-controlled setting 下对齐 tokenized baseline;把 tokenizer-free 从“理念正确”推到“工程可比”。
8

Autoregressive Pre-Training on Pixels and Texts

Yekun Chai,Qingyi Liu,Jingwu Xiao,Shuohuan Wang,Yu Sun,Hua Wu2024年4月16日
PixelGPT 把 tokenizer-free 拉回 autoregressive:在渲染文本图像的 patch 上做 next-patch prediction,绕开 BPE 词表;同时把“文本单位”与多模态输入统一到同一序列接口。
8

Retrofitting Large Language Models with Dynamic Tokenization

Darius Feher,Ivan Vulić,Benjamin Minixhofer2024年11月27日
在不重训基座的前提下引入 dynamic tokenization,试图把“词表固定导致的效率/多语退化”变成可后装的模块;对工业流程的启发是 tokenizer 版本化与兼容层。
7

Language Modelling with Pixels

Phillip Rust,Jonas F. Lotz,Emanuele Bugliarello,Elizabeth Salesky,Miryam de Lhoneux,Desmond Elliott2022年7月14日
PIXEL 把“词表瓶颈”转成像素输入并用 MLM 训练,提供了 pixel-space 的强基线;对 tokenizer-scaling 的意义在于:它把 vocab size 从一等约束移出 embedding/softmax。