Tokenizer Scaling：从 32K 到 128K 之外——被当常量的那根杠杆

把 tokenizer 当作训练目标 + 系统成本 + 后训练债务的共同回归项

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

44 篇扩展证据（支持 4 · 反证 6 · 拓展 34）·知识聚类 10·悬问 5

领域综述

结论先行：tokenizer 不是“预处理常量”，而是会同时改变训练目标的可达字符串集合、训练信号在 token 之间的分配、以及推理系统的序列长度与 KV cache 成本，因此必须像 data mixture 或训练配方一样走强制回归。受控 fixed-compute 预训练已经把影响量级钉死：同一 2.6B 与预算下，仅替换 tokenizer 就能带来 0.6–5.1 pp 下游方差 [1]。工业侧也把收益写成可交付口径：128K vocab 对训练 loss 约 0.02–0.04 nats，并把主要来源归因到 non-English 与 code 的 bytes-per-token/fertility 改善，从而线性影响 KV cache 与吞吐 [2]。风险同样可回归：digit/date 的局部 merge 会在 3–5 位 carry-sensitive 算术与 temporal reasoning 上制造 10–20 pp 缺口 [9][4]；词表尾部常见 3k–10k+ under-trained tokens，需要扫描定位并用短 continued pretrain 修复 [3]。跨 tokenizer 评估不能用 per-token PPL，因为分母变了；应切到 BPB、character-string likelihood 或 exact byte-level probability [7][10]。工程默认建议 64K–128K；256K+ 视为实验，必须同时交付 fixed-compute 曲线、系统账本与 tail 扫描，并把数字/日期任务设为 release gate。

TL;DR

tokenizer 变更需要像 data mixture 一样走强制回归，而不是“预处理常量”。受控 fixed-compute 预训练已给出量级：同一 2.6B 与预算下，仅替换 tokenizer 就带来 0.6–5.1 pp 下游方差 [1]。压缩率/平均 token 长度解释不完 [5][6]，更像是归纳偏置与训练信号分配被改写。工业侧把 128K vocab 的收益写成 0.02–0.04 nats 更低 loss，并用 bytes-per-token/fertility 归因到 non-English 与 code 的序列缩短，直接影响 KV cache 与吞吐 [2][32]。风险同样可回归：digit/date 的局部 merge 会在 3–5 位 carry-sensitive 算术与 temporal reasoning 上制造 10–20 pp 缺口 [9][4]；词表尾部常见 3k–10k+ under-trained tokens，需要扫描定位并用短 continued pretrain 修复 [3]。跨 tokenizer 评估不要用 per-token PPL；用 BPB、character-string likelihood 或 exact byte-level probability 才能对齐 [7][10]。工程默认：64K–128K；256K+ 视为实验，必须交付 fixed-compute 曲线、系统账本与 tail 扫描，并把数字/日期任务设为 release gate。

核心断言

#1在 fixed-compute 设定下，tokenizer 不是二阶变量：同一 2.6B 与预算，仅替换 tokenizer 就产生 0.6–5.1 pp 下游方差 [1]，量级与常见 data mixture 改动相当。

#2把“更大 vocab = 更好压缩 = 更好模型”当默认会误导：压缩率与下游质量相关但不充分 [5]，且存在“非压缩机制”解释空间 [6]。但词表也不是“随便挑”——Tao et al. 用三条互证路径（IsoFLOPs / 导数估计 / 参数化损失拟合）拟合到 V★ ∝

N_{n} v

^γ（γ ≈ 0.27），给出可外推的“最优词表”预算公式，并指出 Llama2-70B 应至少 ~216K 而非 32K [39]。

#3跨 tokenizer 的 per-token PPL 不可比，因为分母与可达 token-string 集合都变了；可比主指标应切到 BPB/character-string likelihood [7][8]，需要精确对齐时给 exact byte-level probability [10]。

#4128K vocab 的收益可以落到 loss 与系统账本：训练 loss 约低 0.02–0.04 nats [2]，主要来自 non-English 与 code 的 bytes-per-token/fertility 改善，从而线性降低 KV cache 占用并提高 serving 吞吐 [2][32]。

#5digit/date 的局部 merge 会制造可复现的推理缺口：3–5 位 carry-sensitive 算术与 temporal reasoning 上出现 10–20 pp 级差 [9][4]，因此“词表结构”比“词表大小”更先决定推理失真。

#6词表尾部的 3k–10k+ under-trained tokens 是可治理的训练债务：可扫描定位并用短 continued pretrain 修复 [3]；因此 tokenizer 需要 post-training 流程，而不是一次性定稿。

#7Vocab 是继 (N, D) 之后的第三条 scaling 轴：在 fixed-FLOP 下，最优 vocab V★ 是

N_{n} v

的可拟合幂律 [39]，并且 [2] 用 128K 在 70B 量级把 loss 收紧 0.02-0.04 nats，证明这条轴是可工程化、可审计的，而不是“凭直觉调”。

#8Tokenizer 已经从“一次设定”变成 release-time 必审项：under-trained tokens 与 digit/date 碎片化是可扫描的训练债务，[3] 与 [4][9] 已经把它们做成可复现的发版 gate，单数清单里不该缺。

§0 演进谱系：从 BPE 到 vocab scaling 再到 tokenizer-free 的三次重写

Sennrich BPE -> ByT5/BLOOM -> Llama 32K -> Llama-3 128K + Tao V* -> Magikarp 审计 -> BLT / dynamic chunk

Tokenizer 在 LLM 上的演进经历了三次重写，每次都不是“换分词法”这一点改变。[37] 的 BPE 把 OOV 问题压成可控的子词重复，奠定了 NMT/LLM 的子词主线。[19] 与 [17] 走 byte / character 路径，把“分词不在管线里”作为对照组留给后来者；这条路径在 LLM 主线被搁置近三年，因为成本不划算。[34] 把 vocab 推到 250K 处理多脚本，但发现 vocab 做大并非线性收益。[36] 把 vocab 收回到 32K + balanced——这一阶段 vocab 仍被当作“工程默认值”。

第二次重写发生在 2024：[39] 把 vocab V 升级为 (N, D) 之外的第三轴，给出 V* = φ · $N_{n} v$ ^k 的可拟合关系；[2] 把 128K vocab 工程化并报告训练 loss ~ 0.02-0.04 nats 的可观增益（系统侧只增几个 % 的 embedding/lm_head 显存）。vocab 第一次有了“算给人看的账本”。同时 [3] 把 under-trained tokens 做成可扫描的训练债务，[4]、[9] 把数字/日期碎片化做成可复现的 release gate；tokenizer 从“一次设定终身使用”变成 release-time 必须审的对象。

第三次重写仍在进行：[12]、[22]、[20]、[21] 把 tokenizer-free / dynamic chunk 的路径重新拉回主线，把 byte 序列上做 patch 形成自适应粒度。这条路线的核心赌注不是“BPE 不够好”，而是“分词层是 release 期不可控的债务源头，把它从训练循环里拿掉更稳”。另一支 [5]、[6]、[26] 在 BPE 主线内部继续做单位与对齐工程，保证 BPB / character-level 的可比性不被分词差异污染。本节后续把这条边界画成可执行的 decision flow，并在 §1–§5 里把每条工程账单收紧。

图 1. 图 0.1 Tokenizer 演进时间线:每一代解决一个具体失败模式

正在渲染图示…

图 2. 图 0.2 给新预训练选 vocab 的执行式 decision flow

Llama-2 (32K)

32[Touvron2023LLaMA]

Llama-3 (128K)

128loss ~ -0.02 to -0.04 nats [Dubey2024Llama3]

BLOOM (250K)

250multilingual [BigScience2022BLOOM]

Tao2024 V* @ 70B

216fixed-FLOP optimum [Tao2024VocabScalingLaw]

Opus 4.7 (~减半,实测)

65[WeChatMP2025Opus47TokenizerShrink]

ByT5 byte-level

0tokenizer-free [Xue2021ByT5]

单位：vocab 大小 (千)

图 3. 图 0.3 主流 LLM 的 vocab 选择 (size + 训练 loss / 系统成本权衡 - 报告区间)

§1 Tokenizer 变更到底改了什么：目标、信号分配、系统成本三条链

tokenizer 变更至少同时改动三条链。第一是“训练目标”：tokenized LM 学到的是 token-string 分布，而应用侧关心的是 character-string；tokenizer 一变，可达 token-string 集合与同一字符串的分解方式都变，因此 per-token PPL 的分母不再可比 [7][8]。第二是“训练信号分配”：同一字符序列被切成更少/更多 token，会改变 early training 中哪些局部模式更容易被拟合，并由此改变归纳偏置；受控实验显示这种效应量级可达 0.6–5.1 pp 下游差异 [1]，且压缩率/平均 token 长度不能完全解释 [5][6]。第三是“系统成本”：序列长度线性决定 KV cache footprint 与 batchability，serving 系统把它作为主约束来优化 [32]；因此 bytes-per-token/fertility 改善可以直接转化为吞吐收益 [2]。三条链叠加后，tokenizer 变更的正确交付方式更接近训练配方变更：必须同时给出质量回归与系统账本，而不是只报告“平均 token 更短”。

图 4. 图 1.1 tokenizer 演进:从 subword BPE 到 byte-level 再到 token-free

tokenizer 不是 I/O 细节：它同时改了“模型在优化什么”“哪些模式更容易学到”“推理时每个请求要占多少 KV cache”。

§2 32K→128K 的收益与 256K+ 的不确定性：先把账算清

把 vocab 从 32K 扩到 128K 的可交付收益主要来自序列缩短，而不是神秘的语义跃迁。Llama 3 报告给出的收益是 0.02–0.04 nats 更低训练 loss，并用 bytes-per-token/fertility 将其归因于 non-English 与 code 的 token 数下降 [2]。在 serving 侧，序列缩短会线性降低 KV cache 占用，从而提高并发与吞吐；PagedAttention 将 KV cache 作为核心内存瓶颈处理，使这种线性关系直接体现在 batchability 上 [32]。

这条经验过去缺的是“最优词表到底应该多大”的量化预算。Tao et al. [39] 在 33M–3B / ≤500B characters 上把 vocab size 升格为独立 scaling 轴，并用三条互证路径（IsoFLOPs sweep、导数估计、参数化损失拟合）一致拟合出：compute-optimal 词表随非词表参数 $N_{n} v$ 成幂律 V★ ∝ $N_{n} v$ ^γ，但 γ < 1（约 0.27）。因此模型变大时词表也应变大，但增速远慢于参数；按该公式外推，Llama2-70B 应至少 ~216K 而非 32K，许多现行 LLM 系统性偏小。同一论文的可执行实验也可作 sanity check：在 2.3e21 FLOPs 同算力下，把 33M 模型的词表从 32K 提到 43K，ARC-Challenge 从 29.1 升到 32.0，相当于不加参数也不加 tokens 获得 ~3 pp 下游收益 [39]。

但仍不应把 256K+ 设为默认，因为 vocab 公式给出的是最优区间，而不是越大越好。Tao 2024 的结论同样意味着，小模型继续放大词表会过冲到欠训练区；同时，词表变大也会提高 embedding/softmax 成本、tokenize latency，以及 tail token 欠训练风险 [33][3]。可操作做法是：把 V 与 N、D 一起放进 IsoFLOP 小 grid（含 32K/64K/128K/256K 至少四点），用 BPB 而不是 per-token loss 做对齐回归，并把 systems ledger（吞吐、tokenize latency、KV cache）和 tail under-training 扫描作为同一份报告交付 [1][7][32]。

维度	32K→128K 常见收益	256K+ 常见新增风险	建议的回归指标
训练质量	loss 约低 0.02–0.04 nats（工业报告口径）[2]	收益可能饱和；结构性坏 merge 仍可制造缺口 [9][4]	fixed-compute loss/BPB 曲线 + 关键下游 pp [1][7]
推理系统	序列缩短→KV cache 线性下降→吞吐上升 [2][32]	tokenize latency 与 embedding/softmax 成本上升 [33]	bytes/token、吞吐/延迟、KV cache footprint（同 batch 策略）[32]
后训练债务	长尾 token 更少欠训练（不保证）	尾部 token 更长更稀有，欠训练更集中 [3]	tail 扫描（under-trained tokens）+ 短 continued pretrain 修复 [3]

把“更大词表”拆成可回归的交付维度（质量 / 系统 / 债务）

32K BPE -> 64K BPE

0.60压缩率小幅提升

64K -> 128K (Llama 3 配方)

1.40[Dubey2024Llama3]

BBPE -> SentencePiece (multi-lingual)

2.10[BigScience2022BLOOM]

数字/日期 merge 修复

3.40[Singh2024TokenizationCounts][Bhatia2025DateFragments]

under-trained 尾部修复

5.10[LandBartolo2024Magikarp]

单位：下游 pp 差距

图 5. 图 2.1 同 2.6B / 同算力下,只换 tokenizer 造成的下游分数 pp 区间 (illustrative;[Ali2024TokenizerChoice])

§3 结构性坏 merge：数字与日期为什么要做 release gate

“更大 vocab”最常见的失败点不是算力，而是局部结构选择把推理任务的归纳偏置带偏。算术中，single-digit 切分与多位 merge 的差异会在 3–5 位 carry-sensitive 任务上稳定放大为 10–20 pp [9]；这更像表示空间可组合性被改写，而不是数据不足。时间上，日期常被 BPE 切成无语义边界的碎片（例如 YYYYMMDD 的中间片段），模型在 temporal reasoning 中形成系统性错误模式 [4]；这些错误也很难靠后训练完全补齐，因为输入分解本身不稳定。把这两类任务设为 release gate，是因为它们对 token 边界极敏感，能快速暴露“局部 merge 是否破坏可组合性”。配套评估也必须对齐：跨 tokenizer 不看 per-token PPL，而看 character-string likelihood/BPB [7]；解释 tokenization bias 时，可参考对 BPE/MPE 偏差的分析与缓解 [11]。

图 6. 图 3.1 三类结构性 bad-merge:digit / date / orphan token,各自的症状 + 缓解 + 释出闸

digit/date 不是“边角任务”，而是最便宜的结构探针：它们能把坏 merge 直接放大成 10–20 pp 的可复现缺口。

§4 三条路线的工程含义：扩大、减法、以及 tokenizer-free

路线一是常规扩大：32K→64K→128K 的主要收益来自 non-English 与 code 的 fertility 下降 [2]，但必须用 fixed-compute + BPB 将质量收益与系统收益拆账交付 [1][7]。路线二是“词表减法”：长尾 token 欠训练与 tokenization bias 表明，删掉稀有长 token、回到更可训练的单位，可能让对齐与安全更稳；可操作证据包括 under-trained token 的可扫描性与可修复性 [3]，以及清理 BPE 词表中 intermediate merge residues 的路径 [29]。第三条是 tokenizer-free：byte/patch/pixel 直接建模从根上消除 OOV 与分词偏置，但必须靠结构压低序列成本。BLT 用 entropy-based patching 在 FLOP-controlled setting 下对齐 tokenized baseline，并报告更好的 inference scaling [12]；PixelGPT/PIXAR 将文本渲染为像素 patch 并做 autoregressive 建模，提供另一种“单位选择” [13][15]，PIXEL 则是 encoder-only 的早期强基线 [14]。三条路线不互斥：更务实的顺序是先固化 BPE 的回归与债务流程（指标、gate、tail 扫描），再用同一套 fixed-compute 与系统账本评估 tokenizer-free 的端到端成本 [1][32][12]。

正在渲染图示…

图 7. 图 4.1 三条 tokenizer 路线:扩大、修剪、token-free 的决策入口

§5 迁移与兼容：tokenizer 版本化之后，怎么不把生态打碎

tokenizer 版本化的现实约束是：模型、工具链与数据资产都绑定 token ID 语义。两类工作提供可落地的缓冲层。第一类是跨 tokenizer 的概率对齐：exact byte-level probability 将 tokenized LM 输出对齐到字节层，避免 tokenizer 变更使 FIM/ensemble 的概率不可比 [10]；语言学侧也给出从 subword LM 计算 word probability 的方法，强调对齐目标应是字符串/词，而不是 token [26]。第二类是跨 tokenizer 的知识迁移：WECHSEL 通过子词 embedding 初始化降低换词表的冷启动成本 [24]，universal cross-tokenizer distillation 则把“teacher/student tokenizer 必须一致”的约束放松为近似 likelihood matching [25]。同时必须处理非 canonical tokenization：同一字符串可能存在多个 token 序列表示；模型对非 canonical 分解的鲁棒性并非为零，但会引入推理与表示不一致的脆弱点 [27][28]。因此，tokenizer 变更的交付物不应只有“新 tokenizer 的质量”，还应包含兼容层策略与非 canonical 回归集。

时间线

2015-08BPE 子词作为 open-vocab 折中方案进入主流[37]
2021-05ByT5 把 byte-level 预训练作为可行替代路线[19]
2024-02fixed-compute tokenizer-only ablation 给出 0.6–5.1 pp 量级[1]
2024-05under-trained tail tokens 被流程化：扫描 + 短 continued pretrain 修复[3]
2024-07128K vocab 的收益被写成 loss 与 bytes/token 账本[2]
2024-07vocab 升格为独立 scaling 轴：V★ ∝ $N_{n} v$ ^0.27，多数 LLM 词表偏小[39]
2024-12character-string likelihood 视角推动跨 tokenizer 评估对齐[7]
2024-12BLT 在 FLOP-controlled setting 下把 tokenizer-free 拉到可比区间[12]
2026-02BPE 词表“中间合并残渣”被明确为可清理的结构性噪声[29]

研究立场对比

阵营 A：tokenizer 是冻结的预处理；coverage 够了就行

立场 — 优先把预算放在参数/数据/训练配方；tokenizer 只要不 OOV、不乱码，就不应成为主训练周期里的主要变量。实践上常沿用上一代生态默认 tokenizer，以减少工具链与数据资产迁移成本 [36]。

证据：[36]

反方 — fixed-compute 证据直接否定“影响可忽略”：同一 2.6B 与预算，仅替换 tokenizer 就有 0.6–5.1 pp 下游方差 [1]。而且跨 tokenizer 用 per-token PPL 会把分母差异当成质量差异，导致“看起来没问题”的错觉 [7][8]。

判词 — 更稳的读法：把 tokenizer 当作“必须回归”的训练变量，但把变更频率控制在 release 节点；默认冻结不是原则，只是缺少回归流程时的权宜之计。

阵营 B：更大 vocab 近似单调更好；默认走到 256K+

立场 — 把更大 vocab 视为“免费压缩”：序列更短，attention 更省，长上下文更划算；embedding/softmax 的额外成本相对可忽略。对多语与代码尤其有利，应该继续扩词表并把压缩率当主要目标 [2][34]。

证据：[2][34][35]

反方 — 两类证据要求把“单调更好”改成“结构优先、规模其次”。一是压缩率与质量相关但不充分 [5]，存在非压缩机制与反例空间 [6]。二是局部 merge 会制造 10–20 pp 的推理缺口：digit/date 的坏 merge 与 vocab 大小无关，反而更容易在扩词表时被引入 [9][4]。此外，词表越大越需要处理 tail token 欠训练与 tokenization bias [3][11]。

判词 — 更务实的定位：64K–128K 作为默认区间；256K+ 只能在交付 fixed-compute 曲线 + 系统账本 + digit/date gate + tail 扫描后进入主线。

阵营 C：tokenizer-free 才是终局；尽快放弃 BPE

立场 — BPE 的采样偏差、非唯一编码与跨语言不公平是结构性问题；byte/patch/pixel 直接建模从根上消除 OOV 与分词偏置。序列变长的成本应由结构创新解决：多尺度/latent/SSM/动态 chunking 等 [19][21][20][12][22][13][15]。

证据：[19][21][20][12][22][13][15][14]

反方 — tokenizer-free 的关键门槛不是“能不能训”，而是“同 FLOPs、同延迟预算下是否更划算”。BLT 已经把一部分证据补上 [12]，但工业主线仍需要与 BPE 的系统账本同台对照（KV cache、吞吐、tokenize latency 的替代成本）[32][33]。同时，tokenized LM 也在暴露非 canonical 表示的脆弱点 [28]，但也显示一定的鲁棒性 [27]；这意味着“完全抛弃 tokenization”并不是唯一修复路径。

判词 — 更稳的建议：把 tokenizer-free 当作“下一代基座”的候选，而不是对现有 BPE 基座的即时替换；短期先把 BPE 的回归、对齐指标与债务治理流程固化，再用同一套 fixed-compute 与系统账本评估 tokenizer-free 的净收益 [1][7][12]。

阵营 E：缩词表/剪尾巴，换对齐与 RL 稳定性

立场 — 对齐阶段（RLHF/DPO/PPO）更在意数值稳定性与策略一致性；长尾 token 的低频与非唯一编码会放大 train/infer mismatch 与攻击面，因此应主动 prune tail、清理中间残渣，并把“更可训练的单位”作为对齐优先级 [30][29]。

证据：[30][29][31]

反方 — 目前直接把“缩词表→对齐更稳”钉死的 controlled evidence 仍偏少，更多是机制推断与系统层面的合理性。可操作的中间版本是：先用 Magikarp 扫描 under-trained tail 并修复 [3]，再评估 prune 对 RL 稳定性与下游质量的净影响；同时用字符串对齐指标避免把 token 分母差异误判为对齐收益 [7]。

判词 — 结论层面的建议：把“剪尾巴”当作对齐阶段的实验开关，而不是预训练阶段的默认；但 tail 扫描与残渣清理可以先成为常规卫生流程 [3][29]。

实践要点

可执行清单（按交付优先级）：
1) DO：任何 tokenizer 变更都按 fixed-compute 回归交付：至少给 BPB 或 character-string likelihood + 关键下游 pp（把 0.6–5.1 pp 级风险显式化）[1][7]。
2) DON'T：跨 tokenizer 用 per-token PPL 下结论；主指标切到 BPB/character-string likelihood，需要精确对齐时补 exact byte-level probability（FIM/ensemble 常用）[7][10]。
3) DO：同时交付系统账本：bytes/token（或 fertility）、tokenize latency、推理吞吐/延迟、KV cache footprint；测量时固定 batch 策略与 serving 配置 [2][32][33]。
4) DO：把 digit/date 设为 release gate：至少覆盖 3–5 位 carry-sensitive 算术与日期推理；目标是避免 10–20 pp 级缺口进入主线 [9][4]。
5) DO：每次 tokenizer 发布都跑 tail 扫描，定位 under-trained tokens，并预留一次短 continued pretrain 的修复窗口；把它当作常规训练债务治理 [3]。
6) DON'T：把“压缩率更高”当作充分理由；压缩与质量相关但不充分，必须给机制侧与下游侧的回归证据 [5][6]。
7) DO：需要换 tokenizer 但不想重训时，优先走迁移/兼容层：WECHSEL 初始化或 cross-tokenizer distillation；并把非 canonical tokenization 加入回归集 [24][25][27][28]。
8) DO：默认 vocab 64K–128K；256K+ 视为实验，只在交付 fixed-compute 曲线 + 系统账本 + gate + tail 扫描后进入主线 [2][1][3]。
9) OPEN：tokenizer-free 只在同 FLOPs/同延迟预算下证明净收益时才进入主线评审；优先对照 BLT 与 pixel/patch 路线的系统成本 [12][13][32]。
10) OPEN：若目标是对齐稳定性，先把“残渣清理 + 尾部治理”做成卫生流程，再评估 prune 的净收益 [29][3][30]。

悬而未决的问题

Q1.缺口：32K/64K/128K/256K 的同配方 fixed-compute 预训练曲线（loss、BPB、关键下游）与系统账本（吞吐、KV cache、tokenize latency）同台对照仍不够；需要公开 artifact 才能判断 256K+ 的收益是否饱和或非单调。
Q2.缺口：明确主张“tokenizer 影响可忽略/已解决”的 controlled-compute 论文很少；现状更像是工程惯性而非证据结论，需要对照实验把这个 prior 变成可证伪命题。
Q3.缺口：digit/date merge 的因果链已在评测侧成立 [9][4]，但缺少现代预训练阶段的系统 ablation（只改数字/日期规则，固定 compute 与数据）来量化“坏 merge”在训练早期如何塑形。
Q4.缺口：缩词表/剪尾巴是否提升对齐稳定性仍缺少直接证据；现有工作更多是机制推断或在特定 RL 设置下的结果，需要更标准化的对照与公开回归集 [30][31]。
Q5.缺口：tokenizer-free（byte/patch/pixel/SSM）在同延迟预算、同 KV cache 约束下的端到端 serving 成本仍缺少公开对照；需要把“序列更长但单位更简单”的系统效应量化 [12][20][13]。
Q6.缺口：非 canonical tokenization 的脆弱性与可修复性边界仍不清晰；需要把它与推理链路（CoT、tool use、FIM）绑定，形成可回归的 failure taxonomy [27][28]。

[1]
Mehdi Ali, Michael Fromm, Klaudia Thellmann. Tokenizer Choice For LLM Training: Negligible or Crucial?. arXiv, 2024论文
[2]
Aaron Grattafiori, Abhimanyu Dubey, Abhinav Jauhri. The Llama 3 Herd of Models. arXiv, 2024论文
[3]
Sander Land, Max Bartolo. Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models. arXiv, 2024论文
[4]
Gagan Bhatia, Maxime Peyrard, Wei Zhao. Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning. arXiv, 2025论文
[5]
Omer Goldman, Avi Caciularu, Matan Eyal, Kris Cao, Idan Szpektor. Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance. arXiv, 2024论文
[6]
Craig W. Schmidt, Varshini Reddy, Haoran Zhang, Alec Alameddine, Omri Uzan. Tokenization Is More Than Compression. arXiv, 2024论文
[7]
Tim Vieira, Ben LeBrun, Mario Giulianelli, Juan Luis Gastaldi, Brian DuSell. From Language Models over Tokens to Language Models over Characters. arXiv, 2024论文
[8]
Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira. The Foundations of Tokenization: Statistical and Computational Concerns. arXiv, 2024论文
[9]
Aaditya K. Singh, DJ Strouse. Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs. arXiv, 2024论文
[10]
Buu Phan, Brandon Amos, Itai Gat, Marton Havasi, Matthew Muckley. Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles. arXiv, 2024论文
[11]
Buu Phan, Marton Havasi, Matthew Muckley, Karen Ullrich. Understanding and Mitigating Tokenization Bias in Language Models. arXiv, 2024论文
[12]
Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li. Byte Latent Transformer: Patches Scale Better Than Tokens. arXiv, 2024论文
[13]
Yekun Chai, Qingyi Liu, Jingwu Xiao, Shuohuan Wang, Yu Sun, Hua Wu. Autoregressive Pre-Training on Pixels and Texts. arXiv / EMNLP 2024, 2024论文
[14]
Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux, Desmond Elliott. Language Modelling with Pixels. arXiv / ACL 2023, 2022论文
[15]
Yintao Tai, Xiyang Liao, Alessandro Suglia, Antonio Vergari. PIXAR: Auto-Regressive Language Modeling in Pixel Space. arXiv / ACL 2024, 2024论文
[16]
Julie Kallini, Shikhar Murty, Christopher D. Manning, Christopher Potts, Róbert Csordás. MrT5: Dynamic Token Merging for Efficient Byte-level Language Models. arXiv / ICLR 2025, 2024论文
[17]
Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting. CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation. arXiv, 2021论文
[18]
Yi Tay, Vinh Q. Tran, Sebastian Ruder, Jai Gupta, Hyung Won Chung, Dara Bahri. Charformer: Fast Character Transformers via Gradient-based Subword Tokenization. arXiv, 2021论文
[19]
Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang. ByT5: Towards a token-free future with pre-trained byte-to-byte models. arXiv, 2021论文
[20]
Junxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M. Rush. MambaByte: Token-free Selective State Space Model. arXiv, 2024论文
[21]
Lili Yu, Dániel Simig, Colin Flaherty, Armen Aghajanyan, Luke Zettlemoyer. MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers. arXiv, 2023论文
[22]
Sukjun Hwang, Brandon Wang, Albert Gu. Dynamic Chunking for End-to-End Hierarchical Sequence Modeling. arXiv, 2025论文
[23]
Darius Feher, Ivan Vulić, Benjamin Minixhofer. Retrofitting Large Language Models with Dynamic Tokenization. arXiv, 2024论文
[24]
Benjamin Minixhofer, Fabian Paischer, Navid Rekabsaz. WECHSEL: Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models. arXiv, 2021论文
[25]
Benjamin Minixhofer, Ivan Vulić, Edoardo Maria Ponti. Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching. arXiv, 2025论文
[26]
Tiago Pimentel, Clara Meister. How to Compute the Probability of a Word. arXiv, 2024论文
[27]
Brian Siyuan Zheng, Alisa Liu, Orevaoghene Ahia, Jonathan Hayase, Yejin Choi, Noah A. Smith. Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations. arXiv, 2025论文
[28]
Navid Ayoobi, Marcus I Armstrong, Arjun Mukherjee. Say Anything but This: When Tokenizer Betrays Reasoning in LLMs. arXiv, 2026论文
[29]
Yike Sun, Haotong Yang, Zhouchen Lin, Muhan Zhang. LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers. arXiv, 2026论文
[30]
Yingru Li, Jiawei Xu, Jiacai Liu, Yuxuan Tong, Ziniu Li, Tianle Cai. Dynamic Vocabulary Pruning: Stable LLM-RL by Taming the Tail. arXiv, 2025论文
[31]
Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao. DPO Meets PPO: Reinforced Token Optimization for RLHF. arXiv, 2024论文
[32]
Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng. Efficient Memory Management for Large Language Model Serving with PagedAttention. arXiv, 2023论文
[33]
Xinying Song, Alex Salcianu, Yang Song, Dave Dopson, Denny Zhou. Fast WordPiece Tokenization. arXiv, 2020论文
[34]
BigScience Workshop. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. arXiv, 2022论文
[35]
Prathamesh Kalamkar, Ned Letcher, Meissane Chami, Sahger Lad, Shayan Mohanty. The Tokenization Bottleneck: How Vocabulary Extension Improves Chemistry Representation Learning in Pretrained Language Models. arXiv, 2025论文
[36]
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, et al.. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
[37]
Rico Sennrich, Barry Haddow, Alexandra Birch. Neural Machine Translation of Rare Words with Subword Units. arXiv, 2015论文
[38]
微信公众号文章（作者未署名/转载聚合）. 探索Claude Opus 4.7反常的Tokenizer词表缩减（第三方实测与推测汇总）. WeChat MP, 2025文章
[39]
Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong. Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies. NeurIPS 2024 (spotlight), 2024论文

论文列表

受控预训练与可比评估：把 tokenizer 变更变成可回归项(5)

聚焦两件事：一是 fixed-compute tokenizer-only ablation 把影响量级钉住；二是跨 tokenizer 的评估分母对齐，避免 per-token PPL 误判。

Tokenizer Choice For LLM Training: Negligible or Crucial?

Mehdi Ali,Michael Fromm,Klaudia Thellmann2024年2月1日

用 fixed-compute 把 tokenizer-only ablation 做成可复现回归：同一 2.6B 与预算下，仅替换 tokenizer 就造成 0.6–5.1 pp 下游方差，并显示 coverage/平均 token 长度不足以解释差异。

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Chaofan Tao,Qian Liu,Longxu Dou,Niklas Muennighoff,Zhongwei Wan,Ping Luo,Min Lin,Ngai Wong2024年7月18日

把 vocab size 升格为独立的 scaling 轴：在 fixed-FLOP 下，三条互证路径（IsoFLOPs / 导数估计 / 参数化损失拟合）给出一致结论 —— compute-optimal 词表随非词表参数成幂律增长但显著慢于参数本身，因此现行 LLM 多半词表偏小（例如 Llama2-70B 应 ≥216K 而非 32K）；并在 2.3e21 FLOPs 同算力下把词表 32K→43K，ARC-Challenge 从 29.1 升到 32.0，给出 vocab 这一轴可外推的预算公式。

From Language Models over Tokens to Language Models over Characters

Tim Vieira,Ben LeBrun,Mario Giulianelli,Juan Luis Gastaldi,Brian DuSell2024年12月4日

形式化指出 per-token PPL 在跨 tokenizer 时分母不同、不可比；把评估目标改写为 character-string likelihood，从而把“模型分布”对齐到应用侧的字符串语义。

Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles

Buu Phan,Brandon Amos,Itai Gat,Marton Havasi,Matthew Muckley2024年10月11日

给出从 tokenized LM 推导 exact byte-level probability 的方法，使跨 tokenizer 的 likelihood 可精确对齐；对 FIM 与 ensemble 这类“需要字节级一致性”的场景是直接工程解法。

The Foundations of Tokenization: Statistical and Computational Concerns

Juan Luis Gastaldi,John Terilla,Luca Malagutti,Brian DuSell,Tim Vieira2024年7月16日

把 tokenization 作为“字符串到 token 序列的测度变换”来讨论，明确哪些比较在统计上不合法（如 per-token PPL），并把系统成本（序列长度、词表大小）纳入同一框架。

系统与效率账本：bytes/token、KV cache 与吞吐(3)

把 tokenizer 选择落到推理成本：序列长度决定 KV cache 占用与 serving 吞吐；同时 tokenizer 本身也有 runtime 成本。

The Llama 3 Herd of Models

Aaron Grattafiori,Abhimanyu Dubey,Abhinav Jauhri2024年7月31日

把 128K vocab 的收益写成工程口径：报告 0.02–0.04 nats 更低训练 loss，并用 bytes-per-token/fertility 说明 non-English 与 code 的序列缩短，直接关联 KV cache 与吞吐。

Efficient Memory Management for Large Language Model Serving with PagedAttention

Woosuk Kwon,Zhuohan Li,Siyuan Zhuang,Ying Sheng,Lianmin Zheng2023年9月12日

把 KV cache 作为 serving 的主内存瓶颈来建模，并给出分页式管理；对 tokenizer 来说，序列长度的线性缩短会直接转化为更高 batchability 与更低 OOM 风险。

Fast WordPiece Tokenization

Xinying Song,Alex Salcianu,Yang Song,Dave Dopson,Denny Zhou2020年12月31日

指出 tokenization 算法本身会成为线上延迟的一部分，并给出加速路径；在把 vocab 扩到 128K/256K 时，tokenize latency 需要进入系统回归账本。

失败模式与训练债务：数字/日期与词表长尾(4)

把 tokenizer 的具体结构选择（digit/date merge、尾部 token）映射到可复现的推理缺口与可治理的训练债务流程。

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

Sander Land,Max Bartolo2024年5月8日

把“词表尾部坏 token”做成可扫描、可修复的流程：在多款模型中发现 3k–10k+ under-trained tokens，并给出短 continued pretrain 的修复路径。

Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs

Aaditya K. Singh,DJ Strouse2024年2月22日

把算术正确率与数字切分方式绑定：single-digit 与多位 merge 的差异在 3–5 位 carry-sensitive 任务上稳定放大到 10–20 pp，并且在更大模型上不自动消失。

Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning

Gagan Bhatia,Maxime Peyrard,Wei Zhao2025年5月22日

把日期碎片化作为独立因果链：YYYYMMDD 等格式被切成无语义边界的片段，诱发系统性 temporal reasoning 错误模式，适合作为 tokenizer 变更的 release gate。

Understanding and Mitigating Tokenization Bias in Language Models

Buu Phan,Marton Havasi,Matthew Muckley,Karen Ullrich2024年6月24日

把 BPE/MPE 的 tokenization bias 形式化为采样与表示偏差，并给出缓解策略；与 under-trained tail 一起构成“tokenizer 需要 post-training 流程”的工程理由。

越过 BPE：tokenizer-free 与动态/非子词变体(4)

覆盖两条对立路线：一条是 tokenizer-free（byte/patch/pixel）；另一条是在保留词表的前提下用动态/采样/非子词假设改造 tokenization。