TL;DR
tokenizer 变更需要像 data mixture 一样走强制回归,而不是“预处理常量”。受控 fixed-compute 预训练已给出量级:同一 2.6B 与预算下,仅替换 tokenizer 就带来 0.6–5.1 pp 下游方差 [1]。压缩率/平均 token 长度解释不完 [5][6],更像是归纳偏置与训练信号分配被改写。工业侧把 128K vocab 的收益写成 0.02–0.04 nats 更低 loss,并用 bytes-per-token/fertility 归因到 non-English 与 code 的序列缩短,直接影响 KV cache 与吞吐 [2][32]。风险同样可回归:digit/date 的局部 merge 会在 3–5 位 carry-sensitive 算术与 temporal reasoning 上制造 10–20 pp 缺口 [9][4];词表尾部常见 3k–10k+ under-trained tokens,需要扫描定位并用短 continued pretrain 修复 [3]。跨 tokenizer 评估不要用 per-token PPL;用 BPB、character-string likelihood 或 exact byte-level probability 才能对齐 [7][10]。工程默认:64K–128K;256K+ 视为实验,必须交付 fixed-compute 曲线、系统账本与 tail 扫描,并把数字/日期任务设为 release gate。
核心断言
§0 演进谱系:从 BPE 到 vocab scaling 再到 tokenizer-free 的三次重写
Sennrich BPE -> ByT5/BLOOM -> Llama 32K -> Llama-3 128K + Tao V* -> Magikarp 审计 -> BLT / dynamic chunk
Tokenizer 在 LLM 上的演进经历了三次重写,每次都不是“换分词法”这一点改变。[37] 的 BPE 把 OOV 问题压成可控的子词重复,奠定了 NMT/LLM 的子词主线。[19] 与 [17] 走 byte / character 路径,把“分词不在管线里”作为对照组留给后来者;这条路径在 LLM 主线被搁置近三年,因为成本不划算。[34] 把 vocab 推到 250K 处理多脚本,但发现 vocab 做大并非线性收益。[36] 把 vocab 收回到 32K + balanced——这一阶段 vocab 仍被当作“工程默认值”。
第二次重写发生在 2024:[39] 把 vocab V 升级为 (N, D) 之外的第三轴,给出 V* = φ · ^k 的可拟合关系;[2] 把 128K vocab 工程化并报告训练 loss ~ 0.02-0.04 nats 的可观增益(系统侧只增几个 % 的 embedding/lm_head 显存)。vocab 第一次有了“算给人看的账本”。同时 [3] 把 under-trained tokens 做成可扫描的训练债务,[4]、[9] 把数字/日期碎片化做成可复现的 release gate;tokenizer 从“一次设定终身使用”变成 release-time 必须审的对象。
第三次重写仍在进行:[12]、[22]、[20]、[21] 把 tokenizer-free / dynamic chunk 的路径重新拉回主线,把 byte 序列上做 patch 形成自适应粒度。这条路线的核心赌注不是“BPE 不够好”,而是“分词层是 release 期不可控的债务源头,把它从训练循环里拿掉更稳”。另一支 [5]、[6]、[26] 在 BPE 主线内部继续做单位与对齐工程,保证 BPB / character-level 的可比性不被分词差异污染。本节后续把这条边界画成可执行的 decision flow,并在 §1–§5 里把每条工程账单收紧。
§1 Tokenizer 变更到底改了什么:目标、信号分配、系统成本三条链
tokenizer 变更至少同时改动三条链。第一是“训练目标”:tokenized LM 学到的是 token-string 分布,而应用侧关心的是 character-string;tokenizer 一变,可达 token-string 集合与同一字符串的分解方式都变,因此 per-token PPL 的分母不再可比 [7][8]。第二是“训练信号分配”:同一字符序列被切成更少/更多 token,会改变 early training 中哪些局部模式更容易被拟合,并由此改变归纳偏置;受控实验显示这种效应量级可达 0.6–5.1 pp 下游差异 [1],且压缩率/平均 token 长度不能完全解释 [5][6]。第三是“系统成本”:序列长度线性决定 KV cache footprint 与 batchability,serving 系统把它作为主约束来优化 [32];因此 bytes-per-token/fertility 改善可以直接转化为吞吐收益 [2]。三条链叠加后,tokenizer 变更的正确交付方式更接近训练配方变更:必须同时给出质量回归与系统账本,而不是只报告“平均 token 更短”。
tokenizer 不是 I/O 细节:它同时改了“模型在优化什么”“哪些模式更容易学到”“推理时每个请求要占多少 KV cache”。
§2 32K→128K 的收益与 256K+ 的不确定性:先把账算清
把 vocab 从 32K 扩到 128K 的可交付收益主要来自序列缩短,而不是神秘的语义跃迁。Llama 3 报告给出的收益是 0.02–0.04 nats 更低训练 loss,并用 bytes-per-token/fertility 将其归因于 non-English 与 code 的 token 数下降 [2]。在 serving 侧,序列缩短会线性降低 KV cache 占用,从而提高并发与吞吐;PagedAttention 将 KV cache 作为核心内存瓶颈处理,使这种线性关系直接体现在 batchability 上 [32]。
这条经验过去缺的是“最优词表到底应该多大”的量化预算。Tao et al. [39] 在 33M–3B / ≤500B characters 上把 vocab size 升格为独立 scaling 轴,并用三条互证路径(IsoFLOPs sweep、导数估计、参数化损失拟合)一致拟合出:compute-optimal 词表随非词表参数 成幂律 V★ ∝ ^γ,但 γ < 1(约 0.27)。因此模型变大时词表也应变大,但增速远慢于参数;按该公式外推,Llama2-70B 应至少 ~216K 而非 32K,许多现行 LLM 系统性偏小。同一论文的可执行实验也可作 sanity check:在 2.3e21 FLOPs 同算力下,把 33M 模型的词表从 32K 提到 43K,ARC-Challenge 从 29.1 升到 32.0,相当于不加参数也不加 tokens 获得 ~3 pp 下游收益 [39]。
但仍不应把 256K+ 设为默认,因为 vocab 公式给出的是最优区间,而不是越大越好。Tao 2024 的结论同样意味着,小模型继续放大词表会过冲到欠训练区;同时,词表变大也会提高 embedding/softmax 成本、tokenize latency,以及 tail token 欠训练风险 [33][3]。可操作做法是:把 V 与 N、D 一起放进 IsoFLOP 小 grid(含 32K/64K/128K/256K 至少四点),用 BPB 而不是 per-token loss 做对齐回归,并把 systems ledger(吞吐、tokenize latency、KV cache)和 tail under-training 扫描作为同一份报告交付 [1][7][32]。
| 维度 | 32K→128K 常见收益 | 256K+ 常见新增风险 | 建议的回归指标 |
|---|---|---|---|
| 训练质量 | loss 约低 0.02–0.04 nats(工业报告口径)[2] | ||
| 推理系统 | tokenize latency 与 embedding/softmax 成本上升 [33] | bytes/token、吞吐/延迟、KV cache footprint(同 batch 策略)[32] | |
| 后训练债务 | 长尾 token 更少欠训练(不保证) | 尾部 token 更长更稀有,欠训练更集中 [3] | tail 扫描(under-trained tokens)+ 短 continued pretrain 修复 [3] |
§3 结构性坏 merge:数字与日期为什么要做 release gate
“更大 vocab”最常见的失败点不是算力,而是局部结构选择把推理任务的归纳偏置带偏。算术中,single-digit 切分与多位 merge 的差异会在 3–5 位 carry-sensitive 任务上稳定放大为 10–20 pp [9];这更像表示空间可组合性被改写,而不是数据不足。时间上,日期常被 BPE 切成无语义边界的碎片(例如 YYYYMMDD 的中间片段),模型在 temporal reasoning 中形成系统性错误模式 [4];这些错误也很难靠后训练完全补齐,因为输入分解本身不稳定。把这两类任务设为 release gate,是因为它们对 token 边界极敏感,能快速暴露“局部 merge 是否破坏可组合性”。配套评估也必须对齐:跨 tokenizer 不看 per-token PPL,而看 character-string likelihood/BPB [7];解释 tokenization bias 时,可参考对 BPE/MPE 偏差的分析与缓解 [11]。
digit/date 不是“边角任务”,而是最便宜的结构探针:它们能把坏 merge 直接放大成 10–20 pp 的可复现缺口。
§4 三条路线的工程含义:扩大、减法、以及 tokenizer-free
路线一是常规扩大:32K→64K→128K 的主要收益来自 non-English 与 code 的 fertility 下降 [2],但必须用 fixed-compute + BPB 将质量收益与系统收益拆账交付 [1][7]。路线二是“词表减法”:长尾 token 欠训练与 tokenization bias 表明,删掉稀有长 token、回到更可训练的单位,可能让对齐与安全更稳;可操作证据包括 under-trained token 的可扫描性与可修复性 [3],以及清理 BPE 词表中 intermediate merge residues 的路径 [29]。第三条是 tokenizer-free:byte/patch/pixel 直接建模从根上消除 OOV 与分词偏置,但必须靠结构压低序列成本。BLT 用 entropy-based patching 在 FLOP-controlled setting 下对齐 tokenized baseline,并报告更好的 inference scaling [12];PixelGPT/PIXAR 将文本渲染为像素 patch 并做 autoregressive 建模,提供另一种“单位选择” [13][15],PIXEL 则是 encoder-only 的早期强基线 [14]。三条路线不互斥:更务实的顺序是先固化 BPE 的回归与债务流程(指标、gate、tail 扫描),再用同一套 fixed-compute 与系统账本评估 tokenizer-free 的端到端成本 [1][32][12]。
§5 迁移与兼容:tokenizer 版本化之后,怎么不把生态打碎
tokenizer 版本化的现实约束是:模型、工具链与数据资产都绑定 token ID 语义。两类工作提供可落地的缓冲层。第一类是跨 tokenizer 的概率对齐:exact byte-level probability 将 tokenized LM 输出对齐到字节层,避免 tokenizer 变更使 FIM/ensemble 的概率不可比 [10];语言学侧也给出从 subword LM 计算 word probability 的方法,强调对齐目标应是字符串/词,而不是 token [26]。第二类是跨 tokenizer 的知识迁移:WECHSEL 通过子词 embedding 初始化降低换词表的冷启动成本 [24],universal cross-tokenizer distillation 则把“teacher/student tokenizer 必须一致”的约束放松为近似 likelihood matching [25]。同时必须处理非 canonical tokenization:同一字符串可能存在多个 token 序列表示;模型对非 canonical 分解的鲁棒性并非为零,但会引入推理与表示不一致的脆弱点 [27][28]。因此,tokenizer 变更的交付物不应只有“新 tokenizer 的质量”,还应包含兼容层策略与非 canonical 回归集。
时间线
- BPE 子词作为 open-vocab 折中方案进入主流[37]
- ByT5 把 byte-level 预训练作为可行替代路线[19]
- fixed-compute tokenizer-only ablation 给出 0.6–5.1 pp 量级[1]
- under-trained tail tokens 被流程化:扫描 + 短 continued pretrain 修复[3]
- 128K vocab 的收益被写成 loss 与 bytes/token 账本[2]
- vocab 升格为独立 scaling 轴:V★ ∝ ^0.27,多数 LLM 词表偏小[39]
- character-string likelihood 视角推动跨 tokenizer 评估对齐[7]
- BLT 在 FLOP-controlled setting 下把 tokenizer-free 拉到可比区间[12]
- BPE 词表“中间合并残渣”被明确为可清理的结构性噪声[29]
研究立场对比
阵营 A:tokenizer 是冻结的预处理;coverage 够了就行
立场 — 优先把预算放在参数/数据/训练配方;tokenizer 只要不 OOV、不乱码,就不应成为主训练周期里的主要变量。实践上常沿用上一代生态默认 tokenizer,以减少工具链与数据资产迁移成本 [36]。
证据:[36]
反方 — fixed-compute 证据直接否定“影响可忽略”:同一 2.6B 与预算,仅替换 tokenizer 就有 0.6–5.1 pp 下游方差 [1]。而且跨 tokenizer 用 per-token PPL 会把分母差异当成质量差异,导致“看起来没问题”的错觉 [7][8]。
判词 — 更稳的读法:把 tokenizer 当作“必须回归”的训练变量,但把变更频率控制在 release 节点;默认冻结不是原则,只是缺少回归流程时的权宜之计。
阵营 B:更大 vocab 近似单调更好;默认走到 256K+
立场 — 把更大 vocab 视为“免费压缩”:序列更短,attention 更省,长上下文更划算;embedding/softmax 的额外成本相对可忽略。对多语与代码尤其有利,应该继续扩词表并把压缩率当主要目标 [2][34]。
反方 — 两类证据要求把“单调更好”改成“结构优先、规模其次”。一是压缩率与质量相关但不充分 [5],存在非压缩机制与反例空间 [6]。二是局部 merge 会制造 10–20 pp 的推理缺口:digit/date 的坏 merge 与 vocab 大小无关,反而更容易在扩词表时被引入 [9][4]。此外,词表越大越需要处理 tail token 欠训练与 tokenization bias [3][11]。
判词 — 更务实的定位:64K–128K 作为默认区间;256K+ 只能在交付 fixed-compute 曲线 + 系统账本 + digit/date gate + tail 扫描后进入主线。
阵营 C:tokenizer-free 才是终局;尽快放弃 BPE
立场 — BPE 的采样偏差、非唯一编码与跨语言不公平是结构性问题;byte/patch/pixel 直接建模从根上消除 OOV 与分词偏置。序列变长的成本应由结构创新解决:多尺度/latent/SSM/动态 chunking 等 [19][21][20][12][22][13][15]。
证据:[19][21][20][12][22][13][15][14]
反方 — tokenizer-free 的关键门槛不是“能不能训”,而是“同 FLOPs、同延迟预算下是否更划算”。BLT 已经把一部分证据补上 [12],但工业主线仍需要与 BPE 的系统账本同台对照(KV cache、吞吐、tokenize latency 的替代成本)[32][33]。同时,tokenized LM 也在暴露非 canonical 表示的脆弱点 [28],但也显示一定的鲁棒性 [27];这意味着“完全抛弃 tokenization”并不是唯一修复路径。
判词 — 更稳的建议:把 tokenizer-free 当作“下一代基座”的候选,而不是对现有 BPE 基座的即时替换;短期先把 BPE 的回归、对齐指标与债务治理流程固化,再用同一套 fixed-compute 与系统账本评估 tokenizer-free 的净收益 [1][7][12]。
阵营 E:缩词表/剪尾巴,换对齐与 RL 稳定性
立场 — 对齐阶段(RLHF/DPO/PPO)更在意数值稳定性与策略一致性;长尾 token 的低频与非唯一编码会放大 train/infer mismatch 与攻击面,因此应主动 prune tail、清理中间残渣,并把“更可训练的单位”作为对齐优先级 [30][29]。
反方 — 目前直接把“缩词表→对齐更稳”钉死的 controlled evidence 仍偏少,更多是机制推断与系统层面的合理性。可操作的中间版本是:先用 Magikarp 扫描 under-trained tail 并修复 [3],再评估 prune 对 RL 稳定性与下游质量的净影响;同时用字符串对齐指标避免把 token 分母差异误判为对齐收益 [7]。
判词 — 结论层面的建议:把“剪尾巴”当作对齐阶段的实验开关,而不是预训练阶段的默认;但 tail 扫描与残渣清理可以先成为常规卫生流程 [3][29]。
实践要点
可执行清单(按交付优先级):
1) DO:任何 tokenizer 变更都按 fixed-compute 回归交付:至少给 BPB 或 character-string likelihood + 关键下游 pp(把 0.6–5.1 pp 级风险显式化)[1][7]。
2) DON'T:跨 tokenizer 用 per-token PPL 下结论;主指标切到 BPB/character-string likelihood,需要精确对齐时补 exact byte-level probability(FIM/ensemble 常用)[7][10]。
3) DO:同时交付系统账本:bytes/token(或 fertility)、tokenize latency、推理吞吐/延迟、KV cache footprint;测量时固定 batch 策略与 serving 配置 [2][32][33]。
4) DO:把 digit/date 设为 release gate:至少覆盖 3–5 位 carry-sensitive 算术与日期推理;目标是避免 10–20 pp 级缺口进入主线 [9][4]。
5) DO:每次 tokenizer 发布都跑 tail 扫描,定位 under-trained tokens,并预留一次短 continued pretrain 的修复窗口;把它当作常规训练债务治理 [3]。
6) DON'T:把“压缩率更高”当作充分理由;压缩与质量相关但不充分,必须给机制侧与下游侧的回归证据 [5][6]。
7) DO:需要换 tokenizer 但不想重训时,优先走迁移/兼容层:WECHSEL 初始化或 cross-tokenizer distillation;并把非 canonical tokenization 加入回归集 [24][25][27][28]。
8) DO:默认 vocab 64K–128K;256K+ 视为实验,只在交付 fixed-compute 曲线 + 系统账本 + gate + tail 扫描后进入主线 [2][1][3]。
9) OPEN:tokenizer-free 只在同 FLOPs/同延迟预算下证明净收益时才进入主线评审;优先对照 BLT 与 pixel/patch 路线的系统成本 [12][13][32]。
10) OPEN:若目标是对齐稳定性,先把“残渣清理 + 尾部治理”做成卫生流程,再评估 prune 的净收益 [29][3][30]。
悬而未决的问题
- Q1.缺口:32K/64K/128K/256K 的同配方 fixed-compute 预训练曲线(loss、BPB、关键下游)与系统账本(吞吐、KV cache、tokenize latency)同台对照仍不够;需要公开 artifact 才能判断 256K+ 的收益是否饱和或非单调。
- Q2.缺口:明确主张“tokenizer 影响可忽略/已解决”的 controlled-compute 论文很少;现状更像是工程惯性而非证据结论,需要对照实验把这个 prior 变成可证伪命题。
- Q3.缺口:digit/date merge 的因果链已在评测侧成立 [9][4],但缺少现代预训练阶段的系统 ablation(只改数字/日期规则,固定 compute 与数据)来量化“坏 merge”在训练早期如何塑形。
- Q4.缺口:缩词表/剪尾巴是否提升对齐稳定性仍缺少直接证据;现有工作更多是机制推断或在特定 RL 设置下的结果,需要更标准化的对照与公开回归集 [30][31]。
- Q5.缺口:tokenizer-free(byte/patch/pixel/SSM)在同延迟预算、同 KV cache 约束下的端到端 serving 成本仍缺少公开对照;需要把“序列更长但单位更简单”的系统效应量化 [12][20][13]。
- Q6.缺口:非 canonical tokenization 的脆弱性与可修复性边界仍不清晰;需要把它与推理链路(CoT、tool use、FIM)绑定,形成可回归的 failure taxonomy [27][28]。
- [1]Mehdi Ali, Michael Fromm, Klaudia Thellmann. Tokenizer Choice For LLM Training: Negligible or Crucial?. arXiv, 2024论文
- [2]
- [3]Sander Land, Max Bartolo. Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models. arXiv, 2024论文
- [4]Gagan Bhatia, Maxime Peyrard, Wei Zhao. Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning. arXiv, 2025论文
- [5]Omer Goldman, Avi Caciularu, Matan Eyal, Kris Cao, Idan Szpektor. Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance. arXiv, 2024论文
- [6]Craig W. Schmidt, Varshini Reddy, Haoran Zhang, Alec Alameddine, Omri Uzan. Tokenization Is More Than Compression. arXiv, 2024论文
- [7]Tim Vieira, Ben LeBrun, Mario Giulianelli, Juan Luis Gastaldi, Brian DuSell. From Language Models over Tokens to Language Models over Characters. arXiv, 2024论文
- [8]Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira. The Foundations of Tokenization: Statistical and Computational Concerns. arXiv, 2024论文
- [9]Aaditya K. Singh, DJ Strouse. Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs. arXiv, 2024论文
- [10]Buu Phan, Brandon Amos, Itai Gat, Marton Havasi, Matthew Muckley. Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles. arXiv, 2024论文
- [11]Buu Phan, Marton Havasi, Matthew Muckley, Karen Ullrich. Understanding and Mitigating Tokenization Bias in Language Models. arXiv, 2024论文
- [12]Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li. Byte Latent Transformer: Patches Scale Better Than Tokens. arXiv, 2024论文
- [13]Yekun Chai, Qingyi Liu, Jingwu Xiao, Shuohuan Wang, Yu Sun, Hua Wu. Autoregressive Pre-Training on Pixels and Texts. arXiv / EMNLP 2024, 2024论文
- [14]Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux, Desmond Elliott. Language Modelling with Pixels. arXiv / ACL 2023, 2022论文
- [15]Yintao Tai, Xiyang Liao, Alessandro Suglia, Antonio Vergari. PIXAR: Auto-Regressive Language Modeling in Pixel Space. arXiv / ACL 2024, 2024论文
- [16]Julie Kallini, Shikhar Murty, Christopher D. Manning, Christopher Potts, Róbert Csordás. MrT5: Dynamic Token Merging for Efficient Byte-level Language Models. arXiv / ICLR 2025, 2024论文
- [17]Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting. CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation. arXiv, 2021论文
- [18]Yi Tay, Vinh Q. Tran, Sebastian Ruder, Jai Gupta, Hyung Won Chung, Dara Bahri. Charformer: Fast Character Transformers via Gradient-based Subword Tokenization. arXiv, 2021论文
- [19]Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang. ByT5: Towards a token-free future with pre-trained byte-to-byte models. arXiv, 2021论文
- [20]Junxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M. Rush. MambaByte: Token-free Selective State Space Model. arXiv, 2024论文
- [21]Lili Yu, Dániel Simig, Colin Flaherty, Armen Aghajanyan, Luke Zettlemoyer. MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers. arXiv, 2023论文
- [22]Sukjun Hwang, Brandon Wang, Albert Gu. Dynamic Chunking for End-to-End Hierarchical Sequence Modeling. arXiv, 2025论文
- [23]Darius Feher, Ivan Vulić, Benjamin Minixhofer. Retrofitting Large Language Models with Dynamic Tokenization. arXiv, 2024论文
- [24]Benjamin Minixhofer, Fabian Paischer, Navid Rekabsaz. WECHSEL: Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models. arXiv, 2021论文
- [25]Benjamin Minixhofer, Ivan Vulić, Edoardo Maria Ponti. Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching. arXiv, 2025论文
- [26]
- [27]Brian Siyuan Zheng, Alisa Liu, Orevaoghene Ahia, Jonathan Hayase, Yejin Choi, Noah A. Smith. Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations. arXiv, 2025论文
- [28]Navid Ayoobi, Marcus I Armstrong, Arjun Mukherjee. Say Anything but This: When Tokenizer Betrays Reasoning in LLMs. arXiv, 2026论文
- [29]Yike Sun, Haotong Yang, Zhouchen Lin, Muhan Zhang. LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers. arXiv, 2026论文
- [30]Yingru Li, Jiawei Xu, Jiacai Liu, Yuxuan Tong, Ziniu Li, Tianle Cai. Dynamic Vocabulary Pruning: Stable LLM-RL by Taming the Tail. arXiv, 2025论文
- [31]Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao. DPO Meets PPO: Reinforced Token Optimization for RLHF. arXiv, 2024论文
- [32]Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng. Efficient Memory Management for Large Language Model Serving with PagedAttention. arXiv, 2023论文
- [33]Xinying Song, Alex Salcianu, Yang Song, Dave Dopson, Denny Zhou. Fast WordPiece Tokenization. arXiv, 2020论文
- [34]
- [35]Prathamesh Kalamkar, Ned Letcher, Meissane Chami, Sahger Lad, Shayan Mohanty. The Tokenization Bottleneck: How Vocabulary Extension Improves Chemistry Representation Learning in Pretrained Language Models. arXiv, 2025论文
- [36]Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, et al.. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
- [37]Rico Sennrich, Barry Haddow, Alexandra Birch. Neural Machine Translation of Rare Words with Subword Units. arXiv, 2015论文
- [38]
- [39]Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong. Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies. NeurIPS 2024 (spotlight), 2024论文