Annual Meeting of the Association for Computational Linguistics
现有基于Common Crawl的预训练数据集(如FineWeb-Edu、DCLM)依赖强模型过滤提升质量,会移除90%以上原始数据,无法支撑10T+ tokens级别的长horizon预训练需求,此前方案均以牺牲数据规模为代价换质量,无平衡两者的可行路径。
这篇论文关注 multi-token prediction(一次预测多个 token)在预训练中的课程设计问题。多 token 预测能提高训练和推理效率,但直接上这种目标往往会带来优化不稳、目标错配或早期学习困难,所以关键问题不是‘要不要做’,而是‘按什么顺序让模型学会做’。
这篇论文解决的是大规模预训练中如何高效做数据选择,避免在海量候选数据上用单一评分器做昂贵、偏置明显的筛选。这个问题现在更重要,因为高质量 web 数据越来越稀缺,训练成本又高,数据选择已经从‘能不能训’变成‘怎么把每个 token 花在更值的地方’。
多语言 LLM 的 scaling law 尚不清楚——给定总计算预算,不同语言的数据应该怎么配比?模型规模和数据量的最优分配在多语言场景下是否与单语言不同?
这篇工作要解决的是:LLM 训练中的 silent data corruption 会如何影响训练稳定性和最终模型质量。相比训练直接崩溃,静默数据损坏更危险,因为系统还能继续跑,loss 也未必立刻爆炸,但模型可能被持续注入错误梯度,最后很难追责和定位。
这篇论文的核心问题是:diffusion language model 能不能从“特定任务或小规模验证”走向大规模通用语言建模。过去 diffusion LM 一直被质疑两点:一是生成质量和效率未必能稳定追上 AR;二是很多工作停留在中小规模实验,缺少 generalist 级别的系统验证,因此很难判断它究竟是替代范式还是局部补充。
此前长上下文LLM的训练和评估都依赖困惑度或简单的大海捞针(NIAH)测试,和SFT后的实际下游任务表现对齐度低,训练数据配比、位置外推等核心设计选择缺乏可靠的评估依据。
现有多语言预训练模型大多不使用语言嵌入,让token表示承担所有语言特定信息的编码,损害了表示的语言中立性,低资源语言的跨语言迁移效果不佳。
这篇工作要解决的是:双层优化在数据重加权上理论上很适合 LLM,但传统方法依赖二阶信息,规模一大就根本跑不动。以前大家知道“哪些数据更该被重视”很重要,但真到几十亿参数模型时,计算图、显存和内外层优化耦合让很多漂亮公式都落不了地。
这篇工作解决的是:神经 codec 把语音离散化后,同一段感知上等价的语音可能对应多条差异很大的 token 序列,这会让 speech LM 学得很混乱。文本 token 基本是确定性的,而离散语音 token 受上下文、说话风格和编码器细节影响,导致一对多表示;作者把这个问题定义为 Discrete Representation Inconsistency, DRI。
这篇工作解决的是一个很实际但少被系统量化的问题:模型剪枝之后,还需要多少 post-training 才能把能力追回来,这个量和参数规模、剪枝率之间是否存在可预测的 scaling law。过去剪枝和后训练常被分开讨论,缺少统一规律,导致工程上很难做 compute 预算。
这篇工作针对的位置编码问题很明确:现有很多位置编码在长上下文下会出现 long-term decay,导致远距离 token 的相对位置信号被压弱,训练长度外 extrapolation 也容易失真。随着长上下文成为基础能力,这个问题已经不能只靠数据补。
这篇工作要解决的是长上下文泛化并不等于把训练长度硬拉长。很多模型在短上下文训练后即使做了位置编码外推,也会在更长序列上出现检索退化、注意力漂移和推理不稳定;作者显然想给出一套更完整的“长上下文训练配方”。
这篇工作要解决的是标准 attention 的表达能力和计算成本之间的老问题:全矩阵 attention 很贵,而常见低秩或线性化近似又常因表达受限而掉点。作者试图通过 multi-matrix factorization 在保留更多表达自由度的同时降低成本。
这篇论文的核心问题是:推理能力如果只在后训练阶段靠 CoT 蒸馏或 RL 去补,往往学得晚、学得脆,迁移也不稳定;作者想把 process supervision,也就是对中间推理过程的监督,前移到 pre-training。这个问题现在值得重做,因为大模型推理提升越来越依赖长链路中间信号,而不仅是最终答案监督。
这篇论文直接研究一个常被忽视但对 continual pretraining 很关键的问题:LLM 在预训练过程中也会遗忘,而不是只在微调阶段遗忘。过去大家更关心 scaling 带来的吸收能力,较少系统分析随着数据流、阶段训练和分布迁移,模型早先学到的知识或能力如何被覆盖。
这篇工作要解决的是:continual pre-training 里不同领域数据该如何动态配比,避免模型在新域上学得慢、在旧域上忘得快。现有做法常用静态 mixture 或按 loss 重加权,但 loss 既滞后又受 domain 难度影响,未必能真实反映“现在多给这个域还有没有收益”。
这篇论文的结论导向很明确:更大的词表规模本身可以提升 LLM,而不仅仅是 tokenizer 工程细节。过去很多工作默认词表大小只是压缩率与序列长度之间的次级超参,通常在一个经验范围内选定后就不再系统研究;这篇论文是在重新追问,词表是不是被长期低估了。
现有开源小参数LLM的指令跟随能力弱,传统蒸馏方法依赖固定的教师模型输出,没有针对学生模型的能力做适配,工业部署的性能和成本trade-off不佳。
现有LLM对齐方法(RLHF、DPO)都用稀疏的回复级奖励,忽略token级奖励信号,会错误惩罚优质token或鼓励劣质token,导致性能次优、收敛速度慢。
MoE模型的专家数量多,部署成本高,现有剪枝方法普遍认为非结构化剪枝的性能优于结构化剪枝,没有针对MoE的模块化特性设计最优剪枝流程。
现有LLM的上下文嵌入是连续的,没有显式建模token的有限语义,小模型蒸馏时无法有效学习大模型的语义表示,蒸馏效率低。
这篇论文重新审视长上下文模型里的 in-context learning,核心问题是:上下文长度变长之后,ICL 的收益、机制和失败模式是否发生了根本变化。过去很多 ICL 结论是在短上下文条件下得到的,但长上下文模型已经改变了检索范围、注意力分配和示例干扰结构,旧结论未必还成立。
这篇工作要解决的是:process supervision 往往只用单向奖励信号,导致对中间推理步骤的判断不充分,既可能错奖局部合理但最终错误的过程,也可能漏掉前期失误对后续推理的连锁影响。随着推理型 post-training 变重要,如何给过程更准的监督值得重新设计。
这篇工作要解决的是 cross-tokenizer knowledge distillation 的对齐难题:老师和学生使用不同 tokenizer 时,token 序列边界不一致,直接蒸馏 logits 或 hidden states 会出现错位,导致蒸馏信号变脏。随着跨架构蒸馏和 tokenizer 重设计变常见,这个问题越来越实际。
这篇工作解决的是:MoE 路由常在负载均衡与专家质量之间做妥协,结果要么路由得不够准,要么为了均衡引入额外训练技巧和性能损失。现有 top-k gating 往往不是“选最合适的专家”,而是在可训练性、通信和均衡约束下的折中。
这篇工作处理的是一个很实际的问题:长上下文 LLM 往往为了适应超长序列而牺牲短文本性能,出现 short-text degradation。过去常见做法是继续在长序列上训练或靠位置编码改造来扩上下文,但这会让模型对短输入的分布和注意力模式发生偏移。
指令微调中训练数据的排列顺序会影响模型的零样本泛化能力,但此前这个因素很少被系统研究。作者发现「什么时候看到什么数据」对最终效果有显著影响。
这篇工作要解决的是长上下文推理时 attention 计算和 KV 读写成本过高,导致推理延迟和显存开销都难以接受。现有长上下文加速方法往往要么牺牲精度太明显,要么依赖训练时改模型;作者显然想做一个更实用的 inference-time attention 压缩方案。
这篇工作要解决的是:标准 LLM 强化学习通常把生成看成单条轨迹优化,信用分配稀疏且探索低效,尤其在长推理任务上更明显。以往大家用 rejection sampling、best-of-N 或 MCTS 风格搜索来补救,但这些方法和 on-policy RL 往往没有真正打通。
这篇工作要解决的是:推理任务需要长链生成,但 full attention 让这类样本的成本过高;简单稀疏化又容易在关键推理步骤上掉精度。过去稀疏 attention 多按位置或相似度做通用裁剪,没有显式考虑“哪些 token 对当前 reasoning step 真有用”。
这篇工作要解决的是一个更基础的问题:预训练前先在形式语言上做“预预训练”,是否能给模型注入更好的语言归纳偏置。过去这类问题常在小模型认知实验或理论分析里讨论,和大规模语言模型训练配方之间连接不强;作者想把形式语言、神经电路和语言偏置之间的关系做得更可检验。
这篇论文要解决的是高质量 instruction-tuning 数据过度依赖人工编写或闭源教师模型生成,成本高且可持续性差。作者提出从网页内容重建指令数据,目标是让指令数据合成摆脱对现成 SFT 语料和强教师的依赖。
这篇工作想回答的是:语言模型在训练和对齐的不同阶段,组合性能力在表示空间里留下了什么几何结构。过去关于 compositionality 的研究很多停留在行为指标上,比如任务准确率或泛化曲线,但这些结果很难告诉我们能力是在预训练中自然出现、在后训练中被放大,还是被某些阶段削弱了。
这篇工作解决的是:如何让 diffusion language model 做可控文本编辑,而且既能大幅改写,也能保留不该动的内容。传统 AR 编辑通常依赖逐 token 重写,局部可控性和全局一致性很难兼得;而 diffusion LM 天然支持并行细化,但如果没有分阶段控制,容易要么改得太猛,要么编辑意图落不准。
这篇工作要解决的是:大家都在做 LLM distillation,但对“蒸馏到底传递了什么、损失了什么、哪些能力能按比例继承”缺少系统量化。过去多数论文用少量 benchmark 报告 teacher-student 差距,能说明有没有用,却回答不了蒸馏的能力边界,也难指导何时该蒸、蒸到多小、该蒸哪些能力。
Tokenizer 的选择会系统性地偏置下游任务评估结果,但此前缺乏因果性的量化手段来衡量这种偏置。不同 tokenizer 对同一文本的分词粒度不同,导致 perplexity、生成长度等指标不可直接跨模型比较,这个问题长期被忽视或仅做定性讨论。
LLM 在训练 fast thinking(直接回答)和 slow thinking(CoT 推理)时,各层的学习动态有什么不同?此前对 CoT 训练为什么有效的理解主要停留在输出层面,缺乏从梯度和层级视角的机制分析。
迭代偏好优化(如 DPO/IPO 的多轮迭代)在提升 LLM 推理能力时,容易因为自生成数据的噪声而导致 reward hacking 或性能退化。如何在迭代过程中识别并处理不确定性高的偏好对,是提升迭代 PO 稳定性的关键。
这篇论文要解决的是:当模型迁移到新语言、新领域或新 tokenizer 设定时,词表不匹配会带来严重效率损失,但直接重训 embedding 或全量继续预训练成本很高。过去常见做法要么硬扩词表,要么完全依赖子词拆分,前者改动大,后者 token 效率差。
这篇论文处理的是 textless spoken language model 的对齐问题:当模型直接在离散语音 token 或声学单元上生成时,如何像文本 LLM 一样做偏好优化和行为塑形。过去语音生成模型更多依赖重建或模仿损失,交互质量、可控性和安全性不容易通过常规监督修正。
这篇工作想弄清楚:LLM 在 continual pre-training 过程中到底是如何获得新知识的,知识是局部写入、全局重组,还是沿着已有“知识电路”被接入。过去大家更多从行为层面看持续预训练能不能学到新事实,但对内部机制缺少可操作解释,因此很难判断哪些更新会带来灾难性遗忘、哪些只是浅层覆盖。
这篇工作的结论从标题就很明确:低比特量化对‘训练还不充分’的 LLM 更友好,而不是对 fully trained 模型一视同仁。常规观点通常把量化误差看成与模型训练状态相对独立的部署问题,但这篇论文指出,模型是否收敛、参数处于什么几何状态,会直接影响量化鲁棒性。
这篇工作的核心问题很直接:如何给现有 LLM 扩词表到新语言,同时尽量少破坏已有能力、少花再训练成本。过去最常见做法是随机初始化新词 embedding 再继续训练,但这会带来冷启动慢、训练不稳定,而且对低资源新语言尤其不友好。
这篇工作回答一个近年来越来越现实的问题:在英语主导的大模型时代,从零训练一个德语专用、可复现且足够强的紧凑模型,是否仍然值得。过去很多非英语场景直接拿多语模型或英语模型微调,因为便宜且现成,但这样通常牺牲语言专精、数据透明度和训练可控性。
这篇工作要解决的是:在目标语言数据受限的情况下,如何训练真正有用的双语语言模型。现实里很多双语或多语训练都默认目标语言有足够语料,或者直接把高资源语言数据堆进去,但这样很容易让模型表面上双语、实际被高资源语言主导,低资源语言能力上不来。
这篇论文要解决的是:如何从用户生成内容中挖掘隐式偏好来对齐 LLM,而不依赖昂贵且显式的人工偏好标注。过去 RLHF/DPO 一类方法高度依赖成对偏好或高质量标注,这在规模、覆盖面和分布多样性上都受限;但真实世界里,大量用户行为本身就在暴露偏好信号,只是噪声更大、归因更难。
这篇工作的核心问题是:偏好学习在对抗扰动、分布偏移或恶意偏好数据下不够稳,导致 LLM alignment 容易学到脆弱甚至被操纵的行为。过去很多 preference learning 方法默认偏好标注是干净且代表真实目标的,但实际中数据常有噪声、偏差和可被利用的模式,因此鲁棒对齐成为现实问题。
偏好优化(DPO 等)的效果高度依赖偏好数据的构造方式,但如何系统地选择 chosen/rejected 对的质量差距、多样性和规模,缺乏清晰的指导原则。现有做法多凭经验拼凑,scaling 行为不明确。
这篇工作要解决的是:子词/词级 tokenizer 让 LLM 对“字符内部结构”(如拼写、形态、汉字部件等)不敏感,导致拼写鲁棒性、字符级编辑与跨脚本泛化能力长期被次优地用数据增强或纯字符模型来补。
这篇工作要解决的是:把 LLM “加深/加宽/加层”通常需要重新训练或复杂的初始化与蒸馏,否则容易不稳定或性能回退,导致持续扩容(continual scaling-up)成本高。
这篇工作要解决的是:现有过程奖励模型(Process Reward Model, PRM)往往对特定任务/格式过拟合,换任务或换推理风格就失效,导致用 PRM 做推理增强时泛化差且维护成本高。
现有过程奖励模型(PRM)的分布外泛化能力差,无法处理推理模式差异导致的步骤OOD、数据集偏移导致的问题OOD两类场景。
现有大模型上下文证据注入方案(检索/用户提供)无法解决大模型在含噪声的真实场景上下文里难以定位、利用关键证据的问题,之前的工作普遍默认模型能正确识别有效证据,未针对证据提取环节做推理时优化。
现有持续领域自适应预训练(continual DAP)方法存在三个未同时解决的缺陷:训练计算和显存开销高、对增量数据顺序敏感、输出通用单模型不符合DAP面向特定领域优化的核心目标。
这篇工作要解决的是:多语模型明明在不同语言里学到的是同一事实,却常在语义等价的跨语提示下给出不一致答案。过去大家知道这种 cross-lingual inconsistency 存在,但多数研究停留在现象统计层面,没有解释错误究竟发生在知识存储、跨语映射,还是输出阶段。
现有长思维链(long CoT)推理能力诱导方案大多基于小样本微调,未从表征层面验证长CoT是否是大模型的通用能力,也未明确其跨任务迁移的边界条件。
现有o1类测试时缩放模型的研究默认推理链越长、计算资源投入越多,推理准确率越高,这一假设的普适性未得到验证,测试时缩放的边界条件也不明确。
这篇论文关注双语语言模型是否会自发学到共享语法表征,而不是仅仅在词汇层面对齐。过去很多跨语研究默认共享参数会带来某种跨语言抽象,但这种抽象到底是语法层面的迁移,还是统计共现带来的假象,并没有被充分拆清。
这篇论文要回答的是:在人类标注数据昂贵的前提下,少量高质量人工数据能否显著放大模型效果,甚至替代大量低质或合成数据。这个问题一直存在,但在合成数据主导后训练之后更尖锐,因为大家已经看到数据量能堆起来,真正缺的是高信号监督究竟值多少钱。
这篇论文解决的是语言模型遗忘敏感信息时,如何在不大规模重训的情况下做到更精准、更局部的知识删除。现有 unlearning 方法常见问题是代价高、影响面大,或者只能在行为层面遮掩答案,不能真正改掉参数里可检索的知识。
这篇论文提出 LongBench v2,目标是更真实地评估长上下文模型在多任务环境下的深层理解与推理,而不是只测浅层检索或局部定位。旧的长上下文基准经常把问题简化成‘能不能从长文里找到答案’,但这不足以区分真正的跨段整合、约束跟踪和多步推理能力。
这篇论文讨论偏好对齐中的一个核心缺陷:现有方法常把‘好回答’和‘坏回答’当作同一分布里的简单相对排序样本,但实际上 bad apples 和 good oranges 往往来源不一致、难度不对称,直接比较会让优化目标失真。这个问题重要,因为偏好优化已经是 post-train 主流,而数据分布错配会直接决定模型学到的是用户偏好,还是标注集偏差。
这篇工作要解决的是:当“对齐”没有唯一正确答案时,模型如何在 in-context setting 下根据具体场景给出符合不同价值观或偏好的响应,而不是被单一平均偏好拉平。过去很多 alignment 方法默认一个全局奖励或单一规范,这在开放场景里常常不够用,所以作者把问题改写成“先检索相似场景,再做情境化对齐”。
这篇工作关注的是:模型与用户交互后,如何不只利用即时反馈,而是从历史交互中做 retrospective learning,把过去没被充分利用的训练信号重新转化成改进。很多交互式学习系统只看在线一步反馈,样本利用率低,而且容易被短期噪声主导,因此回溯式学习值得做。
这篇工作重新审视的是:大家常用来评估 LLM 泄露训练数据风险的 membership inference attack,到底在统计上有多可靠、结论有多稳。这个问题过去经常被单一攻击设定、单一阈值或个别数据点上的成功案例放大,但如果统计控制不严,很容易高估真实隐私风险。
这篇工作要解决的是:instruction tuning 数据越来越多,但并不是越多越好,如何自动挑出最有增益的子集,而不是靠启发式去重、随机采样或手工规则。这个问题以前常被粗糙地处理,因为算信息价值很难;现在数据池变大,低质量和冗余样本的训练成本已经不可忽略。
这篇工作要回答的是:多语言 LLM 里是否存在可分离的“语言特异特征”,以及这些特征到底编码在什么稀疏方向上。过去大家常用 probing、representation similarity 或 attention 可视化来讨论语言共享与分离,但这些方法很难给出可干预、可组合、可局部解释的特征级结论。
这篇工作要回答的是:gist token 这种上下文压缩方法,究竟能不能作为 full attention 的可替代方案,还是只能在部分场景里做速度换质量的折中。过去这类方法常在少量任务上汇报正面结果,但缺少系统研究来说明它什么时候有效、什么时候会把关键信息压掉。
这篇工作想解决的是:高质量推理数据稀缺,导致提升 LLM reasoning 常依赖人工构造数据、教师模型蒸馏或已有 benchmark 反复过拟合。问题并不是“有没有题”,而是如何从零开始、规模化地产生真正能训练推理能力的问题分布。
这篇工作想解决的是:VLM 训练并不一定被模型结构卡住,很多时候真正的瓶颈是低质图文数据把可扩展训练拖慢了。过去大家经常一边扩大数据规模,一边容忍噪声和配对错误,但在高算力阶段,数据质量差会直接体现在对齐效率低、样本利用率差和后期收益变平。
这篇工作指出:偏好模型在做 response ranking 时,常常没有充分利用输入上下文,甚至会被无关表面特征分散注意,导致 preference modeling 学到的不是“哪个回答更符合上下文”,而是“哪个回答看起来更像高分答案”。这解释了为什么很多 reward model 在复杂上下文任务上表现不稳。
LLM 压缩中,非结构化剪枝虽然精度好但硬件不友好,结构化剪枝又损失大。作者想用结构化矩阵(如 Kronecker、低秩等)替换权重矩阵来同时获得压缩率和硬件效率,但此前这类方法在 LLM 上的系统性探索不足。
推测解码(speculative decoding)需要一个 draft model 快速生成候选 token,但训练或维护 draft model 有额外成本。作者提出用稠密检索(dense retrieval)从语料库中直接检索候选 token 序列来替代 draft model,从而降低推测解码的部署复杂度。
指令微调(instruction tuning)会改变 LLM 对错误信息的易感性,但具体是增强还是削弱了模型抵抗错误信息的能力,此前缺乏系统研究。
Transformer 在没有位置编码的情况下能否识别和生成层次化语言结构(如嵌套括号、上下文无关语言)?此前的理论分析大多假设有位置编码,去掉后 Transformer 的表达能力边界不清楚。
这篇工作要解决的是:单一 in-context learning(ICL)策略对任务分布变化很脆弱,而现有做法通常默认一个固定提示或固定示例选择规则就够用。这个假设在任务异质、示例噪声高、或者同一输入存在多种有效推理路径时很容易失效,因此作者转向“混合多个上下文学习器”而不是继续优化单一 learner。
这篇工作要解决的是大模型服务的计算粒度过粗:现有 serving 往往以整模型为最小调度单位,导致资源利用、延迟控制和异构部署都不够灵活。模型越大,这个问题越明显,因为不同层的计算和带宽瓶颈并不一致。
这篇论文要解决的是长上下文推理里 KV cache 占显存和带宽过大,导致推理吞吐受限的问题。现有做法通常在“全量保留 KV”与“激进压缩 KV”之间二选一:前者成本高,后者容易伤精度;作者试图用“部分重算”把这两者之间的空档补上。
这篇论文关注一个正在变得更现实的风险:长链式推理能力可能同时放大模型的有害规划、规避约束和逐步执行能力。过去很多安全评测偏短指令和单轮拒答,未充分覆盖长 CoT 场景,因此无法判断“更会推理”是否也意味着“更会做坏事”。
这篇论文的核心是区分 LLM 的 memory 和 reasoning:模型答对一道题,到底是因为记住了模板、事实或训练集痕迹,还是因为真正做了推理。这个问题长期被混在一起讨论,导致很多“推理提升”结果其实可能只是检索或模式复现。
这篇论文解决的是推理时 KV cache 太贵,但很多压缩方法要么需要训练配合,要么一压就掉点。作者给出的方向是 training-free 的自适应 KV cache 压缩,并结合 mean-centering,目标是在不改模型参数的情况下提高长上下文解码效率。
这篇论文的核心问题是很多对齐方法最终都依赖一个二元判断:哪个回答更好、是否应被偏好、是否安全可接受;但这个 binary classifier 往往训练得并不稳,也未必和最终对齐目标一致。作者试图直接优化这个二分类器,从源头提升 alignment 信号质量。
这篇工作解决的是:4-bit LLM 推理里 activation outlier 会显著拉低量化精度,而现有 FP4 或对称缩放格式很难同时兼顾范围和分辨率。这个问题过去通常靠更高 bit、逐层回退或更复杂校准规避,但那会直接吞掉 4-bit 推理原本想要的带宽和吞吐收益。
这篇工作关注长上下文检索中的一个老问题:模型明明能看到相关信息,却未必把足够注意力分给它。现有长上下文方法很多在扩窗口、改位置编码或做检索增强,但如果注意力分布本身被无关 token 稀释,单纯把上下文拉长不一定提升实际 retrieval 能力。
这篇工作想解释一个很具体也很关键的现象:已经做过安全对齐的 LLM,为什么仍然会被越狱或在稍作改写后失守。作者的核心判断从标题已经给出——安全机制往往锚定在 template region,也就是对齐更多依赖特定拒答模板、表面话术或局部区域信号,而不是在更广泛语义空间里真正学会稳健拒绝。
视觉语言模型(VLM)在处理长上下文时面临效率和效果的双重挑战,但此前缺乏系统性的设计选择分析——包括位置编码外推、注意力机制、视觉 token 压缩等维度的 trade-off 尚不清楚。
给已有的文本 LLM 扩展新模态(如视觉、音频)时,常见做法是联合微调,但这会导致原有语言能力退化(catastrophic forgetting)。如何在扩展模态的同时保持语言能力,是多模态 LLM 的核心难题。
多模态 LLM 在长上下文推理时,KV cache 占用大量显存,而现有的 KV cache 淘汰策略没有区分不同模态(文本 vs 视觉 token)的重要性差异,导致淘汰策略次优。
LLM 的自我改进(self-improvement)方法在推理任务上效果不错,但往往忽略约束条件——现实任务中的推理不仅要正确,还要满足特定约束(如格式、安全、逻辑一致性等)。现有的 self-taught reasoning 方法没有显式处理约束。
LLM 训练中的梯度更新效率问题——不同参数组的梯度特征差异大,统一的优化策略(如全局学习率、统一的 Adam 超参)可能不是最优的。此前虽有 layer-wise learning rate 等做法,但缺乏系统性的梯度分组优化框架。
这篇论文要解决的是:现有对齐方法通常把多个目标压成单一奖励或固定权重,导致 LLM 在帮助性、安全性、风格一致性等目标之间难以稳定兼顾。这个问题之所以重要,是因为多目标冲突是实际部署里的常态,而不是例外。
这篇论文解决的是 reward model 训练标准稀缺且不稳定的问题:人类偏好数据昂贵、标准含混,而单一总偏好标签很难告诉模型“为什么更好”。过去很多 reward modeling 直接学 chosen vs rejected,但这种监督信息太压缩,泛化和可控性都有限。
这篇论文研究的是多模态链式思维的 inference-time scaling:在不改训练的前提下,增加测试时计算是否能像文本推理那样稳定提升多模态推理质量。这个问题此前常被默认成立,但多模态 CoT 的错误既可能来自推理深度不足,也可能来自视觉感知噪声,二者不一定能靠多采样或更长思维链解决。
这篇论文要解决的是:decoder-only LLM 擅长生成,但默认不是好的文本编码器;若想拿到强 embedding,通常需要额外对比学习或双塔训练。问题在于这会引入额外训练成本,也破坏‘直接复用现成 LLM’的便利性。
这篇工作要解决的是:如何在不重训模型的前提下,把 LLM 推理中的层跳过做得更细、更稳,而不是用固定层裁剪或统一跳层这种过于粗糙的办法。现有做法通常按层重要性静态裁剪,能省算力,但不同 token、不同位置、不同生成阶段对层的依赖并不一样,所以固定策略常常在长生成或困难样本上质量掉得快。
这篇工作要解决的是:多模态大模型缺少高质量、可持续扩展的指令数据,尤其是能覆盖复杂视觉理解与交互能力的数据。过去常靠人工写模板或少量高质量人工标注,质量高但扩不起来;纯自动合成又容易模式单一、任务浅层。
这篇工作要解决的是:如何让 LLM 不只会给答案,还会在生成后自我核验并在必要时自我纠错。现有做法常靠 test-time sampling、reflection prompting 或单独 verifier,但这些方法要么推理开销高,要么 verification 不是模型内生能力。
这篇工作要解决的是:Chain-of-Thought 虽然能提升推理,但输出太长、成本太高,而且长度和效果通常绑在一起,难以压缩。现有方法要么直接蒸馏短 CoT,容易丢信息;要么允许自由长推理,效果好但推理代价不可控。
这篇工作要解决的是:代码 reward modeling 高度依赖单元测试,但固定规模的测试既可能太弱,奖励不可靠,也可能太贵,训练吞吐太低。很多现有方法默认测试集是静态的,于是 reward 信号要么覆盖不足,要么成本失控。
这篇工作研究一个基础但常被忽略的问题:token 粒度会显著改变 surprisal 的数值和解释力,因此不同语言模型的 surprisal 预测能力不能直接横比。很多认知建模和语言学工作把 LM surprisal 当作统一信号,但如果一个模型按词、另一个按子词或字符计分,所谓“预测能力差异”里会混进大量 tokenization 偏差。
这篇工作直接回应一个争议:预训练语言模型 surprisal 的 inverse scaling 现象,并不能简单归因于数据泄漏。此前一个直觉解释是,大模型在训练中见过更多测试分布相似文本,因此 surprisal 异常表现只是泄漏假象;这篇论文显然在检验并反驳这个解释。
这篇工作要解决的是:知识编辑通常依赖参数更新,代价高且容易引入副作用,而很多事实性行为可能已经以某种形式编码在激活里,问题变成能不能直接在推理时“拨动”激活来改写知识。过去主流做法是 ROME、MEMIT 这类权重编辑,优点是可持久化,缺点是定位难、串扰明显;因此 activation steering 如果有效,会提供一条更轻量的替代路线。
这篇工作要解决的是:英语 AI tutoring 的偏好数据太贵,人工写候选回答再做人类偏好标注的流程成本高、覆盖窄,导致教育场景里的偏好优化往往数据不够。过去很多工作直接拿通用偏好数据迁移,但教学反馈有更强的正确性、引导性和分步解释要求,通用聊天偏好并不等价。
这篇工作要解决的是:长上下文检索在语言模型里越来越重要,但直接保留完整上下文表示会带来高内存和高延迟,尤其当检索要和生成联动时,系统成本很快失控。过去常见方案要么做粗暴截断,要么靠外部向量检索单独处理,但这两种方式都容易损失对 token-level 细节的访问能力。
这篇工作要解决的是:LLM 的隐藏状态到底编码了多少事实性信息,这些信息是否足够稳定、可线性读出、能否支撑 factuality 判断。过去很多分析工作默认“如果 probing 能读出来,就说明模型内部真的有事实表征”,但这个推断并不稳,因为 probe 可能在做额外拟合,或者只是捕捉到提示模板偏置。
这篇工作要解决的是:LLM 如何获取新知识、又如何把新知识真正用于推理和生成,这两件事并不等价。很多模型能在微调或检索增强后“接触到”新信息,但并不意味着它们已经把知识稳定吸收、能跨提示泛化、或能在多跳推理中可靠调用。
这篇工作要解决的是:长上下文推理的主要瓶颈之一是 KV cache 显存,而把 KV 压到 2-bit 往往会严重伤害精度,导致理论上省内存、实际上不可用。过去已有量化 KV cache 的工作,但低到 2-bit 时误差控制和系统吞吐通常都不理想,所以真正的难点不是“能不能量化”,而是“在足够低比特下还能不能稳”。
这篇论文要解决的是:LLM 在看起来像“遗忘”的行为里,有相当一部分并不是真正的参数级知识丢失,而是检索或表达阶段的“伪遗忘”。以往很多遗忘评测默认把答不出来等同于知识被抹掉,因此会高估 unlearning、持续训练或对齐训练带来的副作用;这个问题现在重要,是因为大家越来越依赖行为测试来判断模型是否真的忘了某些知识。
这篇论文要解决的是:现有 LLM 安全对齐大多是“被问到再防守”的反应式范式,难以覆盖长时程、多步骤、间接累积的风险。过去安全训练常把风险建模成单轮输入输出分类或拒答,这对短指令有效,但对代理式使用、计划生成和多轮协作场景明显不够。
这篇论文要解决的是:纯文本或纯语音的 spoken discourse modeling 漏掉了手势这类关键非语言线索,导致模型对口语互动结构和语用意图建模不足。过去很多语言模型把 spoken discourse 近似成“带转写的文本”或“只看声学”,这在日常对话、turn-taking、强调、指代和态度识别上都有先天盲区。
这篇论文的结论很强:跨尺度 LLM 之间的参数化知识迁移存在难以弥合的 incompatibility,不能简单指望小模型学到的参数知识被无损搬到大模型,反之亦然。过去知识蒸馏、logit transfer、weight initialization 或 editing transfer 往往默认不同尺度模型共享足够相似的表示与知识结构,但这个前提可能并不成立。
这篇工作要回答的核心问题是:只看模型给正确答案的概率,是否足以解释语言模型和人类在语言理解任务上的表现;作者的判断是否定的,逻辑形式信息能补上概率视角遗漏的结构性差异。过去很多分析默认概率高就代表理解到位,但在组合泛化、歧义消解和推理链条较长的样例上,高概率输出常常只是相关模式匹配,而不是对句子逻辑骨架的把握,因此这个问题值得重新检视。
这篇工作的核心问题是:怎样让 verifier 不只是给答案打分,而是真正逼出或筛出更有逻辑性的推理。现有 verifier 往往只学到结果相关的表面模式,能做偏好判断,但对推理链条的逻辑一致性约束不够,所以很容易奖励看起来像推理、实际漏洞很多的输出。
这篇工作要解决的是一个很关键但常被黑箱处理的问题:LLM 回答真实世界事实问题时,到底是如何从参数中召回知识的。以前大家常用最终答对率评价 factual QA,但这只能看到结果,看不到知识是被哪类线索触发、经过哪些中间表征路径被取出,以及失败是检索不到、检索错了,还是后续生成阶段改写了正确证据。
这篇论文的核心问题是:现有 alignment 数据里的对比模式太单一,导致模型学到的是狭窄的偏好边界,而不是更全面的行为约束;PopAlign 试图通过丰富 contrasting patterns 来改善这一点。过去很多偏好对齐依赖固定模板的 chosen/rejected 对,覆盖的错误类型有限,模型容易把‘对齐’学成某几类表面拒答或安全措辞。
这篇工作的核心问题是:VLM/MLLM 在视觉 token 很多时训练和推理成本都高,而现有压缩方法常靠粗暴下采样,容易丢掉关键区域;作者试图在 LLM 内部激活分布式视觉区域表示,只保留真正有用的视觉信息。过去视觉-语言模型常把所有 patch 一视同仁送入语言侧,计算昂贵且噪声大,因此高效视觉 token 选择是一个持续问题。
长上下文 LLM 在生成阶段对靠后位置的信息过度关注(posterior salience attenuation),导致前面和中间位置的关键信息被忽略——即 'lost in the middle' 问题在解码端的体现。已有工作多从 attention 分布或位置编码角度缓解,但没有在解码策略层面直接纠偏。
过程奖励模型(PRM)训练需要昂贵的逐步标注,而结果奖励模型(ORM)只需最终答案标注但无法提供细粒度的过程反馈。如何用 ORM 的信号来引导 PRM 的学习,降低标注成本的同时获得过程级的推理对齐能力?
知识编辑方法(如 ROME、MEMIT)看似成功修改了模型的事实回答,但实际上可能只是表面编辑——模型在特定 prompt 格式下给出正确答案,换个问法就暴露出原始知识未被真正替换。这篇工作从机制层面分析这种'欺骗性'。
让 LLM 诚实(honesty alignment)面临的困难是:强模型的诚实行为难以用弱模型的监督信号来引导(weak-to-strong 场景)。传统的 pointwise 监督在诚实度标注上噪声大,弱监督者的判断不够可靠。
LLM 的推理能力提升通常依赖高质量的标注数据或强模型蒸馏,纯无监督的自训练(self-training)在推理任务上效果有限,因为模型容易在自身错误上强化。如何设计一个通用的、不依赖外部标注的自训练框架来提升推理能力?
这篇工作要解决的是:生成式 Transformer 在算术推理任务上的“泛化”经常被经验结果主导,缺少可解释的原则来区分它是在学算法还是在记模板,从而导致训练配方与数据设计难以有把握地迭代。
这篇工作要解决的是:语言模型“什么语言都能学”的印象可能来自评测偏置——很多基准没有区分哪些语言现象在跨语言上可学、哪些在统计上几乎不可学或需要强归纳偏置。
这篇工作要解决的是:很多“长上下文”基准可能并没有真的测长上下文能力,而是在测检索捷径、格式记忆或局部线索匹配,导致社区对长上下文训练收益的判断被高估或误导。
这篇工作要解决的是:多跳推理评测里模型可能靠数据集偏置或检索捷径“看起来在推理”,但实际上没有在隐空间里进行真正的多步信息整合。
这篇工作要解决的是:推理模型蒸馏常受“瓶颈”限制——学生模型只能学到老师的最终答案或少量 CoT,导致推理能力迁移不充分且容易过拟合特定表达风格。
现有自一致性(Self-Consistency)方法使用固定温度采样,要么高温度采样需要大量样本才能稳定分布,要么低温度采样会放大偏差,之前的方案未动态适配采样过程的置信度。
现有微调模型存在域内效果好但跨域迁移差、参数冗余度高的问题,之前的剪枝方案未利用任务向量的子空间差异做针对性剪枝,剪枝后模型容易出现灾难性遗忘。
这篇工作要解释的是:LLM 幻觉并不只是“知识不够”,而是已有知识在生成时会相互遮蔽,导致正确知识被错误知识压过去。过去很多方法把幻觉归因于检索缺失、参数知识不足或解码不稳定,但这些解释很难预测模型什么时候会在“其实知道答案”的情况下仍然答错;作者试图给出一个更可预测、可干预的机制视角。
这篇工作解决的是:数学推理模型何时该写代码、何时该纯语言推理,不能一直靠外部模板硬规定。过去的 code+CoT 框架通常把工具调用写死,或者靠人工提示决定是否用代码,这在训练中会形成错配——模型能力变了,但工具策略不跟着变。
这篇工作要解决的是:RAG 不该每次都检索,也不该检索后等权使用所有片段,关键在于模型能否知道自己什么时候不确定。过去的 adaptive RAG 往往用表层启发式信号触发检索,比如置信度、规则阈值或外部分类器,但这些信号和生成时真正的内部不确定性并不总一致。
这篇论文要解决的是:通用 alignment 默认所有用户偏好都能被一套统一目标覆盖,但现实应用里这不成立。过去很多工作要么只做安全对齐,不管个体差异;要么只做个性化推荐,不处理价值边界,结果就是模型要么过于统一,要么个性化后容易偏离公共约束。
这篇工作解决的是:LLM 能答对题,但给出的 rationale 往往并不忠实于真实决策过程,也不够贴合输入上下文。已有方法通常走两条路:要么做提示层面的校准,收益有限;要么重新训练模型,成本高且不一定保留原模型能力。
这篇论文的目标是系统回答:在 LLM 时代,合成数据到底能解决什么问题,又会引入什么新问题。过去合成数据常被当作低成本扩充语料的工程手段,但随着 teacher LM、self-instruct、self-play 和 synthetic reasoning data 普及,它已经从辅助手段变成训练范式的一部分,值得单独梳理。
这篇工作解决的是:LoRA 微调模型做 merge 时经常互相干扰,性能一合并就掉,不是简单平均一下低秩更新就行。以往很多 merge 方法默认各任务更新可线性叠加,但对 LoRA 来说,低秩子空间本身会和任务数据分布耦合,导致一个任务的更新把另一个任务的输出分布推偏。
这篇工作要解决的是:现有量化方法通常在压缩率、硬件友好性和精度损失之间做艰难折中,而作者想用原生浮点格式逼近“接近无损且高效”的量化。过去很多低比特方案依赖自定义码本、非原生数据格式或复杂反量化路径,理论压得很低,但部署链路和实际吞吐不一定占优。
这篇工作想解决的是:长链推理数据难造、难标,导致模型虽然能做基础推理,但缺少反思、拆解等更长程的 reasoning pattern。过去常见做法是依赖昂贵的人类长 CoT 标注或更强 teacher 蒸馏,而作者想证明只用少量“催化样本”也能让模型自己把隐藏推理链展开并自举提升。
现有多示例上下文学习(many-shot ICL)的示例选择方法大多是随机选择,传统实例级检索方法不适合多示例场景,无法最大化ICL的效果。
现有从无标注文本自动合成指令数据的方法,生成的指令多样性和难度不足,无法满足大模型SFT对高质量指令数据的需求,之前的方案大多仅从单一层级提取文本信息。
这篇工作要解决的是:量化 LLM 的部署需求是离散且多样的,但现有做法通常要为每一种 bit 配置或硬件约束分别训练一次,训练成本高且难以覆盖真实部署面。过去量化更多把重点放在单一目标位宽下的精度恢复,默认“一个部署场景对应一套量化后模型”;这在服务器、边缘端、个人电脑并存的场景里很低效,因此作者尝试把 once-for-all 超网思路搬到量化 LLM 上。
这篇工作要回答的是:当 LLM 反复处理、改写、翻译自己或其他模型生成的文本时,信息是否会像“传话游戏”一样逐轮失真。这个问题以前更多停留在直觉层面,或者被当作个别 hallucination 现象处理;作者把它改写成一个可控的迭代生成问题,去测量失真是否累积、受什么因素影响、能否缓解。
这篇论文要解决的问题是:LLM 中所谓“简单推理”并不是一个稳定、单一、可局部评估的能力,现有做法往往把推理任务按表面形式切成“简单/复杂”,但这种划分可能掩盖了模型真实的失败模式。这个问题现在值得重看,因为推理评测越来越被用来指导后训练和模型选择,如果“简单推理”这个前提本身不成立,很多结论都会变得不可靠。
这篇论文要解决的是:模型编辑一旦变成长期、连续发生的过程,旧编辑会被新编辑干扰,模型内部也会积累冲突,如何让编辑具备“终身学习”能力。过去很多 editing 方法默认单次修改或少量修改,但实际系统会不断接收新事实,这时遗忘、冲突和灾难性覆盖会成为主问题。
这篇论文解决的是 VLM 推理成本过高的问题,尤其是在视觉输入复杂但并非所有样本都需要完整计算路径时,如何通过 early exit 同时提升速度与鲁棒性。传统 early exit 在纯文本模型里已有探索,但搬到视觉语言模型并不直接,因为跨模态对齐通常在较深层才稳定,过早退出容易丢失关键视觉证据。
这篇论文研究 LLM 中“truth directions”的几何性质,核心问题是:模型内部是否存在稳定、可泛化的真实性方向,能够跨逻辑变换和问答任务保持一致。过去不少工作会在线性表示空间里寻找某种‘真/假’方向,但这些方向究竟是任务特定捷径,还是更普适的表征结构,还缺少系统验证。
这篇工作要解决的是:多模态大模型在部署后如果被发现记住了不该保留的有害或敏感视觉-文本知识,如何做定向遗忘,同时尽量不伤害通用能力。现有 machine unlearning 大多围绕纯文本 LLM 或分类模型展开,对 MLLM 往往只能靠继续对齐或拒答去“压住输出”,但这并不等于真的删除跨模态记忆,因此现在值得单独研究。
这篇工作要解决的是:spoken dialogue model 做 RAG 时,检索通常只基于文本转写,导致语音里的韵律、情感、说话风格和转写误差都被忽略,从而损失关键信息。对于真正面向语音交互的系统,只检索文本是不够的。
这篇工作关注的是高效适配中的一个核心浪费:微调时并不是所有 attention 位置和头都同等重要,但常见 PEFT 方法往往默认统一处理,导致算力和参数预算没有用在最关键的局部结构上。对于长上下文和资源受限适配,这个问题尤其明显。
这篇工作要解决的是长上下文压缩中的一个常见问题:固定数量或固定位置的 soft tokens 无法适应不同输入段落的信息密度,结果要么压缩不够,要么把关键信息一起丢掉。随着上下文越来越长,静态压缩策略的浪费会越来越明显。
这篇工作要解决的是:在尽量不伤害模型泛化的前提下,把 LLM 剪得更小、更快,而不是只在训练分布上把参数删掉。现有剪枝方法大多按单一校准集或局部重要性做决策,容易出现“校准集上还行、分布一变就掉得很快”的问题;这对真正部署到开放域输入的 LLM 尤其不稳。
这篇工作解决的是:现有多模态长文档 benchmark 往往只测“看懂一点内容”,但很少同时要求理解、跨页推理和精确定位,因此很难判断模型到底是会做长文档推理,还是只会在局部页面里找关键词。随着原生多模态长上下文模型增多,这个空缺已经开始限制模型诊断。
这篇工作针对的是:现有对话评测大多是单轮、短程、模板化,导致很多前沿 LLM 在真实多轮交互中的脆弱性被掩盖。模型在一问一答上高分,不代表它能在多约束、多目标、跨轮记忆和用户策略变化下稳定完成任务。
这篇工作要解决的是:提升 LLM 推理质量时,简单增加采样条数或串行 tree search 的效率太差,导致 test-time compute 很难真正扩展。现有推理增强方法常在准确率上有效,但在墙钟时间、并行利用率和搜索冗余上代价很高。
这篇工作讨论的是:amnesic probing 里做因果干预时,原先的“删除某类信息”操作可能并不干净,导致我们以为去掉了某个属性,其实只是引入了新的表示失真。换句话说,问题不是 probe 能不能读出信息,而是 intervention 是否真的只去掉了目标信息、不破坏其他内容。
PEFT adapter(如 LoRA)是针对特定版本的 base model 训练的,当 base model 更新版本后,adapter 就失效了,需要重新训练。作者想让一次训练的 adapter 能跨 base model 版本迁移复用。
模型合并(model merging)是把多个微调模型的权重合成一个模型,但现有方法多在参数级别操作(如平均、TIES),忽略了神经元的功能语义。不同模型中功能相似的神经元可能位于不同位置,直接按位置合并会产生冲突。
LLM 的 chain-of-thought 推理会消耗大量 token,但很多推理步骤是冗余的。作者想在给定 token 预算下让模型自适应地分配推理资源——该详细时详细,该简洁时简洁。
RAG 系统在检索到包含噪声或错误信息的文档时,LLM 容易被误导而生成不准确的回答。现有方法要么过滤检索结果要么训练模型忽略噪声,但缺乏让模型主动偏好事实性内容的对齐机制。
LLM 生成的代码经常包含安全漏洞,而通用的对齐训练不足以让模型系统性地避免不安全的编码模式。作者想通过局部化的偏好优化(localized preference optimization)专门提升代码安全性。
LLM 的自我纠正(self-correction)通常被理解为对初始输出的「精炼」(refinement),但作者认为这种理解太窄——自我纠正应该是一种可学习的能力,模型需要学会识别错误并系统性地修正,而不仅仅是重新生成。
这篇工作要解决的是大模型遗忘(unlearning)在实践里既要删得掉指定知识,又不能把通用能力一起打坏。过去的方法常在参数层面粗暴更新,结果是要么删不干净,要么引入明显副作用;作者尝试把“记忆存储位置”和“功能神经元”分开处理。
这篇工作想解决的是:LLM 的社会推理能力通常靠少量高质量数据或复杂后训练技巧堆出来,但基础长链逻辑能力和“社会认知中的顿悟式转折”之间缺少系统桥接。过去做法要么偏 social benchmark engineering,要么偏一般 CoT 增强,没有把两者一起 scale。
这篇工作要解决的是 ASR 和 OCR 在噪声、歧义和复杂指令约束下容易出错,而传统流水线通常把识别和语言后处理割裂开。作者显然认为仅靠独立识别器再接一个 LLM 重写不够,因为这样很难在解码阶段就利用指令和生成先验。
这篇工作要解决的是多页文档理解里分辨率和上下文长度的双重瓶颈:OCR-free 方法想直接吃页面图像,但高分辨率页面和多页输入会让视觉 token 数爆炸。过去常见做法要么依赖 OCR 把视觉问题转成文本问题,要么缩图导致小字、表格和版式信息损失明显。
这篇论文要解决的是 weak-to-strong 对齐里一个常见问题:弱模型虽然便宜、覆盖广,但偏好信号噪声大,直接拿来监督强模型容易把错误偏好一并放大。作者的切入点是通过 preference alignment,让弱模型与强模型形成互补协作,而不是单向蒸馏。
这篇论文要解决的是价值对齐通常依赖外部监督或拒答训练,但模型内部是否已经存在可控的价值表征,以及能否直接激活它们来改善对齐。这个问题有意义,因为如果价值偏好部分以内在方向的形式存于表示空间,那么对齐不一定只能靠额外数据和全量微调。
这篇论文试图回答一个结构层面的疑问:多模态 Transformer 到底在内部如何组织不同模态的信息流。作者的结论从题目上看是把它刻画为层级化、按模态异质的图结构,而不是简单的统一 token 序列处理器。
这篇论文要解决的是:很多推理错误不是模型完全不会,而是解码过程中太早收敛到浅层路径,没有继续思考。现有 test-time scaling 往往靠多采样、投票或树搜索来补救,但计算代价高;作者尝试用自适应注入式解码,在单次生成中更便宜地延长有效推理。
这篇论文要解决的是 selective QA 里的一个老问题:模型不仅要答题,还要知道什么时候不该答。传统 selective QA 主要依赖单次置信度估计,但大模型在单次生成里的校准常常不稳定;作者提出 test-time scaling 能提升这种‘答或不答’决策质量。
这篇工作要解决的是:如何为数学推理合成数据提供比 LLM 自评更可靠的自动判别信号。过去常见做法是用另一个 LLM 打分或过滤,但这类 judge 容易受表述风格、提示模板和模型偏见影响,尤其在定理证明场景里很难保证“结论对但过程错”或“形式合法但语义无效”被正确区分,因此把 theorem prover 引入 judge 是值得重做的一步。
这篇工作解决的是:如何在不改模型权重的前提下,进一步压缩 LLM 解码时的逐 token 延迟。现有推测解码、KV 优化和前缀缓存已经吃掉了一部分系统冗余,但对大量模板化请求、常见短语和高频续写模式,模型仍在重复做“早就见过”的计算,PROMTEC 试图把这部分冗余直接绕开。
这篇工作要解决的是:多语言 LLM 做跨语言迁移时,优化目标往往没有真正对齐“语言间可迁移能力”,导致高资源语言学得更强,低资源语言只得到表面覆盖。以往工作更多靠数据配比、继续预训练或指令微调补救,但如果优化过程本身偏向主导语言,迁移上限会被提前锁死。
这篇工作要解决的是:contrastive decoding 在提升输出质量时,经常把“分歧”当成“错误”,但模型不确定时这种判断并不可靠。传统 contrastive decoding 用 expert 和 amateur 的差异来压制低质量 token,可一旦 expert 自己也高熵或处在分布外,这种固定对比会过度惩罚合理候选,导致流畅性、事实性或多样性受损。
这篇工作解决的是:multilingual LLM 在目标语言生成时经常出现 language confusion,也就是无关语言混入、代码切换失控或回答语言漂移。这个问题过去多被当成 prompt engineering 或数据不均衡的副作用处理,但随着模型覆盖语种增多、共享词表更拥挤,它已经成为统一多语言建模的系统性问题。
这篇工作要解决的是:MLLM 推理成本高,不同 token 对不同层的需求却并不相同,统一跑满所有层明显浪费。过去剪枝多做静态层裁剪或样本级早退,但多模态输入里视觉 token、文本 token 和生成中的不同阶段难度差异更大,静态策略很容易在省算力和保性能之间失衡。
LLM 在指令微调时对所有样本一视同仁,没有区分模型对不同指令的确定性差异。对于模型已经很确定的样本,继续强行拟合可能导致过拟合;对于高不确定性样本,标准训练信号可能不够。此前的 SFT 方法很少显式利用模型的不确定性信息。
在资源受限的微调场景下,如何将大模型的知识蒸馏到小模型中。标准知识蒸馏方法在 LLM 上的效果不稳定,尤其是当 teacher-student 容量差距大、微调数据有限时,蒸馏信号的噪声问题更突出。
带引用的文本生成(attributed text generation)要求模型在生成内容的同时给出准确的来源引用,但现有方法要么引用不准确,要么生成质量差。核心难点在于生成和检索/引用是两个目标,容易冲突。
长 prompt 导致 LLM 推理成本高且受上下文窗口限制,需要高效的 prompt 压缩方法。现有方法压缩比有限(通常 10-50x),且泛化性差——在一种任务上训练的压缩器换到另一种任务就失效。
这篇论文关注的核心问题是:监督训练会系统性地把 LLM 的翻译推向 translationese,也就是更字面、更源语言牵引的译文风格。这个问题过去常被 BLEU 一类 n-gram 指标掩盖,因为字面对应往往更容易拿分,但对高质量机器翻译和跨语言生成来说,这会牺牲目标语自然度与风格自治。
这篇论文要解决的不是单一技术问题,而是系统梳理 LLM 的 knowledge boundary:模型知道什么、不知道什么、何时会越界胡编,以及这些边界如何被评测、建模和干预。这个主题现在值得单独做 survey,因为大模型从“记忆多少知识”转向了“何时该承认不知道、何时该调用外部知识”的阶段。
这篇论文要解决的是:模型压缩和高效微调通常是两套流程,前者追求参数/计算节省,后者追求低成本适配,二者经常彼此干扰。很多方案要么压完之后难以继续调,要么为了保留可调性而牺牲压缩比。
这篇论文解决的是 post-recognition error correction,且是跨模态版本:识别系统出错后,仅靠文本上下文往往不够,需要同时利用音频、视觉或任务线索来修正错误。传统 error correction 多是单模态文本后处理,遇到同音词、专名或口语省略时边界很明显。
这篇论文要解决的是:LoRA 虽然高效,但单个低秩适配器表达能力有限,面对复杂任务或多分布数据时容易欠拟合。现有增强方案通常是加 rank 或堆多个 adapter,但前者成本上升,后者又缺少明确协作机制。
这篇工作要解决的是:如何把生成过程中已经被丢弃的 token 计算结果重新利用起来,从而降低 LLM 推理成本。传统解码里,大量候选 token、草稿 token 或中间结果一旦没被最终采纳就直接作废,这很干净,但算力利用率很低。
这篇工作关注的是:人类偏好并不只有一条“平均方向”,如何在偏好学习里显式建模多样性,而不是把不同人群、不同标准压缩成一个单一 reward。现有偏好建模常用单标量 reward 或单一胜负信号,训练稳定,但会把可解释的分歧抹平,导致对齐结果过于折中。
这篇工作要解决的是:在机器翻译里,decoder-only LLM 之外是否可以把大语言模型当作强 encoder 来用,从而重新审视 encoder-decoder 路线的价值。过去很多工作默认生成任务就该用 decoder-only,但翻译天然是条件生成,源句编码质量和跨语言对齐能力往往比纯自回归续写更关键。
这篇工作要解决的是:LLM 能否可靠地知道自己的知识边界,也就是区分“我知道”和“我不知道”。传统评测往往直接看问答正确率或自信度,但历史上下文中的示例会给模型带来偏置,导致它看起来像是“知道”,其实只是被 in-context pattern 诱导。
这篇工作关注的是:复杂问题的解决过程往往由多个子任务组成,直接做整体式 RL 或 SFT 很容易奖励稀疏、信用分配模糊,导致模型学会表面修补而不是逐步解决问题。过去常见做法是端到端微调整条轨迹,简单,但对多阶段 issue resolving 类任务不够稳。
这篇工作想回答:语言模型能否通过显式的自引用因果循环,更稳定地表现出“像图书馆一样检索和回指知识”的行为。传统 next-token 训练会让模型在参数里隐式存知识,但对“引用自身已有表述、保持前后一致”这类行为没有直接约束,因此模型常会记得事实却不会稳定地调用自己的内部记录。
这篇工作聚焦一个很实际的问题:多语言训练里,有限 token 预算应该怎样在不同语言数据池之间分配,才能更快提升整体多语言能力。过去常见做法是按语料规模、温度采样或启发式重加权分配数据,但这些策略很少直接优化“单位训练成本带来的多语言总体进步”。
这篇工作要解决的是:通用 tokenizer 对材料科学文本或材料表示切分不合理,导致关键结构信息在预训练入口就被破坏。过去很多领域模型直接复用通用 BPE 或 SentencePiece,因为便宜且兼容,但这会把化学式、晶体组成、材料属性标记切得过碎或过歧义,模型后面再大也只能在有损输入上学习。
这篇工作要解决的是:零样本翻译里,模型往往知道多语言映射能力存在,但无法被稳定地‘切到正确语言模式’。传统做法通常在输入前后加语言 tag 或指令,但这些控制信号经过层层传播后会变弱,尤其在弱资源或未充分对齐的语言对上不够可靠。
这篇工作关注 RLHF 里的 reward fairness:奖励模型或偏好优化往往把训练资源不均匀地分配给不同类型样本或群体,导致某些群体持续受益、另一些群体持续被忽视。过去很多 RLHF 工作默认只要平均 reward 上升就是好事,但这会掩盖奖励分配不公和由此带来的对齐偏差。
这篇工作要解决的是:当语言模型数量已经上千时,如何用统一、可计算的表征去比较它们的能力结构,而不只是看零散 benchmark 分数。传统 leaderboard 把模型压成几个任务均分,很难看出两个模型到底是同类、互补,还是仅仅在测试集上碰巧接近。
这篇工作要解决的是:现有视觉-语言评测对“跨模态主题匹配”覆盖太窄,尤其缺少大规模、多语言、细粒度的基准,导致模型看起来会做图文对齐,但其实可能只在英语或表层语义上有效。过去这类问题常被零散的图文检索或分类数据集间接代替,但那些基准通常语言数少、主题粒度粗,也很难区分模型是在做真正的语义/主题对齐,还是在利用数据偏置。
这篇工作要解决的是:现有 probing 数据集往往模板化严重、粒度粗、语言覆盖有限,导致我们测到的更多是模型对提示格式的适应,而不是其真实知识与推理结构。教育场景的数据如果做得细且无模板,能更好地区分模型到底会不会概念、层级、依赖关系,而不是背题型。
这篇工作要解决的是:提示压缩常常只追求更短,但不同任务对信息损失的容忍度不同,统一的压缩策略很容易在某些任务上省了 token、丢了关键信号。过去常见做法是基于启发式摘要、关键词选择或静态压缩器,但这些方法通常没有直接针对下游任务收益优化。
这篇工作要解决的是:边缘设备上的 LLM 推理受算力、带宽和能耗限制,统一地对所有 token 走同一条重计算路径通常太浪费。过去常见优化是层裁剪、早退或静态小模型替代,但这些方法对不同 token 的难度差异利用不够,容易在省算力时牺牲太多质量。
这篇工作要解决的是:LLM 对 discourse particles 的理解是否真的建立在语义上,还是更多依赖表层共现和话语模板。这个问题以前常被一般语义理解评测掩盖,因为 discourse particles 往往短、小、频繁、语义依赖强语境,仅靠词向量相近或句法正确并不能说明模型真正理解它们的语用功能。
这篇论文关注的是:对多语模型施加干预后,内部表征空间会不会进入新的跨语言对齐状态,以及这种对齐是稳定增强还是局部扭曲。过去跨语言对齐通常从预训练数据或词向量几何去解释,较少系统研究 inference-time 或 parameter-level intervention 如何重塑 embedding space。
这篇论文要解决的是:现有 calibration 评测过于粗粒度,往往只看模型置信度和正确率是否匹配,却很少和人的校准方式做细粒度对照。结果是,一个模型可能在总体 ECE 之类指标上看起来还行,但在不同题型、不同不确定性来源或不同知识状态下,与人类的置信分布相差很大。
这篇论文要解决的是:LLM 做情绪推断时,到底依赖了哪些内部机制,而不是只看最终分类是否正确。过去情绪理解研究大多停留在行为评测或 probe,能告诉你模型会不会判,但很难说明它通过哪些电路、注意模式或中间特征得出判断。
这篇论文要解决的是:LLM 所谓的 in-context knowledge unlearning,很多时候只是“装作忘记”,并没有真正停止利用相关知识。过去有不少工作通过提示、系统消息或上下文约束让模型在当前对话里不回答某些事实,但这类方法是否真的让模型忘了,一直缺乏更强的反事实验证。
这篇论文要解决的是:LLM 面对不可回答问题时,是否真的知道“不能答”,以及它会不会错误调用相关事实导致幻觉。过去 factuality 评测多看可回答问题上的正确率,但现实里更难的是模型在知识不足、前提错误或问题无解时,能否正确利用已有知识判断不可答而不是硬编。
这篇工作聚焦 in-context knowledge editing 的核心瓶颈:模型在上下文里临时注入新知识时,常把“会不会推理”和“有没有拿到新事实”混在一起,导致编辑效果不稳。过去很多方法直接往 prompt 里塞事实并测试答案,但如果失败,很难判断是知识注入没成功,还是推理链条本身出了问题,因此作者尝试把两者解耦。
这篇工作研究的核心问题是:给 LLM 更多 in-context examples,能不能系统性降低不确定性;作者显然不满足于“多给几个 shot 通常更好”这种粗结论,而是想看不确定性在哪些条件下真的下降、在哪些条件下反而被放大。过去 few-shot 提升通常只看 accuracy,但对置信度、分布漂移和示例噪声带来的影响分析不足。
这篇论文想解决的问题是:为什么 LLM 在 fine-tuning 后 calibration 仍可能变差,甚至出现和训练目标相反的置信度偏移;作者将原因指向模型已有先验知识与新监督目标之间的冲突。过去很多工作把校准问题归因于训练数据不足或目标函数不匹配,但对“预训练先验如何干扰后续目标”讨论得不够具体。
这篇工作的核心问题是:多语言 LLM 的语言能力不均衡时,能不能只在推理时做跨语言干预,弥补低资源语言或弱势语言的能力缺口,而不重新训练模型。以往常见做法是多语继续预训练或翻译后再答,但前者成本高,后者会引入翻译误差并损失原语言语境,所以 inference-time intervention 是一个很实际的方向。
这篇论文想解决的核心问题是:prompt optimization 能不能摆脱离散 token 搜索的低效和不稳定,直接在连续表示空间里优化。以往自动 prompt 设计常依赖离散编辑、强化学习或梯度近似,搜索空间大、可迁移性差,而且容易卡在表面词汇技巧上,因此直接用连续表示做 prompt 优化是很自然的方向。
这篇工作要解决的问题是:LLM 的不确定性估计不仅要有覆盖保证,还要能做选择性输出,也就是知道什么时候该回答、什么时候该拒答;SConU 看起来是在 conformal uncertainty 上加入 selective 机制。传统 conformal prediction 强调分布无关的覆盖率,但直接套到生成模型时往往集合太宽、决策不实用,因此需要更适合 LLM 的选择性设计。
自动解决 GitHub issue(SWE-bench 类任务)目前主要依赖闭源大模型,开源 LLM 在这类复杂代码推理任务上表现不佳。如何训练开源 LLM 使其在 issue resolution 上既有效又高效?
MoE 模型的量化比 dense 模型更复杂,因为不同 expert 的激活分布差异大,统一量化策略会导致部分 expert 精度损失严重。现有量化方法要么忽略 expert 间差异,要么只做粗粒度的 expert 级别配置。
LLM 生成内容的事实性(factuality)评估和改进仍然粗粒度——现有方法要么只给整体判断,要么细粒度评估的准确性不够。需要一个能提供细粒度、可操作反馈的事实性评估器来指导模型改进。
LLM 的推理过程缺乏结构化规划能力——模型在 CoT 中倾向于贪心地逐步生成,而非像人类一样先建立问题的结构化表示再规划求解路径。已有的 planning 方法要么依赖外部搜索,要么缺乏对问题结构的显式建模。
推理时的采样策略面临 exploration-exploitation 困境:贪心解码(exploitation)容易陷入局部最优,纯随机采样(exploration)效率低。现有方法(如 temperature 调节、top-k/p)缺乏对未来 token 质量的前瞻性考量。
LLM 的 unlearning(遗忘特定知识)现有方法通常通过梯度上升或对抗训练来'擦除'目标知识,但这些方法容易破坏模型的通用能力。能否通过'学习'而非'遗忘'的方式来实现 unlearning?
这篇工作要解决的是:LLM 在多步推理里容易“前面走偏后面圆不回来”,而常见的前向 CoT 只是在错误路径上继续展开,缺少从目标约束中间步骤的机制。
这篇工作要解决的是:事实性对齐(factuality alignment)常把“模型是否不确定”与“模型是否在胡编”混在一起处理,导致对齐信号要么过度惩罚合理的不确定回答,要么放过高置信幻觉。
这篇工作要解决的是:LM 与大脑表征对齐(brain alignment)常停留在相关性拟合,缺少能同时提升语言建模与神经对齐的可解释机制。
这篇工作要解决的是:多语种 LLM 评测常把“语言能力不足”和“文化背景缺失”混为一谈,导致模型被错误归因(看似不懂语言,其实是不懂文化常识,反之亦然)。