Conference on Empirical Methods in Natural Language Processing
这篇工作要解决的是状态空间语言模型在训练目标上过于单一的问题:如果只用标准 next-token objective,SSM 可能没有充分发挥其长程建模和高效序列处理优势。作者尝试通过动态混合训练目标,让模型在不同训练阶段学到不同类型的序列依赖。
当前多模态模型通常需要独立的视觉编码器(如 ViT),然后与语言模型对接。这篇工作探索直接在像素和文本上做自回归预训练,用统一的 AR 目标同时建模图像和文本,省去独立视觉编码器。
这篇论文的核心结论是:对参数受限语言模型,决定泛化效果的不只是训练 token 总量,而是“有效训练 token”总量,数据质量必须被显式写进 scaling law。传统 scaling law 更擅长回答“多大模型配多少数据算 compute-optimal”,但它把不同质量数据几乎等价地折算为 token,这会系统性高估低质量数据、低估高质量数据的价值。
这篇工作关注的核心问题是:语音语言模型是否也遵循类似文本 LLM 的 scaling 规律,以及规律在哪里失效。过去 speech LM 往往被当成特殊系统单独调参,缺少像文本预训练那样清晰的参数-数据-损失关系,所以模型该做多大、tokenizer 该多细、数据该扩到哪里都缺少定量依据。
这篇论文要解决的问题是:continual pre-training 时新旧数据该怎么混,尤其关键 mixture ratio 能否提前预测,而不是靠大规模网格搜索试出来。过去实践通常凭经验设定 replay 比例或做昂贵 sweep,但这个比例直接决定新知识吸收、旧能力保持和训练效率的平衡,代价很高也很不稳定。
Scaling law 研究主要集中在 dense transformer 上,MoE(Mixture of Experts)模型的 scaling 行为与 dense 模型有何异同,缺乏系统的对比分析。这对于在给定计算预算下选择 dense 还是 MoE 架构至关重要。
现有稠密预训练模型转MoE的方法仅支持带自然稀疏性的ReLU激活模型,无法适配大量使用其他激活函数的现代大模型,限制了MoE架构在存量模型推理降本中的落地。
从头训练大规模MoE模型存在数据需求量大、训练不稳定的问题,现有从稠密模型转换MoE的方案缺乏系统的专家构造和持续预训练策略探索。
这篇论文要解决的是:在强模型已经超过弱监督者能力时,怎样用弱模型的推理监督继续把强模型训好,而不是把弱模型的错误也一起放大。过去 weak-to-strong learning 多在分类或较简单任务上讨论,复杂推理场景更难,因为监督不只是标签而是一整条 reasoning chain,直接模仿弱监督会把系统性错误、捷径和脆弱的中间步骤一起蒸馏进去。
这篇工作要解决的是多语言建模中的“multilinguality curse”:语言越多,固定参数预算下单语言性能越容易被稀释,尤其低资源语言和高资源语言会彼此竞争。过去常见做法是共享一个大 backbone 再靠数据配比补救,但这种方案在容量受限时并不理想。
LLM 对同一个词的不同 tokenization 结果(如大小写变化、拼写变体、添加空格等导致的不同 subword 切分)表现出不一致的行为,即 subword 鲁棒性问题。这篇工作系统研究了这种脆弱性的程度和原因。
GPT 类模型的训练数据对最终模型行为有多大影响?具体来说,能否追踪特定训练样本对模型预测的贡献?这是数据归因(data attribution)在大规模 LLM 上的核心挑战。
这篇论文要回答的核心问题是:多语言预训练在什么条件下会从“共享带来迁移”变成“共享带来伤害”,尤其是在 250 个高低资源语言一起建模时。过去大家通常只报告平均多语收益,或者只看少数高资源语言,对低资源语言被挤压、容量竞争和训练分配失衡这些问题交代不够;这篇工作显然是在追问多语言扩展的失效边界。
这篇论文要解决的是:预训练数据采样通常是全局静态的,但真实目标任务往往只需要某些能力和分布,如何让语言模型的训练采样对“目标”敏感而不是平均用力。过去常见做法是统一混合数据或靠后训练阶段补救,这会让参数预算被无关数据稀释,尤其对参数受限模型更吃亏。
现有大模型预训练采用无监督多任务范式,有监督多任务信号仅在SFT阶段注入,受限于SFT阶段的数据规模,无法充分发挥有监督信号对泛化性的提升作用。
这篇工作要解决的是:生成式 LLM 是否可以摆脱传统 subword tokenizer,同时避免字符级建模带来的巨大序列长度和 embedding 开销。过去 tokenizer-free 模型的主要障碍不是概念上不可行,而是内存和参数成本过高,尤其输入 embedding 和输出 softmax 会随着原子表征方式迅速膨胀。
这篇工作要解决的是:translationese 能不能作为一种特殊数据源用于语言模型预训练。translationese 指翻译文本带有源语言干扰和较规整表达的语言变体;过去它多被当作机器翻译或语言学现象研究对象,很少被当成可利用的预训练数据属性来系统评估。
这篇工作解决的是 lifelong pretraining 中最现实的问题之一:模型在持续吸收新数据时,更新会扩散到大量无关参数,导致旧知识退化和训练效率低下。现有 continual/lifelong 方案常在数据采样或正则化层面补救,但对“梯度究竟该流向哪里”控制不够精确。
这篇工作要解决的是:现有 audio-language model 往往停留在音频理解或简单问答层面,难以同时支持更复杂的音频推理。过去很多系统把音频编码成连续特征,再接一个 LLM 做浅层对齐,结果通常能做标签识别,但遇到多事件、时序关系或需要跨音频语义整合的任务时能力不够,因此作者试图做一个更强的通用大音频语言模型。
这篇工作的核心问题是:如何在不完全依赖人工过程标注的情况下,提高语言模型的数学推理能力。现有方法要么只用结果级奖励,信号太稀疏;要么依赖昂贵的逐步监督,扩展性差,因此需要一种更细粒度、但成本可控的奖励构造方式。
LLM 的规划式推理(planning-based reasoning)能力不足,现有方法要么依赖昂贵的人工标注推理轨迹,要么用简单的结果奖励训练,无法有效学习中间推理步骤的质量。
这篇工作要解决的是数据质量评估如何摆脱昂贵且不稳定的人工规则,直接从 scaling law 反推样本价值。传统做法常用启发式过滤器、困惑度阈值或小模型打分,但这些分数与“对大模型训练到底有多有用”并不总一致。
RLHF对齐会导致大模型遗忘预训练阶段学到的能力(即对齐税),现有缓解遗忘的方法通常会牺牲对齐效果,存在对齐效果与遗忘缓解的权衡。
这篇工作要解决的是 seq2seq text diffusion 采样太慢的问题。文本 diffusion 的优点通常是更灵活的生成顺序和潜在更好的全局建模,但它长期被回避的核心障碍就是推理步数远多于 AR 解码,放到条件生成任务里尤其不实用。
这篇论文要解决的是语言模型预训练中两个彼此相关的表示问题:高频词偏置和 embedding/hidden state 的各向异性。过去这两个问题通常分别处理,但作者认为它们都和模型过度依赖浅层共现统计有关,因此可以通过句法平滑来同时缓解。
这篇论文聚焦小语言模型训练中的收敛稳定性问题:小模型不是大模型的缩小版,很多在大规模设置下被优化器和数据量掩盖的问题,在小模型上会直接表现为不收敛、loss spike 或性能高度不稳定。过去社区更关注大模型 scaling,而对小模型的训练动力学缺少系统总结。
现有多模态大模型做语音对话时,必须先生成文本回复再生成语音,且语音序列远长于文本,端到端延迟高,无法满足低延迟对话的需求。
这篇工作要解决的是:LLM 训练的梯度和优化器状态太占显存,导致低成本训练受限。常见办法是激活重算、ZeRO、量化或低秩更新,但这些方法要么牺牲吞吐,要么改变可训练参数形态。GRASS 从标题看选择另一条路:直接让梯度结构化稀疏,从而同时省显存和算力。
这篇论文聚焦一个非常工程化但重要的问题:大语言模型训练早期的 loss spike 能否通过更好的初始化方式缓解。现有大模型训练里,loss spike 往往被靠学习率 warmup、梯度裁剪或经验性超参去压,但这些是事后补救,不直接处理初始化导致的信号放大和梯度不稳。
这篇论文讨论的是一个对 continual/domain-adaptive pretraining 很关键的问题:为什么额外预训练有时不但不提升,反而收益很差甚至伤害模型。业界通常把 additional pretraining 当成相对安全的增强手段,但实践里经常出现“算力花了、下游没涨”的情况,说明其中有比数据量更复杂的适配动力学。
这篇工作要解决的是:双向语言建模如果要求前后条件分布彼此一致,能否在表达能力和表示紧致性上优于常见做法。传统 AR LM 表达清晰但方向单一;MLM 双向但不是严格一致的联合分布,因此“consistent bidirectional LM”是在重新审视非 AR 语言建模的理论基础。
现有大模型训练的学习率调度依赖固定函数形式(如余弦衰减),需要手动调整预热步、峰值学习率等超参数,或中途手动修改学习率,缺乏对训练中途切换学习率的理论和实证研究。
现有多语种大模型普遍存在高低资源语言性能差异大的问题,缺乏数据平衡、性能均衡的开源多语种大模型供研究使用。
现有稀疏激活MoE架构的所有专家参数大小相同,token无法选择最合适大小的专家生成下一个token,导致简单token浪费计算、复杂token计算不足的问题。
LLM 的上下文窗口扩展在超出训练长度后性能急剧下降,核心原因是位置编码(如 RoPE)在外推时的分布偏移。本文从分布视角分析并解决这个问题。
这篇工作关注一个当前很关键的问题:能否在没有 preference data 的情况下,用 RL 直接对齐 LLM。现有 RLHF / DPO 类方法通常依赖成对偏好或显式 reward model,这在数据获取、标注成本和奖励偏差上都有明显瓶颈。
这篇工作要解决的是:标准自回归语言模型只在 token 级做局部预测,缺少显式的高层语义规划,因此长文本生成常出现内容漂移和全局一致性不足。过去很多方法要么靠更长上下文硬扛,要么在解码后做 rerank,但都没有真正把“先想语义骨架、再写表面文本”纳入模型本体。
这篇工作要解决的是:如何把纯文本 LLM 高效扩展成大规模语音-文本模型,而且尽量减少对昂贵语音标注和外部教师的依赖。现有 speech-text 模型常常依赖专门架构或大规模监督数据,导致无法充分复用文本 LLM 的语言能力;因此“自供能”的模态扩展是很有吸引力的路线。
这篇论文解决的问题不是提出新方法,而是系统梳理 Transformer 长度外推里最核心的一块:位置编码。长度外推已经成为长上下文训练和推理的基础问题,但相关方法很多,结论又常依赖训练长度、任务形式和 attention 细节,导致社区对“什么方法为什么有效”认识并不统一。
当前RLHF的奖励模型为黑盒结构,无法给出打分的可解释依据,容易引发奖励黑客问题。过往方案要么牺牲奖励模型精度换取可解释性,要么完全忽略可解释性设计。
RLHF/RLAIF中多源奖励(人类反馈、AI反馈、安全规则奖励等)的特征分布差异大,常规加权组合方法会偏向数值更高的奖励源,导致RL训练不稳定、模型性能下降。过往的加权、排序、约束方案都未完全解决奖励偏斜问题。
当前离线RLHF仅建模响应之间的序关系,忽略了两个响应之间的偏好程度差异,导致样本利用率低、对齐效果差。过往的离线RLHF方案都采用等权重的排序损失,没有区分不同样本对的偏好强度。
这篇论文要解决的是:偏好学习里并不是所有 preference pair 都同样有价值,如何在标注预算有限时优先挑选最能提升模型的样本。过去很多 RLHF / DPO 流程默认随机采样或均匀标注,但实际数据里大量 pair 信息冗余、难度过低或噪声过大,导致标注钱花了,学习信号却不够强。
这篇论文要回答的是一个被频繁讨论但常被混淆的问题:LLM 到底在多大程度上逐字记忆训练文本,什么现象才算真正的 verbatim memorization,而不是高频模式重现或近似复述。过去关于 memorization 的讨论常把数据污染、模板复用、语言规律和真实逐字回忆混在一起,导致风险判断和治理策略都不够精确。
这篇工作要解决的是 instruction tuning 中一个经常被低估的问题:数据多不等于数据好,特别是分布过窄时,模型会在熟悉格式上表现不错,但对分布外指令和扰动非常脆弱。作者关心的不是单纯增加样本量,而是数据多样性如何影响鲁棒性。
这篇工作要解决的是多模态 CoT 推理训练信号稀缺且不稳定的问题:单纯 SFT 往往让模型学会格式,单纯 RL 又容易奖励黑客或训练崩。作者尝试把 RL 和 SFT 交替起来,并引入多样化 AI feedback,提升多模态链式推理能力。
RL 训练 LLM 时,奖励信号通常只在序列末尾给出(sparse reward),导致 credit assignment 困难、训练效率低。如何利用语言模型自身能力生成 dense reward 来加速 RL 训练,是这篇工作要解决的问题。
LLM 的多头注意力机制中,不同 head 之间存在大量冗余。如何在不显著损失性能的前提下共享 attention head 的计算,从而降低推理和训练开销,是这篇工作的核心问题。
这篇论文的核心问题是:LLM 记忆训练语料并不只是“会不会背出来”这么简单,哪些句子更容易被记住、生成记忆文本时模型内部信号如何变化、记忆与非记忆样本是什么关系、以及这种现象能否被预测。过去对 memorization 的研究更偏宏观统计,这篇工作转向更细的动态和表征层面。
这篇论文的核心结论是:知识注入并不需要均匀作用于所有层,浅层在知识注入里比常规做法假设的更关键。过去无论是 PEFT 还是 block expansion,很多方法默认全层均匀加改动,等于把“哪里值得注入”这个问题回避了;这篇工作直接挑战这个默认设置。
当前RLHF的奖励模型仅用排序损失训练,对噪声和模糊数据敏感,区分相似响应的能力差,无法准确捕捉人类的真实意图。过往的奖励模型优化方案多聚焦于数据清洗,没有从损失函数层面提升区分能力。
这篇工作解决的核心问题是:RLHF 或 preference optimization 能不能真正做成多语言,而不是只在英文偏好数据上训练后指望自然迁移。过去多数对齐流程默认英文足够覆盖价值偏好,但实际会在低资源语言上出现回答质量下降、过度拒答和文化风格失配。
这篇工作要解决的是:能否在不真正训练语言模型的前提下,快速估计架构或配置的潜力,从而做 zero-cost proxy search。传统架构搜索对 LM 来说代价太高,因为哪怕只是比较几个候选都要做昂贵预训练;如果 proxy 不可靠,搜索就会把算力花在错误方向上。
这篇工作要解决的是:为东南亚语言构建真正可用的开放大语言模型。现有开源模型对这一区域语言普遍覆盖不足,问题不只是 token 少,更是语料质量差、文字系统复杂、语种间资源极不均衡,导致模型常常既不懂本地语言,也无法稳定跨语迁移。
这篇工作要解决的是:如何针对低资源语言家族做更有效的多语适配,而不是把所有语言一锅炖地继续预训练。现有 multilingual adaptation 常按单语或按全语种平均来分配资源,但低资源语言真正能借力的往往是近亲语言;如果忽略语言家族结构,有限预算会被高资源或远距离语言稀释掉。
这篇工作要解决的是:如何让语言模型具备真正可用的 continual learning 能力,而不是一继续训练就遗忘旧知识。现有 LLM 的继续预训练和增量学习通常在短期适配上有效,但很容易发生 catastrophic forgetting,尤其当新数据分布窄、训练轮次长或参数更新过于集中时。
这篇工作要回答一个长期被默认接受、但很少被系统验证的问题:儿童导向语料(child-directed speech, CDS)到底是不是训练语言模型的高效数据。很多关于人类语言习得的讨论会把 CDS 视作高质量输入,但对现代 LM 来说,数据价值不只取决于“是否自然、是否面向学习者”,还取决于覆盖面、重复度、句法分布和 token 效率,所以这个假设值得重新量化。
这篇工作试图解决长序列建模里一个老问题:标准注意力在序列长度上二次复杂度,靠稀疏化、线性化或状态压缩虽然能省算力,但往往牺牲表达力,尤其在跨远距离和高阶依赖上退化明显。作者给出的方向是不要只把输入看作一维序列,而是重排成张量后在更结构化的空间里做建模。
这篇工作要解决的是解释性方法一个很现实的瓶颈:能做细致因果分析,但扩展不到大模型、大数据和大批量样本。很多 mechanistic interpretability 工具一次只能解释一个样本或一小段路径,人工成本高,结果也难系统化,因此作者试图自动化地恢复模型中的信息流路由。
这篇工作关注一个很具体但很有意思的问题:LLM 里可能存在 tokenizer 词表之外的“隐式词项”,而它们平时不直接可见。过去我们常把模型的词汇知识等同于显式 token 词表,但实际模型可能通过多 token 组合、内部特征复用和训练共现,形成对某些词或短语的整体性表征;作者试图用 token erasure 这一现象去抓到这种隐藏结构的足迹。
这篇工作要解决的是:LLM 对齐里很多有用信号天然是序列级分数,但现有 RLHF/PPO 类方法要么训练复杂、要么样本效率低,而纯监督方法又很难直接优化这类非 token 级目标。作者试图在“能用 sequence-level reward”与“训练尽量像 supervised learning 一样稳”之间找一个中间点。
这篇工作要解决的核心问题是:开源语音基础模型在欧洲语言上的训练数据长期不够大、不够干净、也不够统一,导致很多方法讨论停留在模型结构层面,实际瓶颈却是数据供给。过去常见做法是依赖英语主导的公开视频或小规模单语语料,覆盖面和可复现性都有限,因此现在有必要把“多语言语音预训练数据集”本身做成一项一等公民的研究对象。
这篇工作聚焦一个很具体但很关键的问题:长上下文失败不一定是模型“不会”,很多时候是模型“知道但没有在输出里用出来”。过去对 long-context failure 的解释常常混在一起,把检索失败、注意力衰减、位置泛化差和解码策略问题都归为“模型没学会长上下文”;这篇论文要拆开其中的机制,区分表征里是否已经有信号,与最终生成是否把信号说出来。
这篇工作讨论的是一个基础但经常被忽视的问题:tokenization space 里到底哪里有真正有用的学习信号。大家通常把 tokenizer 当固定前处理,然后在 token 序列上做建模,但不同切分方式会改变统计结构、局部组合规律和优化难度,因此作者想回答的不是‘哪个 tokenizer 分数更高’这么窄的问题,而是‘信号在切分空间里如何分布、模型实际上学到了什么’。
这篇工作讨论一个很现实的模型更新问题:把新知识通过 fine-tuning 塞进 LLM,是否会反而诱发更多 hallucination。过去默认假设是‘学到新事实就更准’,但参数更新会扰动已有知识边界和置信度校准,模型可能在新知识附近变得更爱编,因此这个问题对持续更新和 continual pretrain/fine-tune 都很关键。
这篇论文要解决的问题是:长上下文评测缺少既自动化又足够真实的测试框架,导致很多结果高估了模型在真实长文档场景里的能力。过去常见做法要么是人工构造少量任务,要么是 needle-in-a-haystack 这类过于单一的 synthetic 测试;这些设置能测到一部分检索能力,但测不到信息干扰、任务切换和文档结构复杂度带来的真实压力。
这篇论文要解决的问题是:现有 preference optimization 往往把对齐目标压成单一标量,难以同时、可控地满足多个目标,比如 helpfulness、harmlessness、style 和长度。过去常见做法是混合数据或调 prompt,但这些手段控制粒度粗,而且目标一冲突就容易互相覆盖。
这篇论文关注的问题是:提高 RoPE 中用于注意力的位置维度,是否真的能改善模型对 token 距离的建模能力。这个问题值得研究,因为长上下文扩展里大家常调 RoPE 频率、缩放和外推,但较少直接分析“更高 attention dimension 的 RoPE”为何会影响距离分辨率,以及这种收益的边界在哪里。
这篇工作聚焦于长文本生成里的事实一致性对齐问题。现有对齐方法大多围绕短答或局部偏好展开,能减少显性有害输出,但对长篇回答中跨句依赖、细节漂移和后段幻觉控制较弱,因此长文本 factuality 仍然是对齐体系里的薄弱环节。
这篇工作要回答的核心问题是:仅靠 in-context alignment,模型行为到底能被“临时对齐”到什么程度。过去很多结果表明提示词、系统消息和少量示例能显著改写输出风格,但它们能否替代参数层面的对齐、在哪些任务和风险边界上失效,一直缺少系统刻画。
这篇工作针对对齐训练中过硬标签带来的过度自信问题,提出用基于置信度的 label smoothing 改善 alignment。很多对齐数据本身噪声不低,偏好标签和拒答标签也常有歧义,如果仍按 one-hot 强推,模型容易学到不必要的尖锐决策边界,表现为过度拒答、过度肯定或泛化不稳。
这篇工作要回答的核心问题是:做 instruction tuning 时,是否应该把提示词部分也计入训练损失。很多实现默认只对 assistant 回复算 loss,把 user prompt mask 掉,理由是“提示词不是要生成的目标”;但这个做法更多是工程习惯,不是被系统验证过的设计选择,因此值得单独检验。
这篇工作关注的核心问题是:多语指令微调数据不仅要覆盖语言,还要在语言学上自然、在表达上多样,否则模型会学到翻译腔和模板化响应,而不是真正的多语能力。很多现有 multilingual instruction tuning 数据是从英语翻译扩展来的,覆盖面看似广,但语言分布和句法风格都不够自然。
语言模型的 in-context generation(上下文内生成)能力——即模型在给定少量示例后生成符合示例分布的新文本——的机制尚不清楚。这与 in-context learning(ICL)相关但不同:ICL 关注分类/预测,而 in-context generation 关注开放式生成。
这篇工作要解决的是:怎样把大语言模型量化到更低比特,同时尽量保住生成质量,并且让训练开销可控。已有 PTQ(后训练量化)往往在低比特下掉点明显,尤其对生成模型更敏感;常规 QAT(量化感知训练)又训练成本高、参数更新重。作者聚焦的是低比特量化的精度—成本矛盾。
这篇工作要回答的是:把英语中心的大模型改造成多语模型,到底需要多少多语数据或多语训练比例。过去常见做法是继续预训练加一点非英语数据,或者直接训平衡多语模型,但两者成本都不低,而且缺少关于“最低有效 multilinguality”的系统量化。作者针对的是英语能力保留、非英语迁移提升和训练预算之间的临界点问题。
这篇论文要回答的核心问题是:语言模型对齐里广泛使用的 proxy reward 到底在多大程度上真的代表人类偏好,以及它什么时候会把训练带偏。过去很多对齐工作默认把 reward model 分数、规则打分或 benchmark 代理指标当作可优化目标,但这类信号往往比真实用户偏好更窄、更易被投机利用,因此值得单独拆开检验其作用边界。
这篇论文要解决的是:现有偏好优化方法通常只利用二元偏好标签,忽略了‘偏好强度’这类更细粒度反馈,导致模型更新方向过粗,样本利用率也不高。换句话说,chosen 比 rejected 好多少,在大多数 DPO 类方法里没有被显式建模。
这篇论文解决的是:SFT 数据自动构造虽然便宜,但现有 Self-Instruct 风格方法容易生成陈旧、重复、只是对已有指令做浅层改写的数据,难以同时保证质量、覆盖度和可扩展性。问题不在于能不能生成新指令,而在于生成的‘新’是否真的带来新的任务结构。
这篇工作要解决的是:RLHF 训练里高奖励样本很少但很关键,而常规做法对所有样本近似同权,导致训练信号被大量普通样本稀释,最终在 helpfulness、harmlessness 和稳定性之间很难同时做好。过去提升 RLHF 效果通常靠更强 reward model、更大 batch 或更复杂目标,但很少直接处理“高价值样本在梯度里占比过低”这个问题。
这篇工作要重新审视的是:大语言模型调优中的灾难性遗忘是否被过度简化了,现有结论往往混淆了任务切换、评测设置和知识覆盖变化。过去很多工作沿用小模型时代的 continual learning 叙事,但在 LLM 上,预训练知识冗余、指令调优分布和评测口径都变了,遗忘现象未必表现为同一种机制。
这篇工作直接比较两类多语预训练目标:语言建模和机器翻译,想回答哪个目标更能学到可迁移的多语言表示。这个问题一直存在,但常被数据规模和模型差异掩盖,导致大家默认“都混一点”而不清楚真正的收益来源。
这篇工作要解决的是大模型推理加速里的核心瓶颈:如何在不明显损伤输出质量的前提下,把 speculative decoding 的接受率和并行收益做高。已有方法的问题通常是 draft 模型提议太保守时加速有限,太激进时又会被 target 模型大量拒收。
当前主流的BPE等子词切分算法仅基于字符频率统计,不考虑词汇语义,导致同根词被切分到不同子词,语义表示一致性差。过往的语义感知切分方案要么推理速度慢,要么需要大量标注数据。
领域特定的奖励模型需要大量专家标注的偏好数据,标注成本极高。过往的方案要么直接在通用奖励模型上微调领域数据,要么从零训练领域奖励模型,数据效率都很低。
这篇工作要解决的是:标准语言建模目标对句法结构的监督太弱,模型学到大量表层统计规律,却未必形成稳定的结构归纳偏置。以往提升句法能力常靠显式语法标注、多任务训练或更大数据规模绕过去;作者选择反过来问,能否通过“做句法变换”这种预训练任务,把结构信息更直接地压进模型里。
这篇工作要回答的是:LLM 到底能不能在上下文中学到动力系统的 governing principles,而不只是拟合时间序列模式。过去关于 in-context learning 的讨论很多停留在语言任务或简单回归设定;作者把问题推进到动力系统,是因为这里能更清楚地区分“记住轨迹形状”和“掌握演化规律”。
这篇工作要解决的是:标准生成模型在每一步都对全词表打分,计算成本高,而且大量 token 在当前上下文下其实不可能是合理候选。过去大家主要从 softmax 加速、近似采样或词表裁剪角度优化,但这些方法往往是静态的,不能根据上下文动态缩小可选空间。
这篇工作要解决的是领域 LLM 扩词表时“加多少、加哪些 token”这个常被粗糙处理的问题。过去做 domain adaptation 时,常见做法是直接沿用原 tokenizer,或者简单追加高频词片段;前者会让专业术语被过度切碎,后者则容易引入大量低价值 token,增加嵌入参数和训练不稳定性。
这篇论文聚焦于“reversal curse”:模型学会了 A→B,却不会稳定地反推出 B→A。这个问题过去常被当成数据覆盖不足或提示方式问题处理,但它实际上暴露了自回归语言建模对关系对称性和事实双向泛化的系统性缺陷,因此值得单独分析和干预。
这篇论文关注对齐训练里的一个常见缺口:模型在 RLHF 或偏好优化后学会了迎合奖励,但不一定保留对“奖励值大小”的校准能力。换句话说,模型可能知道哪条回答更好,却不知道好多少,导致选择和生成行为在不同风险偏好下不稳定。
这篇论文关注 tokenizer 设计里一个被长期低估的问题:subword segmentation 对词形变化语言是否一致、是否保留形态边界。过去 BPE 一类方法主要为压缩率和频率优化,在英语上问题不显著,但对屈折丰富语言,切分不一致会直接影响样本效率、泛化和跨词形共享。
大语言模型对罕见语法现象的学习来自记忆还是泛化一直没有明确结论。过往的研究要么无法控制训练数据的分布,要么没有量化泛化的贡献。
当前多模态大模型大多仅支持2-3种输入模态,扩展新模态的成本极高,且无法继承通用大模型的完整推理能力。过往的方案要么修改LLM的底层架构,要么重新预训练,开销极大。
这篇论文要解决的应当是:DPO 直接用偏好对训练时,会把低质量、噪声大或冲突的 preference 数据一并吸收,导致优化信号被污染。这个问题之所以值得重新处理,是因为 DPO 已经成为 RLHF 的轻量替代,但实践里数据质量波动很大,很多性能和稳定性问题并不是目标函数本身,而是样本筛选不足。
这篇工作要解决的是:语言模型的数据消融太贵,无法直接逐份数据重训来估计每个数据模块的价值。传统 data ablation 最准确,但代价接近重新做一遍预训练,因此研究和工业实践都只能做很粗的近似。论文标题说明作者想通过 modular training 和 merging,把数据价值评估做成可扩展近似。
这篇论文试图解决的核心问题是:如何用更稳定、成本更低的数据构造方式提升指令对齐,而不是继续依赖昂贵且噪声较大的人工偏好标注。过去很多对齐方法把重点放在 reward model 或 preference optimization 上,但如果指令数据本身表达单一、覆盖窄、风格固化,模型的对齐上限会很快被数据分布卡住。
这篇论文的核心问题是:能否把 Transformer 重新理解为一种多状态 RNN,从而用更统一的递归视角解释它的计算和记忆机制。过去 Transformer 常被拿来和 RNN 对立起来讲:前者是并行自注意力,后者是顺序递归;但这种二分法会掩盖 Transformer 里沿层传播、沿位置更新的隐式状态结构。
这篇工作想解决的是:LLM 自对齐通常要么依赖人工偏好数据和额外 reward model,要么依赖一套固定 prompt 让模型自评,但这两条路都容易受提示词脆弱性影响。作者关注的核心问题不是再训练一个更强 judge,而是能否通过动态奖励和 prompt 优化,在不微调模型权重的前提下做更稳的自对齐。
这篇论文要回答的核心问题很直接:Transformer 到底能不能真正学会 n-gram 语言模型,而不只是表面上在有限样本里拟合出类似行为。这个问题过去常被默认成“容量足够就能学到”,但对预训练研究来说,能否稳定恢复这种最基础的局部条件分布,其实关系到我们怎么理解 Transformer 的归纳偏置、训练动态和它对简单统计结构的学习边界。
这篇论文的核心问题是:in-context learning 里,模型到底是在做真正的任务推断,还是只是把已经形成的内部结论 verbalize 出来,这两步是否可以区分。过去很多 ICL 工作把输入示例到输出答案视为单一过程,但如果 inference function 和 verbalization function 可以拆开,我们对 few-shot 提示、生成人类可读解释以及格式约束影响的理解都会更细。
这篇论文的核心问题是:构建语言特定 LLM 时,哪些设计选择真正重要,哪些只是高资源英语经验的机械迁移。很多团队做 language-specific LLM 时会直接沿用通用配方,但不同语言在文字系统、形态复杂度、语料稀缺度和混码现象上差异很大,导致 tokenizer、数据配比和训练策略的最优点并不一样。
这篇工作尝试把语音转文本和文本转语音统一到一个模型里。传统做法通常是 ASR 和 TTS 分开建模,接口清晰但表示不共享,导致参数冗余、跨任务迁移弱,也限制了把语音当作统一序列建模对象的可能性。
这篇工作直接问了一个 pretrain 问题:预训练阶段接触哪种编程语言、以及代码的哪些特征,会影响下游逻辑推理能力。过去很多结论只说‘代码预训练有帮助’,但很少拆开看这种帮助到底来自语言语法、结构化控制流,还是变量约束等更细粒度因素。
用大模型生成的 Chain-of-Thought (CoT) 推理链来蒸馏小模型已成为常见做法,但为什么 CoT 蒸馏有效、哪些因素真正起作用,仍然不清楚。这篇工作系统性地拆解 CoT 蒸馏中的关键变量。
这篇工作研究的是如何把语音理解、语言生成和情感共情结合进同一个 large speech-language model。传统语音系统通常把情感处理拆成识别分类或规则化回复,流水线长、风格不自然,而且情感线索在离散标签里损失很大;作者显然想做更统一的 empathetic speech-language 建模。
这篇工作解决的是大模型版本升级时训练路径不稳定、容易遗忘或收益不足的问题。实际中从旧版本继续训练到新版本,直接沿用单一路径学习率调度常常会在保留旧能力、吸收新数据和稳定收敛之间发生冲突,作者试图通过学习率路径切换来改善这个过程。
这篇论文要解决的是:自回归语言模型推理天然串行,如何在不大改模型结构的前提下,把多个 token 的预测并行化。以往并行解码通常依赖 speculative decoding、非自回归蒸馏或额外 draft model,但这些方法要么系统复杂,要么质量损失明显,因此“训练时显式让模型适应 noisy context”是一个值得重新检验的方向。
这不是方法论文,而是一篇关于 LLM 知识机制的综述与观点文章。它要解决的问题是:当前关于“模型如何存知识、如何调用知识、如何遗忘或编辑知识”的研究分散在 probing、editing、hallucination、retrieval、mechanistic interpretability 等多个社区,缺少统一框架来组织这些结论。
Reward model 训练时,不同质量的偏好数据对模型的贡献差异很大,但现有方法对所有样本一视同仁地优化,导致噪声数据拖累 RM 质量。问题的根源是人工标注的偏好对存在大量模糊或错误标注,直接用 Bradley-Terry loss 等标准损失训练会让模型拟合噪声。
跨语言对齐(alignment)的核心瓶颈是非英语语言缺乏高质量偏好数据。能否直接复用英文训练好的 reward model 做零样本跨语言对齐,而不需要为每种语言单独收集偏好数据?
这篇工作关心的是微调阶段如何更有效地使用异质数据,而不是默认所有样本同权。过去常见做法是人工设数据配比,或者用简单 curriculum / filtering,但这类策略很难适应任务迁移、样本质量差异和训练阶段变化。
这篇工作认为当前 LLM 语用学评测太封闭,导致模型是否真正理解言外之意、礼貌、暗示和语境适配被高估。过去不少工作把 pragmatics 简化成多选题或少量规则化案例,这更像测模板匹配,而不是测开放环境中的语用能力。
这篇工作直指一个很实际的对齐冲突:模型越强调 instruction following,往往越容易牺牲 faithfulness。常见现象是模型为了配合用户格式、风格或结论要求,会生成更顺从但证据不一致、推理不忠实甚至编造的信息,而现有训练往往没有把两者明确拆开优化。
这篇工作要解决的是多语预训练模型里的 script barrier:同一种或相近语言因为书写系统不同,表示空间被人为割裂。现有 multilingual PLM 往往依赖共享 tokenizer 和参数去获得跨语迁移,但当语言脚本差异大、共享词形少时,这种对齐会明显变弱。
这篇工作讨论的是在 LLM alignment 中如何更好利用 demonstration data,而不是把示范样本只当作普通 SFT 监督。传统做法通常直接最大化示范答案似然,但这没有显式利用‘这些轨迹是模型应该模仿的优质行为’这一强化学习视角,也难以处理示范质量不均和策略偏移。
这篇工作的核心问题是:时间相关的视频-语言任务被长期拆成理解、定位、描述等多个子任务分别做,导致模型目标不统一、时序信息难共享,也很难借到语言模型的成熟训练范式。作者试图把这类任务统一到一个因果式语言建模框架里,让视频时序建模和文本生成落在同一训练接口上。
这篇工作的结论从标题就很明确:在线对齐时不要让策略模型偏离行为模型太远,否则训练会变得不稳定且样本效率差。过去在线 RLHF/DPO 类方法常追求更激进的策略改进,但在奖励噪声、偏好模型偏差和分布移位同时存在时,过大的策略步长往往会放大奖励黑客和退化。
这篇工作要回答的是:LLM 是如何学会 in-context learning 的,尤其是 ICL 头里的 query/key 矩阵到底在做什么。以往解释 ICL 常停在功能描述,比如“复制示例模式”或“做隐式贝叶斯更新”,但如果能把 Q/K 明确解释成类似双塔度量学习,那就把一个模糊现象变成了可分析、可验证的机制假说。
这篇工作关注的核心问题是:现有 LLM alignment 配方往往流程重、超参敏感、复现成本高,而很多增益来自经验性细节组合,缺少一个经过系统优化的简洁方案。过去常见路线是 SFT+DPO/RLHF 的多阶段堆叠,但不同阶段之间经常互相牵制。
这篇工作要解决的核心问题很明确:把大模型成员推断从‘能做但太贵’变成‘可以常态化评估’。现有高质量 MIA 往往依赖训练多个 shadow models 去近似训练分布,这在 LLM 上成本高到难以用于日常隐私审计,所以真正卡住的不只是攻击效果,而是评估成本。
这篇工作要解决的是:LLM 已有知识的校正和外部新知识的注入,为什么总是效果不稳定。现有方案通常在 RAG、SFT、CPT 三条路里各自优化,但真正卡点往往不是‘注入方式’本身,而是原始知识源如何被转成适合模型学习的数据表示;如果表示粗糙,RAG 检索不到、SFT 学不牢、CPT 又容易代价过高或引入副作用。
这篇工作要解决的是 benchmark contamination detection 里一个常见但没处理好的问题:怎样在不知道训练集细节的情况下,可靠地区分‘模型真的泛化了’和‘模型见过题了’。现有检测方法常依赖启发式相似度、人工改写或少量 prompt probing,问题是统计显著性弱、分布控制不严,容易把能力强误判为污染,或把轻度污染漏掉。
这篇论文要解决的是:生成和检索在 LLM 体系里通常被分开训练、分开执行,导致需要两套模型或两次前向,系统复杂且效率低。很多实际任务并不是“先检索再生成”这么干净,而是要求模型一边生成答案,一边给出可用于检索的表示或标识;现有做法把这两件事拆开,既浪费计算,也让训练目标彼此脱节。
这篇论文想解决的是 ICL 机制研究里一个长期存在的混乱:大家都在讨论 in-context learning 为什么有效,但经常把不同因素混在一起,导致结论彼此难比较。作者提出一个“坐标系”来理解 ICL,说明他们的目标不是再给一个局部解释,而是整理出一套能区分不同工作机制的分析框架。
这篇论文要解决的是 speculative decoding 的一个效率瓶颈:草稿模型虽然能并行生成候选 token,但草稿通常还是按 token 粒度推进,导致可验证的前瞻长度有限。作者提出 phrase by phrase 生成更长 drafts,目标是在不破坏验证正确性的前提下,把 speculative decoding 的吞吐再往上推。
这篇论文关注长上下文扩展里的一个具体难点:把 RoPE 或类似位置编码直接外推到更长序列时,模型往往会出现注意力错位和性能崩塌。过去社区常用插值、NTK scaling、位置重标定等方法延长上下文窗口,但这些方法在超长区间经常需要重新训练或在局部/全局位置精度之间做痛苦权衡;PSC 试图用 phase shift calibration 来更稳地校准这种外推误差。
这篇工作要解决的是 MLLM 在 VQA 中过度依赖单模态偏置的问题,也就是模型看起来在做多模态推理,实际上可能只是顺着语言先验或视觉捷径在猜答案。过去这类问题通常靠构造对抗样本或错误案例分析来讨论,但缺少一个能量化“语言偏置/视觉偏置到底对结果贡献了多少”的框架。
这篇工作要解决的是 LLM 对齐训练里的参数冗余问题:SFT 或偏好优化时,并不是全模型参数都需要被强烈更新,盲目全量优化容易把模型往训练集里的表面风格和偶然模式上拉过去。作者的出发点很直接:如果只有一小部分参数真正承载与人类偏好相关的更新,全量对齐既低效,也更容易过拟合。
这篇工作要解决的是如何更准确地测量 LLM 的训练数据记忆,而不是只靠固定前缀或固定 soft prompt 去碰运气。已有方法的共同问题是提示是静态的,无法根据不同前缀动态调整,因此容易低估模型在特定上下文下被激活的记忆强度。
这篇工作要解决的是 LLM 评测中的数据污染分析缺乏公开、统一且可复现的工具链,导致很多 benchmark 结果可能混杂了记忆效应,但外部研究者难以独立核查。过去污染分析多数掌握在模型开发方内部,方法和覆盖范围都不透明,因此“模型到底会不会做题”与“模型是不是见过题”经常分不开。
这篇工作要解决的是现有 token reduction 方法直接套到 SSM,尤其是 Mamba 类模型上时效果明显失效的问题。虽然 token reduction 是后训练提效的直接手段,但 SSM 的状态传播机制与 Transformer 不同,简单删 token 往往会破坏时序状态累积,因此精度下降比在 Transformer 上更严重。
此前基于LLM的差分隐私合成文本生成要么需要训练隐私友好的生成模型(成本高),要么同隐私预算下仅能生成不足10条有效样本,不足以支撑下游预训练等需要大规模数据的场景。
多语言LLM的跨语言泛化机制缺乏明确量化解释,此前研究未系统对比不同模型、语言类型、概念类型下的语义对齐效果差异。
LLM在知识一致场景(上下文信息与参数记忆无冲突)下的知识调用权重分配缺乏系统量化结论,此前研究多关注知识冲突场景的优先级选择。
这篇论文的核心问题是:instruction tuning 之后,多任务能力究竟被写进了模型的哪些层,哪些任务是预训练已经会的,哪些任务是真正靠指令微调补进去的。过去大家更多看最终 benchmark,很少系统分析任务特定信息在层间如何分布,因此难以判断多任务泛化到底来自共享表示,还是来自少数层的任务适配。
这篇论文要解决的是:传统 RAG 把检索器和生成器拆成两个模块,适配新任务时往往要改检索器或重新训练,而这会引入级联误差和工程复杂度。作者想证明,检索可以直接变成受语料约束的生成过程,从而把 retrieval 和 reasoning/planning 合并到一次解码里完成。
这篇论文关注的是 synthetic data 并不天然等于高质量数据:大模型生成的数据会带来哪些缺陷,这些缺陷如何伤害后续模型训练,以及该怎么缓解。过去大家常把合成数据当作扩大 instruction / reasoning 数据规模的低成本手段,但真实问题是,模型会复制自身偏差、放大模式坍塌,并产生看似流畅但信息贫乏的训练样本。
这篇工作要解决的是:如何给 LLM 的输出做更稳定、更可信的输入归因。现有基于梯度或积分路径的方法在离散 token 空间里常常噪声大、对路径选择敏感,而且容易把 attribution 变成一种看起来合理但不够可复现的事后解释。
这篇工作想解决的是:让 LLM 的解释不只停留在事后打分,而是通过学习式 masking 直接找出真正支撑输出的输入片段。传统 attribution 多依赖梯度或启发式删除,往往缺少一个显式的学习目标去约束“哪些 token 必须保留,哪些可以去掉”。
这篇工作关注的是:预训练语言模型里的知识到底分布在全网状参数中,还是存在对特定事实更关键的子网络。过去很多分析停留在 probing 或参数编辑层面,能说明模型会用知识,但不一定能定位‘哪一部分参数更关键’。
这篇工作要解决的是:LLM 的置信度估计不可靠,尤其在生成式问答里,token 概率往往不能代表答案是否真的对。外部校准信号常常昂贵或不可用,因此作者转向模型内部状态,试图从 hidden states 里直接估计回答可信度。
这篇工作要解决的是:Chain-of-Thought 常被拿来解释模型推理,但现有 attribution 方法很难同时说明‘最终答案依赖了哪些证据’以及‘推理链中间每一步依赖了什么’。如果只给单层粒度解释,往往看不出 CoT 是真推理还是只是事后合理化。
这篇工作要解决的是:小模型在监督微调后往往只学到答案形式,学不到可迁移的推理过程,而直接蒸馏大模型解释又常常代价高、噪声大。作者关注的是一种更便宜的路径:让小模型基于自己的输出做事后解释,再把这些解释反过来用于提升模型能力。
这篇工作要解决的是当前多模态大模型对几何关系的理解和生成都不够原生:它们能描述物体,却不一定能稳定处理严格的几何约束。作者想把 geometric reasoning 与 geometric image generation 放进同一个多模态框架中,让模型不只会看图说话,还能围绕几何结构进行推理和生成。
LLM 微调几乎只用交叉熵损失,但计算机视觉领域已经发展出大量更优的损失函数(如 focal loss、label smoothing 等),这些损失是否能改善 LLM 微调效果,此前缺乏系统研究。
LLM 在面对超出其知识范围的问题时倾向于编造答案(幻觉),而非拒绝回答。如何让模型学会识别自身知识边界并主动拒绝,是提升可靠性的关键问题。
LLM 生成幻觉文本时,其输出的概率分布是否与忠实文本有可区分的差异?这篇工作从概率分布的角度分析幻觉检测的可行性,核心假设是幻觉文本对应的 token 概率分布具有可识别的特征。
多模态 LLM 的安全对齐通常只在文本模态上做(textual unlearning),但攻击者可以通过视觉模态绕过文本层面的安全限制。这篇工作研究文本 unlearning 能否解决跨模态的安全对齐问题。
这篇论文的核心发现是:在 in-context learning 里,完整 LLM 的输出并不总是优于其内部单个组件,一些 attention head 或 MLP 单独做分类甚至能超过整模。过去大家通常把 ICL 视为整体前向过程涌现出的能力,这篇工作则追问能力是否被少数组件承载,以及整模为何会被其他组件拖后腿。
这篇论文要解决的是:DPO 只用整条回答的偏好标签,在数学推理这类多步任务上监督过粗,无法告诉模型“哪一步错、错得多严重”。过去这类问题要么靠结果级 preference 勉强学,要么回到 RL+过程奖励,但后者标注和训练都更重。
这篇论文要解决的核心问题应该是:LLM 往往能学会单一技能,但把多个技能在上下文中组合起来时表现并不稳定,如何释放 compositionality。以往很多工作用 chain-of-thought 或工具调用绕过组合难题,但模型是否能通过 prompt 中给出的技能示例真正学会“按需拼装能力”,仍是关键问题。
这篇工作解决的是:如何让 instruction generator 生成更适合复杂推理训练的数据,而不是停留在表层改写和简单问答。过去很多指令数据合成方法默认生成器本身就会推理,结果常见问题是题目复杂度不够、解法模式单一、错误链条被直接蒸馏进学生模型。
这篇工作要解决的是:如何把教师模型的 CoT 蒸馏给学生模型,同时提升学生在新题型上的推理泛化,而不是只学会复述训练集里的思维模板。传统 CoT distillation 常见的问题是学生过拟合教师轨迹表面形式,遇到分布变化时推理步骤会塌。
这篇工作研究的是:语言模型是否具备 self-recognition,也就是能否识别关于自身身份、来源、能力或生成内容的相关信息。这个问题过去常被拿来做趣味演示,但如果严肃分析,它涉及模型是否形成了稳定的自我表征,还是只是从训练语料中拼接出高频自述模板。
这篇工作关注的是:当模型不知道答案时,如何不只是机械地说'I don't know',而是给出带解释的、对用户有用的未知响应。现有拒答对齐通常把'不知道'当成单一模板,结果要么过度保守,要么解释不充分,用户体验和校准都不理想。
这篇工作解决的是:如何用非常简单的策略压缩 KV cache,同时尽量不伤害生成质量。长上下文推理和 serving 的主要瓶颈之一就是 KV cache 占用,而很多压缩方法要么需要额外训练,要么实现复杂,不利于真实部署。
这篇工作研究的核心问题是:machine unlearning 除了删除特定知识,是否还能顺带减少语言模型中的社会偏见。过去 unlearning 主要面向版权、隐私和安全删除,偏见缓解通常走数据再平衡或对齐路线,这两条线很少被系统地放到一起讨论。
这篇工作解决的是:如何以较低成本构建一个适配罗马尼亚语的轻量语言模型,而不是简单依赖英语中心模型的零样本迁移。对中小语种来说,通用大模型往往覆盖不足、tokenization 低效、语法和词形变化处理不理想,因此需要本地化适配方案。
这篇工作要解决的是:如何用检索增强的方式自动合成既多样又有任务价值的数据集。现有数据合成常见的问题是模式坍塌,模型会反复生成高频模板;而纯人工构造又太慢、太贵,难以覆盖长尾现象,所以作者把重点放在“生成时就显式拉开样本分布”。
这篇工作要解决的是:如何让语言 agent 在缺少高质量人工轨迹的情况下,通过自训练持续变强。普通 self-training 往往会把 agent 早期错误反复放大,尤其在多步决策任务里,一旦中间步骤错了,后续数据就全是带偏的;因此关键不是单纯生成更多轨迹,而是生成前后都有质量控制。
这篇工作研究的是:语言模型内部用于完成同一语法功能的 circuit,跨语言到底有多相似。以主谓一致任务为例,过去 mechanistic interpretability 更多在英语里找电路、找头、找 MLP,但很少验证这些机制是否能迁移到其他语言,因此我们并不清楚模型学到的是语言无关算法,还是语言特定启发式。
这篇工作想解决的是:偏好对齐里,模型往往知道用户更喜欢哪种表达,但不擅长把同一语义改写成更符合偏好的表述。传统 alignment 多直接优化 response selection 或奖励最大化,默认生成空间已经足够好;作者则把问题转成‘学会改写’,用 paraphrase 去贴近 LLM preference。
这篇工作解决的是 LLM 量化里一个核心痛点:weight-activation 共同量化时,激活分布往往比权重更难处理,少数异常值会显著放大量化误差,导致低比特部署质量快速下降。很多方法通过逐层校准或只量化权重绕开这个问题,但那会牺牲吞吐、内存收益或适用范围,因此作者提出用激活变换先把分布整理到更适合量化的形状。
这篇工作讨论的是文本生成里一个经典但一直没解决好的矛盾:局部解码策略优化的是每一步 token 选择,全局质量却取决于整段文本的结构、连贯性和约束满足。过去大家通常在 greedy、beam、sampling 之间做工程折中,但这些方法大多把目标函数近似成局部决策,因而会出现局部看起来合理、全局却跑偏的问题。
这篇工作要解决的是指令数据筛选中的一个常见失衡:只按质量打分做 top-k selection,往往会把数据集压成少数高频模式,导致多样性下降、覆盖面变窄。过去很多工作把 instruction tuning 数据选择当成单目标排序问题处理,但高质量和高多样性并不天然一致,因此作者试图把两者同时保住。
这篇工作要回答的是:LLM 能不能学到独立因果机制,而不是只记住表面相关性。过去大家常用 benchmark 分数证明模型‘会推理’,但很多任务允许靠统计捷径过关;真正更难的问题是,当环境组合变化、机制重组时,模型是否还能保持泛化,这正是独立因果机制假说关心的点。
这篇工作关注偏好评测中的一个实际问题:当两个候选回答非常相近时,评委模型的比较结果会变得不稳定,导致 preference evaluation 噪声很大。过去常见做法是假设任意两段输出都能可靠比较,但现实里很多 pair 的差异小到接近随机,因此作者提出要先考虑 generation separability,再谈偏好判断的可信度。
这篇论文要解决的问题是:能不能不让模型真正生成答案,只靠前向打分就估计它是否“知道”某个事实。传统做法通常把“是否知道”近似成“能不能在生成时说出来”,但生成会混入解码策略、表述习惯和长度偏置,导致知识表征与输出行为缠在一起;作者想把这两件事拆开,直接测模型内部对候选知识的偏好。
这篇论文要解决的问题是:模型编辑虽然能快速修正特定事实,但经常伤害模型的一般能力,尤其是邻域知识和原有语言能力。过去不少编辑工作把重点放在 edit success 和 locality 上,却较少系统处理“改对一个点,别处别坏掉”这个更难的稳定性问题。
这篇论文要解决的问题是:在视觉-语言表示学习里,Transformer 并不是唯一选择,RWKV 这类线性时间架构能否在保持鲁棒性的同时获得有竞争力的跨模态表示。过去 VLM 表征学习几乎默认建立在自注意力之上,但长序列成本和鲁棒性问题一直存在,尤其在大规模检索或高分辨率设置下更明显。
这篇论文要解决的问题是:从反馈学习时,理解反馈和据此生成改进输出通常被拆成两个弱耦合步骤,导致学习信号利用不足。以往做法常把反馈当作额外监督文本或偏好标签,但模型未必真正学会‘读懂反馈并把它转成可执行修改’。
这篇论文要解决的问题是:KV cache 压缩时只看 attention score 来判断 token 重要性是不够的,因为 value 向量本身携带的信息量也会决定删掉 token 的损失。很多现有方法默认‘被 attend 得多就重要’,但这只反映 query-key 匹配强弱,不反映该 token 一旦参与聚合后到底贡献了多少有效内容。
这篇论文的核心结论是:ROME 和 MEMIT 并不是两套本质不同的模型编辑算法,而是在同一个 preservation-memorization 目标下采用了不同约束形式。过去社区通常把两者视为单点编辑与批量编辑的两条路线,但作者指出它们优化的是同一类问题,差异主要来自等式约束与最小二乘约束的选择。
这篇工作解决的是:奖励模型训练过度依赖人工偏好标注,成本高且扩展性差,而大量未标注比较数据没有被有效利用。过去常见做法要么只做全监督 RM,要么把半监督信号用得很浅,导致对齐流水线的瓶颈长期卡在标签获取上。
这篇工作解决的是:LLM 持续学习里常见的数据回放虽然有效,但仍需要较多旧任务样本来抑制遗忘,因为现有方法没有充分利用模型内部已经保存的旧知识。作者的切入点是注意力权重:如果某些注意力模式承载了关键旧知识,只靠少量 replay token 未必能把它们保住。
这篇工作解决的是:边缘设备部署 LLM 时,激活稀疏化能省算力和内存,但现有基于阈值的做法只看激活统计,不显式建模稀疏化对性能的影响,所以常常在精度和速度之间取不到好点。过去的方法更像启发式裁剪,缺少“裁掉哪个通道最不伤性能”的目标化设计。
这篇工作解决的是量化友好微调与 LoRA 适配之间的冲突,尤其是权重-激活联合量化时由离群值带来的误差放大。传统 PTQ/QAT 常能通过旋转或重参数化减弱 outlier,但一旦再加 LoRA 微调,分布会重新变坏,导致低比特量化精度掉得很快。
这篇工作关注语言模型不确定性的评估方式,核心是用 rank-calibration 而不是只看概率校准。传统校准常假设模型给出的概率本身可直接解释,但在开放词表生成里,概率质量分散、候选集巨大,单纯比较置信度与准确率往往不能真实反映生成分布是否可靠。
这篇工作解决的是 speculative decoding 或 assistant-based acceleration 里的一个实际瓶颈:不同输入最适合的 assistant 模型并不一样,固定选一个小模型做代理会导致有些样本加速明显,有些样本反而因拒绝率高而收益很差。问题不在于有没有 assistant,而在于如何按上下文动态选对 assistant。
这篇工作关注常识知识编辑,但编辑信号来自 free-text,而不是结构化三元组或标准问答对。现有知识编辑方法常依赖格式化 supervision,因此在真实场景下很受限;用户通常给的是自然语言说明、纠错或补充,模型需要从这类非结构化文本中抽取并写入新知识。
这篇工作关注的核心问题是:多模态大模型里是否存在可定位、可解释的“领域特异神经元”,以及如何在神经元级别识别它们。以往多模态解释通常停在 attention map、样例归因或概念级分析,难以回答模型到底把某类领域知识存在哪些内部单元里。
这篇工作要解决的是:如何让语言模型生成内容时对齐到由专家明确定义的标准,而不是只靠通用偏好数据或模糊的人类反馈。很多对齐方法学到的是‘大众觉得像好回答’,但在教育、专业写作、政策文本等场景,真正重要的是是否满足可审计、可复用的明确规范。
这篇工作的核心问题是:语言模型能否仅通过上下文,在专业场景里快速学会新的术语词表及其用法。通用 benchmark 往往默认词汇已在预训练里出现,但真实专业任务常常恰恰难在新术语、新缩写和领域特定义项,这类能力以前缺少专门、干净的评测集。
这篇工作要解决的是:给 tool-using LLM 造合成数据时,真正决定效果的是数据量,还是数据质量。很多工具调用训练都依赖大量 synthetic traces,但业界常见做法是先堆规模,较少系统分析这些样本是否真的教会了模型正确的 API 选择、参数填充和错误恢复。
这篇工作的核心问题是:自回归解码时,除了常见的 attention/KV-cache 优化,前馈网络(FFN)能不能按 token 自适应跳过,从而进一步降延迟。现有推理加速大多盯着 attention,因为它和上下文长度强相关;但在很多实际设置里,FFN 仍占据大量计算,却较少被动态利用。
这篇工作的核心问题是:大模型遗忘(unlearning)为什么往往效果差、代价高,以及二阶优化能否更有效地移除指定知识或数据影响。现有 unlearning 方法常用一阶近似、再训练或简单对抗更新,问题是更新方向粗糙,既可能遗忘不彻底,也容易破坏无关能力。
跨语言开放域问答(ODQA)缺乏大规模标注数据,尤其是非英语语言的监督信号极度稀缺,以往工作要么依赖机器翻译、要么只在英语上预训练再零样本迁移,效果有限。
句子嵌入模型的质量长期受限于编码器规模和训练方法,LLM 时代如何利用大语言模型的表示能力来提升句子嵌入,是一个尚未充分探索的问题。以往句子嵌入主要基于 BERT 级别模型,规模受限。
LLM 在推理任务上的表现可能被 token 偏置(token bias)所夸大——模型并非真正在做逻辑推理,而是利用了选项标签、位置等表面线索。这个问题以前被部分注意到但缺乏系统性验证。
指令微调(instruction finetuning)的数据选择问题:从大规模指令数据中选出最有价值的子集(coreset),以降低训练成本同时保持甚至提升模型质量。以往的 coreset 选择方法多基于启发式或简单的多样性指标,缺乏理论指导。
LLM 对齐(alignment)中,如何高效地从偏好数据中蒸馏出更好的对齐信号?现有的对比蒸馏方法(如 DPO)在数据利用效率和训练稳定性上仍有改进空间。
这篇工作要解决的是:怎样把语言模型参数梯度解释成“词表层面”的可读信号。以往分析训练动态时,大家通常看参数梯度范数、层间分布或 loss 变化,但这些量很难直接回答“模型此时到底在把哪些词推高、把哪些词压低”。作者试图把反向传播重新投影回 vocabulary space,让梯度分析从参数空间转到 token 语义空间。
这篇工作要解决的是:多语大模型虽然有较强翻译和跨语对齐能力,但非英语 zero-shot 推理仍明显弱于英语,能否利用模型内部的跨语对齐机制来缩小这个差距。传统改进路径通常靠更多多语数据或指令微调,但作者认为模型已经学到了一部分语言对齐,只是推理时没有被有效利用。
这篇工作要解决的是:生成式语言模型的知识蒸馏为什么一直不够好,尤其学生模型往往学不到“对自己可学”的教师知识。过去在分类模型里,student-friendly knowledge distillation 已经证明有用,但在生成式 LM 上很少有人系统做,因为直接改教师模型成本高,而且 token 级生成分布比分类 logits 更难蒸馏。作者想把这条路线带到 generative LM 上。
这篇工作要解决的是:现有语言模型对用户输入中的歧义处理不够显式,常常在本该澄清时直接假设一种解释继续回答。过去的对齐训练大多强调 helpfulness 和 harmlessness,但很少把“识别并处理 ambiguity”单独作为训练目标,因此模型面对省略、指代不清或背景依赖强的输入时,容易输出看似流畅但前提错误的回答。
这篇工作要解决的是:材料科学领域的 continued pretraining 不能只靠堆领域语料,因为材料文本的术语结构和知识组织方式与一般科学文本差异很大。过去做领域适配时,常见做法是直接拿 domain corpus 继续训,但这会把训练信号平均化,模型不一定按由浅入深的方式吸收材料概念,导致适配效率不高。
这篇工作要解决的是:Q-Former 已经是连接视觉编码器和 LLM 的常用对齐模块,但它到底需要怎样训练、哪些部分值得训练、能否用更低成本完成视觉—语言对齐,现有研究并不充分。很多工作直接全量微调,代价高,也不清楚模块内部哪些参数真正决定视觉推理效果。
这篇论文解决的是:在固定内存、尤其是移动端这类受限环境里,预训练 LLM 如何处理远超 KV cache 容量的超长上下文。现有办法通常要么直接截断、要么依赖长上下文再训练、要么用粗糙的缓存淘汰策略,因此不是效果差,就是部署成本高。
这篇论文关注的核心问题是:如何训练一个专门用于评估其他语言模型的开源 judge model,并让它在稳定性、可解释性和与人类偏好的一致性上比通用聊天模型更可靠。过去很多评测依赖 GPT-4 这类闭源裁判,复现性和成本都受限,而通用开源模型又往往缺乏专门的评估能力。
这篇论文要解决的是:指令微调数据往往短、模板化、信息密度低,导致模型对长输出、复杂约束和多段组织的学习不足。常规 instruction tuning 多从输入生成答案,但很少反过来利用现成长回答去构造更高质量的指令。
这篇论文的核心结论是:在长上下文开放域问答里,LLM 的‘答对’和‘找对证据’是两种可明显脱钩的能力,单看答案正确率会高估模型真正的 grounded understanding。过去 ODQA 评测通常只判最终答案,这默认模型会基于正确证据作答,但在长上下文里这个假设并不成立。
这篇论文要解决的是:用 LLM 合成训练数据时,常见采样方法在多样性、指令遵循和偏差控制之间很难兼得,生成的数据往往又像、又窄、还会把生成器的偏见直接传给学生模型。已有改进方法虽然能做解码时引导,但复杂度常常过高,不适合大规模造数。
这篇工作关注的核心问题是:给大视觉语言模型挑训练数据时,单看图文相似度或任务标签相近度不够,因为模型真正迁移的是“概念”和“技能”,而不是表面分布相似。过去的数据选择方法常把样本价值看成静态相关性,结果容易保留看起来像、但对目标能力提升不大的数据。
这篇工作要解决的是:面对知识密集任务,到底应该用 RAG 还是长上下文 LLM,没有统一、细致且公平的比较,导致很多系统设计靠经验拍脑袋。过去两派常各举成功案例,但缺少对成本、准确率、上下文噪声容忍度和知识时效性的系统拆解。
这篇工作解决的是:大视觉语言模型的对齐训练缺少大规模、高质量、可直接用于偏好学习的 AI feedback 数据。过去 LVLM alignment 多依赖人工标注或从文本偏好数据迁移,但视觉场景下错误类型更复杂,单纯复用文本反馈很难覆盖感知错误、细节遗漏和多模态幻觉。
这篇工作要解决的是:视觉文本生成任务里,通用 backbone 往往在文字细节、字形结构和不同粒度输入之间兼顾得不好,导致生成结果要么语义对了但字形差,要么能画出字但整体布局和语义不稳。过去方法通常在字符级、词级或图像级输入里固定一种粒度,训练时也很少显式利用 glyph 信息。
这篇工作要解决的是:跨语言迁移为什么常常在训练后期才慢慢形成,导致低资源语言对齐慢、迁移弱,而且很依赖语料规模和语言相似度。作者的判断是,多语言对齐如果不能尽早建立,后续继续堆训练往往只会强化语言内建模,而不是把不同语言拉到共享表示空间里。
这篇工作关注社交媒体数据选择中的去重问题,但切入点不是传统近重复检测,而是“生成式去重”。社交媒体文本改写多、噪声大、模板化强,单靠 n-gram 或 embedding 相似度往往只能抓字面重复,难以识别语义近重复,从而让训练集有效信息密度偏低。
这篇工作要解决的是:毒性缓解通常在英语上做得较多,但跨语言泛化很差,导致对齐后的安全能力高度依赖目标语言数据。作者关注的是,基于 preference tuning 的毒性抑制是否能学到更语言无关的行为边界,而不是只记住英语表面模式。
外部融合架构的多模态LLM中,不同类型连接器对不同粒度任务的效果影响缺乏系统对比结论,此前选型多依赖经验判断。
不同越狱攻击的成功机制缺乏统一解释,无法量化攻击的有效性边界,也难以设计通用的防御方案。
用LLM替代人类做RLHF反馈源时,LLM的幻觉会导致奖励信号噪声大,训练出的策略效果差,此前没有有效利用噪声LLM反馈的方法。
现有LLM生成序列的置信度得分使用平均token似然,混淆了语义正确性和句法流畅性,会给句法不流畅但语义正确的答案打低分,无法准确反映生成内容的质量。
这篇工作要解决的是:如何让图像和视频共享一套真正统一的视觉表征,而不是像常见做法那样为视频单独加时序模块或单独训练视频分支。过去多模态模型往往把 image understanding 和 video understanding 分开处理,短期内能提分,但代价是表示空间割裂、训练和扩展成本更高;作者认为如果先把两种视觉输入在编码空间对齐,再接入 LLM,统一建模会更自然也更省。
这篇工作要回答的是:LLM 内部是否存在一个相对普适、线性的 truthfulness 方向或超平面,可以把真实和虚假陈述在表征空间里稳定分开。过去关于 truthfulness 的改进大多依赖数据对齐、拒答策略或外部验证;如果内部真有这种几何结构,那说明模型可能已经‘知道’更多真假信息,只是默认生成机制没有稳定调用出来。
这篇工作要解决的是:现有 long-context 评测大多偏向检索、定位或选择题,不能充分测模型在超长输入下的真实生成能力。很多模型在“找到针”类任务上表现不错,但一到需要综合、压缩、重写或跨段推理的生成任务就暴露问题;作者因此提出 LongGenBench,专门测 long-context generation,而不是只测 long-context reading。
这篇工作要解决的是:仅靠静态监督数据,LLM 的推理能力提升有限,尤其难学到多步决策中的过程控制。过去常见做法是用 CoT 标注、拒绝采样、过程奖励模型等离线方法增强 reasoning,但这些方法的经验往往是碎片化的、一次性的,模型很难在持续交互中积累可复用的推理策略。
这篇工作要解决的是:做领域专用 LLM 时,问题不只是 catastrophic forgetting,还包括如何把通用能力和领域能力真正整合起来。很多 domain-specific LLM 要么在继续预训练后丢掉通用能力,要么为了保通用能力而领域收益有限;作者的立场从题目就很明确——遗忘只是表象,更难的是能力整合。
这篇工作要解决的是:长文本质量一直缺少系统性测量标准,导致长文数据构建、过滤和模型评估都较为粗糙。过去大家常用困惑度、人工抽检或短文本代理指标来判断长文质量,但这些方法很难覆盖长文特有的问题,比如结构松散、信息重复、主题漂移、事实前后不一致等。
这篇工作要解决的是:怎样在不依赖昂贵人工标注或强外部监督的情况下,让模型通过 in-context learning 更稳定地学会对齐行为。以往对齐更多依赖 SFT、RLHF 或直接给定强演示,但这类方法把“会做题”和“会按人类偏好做题”混在一起,且对上下文示例的依赖通常是静态的,没有显式考虑从强提示过渡到弱提示的训练过程。
这篇工作要解决的是:如何把 LLM 做到极低比特的 PTQ(post-training quantization),同时尽量守住质量。传统低比特量化在 4-bit 以下通常会迅速失真,原因不是只有权重幅值误差,更在于高维权重空间里的方向信息和异常值难以被标量量化保留。
这篇工作要解决的是:LLM 的多语言能力在内部激活层面到底如何组织,以及这种结构能否被利用。过去多语言研究多看行为指标,如 cross-lingual transfer 或 benchmark 分数,但这只能看到结果,看不到模型是在共享抽象语义空间,还是为不同语言维护彼此分离的子回路。
这篇工作要解决的是长上下文模型的 memorization 评估不可靠:现有方法常只看能否复述长文本片段,却难以区分真实记忆能力、位置偏置和检索式近似。长上下文模型越来越多,但我们缺少一个能稳定刻画“记住了多少、随距离如何衰减”的评测方法。
这篇论文要回答一个非常实际但常被简化的问题:量化对多语言 LLM 的影响并不均匀,哪些语言掉得更多、为什么掉。过去很多量化工作默认英文结果能代表整体,但多语言模型的词表分布、脚本差异和低资源语言表示更脆弱,这个假设并不成立。
这篇论文讨论多语言 LLM 的 language confusion:模型该用一种语言回答时,却混入另一种语言,或在语言切换、翻译和多语对话中出现不受控漂移。这个问题以前常被归到指令跟随失败,但对多语模型来说,它更像是预训练分布、词表共享和对齐信号混杂后的结构性副作用。
这篇论文要解决的是语言模型内部知识冲突难以追踪的问题:模型对同一事实上下文切换后会给出相互矛盾的答案,但我们通常只能看到最终输出,看不到冲突在内部哪里形成、何时被激活。作者试图把这种动态冲突显式化,而不是只把它记作 hallucination 或不稳定性。
这篇论文要解决的是中小语种 instruction-tuned LLM 的一个现实问题:高质量本地指令数据稀缺,直接照搬英文对齐 recipe 往往不够。作者以罗马尼亚语为例,探索是否可以主要依赖英文指令,再结合本地语料和训练策略,做出足够强的本地模型。
这篇工作要解决的是:如何为 in-context learning 选择少量但覆盖性强的标注样本,而不是继续依赖随机采样、相似度检索或人工挑例。现有 ICL 示例选择方法通常只优化局部相似性,容易把示例集中在一个狭窄区域,导致上下文看起来相关但覆盖不足,尤其在标签不平衡、数据簇分散或推理模式多样时效果不稳。
这篇工作要解决的是:让 LLM 学会提出真正有信息增益的问题,而不是提出表面自然但对消除不确定性帮助不大的问题。过去问句生成常用监督微调或偏好优化学“像人类会问什么”,但没有显式建模“问完之后能带来多少信息”,因此容易得到礼貌、流畅、却不够有辨别力的问题。
这篇工作要解决的是:如何用更低成本、更持续的方式做 LLM red teaming,而不是一次性人工写攻击样本。传统红队流程依赖人工专家设计 prompt,覆盖面有限、迭代慢,而且很难随着模型更新同步扩展,因此很难发现长尾风险和上下文诱导型失效。
这篇工作要研究的是:LLM 在生成前是否存在 look-ahead planning,以及这种机制能否被 mechanistic interpretability 方法识别出来。过去很多关于“模型会规划”的说法停留在行为层,看到输出像计划不等于内部真的先模拟了未来状态,因此需要更细粒度的机制证据。
现有评估LLM生成文本新颖性的方法仅支持短n-gram(n≤4)统计,无法衡量长n-gram的抄袭情况,也无法在超大规模训练语料上做快速检索。
现有自推测解码方法需要微调或者黑盒优化得到固定草稿模型,无法适配不同输入上下文,部署灵活性差。
这篇工作要解决的是:如何在不重新全量训练模型的前提下,把新技能高效加到已有 LLM 上。传统做法要么继续微调整个模型,算力和存储代价高;要么做 LoRA/adapter,部署时会引入额外组件和组合复杂度。论文从标题看主张用 model merging 来学技能,目标是把“训练多个专长模型”和“部署一个统一模型”连接起来。
这篇论文要研究的是:多语言学习在 LLM 内部是否真的是共享的、竞争的,还是并行分工的。过去大家常从外部指标讨论 multilingual transfer,但对模型内部表示和参数更新如何承载不同语言的学习机制了解并不充分。标题里的 'parallel multilingual learning' 表明作者想揭示语言之间在模型内部可能并行形成、部分解耦的结构。
这篇论文关注一个越来越实际的问题:当基础模型本身已经是低精度和稀疏化形态时,如何继续低成本做适配。常规 PEFT 多数默认 dense、较高精度权重;但工业部署越来越依赖低比特和稀疏模型,这使得“训练方便的方法”和“部署高效的模型形态”之间出现接口断裂。SQFT 试图弥合这个断层。
这篇论文要解决的是:写作反馈生成通常只评估反馈文本本身,却很少看学生收到反馈后是否真的能据此修订得更好。已有方法容易停留在“像老师的反馈”,但这不等于“能引导有效修改”。标题里的 'Closing the Loop' 指向一个更完整的训练信号——用模型模拟学生修订,把反馈质量和后续改写结果连起来。
这篇论文要回答的核心问题是:Transformer 里被称为“context look-up”的行为,到底主要由注意力完成,还是依赖注意力与 MLP 的联合作用。以往很多解释工作把检索、拷贝和上下文匹配几乎都归因给注意力头,但这种看法往往把后续 MLP 对表示的改写忽略掉了,因此会高估单个注意力头的功能边界。
这篇论文的核心问题是:能不能把“模型能力”和“对齐行为”更明确地解耦,而不是每次都对整个 LLM 做重型对齐微调。现有主流做法默认把安全性、风格、帮助性等都写回主模型参数里,但这会带来能力遗忘、部署成本高和多对齐目标难共存的问题。
这篇论文指出了一个很具体但常被忽略的问题:很多 subword tokenizer 把前导空格编码进 token,导致我们计算“词概率”时会被 tokenization 细节系统性干扰。过去不少工作直接把某个词对应 token 序列的概率相乘,当成该词的语言模型概率,但如果词首是否带空格会改变 token 切分,这个比较本身就不干净。
这篇论文研究的核心问题是:在 speculative decoding 结合知识蒸馏时,temperature 到底如何影响速度与质量的平衡。实践里大家通常关注 draft model 大小、acceptance rate 和 distillation loss,但温度会直接改变候选分布的尖锐程度,从而影响提议 token 的可接受性,这个变量过去往往没有被系统拆开分析。
这篇论文关注的核心问题是:在 vision-language modeling 里,Transformer 和 structured state space models 到底谁更合适,差异体现在哪。当前多模态模型几乎默认用 Transformer,但 SSM 在长序列效率和状态建模上有潜力,因此值得问一句:在图文联合建模场景里,这种潜力能不能真正转化成性能或效率收益。
这篇论文要解决的核心问题是:语言模型如何给“词”而不是给 token 序列分配严格、可比较的概率。现有做法通常把一个词拆成若干 subword token 后直接相乘,但这个定义会受分词方式和词边界处理影响,在比较词概率、做词级分析或跨 tokenizer 评估时并不稳健。
这篇论文要解决的是:spoken language modeling 往往只靠离散语音单元做下一个单元预测,但没有显式利用音系层面的监督,导致模型对发音结构的利用不充分。过去这类改进通常需要改架构或重训,作者想验证一个更轻量的路线:只做简单微调,加入音素分类信号,能不能稳定提升语音语言建模。
这篇论文要回答的核心问题是:Chain-of-Thought 为什么有时有效、有时无效,真正起作用的是概率偏置、训练记忆,还是推理链里引入了噪声。过去很多工作只看 CoT 是否提升最终准确率,但没有拆开它到底在帮模型调用已有解、复制见过的模板,还是在增加中间步骤时反而放大错误。
这篇论文关注的核心问题是:大语言模型给出的置信表达,是否真的对应它知道多少,也就是是否具备可用的自知之明。现有系统经常能产出流畅答案,却难以稳定地区分“知道但没说清”和“根本不知道”,这直接影响检索增强、工具调用和安全拒答。
这篇论文要解决的是:text+code LLM 的条件推理能力,是否可以通过代码形式的提示被更稳定地激发出来。以往同一个模型在自然语言提示下未必能做对条件分支、多步状态更新这类任务,但代码语境可能给出更清晰的执行结构和更强的先验。
这篇论文解决的是:ICL 中一次性选 demonstrations 往往不够,因为模型对当前样例的需求会随着已给示例而变化,静态检索容易选到冗余或误导的样本。作者想验证迭代式示例选择能否更好地匹配模型在上下文中的真实需求。
这篇论文关注的核心问题是:给 LLM 注入一条新知识后,为什么常会引发一串混乱的连带影响,包括相邻知识被误改、相关推理链失衡,甚至无关问答也受扰动。过去知识编辑工作多关注局部成功率,但对这种 ripple effects 的成因分析不够细。
这篇工作要解决的是同声传译微调范式不合任务结构的问题:传统做法把 simultaneous translation 仍当成普通 prompting 或全序列生成来训,但这会让模型在训练和推理时都承受不必要的因果约束,难以学到边听边译的延迟-质量权衡。这个问题现在值得重做,因为大模型已经具备强翻译能力,瓶颈更多变成如何用合适的训练目标把能力约束到在线场景。
这篇工作解决的是混合数据分布训练时的目标冲突:当训练数据来自多个来源、质量层级或任务分布时,单一模型往往在共享参数里折中,结果是谁都没学好,或者强分布压制弱分布。过去常见做法是调采样比例、做 mixture weighting 或直接分模型,但这些方法要么需要大量调参,要么牺牲参数共享带来的迁移收益。
这篇工作要解决的是 instruction tuning 往往把答案风格对齐了,却没有把推理过程对齐好,导致模型看起来会解释,但 reasoning trace 经常浅、乱或者不自洽。过去常见做法是直接喂 teacher CoT 或人工构造推理数据,但高质量推理标注稀缺,而且 teacher trace 可能把错误模式一并蒸馏进去。
这篇工作关注 instruction tuning 数据内部的结构问题:不同指令数据之间既有共性能力,也有分区特有模式,直接混在一起训会让模型学到平均化行为,既浪费冗余数据,也放大冲突样本的干扰。过去常见做法是统一混训或按任务簇做粗粒度采样,但很少显式建模“哪些能力是所有分区共享的,哪些是局部特有的”。
这篇工作研究一个很实际但经常被误解的问题:为什么用 LLM 生成的响应来微调,常常比直接用人工标注响应效果更好。过去大家常把这归因于“模型更像模型”或“风格更一致”,但如果不拆开分析,就不知道收益来自格式规范、难度控制、噪声过滤,还是 teacher response 在目标分布上更接近 student 的可学习区域。
这篇工作要解决的是:如何用短上下文模型处理长文本,而不把成本直接推到长上下文训练和推理上。现有路线要么扩窗口,代价是训练和 KV cache 成本上升;要么做检索/摘要,代价是丢失跨段依赖,因此“分段但尽量不断链”是实际系统里很有价值的问题。
这篇工作要解决的是:在尽量保留通用能力的前提下,让大模型忘掉不该保留的知识或行为。现有 unlearning 常见问题是遗忘不彻底,或者对通用能力破坏太大,因此需要更稳的“删掉目标行为、保住其余分布”的办法。
这篇工作要解决的是:在 LLM 时代,传统 decoding 经验是否还成立,哪些采样策略真的影响质量、事实性、长度和多样性。过去很多结论来自较小模型或较旧任务,迁移到现代 instruction-tuned LLM 后未必可靠,因此需要一次系统复查。
这篇工作要解决的是:语言智能体的偏好优化不应只看单轮回复,而要直接优化多轮交互轨迹。现有 DPO/偏好学习大多把样本切成单轮响应,忽略前后轮的策略一致性和长期回报,这对 agent 场景是明显错配。
这篇工作要解决的是:用 reconstruction error 最小化来指导 LLM 剪枝到底可靠不可靠。当前很多 pruning 方法默认“重建激活或权重误差越小,最终性能越好”,但在大语言模型里这个代理目标可能并不等价于语言建模损失或指令能力。
这篇工作要解决的是:如何更高效地把“可信”行为蒸馏到大模型里,让模型在可靠性上提升,但不必付出昂贵的人类标注或超大教师推理成本。现有安全/可靠性蒸馏常见问题是数据构建重、覆盖窄,而且教师本身也未必稳定。
这篇工作要解决的是:如何大规模生成高质量、可控且具有组合性的逻辑推理数据集。现有合成推理数据常见问题是语法模板太死、难度扩展性差、上下文与结论脱节,导致模型容易学到表面模式而不是逻辑泛化。
这篇工作解决的是激活量化里最难啃的一块:少数异常激活会把整张量量化范围拉得很大,导致 per-tensor activation quantization 精度掉得明显。以往补救通常是按通道混合精度或识别离群通道单独处理,但这样会增加 kernel 复杂度和部署开销;作者改走另一条路,不去追着离群值修补,而是尽量避免生成会触发离群激活的前缀状态。
这篇工作要回答一个机制层面的关键问题:LLM 处理不同任务时,是否会稳定地调用一组任务特异神经元,而不是仅靠同一套通用表征完成所有任务。过去关于 neuron 的研究更多聚焦语言现象或知识记忆,但“任务”本身更抽象,跨任务边界也更模糊,所以一直缺少可靠判定方法。
这篇工作指出一个很容易被忽略的问题:如果把学生-导师对话数据拿来继续训练 LLM,模型虽然更会“像学生一样思考”或更懂学习者常见误区,但自身事实知识和推理能力可能同步退化。过去教育场景里通常默认更多学生数据会带来更好个性化,作者则发现这里存在明显的训练目标冲突,即所谓 Student Data Paradox。
这篇工作要解决的是复合式 NLP 系统很难端到端优化:像 RAG、多跳 QA 或模块化推理流水线里,每个模块既有 LM 权重,又有 prompt 模板,但中间通常没有标注也没有梯度能顺畅传过去。过去常见做法是只调 prompt 或只调模型参数,两者各修一半问题,导致整体最优经常达不到。
这篇工作要解决的是一个解释性研究中的老问题:很多“干预”方法能改模型输出,但常常改得太多、太散,最后很难说清到底碰到了哪一部分机制。作者提出更严格的问题定义:如果一个解释是真的可操作,它应该能用很少的局部激活缩放,既翻转目标 token 偏好,又尽量不影响其他 token 分布。
这篇论文的核心问题是:长上下文能力能否离线学出来,而不是每次都靠昂贵的在线 RL、蒸馏或超长序列继续训练去硬凿。过去长上下文扩展常被做成位置插值、RoPE scaling 或长样本继续预训练,但这类方法不是泛化不稳,就是训练成本高、数据构造难,导致“会不会读长文本”和“值不值得付代价”之间一直有张力。
这篇论文的核心问题是:对齐后的语言模型里,token 概率高并不总意味着回答质量高,这种 probability-quality trade-off 是怎么来的,以及采样适配器在其中扮演什么角色。过去很多工作默认把更好的 calibrated likelihood 与更好的输出质量绑定起来,但对齐训练、拒答行为和偏好优化会改变分布形状,使最大概率解未必是人更喜欢的解。
这篇论文的核心问题是:如何让模型原生生成复杂结构化对象,并严格满足 schema 约束,而不是先生成自然语言再靠后处理修修补补。传统 LLM 做结构化输出通常依赖 constrained decoding、JSON repair 或任务特定模板,这些方法在 schema 复杂、字段依赖强、嵌套层次深时容易脆弱,因为模型本身并没有真正学会对象级分布。
这篇工作聚焦于让大语言模型在不彻底重训的前提下忘掉指定知识。现有 unlearning 方法往往在“忘得干净”和“通用能力别掉太多”之间失衡,要么代价接近重训,要么只是在表面行为上回避答案,缺少可部署的折中方案。
这篇工作关注一个很实际的问题:怎样测量并预测语言模型的多语言能力,而不是每种语言都逐一跑完整基准。过去多语言评估高度碎片化,覆盖语言有限、成本高,而且很难提前判断一个模型对低资源语言到底会不会工作。
这篇工作要解决的是非洲语言 instruction tuning 数据和能力覆盖不足的问题。现有指令微调资源高度偏向英语和少数高资源语言,导致模型即使具备一定多语预训练能力,也很难在非洲语言上稳定遵循指令、跨任务泛化。
用 LLM 做自动评估(autorater)已成为标准做法,但现有方法要么依赖闭源 API(如 GPT-4-as-judge),要么需要针对每个任务单独训练评估模型,泛化性差。需要一个通用的、开放的基础评估模型。
让模型根据自然语言反馈来修正自身输出(refinement)是提升生成质量的重要手段,但现有方法要么只用粗粒度的对/错信号,要么依赖人工编写反馈。如何让模型有效利用细粒度自然语言反馈来迭代改进,仍是开放问题。
语言模型为 token 序列分配的概率应该满足一些基本的一致性约束(例如一个 span 的概率应等于其所有可能续写的概率之和),但现有模型是否真的满足这些约束缺乏系统检验。这篇工作提出了一个框架来测试 LM span 概率的一致性。
多模态 LLM 在处理长上下文时,KV cache 的显存占用成为推理瓶颈,尤其是图像 token 数量远超文本 token。现有 KV cache 压缩方法主要针对纯文本设计,未考虑多模态场景中视觉 token 的特殊性。
代码 LLM 的指令微调效果高度依赖训练数据质量,但现有代码指令数据集质量参差不齐,缺乏系统的数据质量评估和筛选方法。核心问题是如何构建高质量的代码指令微调数据。
这篇工作要解决的问题是:现有 LLM 能力评测把语言能力和认知能力混在一起,导致我们很难判断模型到底是“会推理”,还是只是“会顺着语言模式答题”。过去很多 benchmark 默认把答对题等同于具备某种认知能力,但题目通常高度依赖语言理解、表述习惯和数据记忆,因此对能力归因并不干净;作者试图把这两部分拆开评估。
这篇工作解决的是稀疏架构 LLM,尤其是 MoE 模型,在微调时经常把所有专家一起拉着改,既浪费参数效率,也容易破坏专家分工。问题的关键在于:既然 MoE 预训练已经形成了某种专家 specialization,后续适配是否应该尽量顺着这个结构,而不是把它抹平。
这篇工作研究的是 LLM 事实性召回时内部神经元到底起什么作用,尤其是知识神经元是否真的对应可定位、可干预的事实记忆单元。过去知识编辑和机制解释常把“某些神经元承载某个事实”当作工作假设,但模型召回知识往往是分布式的,这个假设到底成立到什么程度需要更细的实证。
这篇工作要解决的是标准自回归 LLM 对显式位置的建模不够可控,因此在长度控制、精确复制、copy-paste 这类任务上表现并不稳定。模型虽然隐式使用位置编码,但这种位置信息通常只服务于一般语言建模,不会自然转化成对“第几个 token”“复制哪一段”的显式操作能力。
这篇工作要解决的是多目标微调中的可控性问题:模型往往需要同时满足 helpfulness、harmlessness、style、brevity 等多个目标,但现有做法通常为每个目标权重单独训练一个模型,或者事后靠 prompt 调节,既低效也不稳定。作者想要一个统一框架,让同一个模型在推理时按条件切换目标偏好。
这篇论文聚焦一个很具体但现在很关键的问题:让 verifier 给出的过程级监督,是否真的能稳定提升多步推理,而不是只在少数构造好的 setting 里看起来有效。过去大量工作默认“有 verifier 就能带来更好的 process supervision”,但 verifier 往往只评估最终轨迹的局部合理性,误判、奖励稀疏和分布偏移都会让它学到表面步骤而不是真正的解题过程。
这篇论文解决的是安全对齐里一个经常被低估的问题:训练数据不是越多越好,关键是当前模型最需要什么数据。现有 safety alignment 往往用静态数据池做 SFT 或 preference training,但模型在训练过程中薄弱点会变化,静态配比容易把算力浪费在已学会样本上,真正困难和高风险样本却覆盖不足。
这篇论文解决的是 ICL 里一个跨模态但共通的问题:示例选择经常靠 embedding 相似度或启发式检索,既不稳也不一定和真正的预测不确定性对齐。尤其在语音、文本、视觉这些模态混合时,单一相似度度量更容易失真,因此需要一种能显式处理不确定性的 example selection 方法。
多模态大语言模型(MLLM)在做 DPO 对齐时,标准 DPO 只考虑整体偏好,无法区分语言和视觉两个模态各自的偏好信号,导致对齐效果次优,尤其在幻觉抑制方面。
多语言指令微调时,是否必须用目标语言的指令数据?还是英文指令数据就够了?这个问题之前缺乏系统性实验验证,实践中大家要么全用英文、要么费力收集多语言指令,但没有清晰的指导原则。
LLM 剪枝(pruning)大多是非结构化的(逐权重),虽然压缩率高但难以获得实际加速;结构化剪枝能直接减少计算量,但在 LLM 上效果往往大幅退化。本文要解决的是如何在 LLM 上做高质量的结构化剪枝。
现有 VLM 在对话中倾向于给出简短、被动的回答,缺乏主动参与(engagement)能力——比如主动提问、引导话题、表达好奇心。这限制了 VLM 作为交互伙伴的实用性。
LLM 的知识更新(knowledge editing)在引入时间约束时变得更难:模型需要理解某个事实在特定时间段内有效,而不是简单地替换旧事实。之前的知识编辑方法大多不考虑时间维度,导致更新后的知识在时间推理场景中出错。
多语言 LLM 的不同语言表示之间是否存在同构性(isomorphism)?如果存在,这种对齐是如何形成的,又如何影响跨语言能力?之前的工作多在小模型或静态 embedding 上研究,对 LLM 规模的多语言表示对齐缺乏深入分析。
这篇工作聚焦于把 LLM 的训练数据归因做得更可信,核心是纠正现有方法把“影响大”误判为“有益大”的问题。已有归因方法通常只看某个训练样本对目标样本损失或表示的影响,却很少区分这种影响是帮助拟合还是放大误差,因此在噪声、错标或分布外样本存在时,归因结果容易失真。
这篇工作要解决的是知识编辑评测过于理想化,不能反映真实开放环境中的编辑质量。以往多数工作在封闭模板、少量关系和受控问法上测编辑是否生效,但这会高估方法表现,因为真实使用时模型会遇到开放式提问、改写、干扰知识和多跳语境。
这篇工作针对 LoRA 的一个核心限制:单一低秩子空间表达能力不足,尤其当任务更新方向本身是多模态或分段结构时。传统 LoRA 假设少量 rank 就能覆盖主要适配方向,这在简单任务上常够用,但面对多领域、多风格或复杂指令分布时容易欠拟合。
这篇工作想解决的是:如何在 instruction tuning 中把 dense 模型参数高效地稀疏化成 MoE,而不是从头训练或全量改造。过去 MoE 的优势主要来自预训练阶段,但把一个已经训练好的 dense LLM 低成本转成专家结构并稳定微调,一直是系统和方法上的难点。
这篇工作聚焦于大视觉语言模型的幻觉问题,核心矛盾是:现有 DPO 类偏好优化大多只看文本偏好信号,不能保证回答真正受图像约束。以往方法要么靠监督微调堆更多图文数据,要么用通用偏好对优化回答风格,但这两类方法都容易把“像样的回答”误当成“看图后的正确回答”。
这篇工作要解决的是安全对齐数据贵、慢且覆盖有限的问题,尤其是人工偏好数据很难覆盖长尾风险场景。过去做法依赖人工红队和人工偏好标注,质量高但扩展性差;而纯规则过滤又太粗,常把有用能力一起压掉。
这篇工作要解决的是:在不重训或少重训模型的前提下,如何用偏好信号改进采样阶段的对齐质量。现有做法大多把偏好学习放在参数更新里,例如 RLHF 或 DPO,但这类方法成本高、反馈滞后,而且一旦训练目标写错会把偏差固化进模型;因此,直接在推理时把偏好引入采样,是一个值得重新认真做的问题。
这篇工作要回答的是:Transformer 的层级句法泛化,是否需要显式句法监督,还是语义训练信号本身就能把这种结构学出来。过去很多工作把句法泛化问题孤立成语法任务来研究,但真实语言建模里模型学到的往往是语义、统计和表面模式的混合,因此重新拆分“语义信号”和“句法泛化”的关系是有价值的。
这篇工作要解决的是:多语言 LLM 推理很慢,而现有 speculative decoding 在跨语言场景下不一定稳定,因为不同语言的 token 分布、脚本和长度模式差异很大。单一 drafter 在英文上有效,不代表在多语言上同样高接受率;因此需要更贴合语言特性的推测解码方案。
这篇工作要回答的是:在某些任务上,为什么不更新参数的 in-context learning 反而能比 fine-tuning 给出更深的推理或更稳的泛化。过去社区常把 fine-tuning 当作默认更强的适配方式,但实际中它经常过拟合格式、破坏原有能力或引入 shortcut,因此“只靠上下文示例”何时更优,值得系统分析。
这篇工作要解决的是:LLM 的知识到底可以细化归因到哪些神经元层面,而不是只停留在参数块、attention head 或训练样本层面的粗粒度解释。过去知识定位研究往往停在较大模块,因为 neuron-level attribution 噪声高、可重复性差,但如果能稳定做到这一层,解释和定向编辑都会更精确。
这篇工作聚焦的核心问题是:LLM 的非事实性幻觉不仅是数据缺失问题,还可能对应可定位的生成机制,因此需要同时解释“为什么会编”和“怎么稳妥地减轻”。过去很多方法把 hallucination 当作对齐或检索问题处理,但对内部生成动力学的解释不足,导致缓解方法常常有效但不稳。
这篇工作要解决的是:当前对 ICL(in-context learning)的评测方式可能混淆了真正的上下文学习能力和其他因素,比如模板敏感性、标签偏置、预训练记忆或解码技巧。过去很多论文直接比较 few-shot 分数,但如果评测协议本身不稳,得到的“ICL 强弱”结论就不可靠。
这篇工作要解决的是:视频 VLM 的 in-context learning 往往不稳定,不只是模型不够大,也和训练数据的分布属性不匹配有关。过去很多工作直接堆模型或堆指令数据,但如果数据里缺少能诱发 ICL 的结构,模型即便有容量也未必学会在上下文中快速适配。
这篇工作聚焦 false premise hallucination:当用户问题包含错误前提时,LLM 往往顺着错前提继续编,而不是先识别并拒绝。过去很多 factuality 工作把重点放在知识正确率上,但 false-premise 场景更像是推理和校验失灵,它能暴露模型在对话中的迎合偏置。
这篇工作讨论的核心问题是:为什么 LLM 在 many-shot ICL 下常常不稳定,而某些“focused”模型却更稳。传统观点往往把 many-shot 失败归结为上下文太长或噪声太多,但题目暗示作者认为模型注意力分配或任务聚焦能力才是关键差异。
这篇工作要解决的问题是:如果希望在推理时用 reward 信号干预 LLM 生成,通常要么额外跑 reward model、要么大改模型结构,推理成本和部署复杂度都很高。作者想做的是把 token 预测和 reward 预测尽量合并,而且不破坏原模型行为。
这篇工作解决的是:KV cache compression 在长上下文推理里很热,但大家往往只报省了多少显存或速度提升,却不系统回答“代价是什么、在什么任务上退化、哪些方法更稳”。现阶段方法很多,包括 token eviction、聚类、低秩、量化、重算等,没有统一 benchmark 时很难做真实比较。
这篇工作要解决的问题是:把大模型的 instruction-following 蒸馏到小模型时,若直接混合任务训练,往往会学得慢、忘得快,且难例和易例的顺序会明显影响最终效果。过去常见的指令蒸馏更多关注数据量和 teacher 质量,但对 curriculum 的设计不够系统。
这篇工作聚焦一个很现实但过去缺少专门工具的问题:如何判断代码预训练模型是否未经授权使用了某段代码数据。通用 membership inference(成员推断)主要在自然语言场景验证过,直接搬到代码上往往忽略了代码的强模式性、重复片段和语义等价改写,因此既难用于版权取证,也难区分真正记忆和仅仅学到语法统计。
这篇工作解决的是传统 turn-based LLM 对话范式无法支持实时双工交互的问题。标准语音助手通常是‘用户说完一句,系统再完整回复’,这和人类对话中的打断、插话、边听边回应差距很大;问题不是语音识别精度,而是语言模型的时序建模单位过粗。
这篇工作要补的是当前多模态模型在抽象图像和视觉推理上的明显短板。现有 LMM 在自然图像上进步很快,但对图表、地图、流程图、平面布局这类‘视觉上简单、推理上离散’的输入仍然不稳,原因往往不是视觉 backbone 看不见,而是训练数据里缺少这类可组合、带程序结构的 instruction。
这篇工作关注数学推理训练里一个常见但被低估的问题:模型只学最终答案,导致过程质量差、纠错能力弱、泛化也不稳。传统 CoT 或监督微调通常把正确解答当作唯一目标,但推理真正困难的地方是中间状态管理和自我修正,而不是最后那行答案字符。
这篇工作讨论的是一个很值得 pretrain 研究者关心的问题:大语言模型能否在较少显式监督下自发获得多语言能力。传统做法往往依赖大规模平衡多语语料和专门对齐训练,但现实里高资源语言挤占 token 预算、低资源语言标注稀缺,因此‘用更少监督学到更多语言’一直是多语预训练的核心矛盾。
这篇工作试图回答一个比‘模型会不会推理’更具体的问题:语言模型推理的上限是不是受工作记忆约束。很多推理评测把失败归因为缺知识或不会算法,但复杂推理常常先被中间变量维护、状态回溯和多步依赖拖垮,因此把 reasoning limit 拆成 working memory limit 是有价值的研究角度。
这篇论文研究的是模型隐私和数据泄露里的一个尖锐问题:能不能仅凭 LLM 的输出,把原始 prompt 反推出去。以往大家更多讨论训练数据抽取或系统 prompt 泄露,但“从输出反演输入”更接近真实部署风险,因为用户往往只能看到模型回复,未必能访问内部状态或训练集。
这篇论文关注的是 LoRA 微调的一个老问题:单个低秩适配器便宜,但表达能力有限;把 rank 加大又会很快失去参数高效优势。很多任务需要比单一 LoRA 更灵活的适配结构,尤其在大模型上,固定一个低秩子空间往往不够覆盖不同输入模式。
这篇论文要解决的是大语言模型蒸馏里的信息损失问题:只在 token logits 空间蒸馏,学生容易学到表面输出分布;只在 hidden states 空间蒸馏,又未必能把教师的最终决策行为传过去。很多 LLM distillation 方法在这两个空间里二选一,导致学生要么模仿得像、要么表现得像,但很难两者兼得。
这篇论文解决的是 foundation model 剪枝里的一个很硬的工程问题:怎样在不重训练的情况下把模型裁小,同时尽量不掉精度。现有高质量剪枝方法常常依赖 retraining 或 recovery finetuning,这在大模型上成本很高,很多部署场景根本承担不起。
这篇论文要回答的核心问题是:对齐训练为什么能让模型拒答有害请求,而 jailbreak 为什么又能把这种安全行为绕开。过去安全研究大多停留在输入输出层面的经验观察,例如比较不同提示词或不同拒答模板,但很少直接看中间隐状态里安全行为是如何被表示和被破坏的;这使得很多防御方法只能做表层补丁,难以判断到底是在改模型机制还是只是在改输出风格。
这篇论文聚焦一个很实际的问题:做人类对齐时,全量微调成本高,而常见高效微调方法又容易偏离目标分布,导致对齐质量下降。过去 LoRA、adapter 之类方法主要从参数效率出发设计,很少显式约束微调后模型与目标偏好分布的关系;结果是训练便宜了,但安全性、帮助性或风格一致性常常不如全参对齐。
这篇论文针对 preference alignment 里的一个常见但常被低估的问题:模型在对齐更新后会出现 update regression,也就是新偏好学到了,但旧能力、旧偏好或先前安全边界被意外破坏。过去很多偏好优化方法默认把每轮更新看成局部改进,只关注当前偏好数据上的胜率提升,却没有显式约束‘不要把已有正确行为翻过去’,因此回归问题在多轮对齐和持续更新中尤其突出。
这篇论文聚焦提示敏感性:同一个任务只改几个词、顺序或格式,LLM 输出质量就可能大幅波动,而我们对这种波动的来源和结构了解还不够。过去多数工作把 prompt sensitivity 当成经验现象,用 prompt engineering 去绕开,但很少系统评估模型到底对哪些扰动敏感、这种敏感性是能力不足、对齐副作用,还是评测方式放大的结果。
这篇论文解决的是 recurrent prompt 在推理时太贵的问题:有些系统依赖固定的长提示、角色设定、工具协议或任务模板反复附加到每次请求里,效果好但 token 成本和延迟都高。以往常见做法是继续手写短 prompt、做 prompt compression,或把模板硬编码进系统;这些办法要么效果不稳定,要么难泛化,因此作者提出在微调阶段把 recurrent prompt 内化到模型里。
这篇工作要解决的核心问题是:现有图像描述数据合成往往从零写 caption,既浪费图像自带的 alt-text 先验,也把数据质量交给一个训练来源不透明的 captioner,结果是可控性和可追溯性都不够。作者认为很多网页图像本来就带有弱标注文本,真正缺的不是“再生成一遍”,而是把这些 alt-text 与图像内容重新对齐、纠错并补全视觉细节。
这篇工作要解决的是 LLM 自动评测工具链碎片化、可信性不足且推理成本高的问题。现在评测方法、数据集和打分范式增长很快,但很多系统彼此不兼容;同时污染和偏置会削弱结论可信度,而大规模模型推理又让评测本身变成昂贵流程。
这篇工作要解决的是 LLM 终身模型编辑中的持续更新难题。现有单次编辑或批量编辑方法在 lifelong setting 下往往不稳定:要么新知识覆盖旧知识导致灾难性遗忘,要么路由不一致、编辑顺序敏感,导致随着编辑次数增加性能快速退化。
这篇工作要解决的是 LLM 在长尾推理知识上的评测与数据缺口。模型在常见分布上表现不错,但对低频、低置信度 yet factual 的推理型知识往往更脆弱;过去缺少系统办法去构造这类样本,因此“长尾泛化差”经常只是经验判断,没有稳定测试集支持。
这篇工作要解决的是语言模型鲁棒性评测过于分散,尤其缺少对“并发扰动鲁棒性”的系统理解。很多工作只看单一 perturbation,但真实输入往往同时包含多种扰动;模型在一种扰动上更稳,并不代表在多扰动组合下也稳,甚至可能出现对一种鲁棒、对另一种更脆弱的负迁移。
这篇工作要解决的是 LVLM 的因果理解能力缺少细粒度、统一且正式化的评测。过去很多所谓 causality benchmark 只考事件常识或动作后果判断,不足以覆盖人与物体交互中的因果结构,也缺少显式因果图支撑,因此很难判断模型到底是在做因果推理,还是在做相关性匹配。
这篇工作要解决的是数学推理 LLM 几乎都围绕单语言优化,跨语言能力缺少数据和训练策略支撑。现有数学推理工作大多默认英语场景,导致模型一旦切换语言,推理质量和解题稳定性都会明显下降,而这并不是数学能力本身应该有的限制。
现有仅解码器LLM的上下文学习需要把参考信息拼入prompt,自注意力的二次开销导致实时处理长参考上下文效率低,提前缓存未知的上下文难度大,缓存的transformer状态存储成本接近模型参数本身。
现有广泛使用的Self-Consistency解码依赖多数投票,仅保留最高频答案,忽略了少数生成结果中的不一致信息,无法利用这些信息反映模型的不确定性或优化推理结果。
现有LLM生成的不确定性表述往往过度、随机、无信息量,无法支撑人机交互中的决策场景,之前的方法需要额外标注数据或外部校准,成本高泛化性差。
这篇论文关注的是:LLM 的 self-correction 为什么经常无效,以及怎样给它一个真正可执行的纠错条件。以往让模型“再想一遍”常常只是重复原答案,因为模型缺少一个明确的验证目标,无法知道该检查哪一步、用什么标准判错。
这篇论文聚焦 instruction-tuned LLM 的 safety backdoor:模型表面上通过了安全对齐,但在特定触发条件下会恢复有害行为,怎样在不重做整套对齐训练的情况下把这种后门移除。过去常见做法是继续 safety fine-tune 或做输出过滤,但这对隐蔽触发器往往不稳,因为后门可能已经嵌入表示空间,而不只是显式文本模式。
这篇论文解决的不是新的多模态模型算法,而是一个长期缺口:开放环境里缺少端到端、可协作、可替换组件的多模态对话系统构建与基准工具。现有像 GPT-4o、Gemini 这样的系统展示了低延迟音视频对话能力,但研究社区很难系统分析其中 latency、accuracy、cost、privacy 的真实 trade-off,因为缺少统一 pipeline 和可复现实验框架。
这篇论文关心的是:语言模型内部是否已经隐式编码了句法结构,以及能否用 hashing 这样的轻量方法把这种结构稳定地提取出来。过去句法探测通常依赖探针模型、监督树库或较重的分析工具,因此很难区分‘模型真有句法表示’和‘外部探针又学了一遍句法’。
这篇论文解决的是长程社交对话中的奖励稀疏问题:用户通常只在整段对话结束时给一个全局评分,但模型生成是逐轮进行的,没有足够密的学习信号去知道哪一句话真的让对话变好。单靠 session-level reward 做 RLHF,信用分配非常粗糙,容易学到不稳定甚至误导性的策略。
这篇论文的核心问题是:instruction-following 越强,模型越容易被 prompt injection 利用;我们需要一个系统 benchmark 去测模型能否分辨‘该听谁的指令、该忽略谁的指令’。过去很多工作只展示攻击案例,但缺少统一评测框架,因此很难比较不同模型是真正更鲁棒,还是只是对特定模板不敏感。
这篇工作要解决的是:Guardrail 模型缺少一个大规模、系统化、可比较的评测基准。过去很多安全评测只覆盖少量 jailbreak 模板或单一风险类别,导致 guard 模型看起来有效,但一旦换分布、换攻击形式就失效。
这篇工作的核心问题是:CLIP 这类对比式视觉-语言模型具备不错的检索能力,但在细粒度的视觉推理上往往不够强;而文本到图像模型内部学到了更丰富的组合语义和视觉先验,却很少被反向蒸馏到判别式模型里。作者想把生成模型里的知识转移给 CLIP,提升 visio-linguistic reasoning。
这篇工作的结论导向问题很明确:如果你想测 LLM 对英语语法性的判断,直接用英语提问未必是最干净的测法。英语 prompt 会让模型同时调用表面续写习惯、模板偏好和元语言表达能力;作者尝试用另一种语言提问,来隔离其对英语语法现象本身的判断。
这篇工作研究的是:语言模型如何表达和感知 linguistic uncertainty,以及这种不确定性知觉与人类有多一致。很多工作只看 factual uncertainty 或 calibration,但对语言层面的模糊、歧义、犹豫和不完全承诺,模型是否以类似人类的方式处理,证据并不充分。
这篇工作解决的是图像描述中的 open-vocabulary hallucination:模型会生成词表开放、表面流畅、但图中并不存在的实体或属性。相比封闭词表误识别,这个问题更难,因为输出空间几乎无限,传统基于候选词约束或固定类别检测的方法不够用。
这篇工作想测清楚一个经常被混在一起的问题:LLM 到底是在记忆时间相关事实,还是在真正理解事件与年份的关系。过去很多知识评测把 temporal QA 当普通 factual QA 做,结果很难分辨模型是在复述训练语料中的共现,还是具备时间推理能力。
这篇工作研究的是:LLM 作为 soft reasoner 到底能不能稳定处理经典三段论推理。很多模型在自然语言任务上表现不错,但那可能来自统计匹配和语义启发,而不是真正遵守逻辑约束;三段论是一个适合把这两者拆开的最小测试台。
这篇工作要解决的是知识编辑的副作用问题:现有方法改一条知识时,常常需要改动模型参数或中间表示,容易牵连无关事实,导致 locality 和 specificity 不够好。作者尝试把编辑约束到关键实体 token 上,用偏置而不是大范围参数更新去实现更局部的知识修改。
这篇工作要解决的是:大语言模型在多跳查询上失败,并不总是因为缺少知识,而可能是推理链条启动得太晚,导致前面已经走偏。过去很多工作把多跳错误笼统归因于“不会推理”,作者更具体地追问模型到底在哪一步掉链子。
这篇工作要解决的是反馈训练中的一个基础问题:给语言模型什么样的反馈,模型才真正学会,而不是只记住表面纠错模式。以往很多工作把 feedback 当作统一格式的额外监督,但不同反馈在可学性、泛化性和样本效率上差异很大。
这篇工作要解决的是 rationalization 的老问题:模型给出的解释往往只是事后编造,与真实决策依据脱节。作者想让解释不仅可读,而且真正参与并约束预测过程,从而减少“预测对了但解释是假的”这种现象。
这篇工作要解决的是视觉-语言预训练在特定领域上的效率问题:通用 VLP 代价高,而且对 human activities 这类强时空和语义结构的场景,通用数据未必最优。作者试图用 domain-specific learning 提升这一类任务上的预训练效率。
这篇工作要解决的是 NLP 模型在 domain shift 下的鲁棒性评估不够统一、不够可比的问题。过去很多论文报告某个特定迁移设置上的掉点,但不同任务、不同 shift 类型和不同指标混在一起,很难形成稳定判断。
多语言 NMT 模型在微调时,不同语言的表示往往纠缠在一起,导致低资源语言被高资源语言主导、语言间干扰严重。这篇工作探索模型内部是否存在语言特定的子空间,以及如何利用这些子空间改善微调效果。
PEFT 方法(LoRA、Adapter 等)种类繁多,但针对不同任务和模型选择哪种 PEFT 方法、用什么超参数,目前缺乏系统性指导。这篇工作试图通过 meta-learning 的方式自动学习如何高效微调。
LLM 在算法推理(如排序、图遍历等需要精确多步执行的任务)上表现不佳,因为自然语言推理链容易累积错误。这篇工作提出让 LLM 先生成伪代码、再模拟执行伪代码来提升算法推理能力。
这篇论文的核心问题是:contrastive decoding 为什么常常有效、什么时候会失效,以及能否在不训练新模型的前提下做得更好。现有 CD 用大 expert 减去小 amateur 的分布,经验上能改善开放生成,但机理解释一直比较弱,因此也难判断它何时会错杀正确高概率答案。
这篇论文要解决的是:mPLM 遇到预训练没见过的低资源语言时,零样本迁移常常不够,而继续做全参数 MLM 语言适配又太贵,是否存在更便宜的 unseen language adaptation 路径。这个问题以前通常被“再训一下”处理,但对工程来说,全量更新的成本和风险都偏高。
这篇论文大概率关注策略优化中的一个现实问题:标准 policy optimization 往往依赖固定偏好数据或外部奖励,而模型自身在训练过程中已经能生成更好的轨迹,如何把这种自改进信号纳入 fine-tuning。过去做法通常把“数据生成”和“策略更新”分开,导致新策略带来的更优样本不能被及时吸收。
这篇论文的核心结论是:LLM 的置信度问题不只是 calibration 偏不偏,还涉及 grouping loss,因此即便表面校准过,预测分数也可能系统性偏离真实后验概率。过去很多工作把不确定性控制近似成“让置信度和正确率对齐”,这篇论文指出这个视角不够,尤其在答案空间被分组或聚合时会失真。
多模态大模型的多步视觉推理数据稀缺,现有手工标注成本极高,无法支撑大模型的训练需求,之前的数据合成方法无法生成逻辑连贯的多步推理路径。
这篇工作要解决的问题是:如何不靠人工逐条审阅,就判断一个 NLI 测试集到底在测什么、难点来自哪里。现有 NLI 评测通常只看总体准确率,默认测试集是静态且均匀的,但实际很多样本只是词面启发、标注噪声或分布偏移,导致模型分数高低很难解释。
这篇工作研究的是:语言模型内部到底如何表示 binding,也就是代词、变量、角色等元素之间的指代绑定关系。这个问题以前多靠行为测试间接判断,但行为正确不等于内部真的形成了可复用的结构表示,因此需要更直接的表征分析。
这篇工作要解决的是:在平行语音数据很少的条件下,直接做无文本的 speech-to-speech translation。传统语音翻译大多退回到文本中间层,先 ASR 再 MT 再 TTS,这样更稳但会丢失韵律、说话风格和非文字信息;而真正的 textless S2ST 又严重依赖大规模平行数据,所以低资源设定一直很难做。
这篇工作要解决的是:如何系统性发现 evaluator LLM 的盲点,而不是只看它和人工评分的总体相关性。现在很多自动评测结论建立在“平均分相关还不错”上,但 evaluator 往往在特定错误类型、风格偏差或安全场景下失真,单一总分会把这些失败模式掩盖掉。
这篇工作要解决的不是单一技术问题,而是梳理 in-context learning 的研究图景。ICL 已经从“能不能做”转向“为什么会发生、什么时候失效、与参数更新是什么关系”,但相关工作分散在机制解释、prompt 设计、检索、示例选择和 scaling 观察中,缺少一份结构化综述来统一视角。
这篇工作要回答的是:自动评测方法在 instruction-tuned LLM 上到底有多可靠。现在大量工作依赖 LLM-as-a-judge、参考答案相似度或任务指标做模型比较,但指令微调后的输出空间更开放、风格更强、参考答案更不完备,导致自动评测很容易把“像答案”误判成“好答案”。
这篇工作要解决的是:学术界在 domain-specialized language models 上还能做出什么实质贡献。如今大模型训练越来越资源密集,常见看法是学术团队做不了基础模型,只能做下游应用;这篇论文显然在反驳这种悲观判断,试图说明学术界仍然能在特定领域模型上提供独特价值。
这篇工作要解决的是:知识遗忘里最常见的副作用不是“忘不掉”,而是“一刀切地伤到无关能力”。现有做法常用全局梯度上升或粗粒度参数更新去抬高目标样本损失,确实能删知识,但很容易把共享参数里的邻近能力一并破坏,因此作者关注的是更细粒度地把“该忘的梯度”限制在局部。
这篇工作解决的是 benchmark 一个常被低估的统计问题:评估模型时,我们往往默认需要很多样本才能比较两个系统,但在昂贵或低资源评测场景里,这样的成本并不现实。作者关注的是如何只用很少观测就做更精确的模型比较,而不是继续堆更多测试样本。
这篇工作研究的是一个带有诊断意义的异常现象:语言模型在 Path-star 任务上为什么会表现出病理性失败。很多合成推理任务的意义不在于任务本身,而在于它能暴露模型对组合结构、搜索过程或位置编码的特定短板;作者显然试图把这个“神秘失败”拆开看清楚,而不是只报告模型做不好。
这篇工作要解决的是:用 LLM 作为评委估计两个系统的 win rate 时,点估计通常不稳定、偏差也难量化,导致大家把评测结果当成确定事实。过去更常见的是直接取平均偏好分或简单多数投票,但这在样本少、评委噪声大、对局难度不均时都不可靠,因此需要一个能显式建模不确定性的校准方法。
这篇工作关注一个现实问题:想训练小型领域模型时,目标领域常有大量新词和专业术语,但直接扩词表会打破已有模型的 embedding 结构,小模型也很难从头学会这些新 token。传统做法要么坚持原词表、让专业词被切得很碎,要么重新训练 tokenizer 和模型,代价都高,因此作者试图在不完全重训的前提下把新词汇有效接入小模型。
这篇工作要检验一个在 VLM 社区很流行但未必成立的假设:给大视觉语言模型加入 object grounding,是否真的能减少 hallucination。过去很多系统把‘看见框/区域并对齐到文本’视为降低幻觉的自然路径,但实际 hallucination 可能来自语言先验过强、训练分布偏差或解码偏置,而不只是缺少对象级定位,因此这个假设值得被严肃拆解。
这篇论文要解决的问题是:语音离散编码既要压得足够高效,又要保住生成建模需要的内容和细节,这在 speech LM 里一直是瓶颈。现有 codec 往往在码率、重建质量和语言建模友好性之间三难:码率低了丢韵律和音色,码率高了 token 序列太长,训练和推理都变重。
这篇论文要解决的问题是:现有 PEFT 多数只在高层或旁路适配器上做文章,没有充分挖掘底层参数更新的潜力,因而在参数预算很紧时性能上限受限。过去之所以常偏向顶层,是因为底层特征更通用、改动风险更大;但这也意味着很多任务相关变换其实没有被触达。
这篇论文要解决的问题是:查找表量化(lookup table quantization)可以把 LLM 权重压得很低,但推理时矩阵乘法往往变成瓶颈,导致理论压缩没有变成实际速度。过去很多量化方法压的是存储,却没有真正解决算子层面的高效实现,因此 end-to-end latency 改善有限。
这篇工作要解决的问题是:指令微调后的对话式 LLM 在使用整段历史作为上下文时,遇到任务切换会出现可观的性能干扰,而现有评测基本默认“更多历史总是更好”。过去很多工作把对话历史当作稳定增益项,只测试单任务延续或主题相关场景,较少系统研究“上一轮是不同任务”时模型是否会把旧任务模式错误带入当前任务。
这篇论文要回答的是:多语种 LLM 是否真的学到了跨语言的句法共性,而不只是记住高资源语言里的表层统计。作者选取了语言学里讨论很多的 Final-over-Final Condition 作为检验对象,因为它依赖抽象句法结构,不能靠简单 n-gram 或局部词序模式近似替代。
这篇工作解决的是:模型合并能低成本整合多个专家模型,但会把不安全或未对齐的行为一起合并进来,而现有 merging 方法基本忽略了这一点。以前大家更关注能力是否保留、权重空间是否兼容,默认对齐属性能随底座或少量后处理一起保住;这篇论文表明这个假设不成立。
这篇论文要研究的问题是:预训练语言模型在 in-context learning 下给出的“推理”并不一定可信,尤其会出现经典的 A-not-B 错误。这个问题以前常被更强的 few-shot 表现掩盖,因为大家更关注最终答案是否对,而不是模型是否在上下文诱导下形成了稳定、可泛化的推理程序。
这篇论文关注的问题是:如何更好地做大语言模型的过程验证,也就是判断中间推理步骤是否可靠,而不只看最终答案。传统 preference learning 往往把整条推理压成一个结果级偏好信号,这会遗漏步骤级错误,导致 verifier 学到的监督过粗。
这篇论文研究的问题是:除了改模型和改数据,是否可以通过操纵位置编码或位置信息本身来提升 LLM 表现。这个方向以前常被当作长上下文工程细节处理,但如果位置信息直接影响检索、组合和注意力分配,那它就不只是实现问题,而是模型行为控制问题。
这篇工作要解决的是:LLM 对多约束复杂指令的遵循能力不足,而现有提升方法没有弄清什么样的训练数据真正有效。过去不少工作把复杂指令跟普通指令混着做 SFT,或者只看单一约束,结果模型对多个约束同时满足、尤其跨域组合时仍然不稳定。
这篇论文研究的问题是:为什么 LLaVA 这类视觉语言模型即使面对非英语图像内容,也倾向于用英语回复。这个现象不是简单的界面偏好,而是多模态预训练和对齐中的语言偏置问题;如果不搞清来源,VLM 的多语言能力就会长期停留在“能看懂,但默认用英语说”。
这篇工作讨论 LLM 能否把多语言中的分散知识聚合起来,而不是只把跨语种能力理解为翻译或迁移。过去很多方法默认知识主要存放在高资源语言里,其他语言只是访问接口;这篇论文要检验的是,跨语言参数共享是否真的能形成“1+1>2”的知识增益。
这篇工作研究 LLM 能否借助 glass-box features 做自我评估,也就是不用只看最终文本,而利用模型内部可观测信号判断自己答得是否可靠。传统 self-evaluation 多依赖再问一遍模型或外部 verifier,但如果内部表征里已经含有置信与错误模式信息,那么直接读这些信号可能更稳、更便宜。
这篇工作讨论如何用 truncated Laplacian mechanism 构建 private language models,核心是把差分隐私约束下的噪声注入做得更可用。标准 DP 机制往往对大模型训练伤害很大,原因是噪声过重且长尾更新难控制;如果截断处理能在保证隐私边界的同时减小极端噪声影响,就有机会改善隐私-效用折中。
这篇工作研究数学推理中的上下文冗余问题,结论从标题看很明确:更多上下文不一定更好,关键是删掉误导性或低价值上下文。很多 math reasoning 管线喜欢不断追加检索、示例或中间轨迹,但这会抬高注意力负担并引入干扰,最终让模型在关键步骤上分心。
这篇工作解决代码表示预训练里一个长期问题:只看源代码文本会丢掉程序执行语义,而很多关键行为只有跑起来才暴露。以往代码预训练主要依赖 token 序列、AST 或静态结构,能学到语法和部分语义,但对动态值流、分支行为和运行时效果的建模仍然不足。
这篇工作的核心问题是:如何统一评估大模型的 factuality,而不是把事实性拆成零散、不兼容的 benchmark。现有事实性评测常常任务定义不同、参考答案形式不同、自动打分器也不同,导致系统之间很难公平比较,更难定位模型到底是检索失败、知识缺失还是生成时幻觉。
这篇工作的核心问题是:如何把图像与长文本有效对齐,而不是只处理常见的短 caption 场景。传统图文对齐方法多针对单句描述,默认视觉内容和文本在语义上高度局部对应;但长文本包含跨段结构、主题漂移和稀疏视觉关联,直接用短文本式对齐往往会失效。
这篇工作要解决的是:压缩大语言模型时,如何更有针对性地决定各层或各模块的低秩配置,而不是用统一 rank 做粗糙压缩。现有低秩压缩常用固定 rank 或简单启发式,方便但不够精细,容易在不重要的地方浪费参数,在敏感层上又压得过狠。
手语(sign language)与文本之间缺乏有效的对齐表示,现有手语理解模型依赖有限的标注数据,难以泛化。问题的根源是手语是视觉-空间模态,与文本的语义鸿沟比语音更大。
LLM 微调时存在训练不平衡问题——不同样本或任务对参数更新的贡献不均匀,导致部分能力退化或过拟合。以往的解决方案多是调整数据配比或学习率,缺乏参数层面的直接干预。
LLM 的算术推理能力有限,而获取大量高质量算术推理标注数据成本高。问题是:能否通过自训练(self-training)让模型用自己生成的数据来提升算术推理能力?
LLM 在推理和规划任务上的经验复杂度(empirical complexity)尚不清楚——随着问题规模增大,LLM 的性能如何衰减?这个问题以前多从定性角度讨论,缺乏系统性的经验量化。
长上下文语言模型的评估缺乏高质量、高难度的基准。现有长文本基准多是检索式(needle-in-a-haystack),无法测试模型对长文本的深层理解。本文用小说配对比较构造了一个需要真正理解全文的挑战性基准。
这篇工作要解决的是:如果我们真想把语言模型当作人类阅读认知模型,能不能直接用人类心理测量数据去对齐它,而不是事后拿 surprisal 做相关性分析。过去大量工作是在 frozen LM 上检验“语言模型 surprisal 是否解释阅读时长”,但这本质上是被动评估,不保证模型对人类行为的拟合是可优化目标。作者要把这个关系从分析问题改成训练问题。
这篇工作要解决的是:FActScore 在英语长文本事实性评估里已经较常用,但它在多语言条件下是否仍可靠并不清楚。过去大家往往默认把英文评测流水线迁移到其他语言即可,但多语环境里事实抽取、检索知识源和事实判分三个环节都会受语言资源差异影响,因此原方法可能系统失真。
这篇工作要解决的是:开放世界文档理解模型通常规模较小、泛化较弱,而直接让 LLM 生成蒸馏数据又经常不够具体、不够有文档结构信息。现有做法的问题不是 LLM 没知识,而是提示给它的信息太扁平,导致生成的 supervision 难以真正教会小模型处理复杂文档布局和跨模态元素。
这篇工作要解决的是:为什么在大多模态模型上,prefix-tuning 这类看似更弱的 PEFT 方法有时反而比 LoRA、Adapter 这类参数改写方法更稳。过去大家讨论 PEFT 时重点放在参数效率和显存效率,但较少从“是否破坏预训练表示空间”这个角度分析,尤其在 LMM 里,跨模态对齐本来就脆弱,轻微表示扭曲都可能带来能力损失。
这篇论文研究的是:生成式检索在动态语料库上是否真的可用,而不是只在静态 benchmark 上好看。传统 IR 评测默认文档集合固定,但真实系统里文档不断新增和更新,这会直接挑战 generative retrieval 把文档标识或内容压进参数的做法。
这篇论文关注的是:预训练语言模型如何表示 gender identity,以及现有关于性别偏见的探测为何常常把身份类别压得过粗,因而遗漏了更具包容性的性别表达。过去相关分析多围绕二元 gender 或少量标签展开,数据构造和 probing 方案本身就带有排除性。
这篇论文试图回答:LLM 在推理时到底用了哪些知识、这些知识如何组织成多层结构,以及错误是出在知识缺失、检索失败,还是推理组合出了问题。现有 reasoning 分析常只看最终答案或链式思维文本,难以把‘知道’和‘会用’分开。
这篇论文关注的是:残差量化用于生成式检索时会出现所谓 hourglass phenomenon,进而限制可检索容量和性能上界。也就是说,随着量化层级加深,表示能力并没有持续释放,反而在某些瓶颈处被压缩,导致 generative retrieval 的编码上界受限。
现有LLM评估基准主要聚焦单轮任务,忽略了真实场景中多轮对话的能力评估,现有多轮评估数据集规模小、类型少、存在数据泄露风险,无法准确衡量LLM的多轮交互能力。
这篇工作要解决的是:小模型在多步推理上通常不是“不会生成”,而是缺少稳定的过程监督,直接用大模型答案蒸馏往往只学到表面格式,学不到中间决策。过去常见做法是用 chain-of-thought 全量蒸馏或只蒸馏最终答案,但前者噪声大、后者监督稀疏,因此小模型的推理迁移效果一直不稳。
这篇工作要回答的是:语言模型到底有没有稳定地表示句子里的论元角色,比如谁是施事、谁是受事,而不是只靠词序和高频模式猜答案。这个问题过去常被下游 benchmark 间接测试,但间接任务很难分离模型是真的理解角色关系,还是在利用表面统计捷径。
这篇工作解决的是:如何统一检测文本输入是否分布外,以及生成内容是否在幻觉,而不依赖昂贵的外部校验器或任务特定阈值。过去 OOD 检测和 hallucination 检测往往分开做,前者看输入分布,后者看事实一致性,但二者都可以被理解为“当前文本和模型内部语义表征不协调”。
这篇工作要解决的是:RAG 失败时,问题常常不在检索器或生成器单独一侧,而在 query 和外部知识是否真正相关这一层没有被建模清楚。过去很多 RAG 系统默认“检索到了文档就该有帮助”,但实际中存在大量弱相关甚至误导性知识,模型反而会被检索内容带偏。
这篇工作要解决的是:模型编辑在连续批量执行时容易互相干扰,前一次修改会污染后续修改,最终出现遗忘、冲突和泛化失控。过去很多 editing 方法在单条事实上效果不错,但一旦进入真实场景的连续编辑 setting,稳定性明显下降。
这篇工作关注的核心问题是:当训练数据里存在互相冲突的知识时,大语言模型会偏向学哪一种,而作者给出的结论是模型偏好更正式的表达。过去大家更常研究真伪冲突、时间冲突或来源冲突,但很少系统分析语言风格本身会不会影响模型在冲突知识上的记忆选择。
这篇工作要解决的是:如何更系统地搜索指令合成中的“演化空间”,而不是靠少数启发式改写规则反复采样。现有 instruction synthesis 往往把问题当成局部改写或单轮 self-instruct,能生成很多样本,但很难稳定找到既有难度又有可用性的高价值指令。
这篇工作要解决的是:现有 preference optimization 通常把偏好当成二元胜负信号,丢掉了“偏好强弱”这部分信息,因此优化目标过于粗糙。很多真实偏好并不是简单的 chosen/rejected,强偏好和弱偏好被同等处理,会让训练信号利用率偏低。
这篇工作要解决的是:LoRA 用线性低秩更新近似参数变化,训练和部署都便宜,但表达能力受限,尤其在需要较强非线性适配的任务上容易不够用。问题不是 LoRA 不能用,而是它的“低秩+线性”假设太硬,常常用更大 rank 才能补回来。
这篇工作解决的是 instruction tuning 数据构造里的一个老问题:单个模型自举生成回答,容易陷入同质化和局部模式,导致合成 supervision 看起来很多,实际上覆盖面和质量上限都不高。作者试图用多代理协作,让回答构造过程本身更像带讨论和修正的搜索,而不是一次采样。
这篇工作讨论的是:用大语言模型做 NLG 评测已经很常见,但它到底在哪些地方真的更强,哪些地方仍然不可靠。过去自动评测指标多依赖 n-gram 或浅层语义相似度,和人类偏好相关性有限;LLM-based evaluator 改善了这一点,但也带来了偏见、稳定性和可复现性问题。
这篇工作针对的是低秩适配的另一个老问题:LoRA 虽然高效,但在跨任务泛化和表达能力上常常受限,尤其当单次快速学习把所有变化都压进一个小低秩空间时,容易学到脆弱更新。作者想解决的是,如何让低秩适配既更有表现力,又更能泛化到复杂任务。
这篇工作要解决的是:语言模型在生成时经常对错误内容表现出过高自信,导致 factuality 不仅取决于知识是否存在,也取决于 decoding 是否会放大错误。过去很多方法用外部检索、额外 verifier 或后处理过滤来补救,但这些方案成本高、延迟大,而且不一定能利用模型内部已经存在的不确定性信号。
这篇工作要解决的是:在低数据训练和微调场景下,模型常出现参数更新失衡,导致少量数据既学不稳,也容易过拟合或灾难性偏移。过去常见补救是调学习率、加正则、冻结部分层,但这些方法更多是在结果层面修补,没有直接处理不同模块或参数子空间学习强度不均的问题。
这篇工作要解决的是:预训练视觉-语言模型,尤其是 CLIP 类对比学习模型,会产生 object hallucination,也就是在图像中并不存在的物体被错误激活或联想到。过去大家更多关注生成式 VLM 的幻觉,但其实判别式预训练模型的表征偏差同样会把错误往下游传,作者是在追问这个问题在 CLIP 这种基础表征模型里如何出现、以及能否被缓解。
这篇工作要回答的是:LLM 在道德判断或有害内容拒答中的“自我纠正”究竟来自内部稳定机制,还是只是被表层提示形式触发。过去很多工作观察到模型会在二次追问、自我反思或改写提示后表现得更合规,但这类现象常被质疑是 superficial hypothesis——模型只是顺着表面格式走,并没有形成更可靠的内在道德表征。
这篇工作要解决的是:怎样在尽量不重新训练的前提下压缩 LLM,而且比传统逐层剪枝更少伤害模型功能。常见剪枝会直接删层或删通道,优点是简单,问题是破坏了层间功能连续性;而大模型相邻层往往存在冗余,但这种冗余不是参数逐点相似,而更像表示流形上的可对齐冗余。
这篇工作要解决的是:为什么 prompt wording 稍微一变,LM 的泛化就会明显波动,以及能否用受约束的改写来提升鲁棒性。过去 prompt engineering 常靠经验找“有效措辞”,但这种收益往往不可迁移;问题不在于模型不会做任务,而在于提示把模型带进了过窄的局部决策模式。
这篇工作要解决的是 interleaved text-and-image generation 缺少统一、完整、可操作的评测框架。现有多模态生成评测大多只看单一模态质量,或者把图像生成和文本生成分开打分,这会回避真正困难的问题:当文本和图像交错出现时,模型是否保持跨模态一致性、叙事连贯性和布局合理性。
这篇工作要解决的是知识编辑中的传播不确定性:改对一个事实后,相关事实是否会按预期、可控地一起更新。以往知识编辑方法往往只评估局部 edit success,但对事件型知识尤其不足,因为事件包含时间、参与者、地点和因果关系,改一个节点不等于整个事件图会一致更新。
这篇工作要解决的是 jailbreak 防御在解码阶段往往过于粗糙:要么直接拒答,要么靠外部分类器硬拦截,既影响有用性,也容易被绕过。现有很多安全方法把防御放在输入过滤或后训练阶段,但攻击真正生效往往发生在生成过程中的局部 token 决策偏转上。
这篇论文要解决的是多模态检索系统长期割裂的问题:文本、图像、PDF 页面、网页截图往往各自建模,导致跨格式检索需要多套表示空间和复杂对齐。作者的判断是,把“文档截图”作为统一输入载体,可以把文本密集页面、图文混排和视觉布局放到一个共同表示里处理。
这篇论文要解决的是 embedding 模型与生成式 LLM 长期分家的问题:前者擅长检索相似度,后者擅长条件生成和知识表达,但两者通常各自训练、目标不一致。作者希望用 generation-augmented learning 把两类能力放进统一框架,减少只靠对比学习得到的表示缺口。
这篇论文关注代码生成评测中的 dataset leakage:很多 benchmark 看起来在测泛化,实际上测到的是训练记忆或近重复匹配。这个问题过去一直被讨论,但代码领域尤其严重,因为公开仓库高度重复、模板化强,训练集和评测集之间的近邻污染很难仅靠精确去重发现。
这篇论文是一篇综述,核心问题不是提出新方法,而是澄清“神经模型是否具有组合性行为”这个被反复讨论但定义分裂的问题。过去相关工作把 systematic generalization、symbolic structure、rule recombination、OOD 组合测试混在一起讨论,导致不同论文在谈不同东西,结论也很难对齐。
这篇工作要回答的是:LLM 在传递性推理任务上的表现,到底体现了真实的关系推理,还是只是在复现表面模式。这个问题值得重查,因为很多“推理能力”结论建立在模板化 benchmark 上,模型可能靠词序、实体频率或答案格式偏置答对,而不是学会了 if A>B, B>C then A>C 这样的关系闭包。
这篇工作关注的是:LLM 是否真的能理解新概念,尤其是俚语这类快速演化、训练语料中稀缺且高度语境依赖的词项。现有评测常用常识词汇或百科概念,模型即使表现好,也可能只是记住了定义;而 slang 更接近开放世界中的概念增量学习,能更直接测模型的语义更新能力。
这篇工作试图修正经典 surprisal theory 的一个缺口:人类处理难度不只取决于 token 概率,还取决于候选词之间的相似性结构。标准 surprisal 把所有替代词看成彼此独立的概率质量,因此无法区分“低概率但和高概率候选很相近”和“低概率且语义/形式上都很离群”这两种情况。
这篇工作要指出的是:很多 prompt 存在语义接近但行为完全不同的“evil twins”,提示工程的鲁棒性被严重高估。过去 prompt 评估往往默认轻微改写不应改变模型行为,但实际系统里,近义改写、格式变化或局部措辞扰动就可能触发明显输出漂移,这说明模型的指令表征并不稳定。
这篇工作关注的是:LLM 是否真正掌握短语语义,而不是把短语当作词面拼接或高频 n-gram 记忆。像 traffic light 和 light traffic 这类例子说明,短语意义不只取决于词集合,还依赖组合方式和修饰方向;如果模型处理不好,就会在组合语义上出现系统性偏差。
这篇工作要解决的是:如何在微调 LLM 做 detoxification 时,不只是粗暴压低有害输出,而是按可控属性进行更细粒度调节。传统去毒化常见的问题是副作用大:毒性降了,但帮助性、流畅性或任务完成度也一起掉,原因是训练目标把复杂行为压成了单一安全分数。
这篇工作要解决的是:多模态推理中的 step-by-step thinking 往往被限制在文本链路里,视觉证据没有被同样显式地纳入中间推理过程。已有方法常见做法是让模型先看图再输出文字 CoT,但这样视觉信息在中间步骤里容易被压缩丢失,导致推理看起来分步,实际仍是黑盒对齐。
现有LLM评估依赖特定任务的基准,无法独立于任务衡量模型的底层语言能力,尤其是在特定语言学约束下的句子生成能力,无法定位模型在语言学层面的缺陷。
之前的零样本评估显示LLM在语义属性继承任务(预测新概念的语义属性)上表现极差,而现有研究知道上下文示例和指令可大幅提升LLM的任务性能,但不清楚这类实验上下文是否能提升LLM在语义属性推理这类意义敏感任务上的鲁棒性。
这篇工作要解决的是:如何低成本、可扩展地评估大语言模型的 conversational grounding,而不是继续依赖昂贵且难以批量复现的人评。这个问题过去并非不重要,而是长期被评测成本压住了,导致研究通常只看少量模型、少量样例,也很难跟上新模型迭代速度。作者抓住的切口不是再定义 grounding,而是把“能否系统测”这件事先做出来。
这篇工作要解决的是:如何让 LLM 稳定地扮演“特定人”,而不是只生成一种泛化的平均人格。过去很多 persona prompting 只能给出浅层属性标签,能控制语气,却很难逼近个体层面的稳定偏好、经历约束和群体差异,因此不适合拿来做行为研究或社会调查模拟。
这篇工作要解决的是:现有 LLM 安全评测过于看单条样本,难以测出模型对同一语境下“冒犯程度逐步升级”时的敏感性变化。以往很多基准把显性和隐性冒犯拆开测,或者只看一次性拒答率,因此看不到模型是在什么强度阈值开始失守、是否对不同群体采用不一致标准。STOP 试图把“连续强度变化”显式建进数据里,让评测从静态点测变成沿着 offensiveness progression 的曲线测量。
这篇工作聚焦一个现实问题:LLM 的事实知识会过时,但多数 factuality 方法默认知识是静态的。已有方案常用一次性检索或离线 benchmark 来评估真伪,却没有持续判断“这个陈述在当前时间点是否仍然成立”。DyKnow 从标题看试图把时间敏感事实的动态验证做成一个闭环过程。
这篇论文要回答的是:LLM 在几何推理上到底差在哪里,而不仅仅是“分数不高”。过去很多 reasoning 评测集中在线性文字题、算术或符号逻辑,几何常被简化成少量 textbook 风格题目,因此很难分辨模型是缺图形直觉、缺空间关系建模,还是缺多步形式推理。论文标题说明作者在系统揭示 geometric reasoning gap。
这篇工作要解决的是:LLM 生成的安全标注与人工安全标注到底对不对齐,以及不对齐发生在哪些边界案例上。当前很多安全流程都越来越依赖模型辅助标注和数据过滤,但如果模型和人类在风险判断标准上有系统偏差,那么后续训练会把这种偏差固化进对齐数据。
这篇工作要解决的是:梵语 NLP 任务长期碎片化、数据稀缺,通常为每个任务单独建模,难以形成统一能力。对于这类形态复杂、资源低的语言,词级或子词级 tokenizer 往往也不稳,因为分词标准和词形变化本身就很复杂。论文用 ByT5-Sanskrit 提出一个统一模型,说明作者认为字节级建模更适合这个场景。
这篇论文要解决的问题是:语言模型能否仅凭间接证据学到语法知识,而不依赖显式语法标注或直接监督。这个问题之所以重要,是因为当前很多关于“模型懂不懂语法”的讨论,都混杂了训练数据中是否已经显式暴露规则这一因素,导致我们很难判断模型是在归纳结构,还是只是在记共现模式。
这篇论文关注的核心问题是:在对预训练 VLM 做下游适配时,如何保住它原有的多模态能力,从而真正提升 vision-linguistic compositionality,而不是靠任务微调把通用对齐能力磨掉。现有很多 VLM 在针对单一任务或单一数据分布适配后,会出现跨模态理解变窄、组合关系变差的问题,特别是在需要同时理解对象、属性和关系时更明显。
这篇论文要解决的核心问题是:当我们想把新知识注入 LLM 时,应该优先 fine-tuning,还是 retrieval。过去很多讨论把两者当成不同产品路线,但从模型能力角度看,它们是在回答同一个问题:知识究竟该写进参数,还是放在外部存储里按需读取。
这篇论文解决的是复杂推理场景下 few-shot exemplar 选取成本高、效果又不稳定的问题。现有 ICL 往往依赖随机选例、相似度检索或暴力搜索,但对多步推理任务来说,真正有帮助的示例既要相关,又要在推理结构上互补,导致计算与效果都不理想。
这篇论文要解决的是:通用对齐后的 LLM 在信息抽取任务上往往不够稳,输出格式漂移、边界不一致、幻觉补全常见,但传统 IE 模型又缺少生成式模型的泛化和迁移能力。作者想做的是把“大模型对齐”专门拉到 IE 场景里,让模型更像一个可靠抽取器而不只是会聊天。
这篇论文要解决的是:现有 RAG 评测很难同时覆盖长上下文输入和长篇生成输出,尤其缺少对“长答案里关键点是否真的被召回并用上了”的细粒度衡量。很多 benchmark 只看最终答案对不对,容易把检索缺失、生成遗漏和冗长但空洞的回答混在一起。
这篇论文要解决的是:视觉指令微调常依赖整图描述或问答监督,但模型对具体对象、属性和区域的 grounding 不够强,导致回答看起来合理却对不上图。作者试图用 tag-grounded 的方式把视觉内容离散成可检索、可对齐的标签,再通过 retrieval augmentation 强化指令微调。
这篇论文要解决的是:很多语言模型 benchmark 因为题面模板固定、变量表面形式单一,容易被模型记住模式而不是学会规则,导致评测高分但泛化能力被高估。作者提出用动态变量扰动来测试模型是否真的理解变量绑定和结构关系,而不是背下具体词面。
这篇工作要解决的核心问题是:中文长上下文能力一直缺少像英文长文本评测那样系统、可分解、足够难的基准,导致模型宣称支持 32k/128k context,但真实可用性、退化方式和任务边界并不清楚。过去很多评测要么直接翻译英文 benchmark,要么只看检索式 needle-in-a-haystack,覆盖不到中文文本结构、指代、省略和知识组织方式带来的特殊难点。
这篇工作关注 LoRA/低秩训练的一个现实痛点:参数高效微调虽然省显存,但训练速度并不一定快,甚至经常被额外的小矩阵操作、实现细节和优化器开销拖慢。过去社区默认“低秩=更高效”,但这在 wall-clock 维度上并不总成立,所以值得专门研究如何把低秩训练真正做快。
这篇工作解决的是低资源语言跨语言迁移常常卡在提示和指令不自然上:大模型可能懂任务,但不懂目标语言中的表达习惯和任务触发方式,结果 zero-shot transfer 很弱。过去方法常依赖机器翻译、平行语料或少量人工标注来桥接,但这些资源在真正低资源语言上往往不可得或质量不稳。
这篇工作要解决的是 RAG 评测和复现长期碎片化:检索器、生成器、索引、数据集、评测指标和管线实现彼此耦合,导致不同论文的结果很难公平比较。过去很多 RAG 工作既改了 retrieval,又改了 prompting 和 generation setting,最后很难判断性能到底来自哪里。
这篇工作的结论从标题就很明确:当前多模态模型对图表的理解比表面成绩显示得更脆弱,连简单 chart details 都经常读错。过去很多 chart QA 或图文理解基准允许模型靠视觉先验、语言模式或数据集偏差蒙对,因此“会做图表题”不等于真的读懂坐标轴、图例、数值对应关系。
这篇工作要解决的是信息寻求型对话中的 factuality 不足,而且问题不只是知识错,更是对话行为本身会诱导模型不忠实:模型常在不确定时过度肯定、过度补全或编造解释。过去提升 factuality 的方法多靠检索增强或事实校验,但如果对话策略本身不改,模型仍会在证据不足时给出看似流畅但不可靠的回答。
这篇工作讨论一个看似简单但影响很大的问题:采样温度如何影响大模型的问题求解能力。很多评测默认固定 temperature,却很少系统分析不同题型、不同模型和不同采样策略下,temperature 改变的是探索、随机性,还是直接破坏了推理轨迹的稳定性。
这篇工作要解决的是:能不能不用生成式打分,而直接利用 LLM 的表征做更稳定、更便宜的文本评测。传统文本评测要么依赖 n-gram/embedding 指标,和人类偏好常有偏差;要么依赖大模型做 judge,效果强但成本高、方差大、提示词敏感,因此值得重新审视“表示能否直接承载评测信号”。
这篇工作要解决的是:多模态大模型在数学推理上明显弱于纯文本数学模型,尤其在图文混合题里既要看懂图,又要走长链条推理。过去常见做法是只补视觉指令数据或只补文本数学数据,二者割裂,导致模型要么会看不会算,要么会算但读图不稳。
这篇工作要解决的是:当目标函数不可微、也很难用标准监督信号表达时,怎么让 LLM 仍然朝着该目标优化。很多真实目标——例如规则满足、外部程序打分、复杂偏好——无法直接反传,传统做法要么靠 RL,要么靠启发式筛选,样本效率和稳定性都有限。
这篇工作要解决的是:当前大多模态大模型到底有没有真正的空间推理能力,而不是只会利用数据集偏置或物体共现模式。空间关系看起来基础,但过去常被视觉问答总分掩盖,因此需要专门拆出来做细粒度分析。
这篇工作要解决的是:在因果事件抽取里,生成式模型虽然表达灵活,但很容易被表面相关性和触发词偏置带偏,导致跨模板、跨表述和噪声场景下不稳。过去更常见的做法是靠结构化解码、规则约束或更强监督去补,但这类方法通常任务定制重、迁移性差;作者转而问一个更直接的问题:弱奖励信号能不能把通用生成模型推向更鲁棒的因果抽取行为。
这篇工作要解决的是:Transformer 微调的显存瓶颈很大一部分来自每层都要保留所有 token 的激活,而很多 token 对参数更新的边际贡献并不相同。过去常见节省显存的方法是 LoRA、梯度检查点或低精度训练,但它们要么仍保留全序列激活,要么引入额外算力开销;作者尝试从 token 维度做选择,直接减少需要反传的 token 数。
这篇工作解决的是开源 LLM agent 能力泛化差、训练数据碎片化的问题。过去 agent 微调常常依赖少量特定环境轨迹,结果是模型在单任务上学到流程,但很难迁移到新工具、新环境和新交互结构;作者的核心判断是,轨迹数据的规模和覆盖面本身就是主要瓶颈。
这篇工作解决的是教育场景中的一个对齐错位:通用 instruction-tuned LLM 往往直接给答案,而不是像老师那样循序引导学生。过去这类问题常靠 prompt 约束临时修补,但 prompt 很难稳定贯彻教学策略;作者把它明确建模为 pedagogical alignment,并尝试用偏好学习来优化。
这篇工作解决的是对话模型很容易被用户带偏话题,尤其在任务型对话中,一旦出现 distractor turn,模型就会偏离原先角色和目标。过去 instruction tuning 数据更强调推理、拒答或安全,却很少专门覆盖“保持话题相关性”这种生产环境里非常关键但不显眼的能力。
这篇工作要解决的是政治观点对齐中的单一化问题:现有 LLM alignment 往往默认一种“中性”或机构偏好的价值立场,却很少系统讨论如何让模型在不同政治视角下保持一致、可控且不失真。过去这个问题常被回避,因为它既敏感又难评估;但随着模型进入公共讨论场景,单一政治校准带来的偏置已经很难忽略。
这篇工作要解决的是:现有 VLM 大多在第三人称图像或视频上训练,难以支撑第一人称、具身场景下的理解与问答。这个问题过去常被数据缺口掩盖——不是大家不知道 egocentric 重要,而是缺少适合训练和评测的高质量数据与模型配套方案。
这篇工作要解决的是:LLM 用工具时,真正危险的不只是“选错工具”,还包括工具悄悄出错而模型没发现。过去 tool-use 研究常把重点放在 API 选择、调用格式和规划链路上,默认工具返回值可信;但一旦工具 silent failure,模型如果继续把错误结果当真,整个 agent 行为会系统性偏航。
这篇论文研究的核心问题是:强行要求 LLM 用特定格式作答,会不会系统性伤害模型能力,而这种伤害到底来自哪里。这个问题过去常被工程上当成“只要 prompt 写清楚就行”,但实际部署里 JSON、选项题、模板化输出几乎无处不在,如果格式约束本身改变了模型的推断路径,那它就不是一个无害的接口层。
这篇论文的核心问题是:如何把语言模型量化到足够低的比特和足够友好的算子形式,使其真正在手机端跑得动,而不是只在论文表格里省显存。过去很多量化工作主要优化 perplexity 或桌面 GPU 吞吐,但移动端真正卡的是内存带宽、算子支持、激活开销和异构硬件适配,所以“通用量化”往往落不到端上。
这是一篇综述,核心问题不是提出新算法,而是系统梳理 LLM 在数据标注与数据合成中的能力、适用边界和风险。这个方向过去发展很快,但方法名和应用场景非常碎,很多工作把“让模型写点数据”与“可控地产生高质量训练信号”混在一起,缺少统一视角。
这篇论文的核心问题是:多语机器翻译里,不同任务或语言对是否已经在模型内部形成了可利用的神经元模块化结构,以及能否显式利用这种 specialization 提升性能。传统多语 MT 往往靠共享参数吃到迁移红利,但共享过度会造成负迁移,尤其在低资源语言上更明显,所以“哪些参数该共享、哪些该分开”一直是核心矛盾。
这篇论文的核心问题是:低资源语言模型能否通过 model merging 获得实用提升,而不是只能依赖昂贵的继续预训练或稀缺语料微调。这个问题值得研究,因为低资源场景最缺的就是高质量数据和算力,如果 merging 真能把不同模型里的语言能力拼出来,它会是很便宜的能力迁移路径;但过去 merge 方法大多在英语或相近任务上验证,跨语言是否成立并不清楚。
这篇论文的核心问题是:pixel-based language model 到底学到了什么,它在语言和视觉两侧分别具备多强的能力,以及这种直接建模像素序列的路线值不值得继续投入。过去视觉生成大多依赖离散视觉 tokenizer 或 latent 表示,直接把像素当 token 的方法很少,因为序列太长、局部冗余太大、优化困难;但如果它能绕开 tokenizer 信息瓶颈,值得认真 probe。
这篇工作讨论的核心问题是:LoRA 微调时,低秩适配器到底应该插在哪些层、哪些模块,才最划算。以往实践大量依赖经验默认配置,比如全层统一插 attention/MLP,但这种做法既未必最优,也掩盖了不同层对任务迁移的真实贡献。
这篇工作要解决的是:AI 写作辅助系统怎样利用极少量、且是否定性的用户反馈,快速修正生成方向。过去系统更依赖显式偏好数据、多轮重写或大规模监督信号,但真实写作场景里,用户常常只会给一句‘不要这样写’。
这篇工作要回答的核心问题是:长篇 discourse 中的 surprisal 变化,是否真的能被“均匀信息密度”单一理论解释。过去不少工作默认文本会局部调节到相对稳定的信息率,但在长文里,话题推进、篇章结构和读者预期会让 surprisal 呈现更复杂的轮廓。
这篇工作研究的是 anticipatory text generation,也就是模型在解码时提前满足某些未来约束,而不是边生成边被动修补。传统解码通常只优化局部 next-token 概率,遇到格式、关键词或语义目标时容易走到后面才发现无法满足,只能回溯或输出质量下降。
这篇工作要查清楚的是:LLM 在逐步求解 grid puzzle 时,究竟卡在哪一步。现有 reasoning 评测常只看最终答案对不对,但网格谜题这类结构化任务能把错误暴露得更细,区分是状态表示错、约束传播错,还是长链推理中途漂移。
这篇工作研究的是:自然语言解释能否不仅作为可读输出,还真正参与推理。很多系统把 explanation 当作事后说明,但如果解释本身能成为中间表示,就有机会把黑盒预测拆成可检查、可组合的 reasoning 过程。
这篇工作要解决的是 turn-based 界面的根本限制:标准 LLM 对话是你一句我一句,无法像真实对话那样边听边说、实时打断和接话。对语音代理来说,这不是产品细节,而是交互范式问题;如果系统不能全双工,它的响应性和对话自然度就会被架构上限卡住。
LLM 在理解和遵循人类社会规范(social norms)方面表现不稳定,缺乏系统性的评估和改进手段。此前工作多关注毒性/偏见等显式安全问题,对更细粒度的社会规范理解(如礼貌、得体、文化敏感性)研究不足。
我们对语言模型到底能学到什么样的知识和规则缺乏系统理解。现有评估多在自然语言任务上进行,混杂了世界知识和语言能力,难以隔离模型的纯学习能力。需要一个可控的合成环境来精确测量 LM 的学习边界。
LLM 的逻辑推理能力评估缺乏系统性——现有 benchmark 覆盖的逻辑类型有限,且难以区分模型是真正推理还是模式匹配。需要一个更全面、更有诊断性的逻辑推理评估工具。
LLM 幻觉(hallucination)的一个重要来源是模型在生成时使用了自身不确定或错误的知识。现有方法多在生成后检测和修正幻觉,代价高且效果有限。这篇工作尝试在生成前/生成中进行知识验证,从源头减少幻觉。
现有 Video CLIP 模型在处理长视频描述时能力不足——它们主要在短文本-视频对上训练,难以理解和匹配详细的长文本描述。这限制了视频检索和理解在需要细粒度描述匹配场景下的表现。
这篇工作关注的核心问题是:我们通常只看推理准确率,却很少把 token 开销一起纳入评价,导致对 LLM 推理策略的判断偏乐观。随着 test-time scaling 和长 CoT 变得常见,不同方法的真实代价差异迅速放大,因此“同样正确率下谁更省 token”已经是一个必须单独评估的问题。
这篇工作要解决的是长上下文输入太贵,很多 token 对当前回答并不都同等重要,但现有方法往往只能粗暴截断、检索或摘要,容易丢信息。问题的关键不是单纯压缩长度,而是在显著减少上下文成本的同时,尽量保住对答案真正有用的条件信息。
这篇工作要解决的是:现有长上下文评测往往要么过于合成,要么文档数和干扰强度不够,无法真实测出模型在多文档长上下文下的检索、聚合和抗干扰能力。作者希望构建一个更贴近实际的 extended multi-doc QA 基准,逼出长上下文模型真正的失败模式。
这篇工作解决的是多任务场景下 LoRA 适配器彼此割裂、泛化差的问题。传统做法通常是每个任务单独训练一个 LoRA,推理时要么选一个、要么简单平均,但不同任务对参数更新方向的需求并不一致,因此固定组合很难对未见任务或混合需求泛化。
这篇工作解决的是语言模型编辑常见的两难:把目标知识改对并不难,难的是改完之后语言流畅性和全局一致性不要明显变差。很多现有编辑方法过于局部,能改掉一个事实,但会引入生硬表达、上下文不一致或无关知识受损。
这篇论文关注的不是改一个孤立 fact,而是编辑大模型中的概念性知识。已有知识编辑方法大多对“实体-关系-对象”式事实修改有效,但对概念、类别边界、属性归纳这类更分布式的知识效果不稳,因为这类知识不是单点记忆,而是跨多个表述和推理链条共享的表示。
这篇论文处理的是一个非常工程但很实在的问题:模型压缩和数据/状态压缩往往分开做,导致大模型部署时内存瓶颈没有被联合优化。单独做量化、剪枝或 KV/cache 压缩都能省一部分,但如果参数、激活、缓存和传输开销不一起考虑,最终系统内存还是下不来。
这篇论文的核心问题是:self-consistency 不只是提升数学推理正确率,它是否也能改善模型校准。以往工作更多把 self-consistency 当作 test-time voting 技巧,关注 pass@1 或 accuracy,但很少认真看模型给出的置信度是否更可信,这对 verifier、主动学习和风险控制都很关键。
这篇论文要解决的是可解释性里一个长期难点:如何用更结构化、可组合的概念变量来解释 foundation LM,而不是只看 attention 或单神经元激活。传统解释方法常停留在相关性描述,难以回答模型内部到底编码了哪些“语言概念”,这些概念又如何影响输出。
这篇论文针对的是语言模型在复杂规则应用上的典型短板:模型会记住规则描述,但在长链、多变量、需反复覆盖的执行过程中容易丢状态。仅靠隐式上下文记忆时,规则越多、约束越交叉,错误越像是工作记忆失败而不是知识缺失。
这篇论文解决的是多模态大模型做时间外推时的效率和对齐问题。现有 MLLM 处理视频时间理解,常靠更长输入、更密采样或更重的时序模块,但这样算力和显存成本很高,而且模型未必真正学会跨时间定位与外推,只是在吃更多帧。
这篇论文关注的是 code-oriented 多模态数据稀缺:现实世界图像到代码、GUI 到代码、图表到程序这类训练数据难采且质量不稳。过去通常靠人工标注或简单 caption 扩充,但这类方法要么规模上不去,要么描述不够结构化,无法支撑真正有组合性的 world-to-code 学习。
LLM 在面对与其先验知识矛盾的新证据时,能否正确地修正自己的推理结论?即 LLM 的信念修正(belief revision)能力。之前的工作多关注事实知识更新,较少系统研究推理链路中的信念修正。
多语言 LLM 的内部表示能否直接用作语义检索的向量,而不需要额外训练专门的 embedding 模型?之前多语言检索依赖专门训练的 bi-encoder(如 mE5、LaBSE),但这些模型的语言覆盖和泛化能力受限于训练数据。
VLM 幻觉(hallucination)的评估依赖人工构造的 benchmark,成本高且覆盖有限。能否自动生成幻觉测试用例,使评估更全面、更可扩展?
这篇工作要解决的是通用 VLM 对移动端 UI 场景理解不够好,尤其对界面内部元素关系和跨界面操作语义把握不足。现有视觉语言模型多在自然图像和网页/文档数据上训练,对按钮层级、布局约束、可交互区域和多页面流程这种 UI 特有结构学得不够。
这篇工作要解决的是语言 agent 的训练反馈太弱、太在线,导致试错成本高且难以稳定优化。现有 agent 往往依赖在线环境交互或规则反馈,但复杂任务里的成功信号稀疏,模型很难从有限轨迹里学到可靠策略。
这篇工作要解决的是:语言模型的置信度校准在不同样本和不同生成阶段上明显失真,而传统固定温度缩放只会做一个全局修正,无法处理局部过度自信与欠自信并存的问题。过去常见做法是训练后用单一温度做后处理,因为实现简单且不改模型参数,但这种办法默认所有 token 的失配形态相同,这个假设在开放生成里通常不成立。
这篇工作讨论成员推断攻击,核心问题是:现有方法往往依赖绝对似然或置信度分数,但这些分数强烈受样本长度、频率和模型整体校准状态影响,导致成员与非成员难以稳定区分。作者要解决的是如何构造一个更稳健的判别量,让 membership signal 不被表面概率尺度淹没。
这篇工作关注推理能力训练里的一个被低估问题:模型通常把所有问题一视同仁地学,但不同题目难度对应的思维预算和训练信号质量并不一样。过去常见做法是统一 CoT 或统一采样策略,这会让简单题浪费计算、难题又学不到合适的分解路径。
这篇工作指出:压缩 LLM 时只看 perplexity 或下游准确率是不够的,因为压缩会系统性改变安全行为,而这种变化常被传统评测漏掉。过去模型压缩研究更关注保留任务性能和吞吐收益,默认安全性会随能力一起近似保留,这个假设并不可靠。
这篇工作针对数学推理提升中的一个核心瓶颈:模型会生成步骤,但缺少稳定的自检能力,导致错误推理被一路放大。过去常见做法是直接用 CoT 或 self-consistency 增加采样,但如果候选解都共享同一错误模式,多采样并不能真正提升正确率。
这篇工作讨论一个非常实际的问题:LLM 推理错误有相当一部分不是不会,而是第一次读题和生成时丢了约束,导致后续推理建立在错误理解上。过去大家更多在‘多想几次’上下功夫,比如 CoT、self-consistency、tree search,但对‘重新读取题目并对齐当前推理状态’这个动作研究得较少。
这是一篇立场论文,核心问题不是提出单一新算法,而是指出:在 LLM 时代,社区过度关注模型和参数,却系统性低估了数据构建、筛选、标注、治理和反馈闭环的重要性。过去‘数据中心 AI’更多在传统监督学习里讨论,但大模型把数据问题放大到了预训练、对齐和评测全链路,旧经验已经不够用。
这篇工作研究如何检测人类语言和模型语言之间那些‘看起来很像、但统计结构不同’的细微差异。过去常见的人机文本鉴别方法依赖表层特征、分类器或单一似然分数,但高质量 LLM 文本已经能绕过很多浅层检测器,因此需要更细致的分布比较工具。
这篇工作要解决的是:如何让 LLM 在自训练时先识别自己真正“知道”的知识,再用这些高置信知识去扩展能力,而不是盲目拿自生成数据继续训自己。传统 self-training 最大的问题不是数据不够,而是伪标签误差会自我放大;对知识型任务尤其如此,因为模型会把似是而非的事实越学越牢。
这篇工作要解决的是:文本自编码器通常需要给潜变量设先验,但常用的简单先验与真实文本表示分布不匹配,导致重建和生成之间两头都不够好。这个问题过去常被 VAE 里各类正则技巧掩盖,但如果先验本身错得太远,模型不是 posterior collapse,就是生成样本质量差。
这篇工作要解决的是:LLM 在文本里说出的“不确定”到底能不能忠实反映其真实内部置信度,而不是只学会生成一些像“我不确定”的礼貌表达。社区过去更多关注概率校准或 verbalized confidence 的可用性,但“faithfully express”更进一步,问的是语言化后的不确定性是否与模型内部信念一致。
这篇工作要解决的是:LLM 能力不是静态的,benchmark 分数会随着模型版本、时间和评测污染共同变化,因此单次评测无法刻画“能力演化”。过去很多 benchmark 把模型当成固定对象,但对快速迭代的大模型来说,真正难的是持续、可比、抗污染地追踪能力变化。
这篇工作要解决的问题是:LLM 的算术能力到底由哪些具体神经元和子机制承担,而不是停留在行为层面看对错。过去不少工作用 probing、激活可视化或电路级案例分析来讨论 arithmetic,但很难回答“哪些神经元在不同模型里承担了稳定且可比较的功能”,因此可迁移的机制结论较少。
这篇工作解决的是:多模态模型往往把图像-文本、视频-文本等交互压进单一融合模块,导致不同类型的跨模态关系互相干扰,表达能力不够细。过去常见做法是共享一个 cross-attention 或 projector,但这种统一处理对复杂交互并不总够用。
这篇工作关注的核心问题是:LLM 是否真的克服了 shortcut learning,还是只是把 shortcut 从浅层统计模式升级成了更隐蔽的形式。过去很多 benchmark 默认更大模型会更依赖语义而非捷径,但这一假设缺少系统检验。
这篇工作要解决的是 LLM 置信度经常不可信的问题,而且不是简单做后处理校准,而是强调让模型表达更忠实的置信。现有校准方法常把概率映射得更像真实准确率,但如果模型给出的答案和其内部依据并不一致,表面校准可能掩盖而不是修复不可靠性。
这篇工作要解决的是图表理解模型‘做得动’和‘做得起’之间的矛盾。现有 MLLM 在 chart understanding 上效果不错,但通常模型很大、视觉 token 很长、数值计算还要靠模型硬记,因此在资源受限环境下既慢又贵;问题不只是压缩模型,而是把不该让参数记住的能力移交给更合适的机制。
这篇工作关注一个越来越重要的问题:能否在不完整跑完所有实验的情况下,预测 LLM 在任务上的表现。随着模型家族、数据配比和 post-train 配方越来越多,完整评测成本快速上升;过去的性能预测通常依赖单模型历史或简单 scaling 拟合,但很难利用‘多个模型、多个任务、多个评测者之间的协同信息’。
这篇论文要解决的是:中间层蒸馏在压缩 BERT 这类注意力模型时,往往把重点放在层表示对齐上,却低估了教师端分类器本身携带的判别信息。以往很多 ILD 方法一边设计复杂的层映射,一边重新训练学生分类头,等于把教师已经学好的决策边界丢掉了一部分;作者认为这会让蒸馏效率和上限都受损,尤其在小模型上更明显。
这篇论文要回答的是一个很具体但长期被默认乐观的问题:文本预训练语言模型的知识和表征,是否真的能帮助自回归式 text-to-image generation。过去很多工作默认“先有强 LLM,再接图像生成”会自然带来收益,但作者的标题已经给出结论:对自回归图像生成来说,PLM 并不自动提供帮助,至少不是大家常期待的那种帮助。
这篇论文要解决的是多语言检索里的两个现实短板:一是很多 text embedding / reranker 模型对长上下文支持差,二是跨语言泛化常常靠英文迁移,稳定性不够。实际检索场景越来越需要同时处理长文档、多语言和重排,但现有模型往往在这三件事上只能顾两样。
这篇论文关注的是语言模型知识探测中的一个关键盲点:我们常用单一问答或 cloze 任务来测“模型记不记得事实”,但事实记忆和召回其实受多个因素共同影响,单一 benchmark 很难分清模型是没记住、记住了但取不出来,还是只在特定表述下才能取出。作者因此提出 multifaceted benchmarks,目标是把“记忆”和“召回”拆开评估。
这篇论文要解决的是检索阶段的查询表示不够稳健,尤其是在用户问题很短、很模糊或和目标文档表述不一致时,单个 query embedding 往往抓不住真正的检索意图。传统 dense retrieval 通常直接编码原始查询,或者依赖昂贵的重写/生成步骤来扩展查询,但前者语义覆盖窄,后者推理成本高且不稳定,因此作者提出用 hypothetical query embeddings 来给候选上下文打分。
这篇论文要解决的是:在 benchmark 已经被大模型训练数据污染的现实下,如何继续使用这些泄漏基准做相对可信的评测。过去常见做法要么直接宣布某个测试集失效,要么尝试在训练前做数据去重和清洗;但对闭源模型或已训练完成的模型,这两条路都不现实,因此作者提出 inference-time decontamination,在推理时而不是训练时处理污染问题。
这篇论文要解决的是 embedding 模型在长文检索上的能力短板:大多数文本向量模型训练时面向短段落或句子,遇到几千 token 的文档时,不是直接截断,就是平均化后丢失关键信息,导致长上下文检索效果显著下降。这个问题以前常靠 chunking 和 reranking 绕过去,但那会引入额外索引成本、边界切分误差和召回-延迟折中,因此值得单独做长上下文 embedding。
这篇论文要解决的是 CLIP 更偏好 captions 而不是 descriptions 的问题。标准 CLIP 主要用图文配对数据训练,文本侧往往是简短 caption,因此模型更擅长匹配‘图里有什么’的表层描述,而不是更抽象、更组合式、更接近人类语义判断的自然语言描述。这个偏好会限制 CLIP 在细粒度语义检索、概念组合和解释性评估中的表现。