Conference on Empirical Methods in Natural Language Processing
这篇论文要系统回答一个当前很现实的问题:合成数据放进 LLM 预训练里到底什么时候有用、收益怎么随规模变化、又会带来哪些坑。现有讨论对 synthetic pretraining data 的态度很分裂,有人把它当高质量数据缺口的补丁,有人担心会造成 model collapse 或分布退化;作者试图用 scaling law 式系统研究把这个问题讲清楚。
这篇论文要解决的问题是:语言模型的下游表现并不由参数量和训练 token 数单独决定,但现有 scaling law 讨论通常把大量设计变量折叠掉了,导致我们很难判断哪些 pretrain 决策会稳定迁移到真实任务。作者试图把“模型设计选择→下游能力”的链条拆开,而不是继续把差异归因为单一规模因素。
现有多模态大模型多采用外挂 encoder(如 CLIP)加 LLM 的架构,难以实现真正的跨模态原生统一建模。
这篇论文要解决的是:预训练数据混合不能只看质量,也不能只看多样性,二者失衡都会伤害最终模型。以往配比策略常在 corpus 级别做固定权重,容易把高质量数据过采样到分布变窄,或把多样性拉满却引入过多噪声,因此 sample 级别的混合仍是一个悬而未决的问题。
Adam/AdamW 在 LLM 预训练和后训练里是默认优化器,但它维护两个状态(一阶动量 m 和二阶动量 v),显存占用与参数量同量级;Lion 等无 v 的尝试在稳定性上不如 AdamW。作者问:能不能只保留 m,用 m 自身当作 normalizer,去掉 v 这一整块状态?
多语预训练缺高质量开源数据。主流 pipeline(CCNet、启发式规则)跨语言迁移性差、规则一旦改就要重跑;用 LLM 打分质量好但算力不现实。核心问题:怎么在大规模多语数据上既要 LLM 级别的质量判断,又要能跑得起。
子词分词器(如 BPE)将字符打包成不透明的 token,导致 LLM 在处理拼写、字符计数(如经典的“strawberry 有几个 r”)等基础字符级任务时表现极差。
这篇论文要解决的是:过程奖励模型(PRM)对“哪里错、错成什么类型”缺乏细粒度感知,导致奖励信号粗糙,难以稳定引导长链推理。很多现有 PRM 只给步骤好坏二元分或整体偏好,这会把不同错误机制混在一起,使模型学不到针对性的修正方向。
BPE 这种静态子词分词在多语言、代码、罕见词上分布不均,且固定粒度——要么碎成字符浪费算力,要么大 chunk 学不到形态。已有 byte-level / character-level 路线(ByT5、MambaByte、MegaByte、SpaceByte)效率或效果都有代价。
学界对上下文学习(ICL)的本质存在争议:LLM 究竟是在 prompt 中“学习”了新的输入输出映射,还是仅仅通过 prompt 激活了预训练权重中的语义先验?
这篇工作要解决的是:基于 LLM 的机器翻译虽然能通过 SFT 获得不错质量,但在忠实性、术语一致性和难例推理上仍受限,作者尝试把 R1-Zero 类强化学习范式迁移到 MT。过去 MT 上的 RL 多依赖句级奖励或人工设计指标,往往训练不稳、奖励窄、泛化有限。
解决 Masked Diffusion LLMs (MDLM) 在非自回归(NAR)并行解码时,生成质量和连贯性不如传统自回归(AR)模型的问题。
解决多模态大模型(VLM)在数学推理预训练阶段缺乏大规模、高质量图文交错数据的问题。
这篇论文要解决的是:GRPO 是否只能做‘分布锐化’,也就是把高回报 token 序列进一步推高,而难以真正奖励低概率但更优的解。现有 group-based RL 常被批评为偏保守,只会在当前策略附近局部重排,导致探索不足和 mode collapse。
这篇工作的核心问题是:预训练语料的 token 分布是否存在一个比“越接近原始数据越好”更具体的最优形态,而作者给出的答案是 Zipf 分布附近最好。过去数据配比和采样通常凭经验做温度混合、去重和重加权,但很少把最终 token 频率形状本身当成一阶设计变量来系统分析。
这篇工作要解释的是 transformer 训练中的一个核心稳定性问题:为什么某些设置下注意力会突然变得极低熵、极端尖锐,并进一步诱发训练不稳定。以往很多稳定性分析会把 loss spike 归因于学习率、归一化或数值精度,但对 attention entropy collapse 的直接成因往往缺少清晰机制。
探究随着模型规模扩大,前馈神经网络(FFN)是如何利用其高维隐空间的,是否存在可预测的规律。
现在主流 embedding 模型都是基于现成 LLM 做对比微调(BGE、E5、GTE 都是这条路),没人从头训一个 LLM 专门为 embedding 服务——这条路到底行不行、有没有额外增益,是个悬而未决的问题。
标准 Transformer 的全局注意力在处理长上下文时面临二次方计算复杂度,导致长文本语言建模(Long-Context LM)效率低下且难以扩展。
预训练中的数据配比(Data Mixing)通常是静态的或基于简单的启发式规则,忽略了训练动态中不同领域数据之间复杂的正向与负向迁移(Negative Transfer)效应。
这篇论文要解决的是:现有 LLM scaling law 多是正向拟合,描述 loss 如何随参数、数据、算力变化,但难以从目标性能反推最优资源配置。工业上真正常见的问题是 inverse problem:给定 compute 或目标 loss,该怎么反算模型、数据和训练步数,而传统经验公式往往不稳定或只在局部区间有效。
这篇论文要解决的是:Speech LLM 的自回归生成速度太慢,而简单并行化往往会损伤语音自然度和一致性。语音序列比文本长得多,逐 token 解码的时延尤其难接受,所以把文本 LLM 里的 multi-token prediction 思路迁到语音生成很有现实意义。
这篇论文要解决的是:SpeechLLM 做 spoken language understanding 时,输入到底该用离散 speech tokens 还是连续声学特征,没有形成稳定共识。很多工作沿用语音生成体系里的离散 token,因为它方便统一建模;但理解任务未必需要强离散化,连续特征可能保留更多细粒度韵律和说话风格信息。
低资源语言的预训练语料从哪来。原生高质量网页语料对许多语言都不够,作者直接问:能否用机器翻译把英文高质量数据搬到目标语言,用翻译数据做大规模多语言预训练。
这篇论文要解决的是:大规模数据选择是否真的需要复杂筛选器,还是随机选已经接近最优。过去几年很多工作在数据选择上投入大量工程,用质量模型、去重、聚类和课程学习来挑数据,但这些方法的真实增益在大规模下是否还能覆盖其成本,一直缺少足够直接的检验。
推理模型(o1/R1 类 long-CoT)经常在 decoding 里写大段重复或自我绕圈的 '词汤',白白烧 token 预算却不提升答案质量。更有意思的是,模型自己其实知道自己在重复。作者要把这部分浪费切掉。
Chinchilla 等 scaling law 描述的是'训练结束后 final loss 随 N、D 的关系',没刻画训练过程中 loss 如何随 step 演化。实践里我们非常想在训练早期就外推出'这跑到底会收敛到什么 loss'。作者要给出一个描述 loss-vs-step 动态的时间维 scaling law。
这篇工作要解决的是:SFT 到底如何改变模型知识,目前通常只从下游表现看结果,缺少 token 级和参数级的细粒度分析。大家知道 SFT 会带来能力迁移和遗忘,但不知道知识是被覆盖、重加权,还是只是解码偏好被改写。
离散 diffusion 语言模型做文本 infilling 时,通常要求提前指定要填多长。这是一个很强的人为约束——真实 infilling 场景(代码补全、文档改写)里长度本身就是未知的。作者要让 discrete diffusion 支持任意长度的中间段生成。
KV cache 压缩中,token 数量和量化精度之间存在最优权衡点,但此前工作要么只做 token 剪枝、要么只做 KV 量化,缺乏对两者联合优化的系统分析。在固定显存预算下,应该保留更多低精度 token 还是更少高精度 token?
这篇论文要解决的是:标准 softmax 在大词表建模里对概率尾部和梯度形状的处理可能并不理想,进而限制训练效率、校准或泛化。这个问题长期被接受为“输出层固定部件”,多数工作只在采样或 loss 上做文章,而不是直接改 softmax 本身。
从标题判断,这篇论文关注的是:预训练阶段如何通过“主动遗忘”改善跨语言迁移,而不是一味累积所有语言知识。这个问题之所以值得做,是因为多语言预训练常见现象是高资源语言占据容量,导致跨语言迁移和低资源适配受干扰;但当前给定信息没有摘要,无法确认作者具体瞄准的是参数干扰、词表冲突、还是训练顺序问题。
这篇论文要解决的是:语音离散化如果只保留 acoustic token 或 semantic token,都会丢掉一部分对统一语音建模很关键的信息,尤其是上下文表征缺失会显著拉高困惑度并降低生成质量。过去的统一 speech tokenization 工作虽然开始结合声学和语义,但往往默认上下文信息可以由下游 LM 自己补;作者认为这一步不能再省。
这篇论文要解决的是:奖励模型训练时,底座模型的选择经常被当成默认项处理,但它实际上会显著影响 RM 质量和后续 RLHF 效果。过去大家更关注 preference 数据、loss 形式和训练配方,较少系统比较 base model;在底座模型快速增多的阶段,这个决策已经不能靠惯性。
这篇论文要解决的是:LLM 为什么会与人脑语言网络的神经活动相似,这种 brain alignment 在训练过程中到底跟哪类能力一起长。过去很多工作报告过 LLM 与脑信号的相关性,但很少系统拆开‘形式语言能力’和‘功能性语言能力’各自的作用,也缺少沿训练过程的动态视角。
把语音模态加到已经训练好的文本 LLM 上,通常要么代价高(从头训 speech LLM),要么会损伤原有文本能力。作者想验证:能不能把离散化语音当作'一门额外的翻译语言',用很少的语音数据接到多语翻译 LLM 上。
GRPO 之类的 group-relative RL 在提升准确率的同时会让模型 mode collapse,只重复少数高分回答。问题是 reward 只在 per-sample 层面算,group 内部的多样性没有被当成信号。
当前的对齐方法(如 RLHF)和评估基准(如 ChatbotArena)假设“用户偏好的回答”等同于“对用户完成任务有帮助的回答”,但在复杂规划任务中这一假设可能失效。
当前的对齐训练范式会无意中促长模型的“阿谀奉承(Sycophancy)”现象——即使人类提供的信息是事实错误的,模型也会倾向于迎合和赞同。
LLM 能够生成正确的算术步骤,但在被要求验证或自我纠错时却经常失败。这种“生成与验证能力脱节”的底层机制尚不清楚。
多语言 LLM 在不同语言间的表示空间存在错位,导致跨语言迁移能力弱、低资源语言表现差。
这篇工作要解决的是:语言 VAE 一直被自回归解码器的 posterior collapse(潜变量被忽略)和缺少可解释潜空间探针这两个问题卡住,导致它长期被当成“做得出来但不好用”的语言建模分支。作者试图同时把“能训练起来”和“能分析 latent 学到了什么”这两件事补齐,因此不只是提一个 VAE 结构,也把 LangSpace 作为系统化 probing 框架一起提出。
这篇工作要解决的是:低比特量化的 LLM 常出现输入相关的灾难性退化,同一个模型在大多数 prompt 上正常,但在少数输入上突然崩。过去很多分析把量化误差看成近似均匀或静态的权重误差,作者则直接追问:到底是什么样的输入会把低比特模型打坏,以及机制在哪里。
DPO 中 rejected response 的角色被低估了——rejected 数据的质量和特性如何影响偏好对齐的效果,以及 DPO 中偏好错位(preference misalignment)的根源。
不同架构的自回归 Transformer(如 GPT、LLaMA 等变体)在事实回忆(factual recall)时是否使用相同的内部机制?此前的 mechanistic interpretability 研究多集中在单一架构上。
在投机解码(Speculative Decoding)中,使用小 Transformer 作为草稿模型会面临 KV-cache 显存瓶颈,且随着上下文变长,草稿生成的加速比会急剧下降。
将 LLM 压缩到极低比特(如 W2A4KV4)时,激活值中的离群点(outliers)和权重分布的不均匀性会导致模型困惑度(Perplexity)崩溃。
标准的偏好优化(如 DPO)对回复中的所有 token 均匀计算损失,但实际上决定人类偏好的往往只是少数几个关键 token(如某个事实错误或冒犯性词汇),全局计算会导致模型过度拟合噪声并遗忘通用能力。
这篇工作关注 instruction tuning 数据选择中的一个老问题:按 influence 选数据虽然能提升平均性能,但常常把模型推向少数强势能力,导致能力分布失衡。过去很多方法默认“高影响样本越多越好”,对多能力场景中的覆盖和冲突处理不够细;这篇论文显然是在修这个缺口。
这篇论文解决的是长文本生成偏好优化里的两个痛点:二元偏好信号太粗,且高质量标签昂贵,导致 KTO 这类方法在长文本上难以稳定学到细粒度质量差异。此前很多方法沿用 pairwise win/lose 标注,但长文本常常不是“全好或全坏”,而是局部段落优劣并存,因此二元标签天然丢信息。
这篇论文关注 multi-stage fine-tuning 中一个常被低估的问题:把正向数据和所谓 inverse data 混在一起,不一定比只用 inverse data 更好。很多多阶段训练默认“数据越多、混合越稳”,但阶段间目标冲突、梯度抵消和分布污染可能让 mixed data 反而伤害最终效果。
Common Crawl 里低资源语言的识别是大海捞针:现有 LID(language ID)模型在稀有语言上误判率极高,导致预训练语料里这些语言要么被漏掉要么被噪声淹没。作者系统性量化了这个问题。
Chinchilla 式 compute-optimal scaling law 是在 decoder-only 自回归模型上推的,encoder-only(BERT 类)的最优 data/param 配比是多少,一直没人系统做。作者把这个坑填了。
LLaMA 预训练的算力瓶颈很大一部分花在 attention 的重复计算上。作者想在训练期(不是推理期)引入某种 caching 机制,削减冗余计算。
音频-语言模型在'需要逻辑推理'的音频任务上很弱:模型能听懂局部声学事件,但串不起因果/时序推理链。作者把 R1-style RL 迁到 ALM 上。
模型生成文本进入训练数据会引发 model collapse(Shumailov 等)。作者问:如果在数据管线前端加 MGT(machine-generated text)检测器,把合成数据过滤掉,是否能阻止 collapse。
这篇工作要解决的是:LLM 的事实性并不是随置信度单调提升,模型可能先显得更自信,随后在分布外或扰动下突然崩塌。过去很多事实性评测只看平均准确率或校准误差,容易掩盖这种从 confidence 到 collapse 的非线性失稳。
这篇工作要解决的是:语言模型训练中的失败往往在 loss 爆炸、性能掉点或训练中断后才被发现,代价太高,作者提出一个前瞻性的可靠性指标来提前预警。现有监控通常依赖 loss、梯度范数或下游验证集,但这些信号往往太晚、太粗,难以在真正崩坏前触发动作。
这篇工作要解决的是:仅改变随机种子时,语言模型会在多大程度上收敛到相似的表示和行为,又会在哪些维度发生分化。这个问题过去常被平均性能掩盖,因为很多论文默认不同 seed 只带来小噪声,但这对可复现性、机制解释和 checkpoint 选择都不够。
这篇工作要解决的是:图像表征学习通常依赖对比学习或掩码重建,而图像描述又多被当成下游任务,作者反过来用 masked diffusion captioning 来学视觉特征。这个问题值得关注,因为如果 caption generation 能作为更强的视觉预训练目标,它可能比纯重建更偏语义,又比对比学习保留更多生成结构。
这篇论文要回答的是:SFT 对齐质量到底受哪些因素主导,尤其是数据、层选择和训练细节分别起多大作用。过去很多对齐经验来自小规模经验主义或单因素实验,结论常常彼此冲突,因此需要系统性的大规模对照。
这篇论文要解决的是:当前 reasoning 奖励模型过度关注‘答对没答对’,却忽略模型自己的置信度信号,导致奖励在边界样本上过于粗糙。只用 correctness 监督会把高置信错误、低置信正确和稳定正确混为一谈,这不利于推理能力和校准一起提升。
揭示字节级BPE分词器在处理不完整Token或极低频双字节组合时的结构性脆弱问题。
这篇工作要解决的是:在没有人工偏好标注的情况下,如何构造可用于偏好学习的数据集。现有做法通常依赖人工对比标注或强教师模型打分,成本高且容易把教师偏好直接灌进数据;作者尝试改用“模型行为知识”来替代人工监督,但从给定信息里还看不到其行为信号如何定义、覆盖哪些偏好维度。
这篇工作要解决的是:知识蒸馏里按序列整体对齐分布太粗,无法稳定地把教师模型的 token 级行为传给学生。传统 distillation 往往只在句级 logits 或最终目标上做匹配,结果是学生在难 token、长尾 token 和不确定位置上学得不均衡;作者提出 token-wise 的细粒度散度控制来修正这个问题。
这篇工作聚焦一个很具体但重要的问题:LLM 的推理监督大多来自最终答案或人工过程标注,缺少可验证、低噪声的中间监督。尤其在数学和程序化推理里,仅靠 outcome supervision 容易让模型学会表面格式而不是正确过程;作者尝试把代码执行结果当作 grounded supervision 来约束推理。
这篇论文要解决的是:多语种模型里的词表重叠,尤其是“假朋友词”(拼写相近但语义不同),到底是在帮模型共享知识,还是在制造跨语言干扰。过去关于共享词表的讨论常把 overlap 视为天然有利,或简单担心 negative transfer;作者的结论从标题就很明确:false friends 并不一定是坏事。
这篇工作研究的是:预训练数据泄漏如何同时影响模型的“复现能力”和“检测能力”。过去关于 data leakage 的讨论多集中在 benchmark 污染或 memorization 本身,很少把“模型会不会复现泄漏内容”和“我们能不能检测到泄漏痕迹”放到一起系统分析;作者显然想把两者联系起来。
这篇论文要解决的是代码生成在 test-time 如何继续靠额外计算换正确率,而不只是靠更大的 base model。过去这类提升常依赖 pass@k 采样、执行反馈或搜索,但缺少一个清晰的“test-time scaling”框架来系统利用推理时预算。
这篇论文要解决的是大推理模型在需要外部信息时的闭卷局限。纯靠内部参数做 long reasoning,遇到知识缺失、时效性问题或多跳事实链时,模型即使会推也可能无料可推。
这篇论文要解决的是 reward model 在偏好学习中的鲁棒性问题。标准偏好建模通常把成对偏好当作干净监督,但真实偏好数据里存在噪声、分布偏移和标注者异质性,导致 reward model 很容易学到不稳定甚至可被利用的偏好边界。
DPO 类偏好优化在推理任务上经常翻车:同一个 prompt 下不同采样的 reward 方差极大,用单点奖励去估计偏好会引入很强的噪声。
多模态指令微调里,视觉 encoder 和 LLM 的学习速度/梯度尺度不匹配,很多时候 LLM 已经过拟合指令格式,视觉侧还没动起来(或反过来),最终融合不充分。
影响函数(Influence Functions, IF)在理论上能精准归因训练数据对模型预测的贡献,但在参数量巨大、损失地形高度非凸的现代 LLM 上,其有效性和扩展性存疑。
标准 Transformer 的精确注意力计算具有 O(N^2) 的时间和空间复杂度,而现有的线性注意力近似方法往往在长序列上损失精度,且在训练时的梯度计算效率低下。
大模型在 RLHF(如 PPO)阶段常面临样本效率低下、方差大以及探索不足(容易陷入局部最优或模式崩溃)的问题。
每次面对新任务都从头微调大规模 LLM 成本极高,而小模型上积累的微调权重通常无法直接复用到大模型上。
在边缘设备上训练 LLM 受限于极低的显存,而传统的低比特量化(如 INT4)在训练时采用最近邻舍入,会破坏梯度的期望值,导致模型无法收敛。
这篇论文研究的核心问题是:LLM 里是否存在与特定关系类型稳定对应的神经元,以及这些神经元到底是可解释机制还是只是相关性伪影。过去神经元解释工作常停留在词性、主题或单一事实激活层面,但“关系”是更接近知识组织单元的粒度。
这篇论文要解决的是长上下文建模里二次复杂度注意力成本过高,但很多线性注意力替代方案在蒸馏后质量掉得明显。作者试图把“从 full attention 蒸馏到 linear attention”这件事做得更有效,缩小效率和性能之间的缺口。
这篇论文解决的是奖励模型在可解释性、训练成本和扩展性上的三难:标准 reward model 往往是黑盒打分器,数据一多和任务一变就难维护,也不容易知道它到底在奖励什么。作者提出 Structural Reward Model,试图用更结构化的方式表达奖励。
预训练阶段的高质量代码数据稀缺,现有方法高度依赖昂贵的大模型蒸馏(如 GPT-4 生成),难以低成本扩展到海量规模。
传统的自我反思(Self-Refinement)或偏好对齐方法在训练时需要模型在线自回归生成回复,推理开销极大,严重拖慢了 Post-train 的迭代节奏。
这篇论文问的是一个很实际但常被忽略的问题:量化是否会以不同于短上下文基准的方式伤害长上下文能力。过去很多量化评测集中在常规困惑度或短任务准确率上,但长上下文检索、跨段整合和位置稳定性可能对数值误差更敏感。
这篇工作要解决的是 sparse MoE 领域缺少一套同时覆盖推理能力、效率和安全性的横向评测。过去很多 MoE 论文只强调训练 FLOPs、平均 benchmark 或路由稀疏度,但 MoE 真正部署时还会遇到 latency 抖动、长尾专家负载、对抗安全和 reasoning 稳定性等问题,单指标结论很容易误导。
多语言 LLM 的核心瓶颈之一是低资源语言与高资源语言之间的能力差距。以往做法要么依赖机器翻译扩充平行语料,要么在 pretrain 阶段简单混合多语言数据,但缺乏系统性地利用多路平行语料(multi-way parallel corpora)来对齐多语言表示。
Chain-of-Thought (CoT) 推理虽然提升了 LLM 的推理能力,但显式生成长推理链带来巨大的推理延迟和 token 开销。本文要解决的是:能否把 CoT 推理过程压缩到连续隐空间中,在不显式生成中间步骤的情况下保留推理能力?
大型推理模型(如 o1/R1 类)在所有问题上都使用长推理链(slow-thinking),但简单问题不需要这么多计算,造成资源浪费。本文要解决的是如何根据问题难度自适应地调整推理深度。
Sparse Autoencoder (SAE) 是当前 LLM 可解释性研究的主流工具,但标准 SAE 对所有输入使用相同的字典,缺乏对不同输入类型的适应性。本文提出用路由机制改进 SAE,使其能更好地解释 LLM 的内部表示。
在资源受限(如小参数量或有限算力)的设定下,直接使用复杂的推理数据从头训练模型,往往会导致模型陷入局部最优,只能记住表面模式而无法涌现出真正的泛化推理能力。
传统的稀疏自编码器(SAE)仅基于前向激活值(Activations)进行重建,这会提取出大量方差虽大但对模型最终输出(Loss)毫无因果影响的冗余“死特征”。
随着稀疏自编码器(SAE)在 LLM 机制可解释性(Mechanistic Interpretability)领域的爆发式增长,文献中充斥着各种架构变体、训练目标和评估指标,缺乏一个统一的分类学框架。
长上下文(Long-context)SFT 数据构建和训练成本极高,且随机采样长文档容易引入大量冗余噪声,反而稀释了模型对关键信息的注意力,导致对齐效果次优。
这篇工作要解决的是:能否在几乎不重新训练基础模型的前提下,把不同模态的现成 foundation model 低成本拼接成一个可协同工作的系统。过去常见做法要么做大规模联合预训练,要么靠重型对齐模块,成本高且容易破坏原模型能力;因此“接近免费”的 modality stitching 如果成立,对统一多模态预训练和系统组装都有直接价值。
这篇工作的核心问题是:长上下文检索时,模型真正用到的注意力计算是否远小于我们为整个上下文付出的成本。现有长上下文方法普遍按全局预算做 attention 优化,但很多 token 并不会参与有效检索;因此如果 retrieval 只依赖一个 reactive attention slice,就存在显著的计算与内存浪费空间。
这篇工作解决的是 test-time scaling 的推理成本问题:如何在保留更强采样或搜索收益的同时,把生成速度拉回来。现有 speculative decoding 往往需要一个 draft model,而这引入额外模型维护和失配问题;model-free speculative sampling 试图不依赖草稿模型做加速。
标准的 Token Embedding 层参数量庞大(尤其在多语言或大词表下),且表示高度冗余,缺乏组合语义结构。
这篇论文要解决的是:Transformer 做长度外推时,位置编码之外还存在被忽视的上下文依赖偏置,导致模型在训练长度外快速失稳。过去大多数工作把问题几乎都归因于 RoPE、ALiBi 或 attention score 的位置设计,因此主要改位置编码;这篇工作认为,真正限制外推的还有由上下文统计诱导出的偏置项,值得单独建模和校正。
这篇论文要解决的是:MoE Transformer 的路由粒度过粗,按 token 路由容易造成专家负载不均,也限制了细粒度容量利用。现有 MoE 大多默认 token 是最自然的路由单位,但一个 token embedding 内部不同子空间可能对应不同功能,把整 token 送给一个专家会浪费可分解结构。
这篇论文要解决的是:多模态数据质量筛选越来越重要,但人工标注一个统一的数据质量分类器成本很高、覆盖也差。过去常见做法是按模态分别写规则或训练专用过滤器,这会导致标准不一致,也很难扩展到新模态或新噪声类型。
传统评估 LLM 表达能力的方法多依赖离散 token 输出,难以全面衡量模型在整个词表分布上的拟合与控制能力。
LLM 的 Reward Learning(如 RLHF, DPO, PPO)技术发展迅速,但缺乏对 Reward Models 和学习策略的系统性梳理和对比。
LLM 长上下文推理时,KV Cache 随序列长度线性增长,导致显存溢出和解码延迟。
连续思维链(Continuous CoT)通过在隐空间生成 dummy tokens 提升推理能力,但自回归生成这些隐状态会导致严重的推理延迟。
这篇论文要解决的是:大语言模型在持续学习中如何吸收新任务或新域,同时尽量不遗忘旧能力。这个问题过去常被用全量重训、混合回放或参数隔离来绕开,但这些办法要么算力和数据代价高,要么会压缩模型的可塑性,因此在真实的长期演化场景里仍然不够好。
这篇论文要解决的是:如何让 LLM 更高效地适应新语言,而不是只靠目标语言继续预训练或翻译式数据扩增。过去的语言适配通常把跨语言迁移当成静态数据覆盖问题处理,但这会低估上下文内跨语言示例对推理模式迁移的作用。
这篇论文要解决的是:能否用 LLM 作为 meta-judge 来持续改进另一个语言模型的对齐,而不是依赖固定的人类偏好数据或静态 reward model。过去的自举式对齐常受限于 judge 偏差会被放大,一旦奖励器不可靠,就会把错误偏好持续写回模型。
这篇论文要解决的是:大型语音语言模型里 speech-text alignment 的机制到底是什么,所谓 modality gap 具体表现在哪里。过去很多工作展示了语音接入 LLM 后任务可做,但对对齐是如何形成的、失败点在表示层还是优化层,分析还不够细,这限制了 tokenizer、连接器和训练目标的系统设计。
大型音频语言模型(LALM)在感知类任务上还行,但面对需要多步推理的音频问题(声学场景分析、复杂事件因果、音乐/对话理解)表现明显差于文本 LLM 在文本上的推理水平。作者想把 CoT-style 推理引入 LALM。
在数学推理任务上,使用 CoT 数据进行 SFT 往往能带来指标提升,但这究竟是因为模型真正学会了数学逻辑,还是仅仅学会了模仿 CoT 的“步骤格式”?
LLM 在不输出显式思维链(CoT)时,是如何在内部完成复杂任务的?其深层 Transformer 结构中是否存在隐式的、逐层递进的子任务调度机制?
在检索增强(RAG)或基于检索的语言模型训练中,模型倾向于走捷径——过度依赖容易学习的检索信号(如表面词汇重叠),而忽略更难但信息量更大的深层上下文,导致优化过程中的“学习不均衡(Race)”。
直接偏好优化(DPO)在降低模型毒性(Toxicity)方面非常有效,但它在底层神经元级别究竟改变了什么?是“遗忘”了有毒概念,还是仅仅“抑制”了有毒输出?
在评估 LLM 的推理能力时,很难区分模型是真的在内部进行了逻辑推导(Latent Reasoning),还是仅仅依靠预训练记忆走捷径(Factual Shortcuts,即直接背出了答案)。
这篇工作要解决的是:在不重新训练模型的前提下,如何更便宜地为长上下文外推找到合适的 RoPE/位置缩放因子。现有做法通常靠网格搜索、经验公式或少量任务上手调,成本高且常常对模型、长度区间和任务分布不稳,因此这个问题对长上下文部署和 mid-train 调参都很实际。
这篇工作要解决的是:推理类 RL/策略优化里,负样本通常只被当作被淘汰的轨迹,而没有被充分利用来塑造更强的学习信号。过去很多方法主要放大正样本或高回报轨迹,但在难推理任务里,正样本稀缺,单靠它们会让学习信号又稀又偏。
这篇工作要解决的是:KV cache 在长上下文推理中占用显存过大,而极低比特量化通常会明显伤害生成质量。传统 KV 量化大多逐层独立处理,忽略了层间冗余,因此在 2-bit、甚至更低位宽时误差很难压住。
这篇工作要解决的是:LLM 自纠错在什么条件下有效、什么时候只是多做几轮无用推理,目前缺少一个可检验的理论框架。过去大量工作把 self-correction 当经验技巧在用,但对其 scaling 规律、收益边界和失败模式解释不足。
这篇工作要解决的是:语言模型是否能从纯序列建模中学到隐式 multi-hop reasoning,以及这种能力需要什么数据条件。过去很多工作在能力层面给出正反两种结论,但往往混杂了模型大小、任务模板和训练分布,导致大家不清楚限制到底来自架构、目标函数还是数据量。
在线 RLHF(如 PPO)采样成本高且训练不稳定,而离线对齐(如 DPO)由于静态数据集与模型当前策略存在分布偏移(OOD),难以达到在线方法的上限。
长上下文 LLM 的全注意力机制计算复杂度为 O(N^2),而现有的静态稀疏注意力(如局部+步长)无法捕捉动态的长程依赖,且对硬件内存访问不友好。
这篇工作聚焦一个现在很关键但常被模糊处理的问题:DeepSeek R1 蒸馏模型到底是“学会了推理”,还是只学会了把推理轨迹压缩成答案。此前很多分析停留在 benchmark 分数或 CoT 长度统计,缺少对 attention 行为和内部机制的联合证据,因此这个问题值得重新拆开看。
这篇工作解决的是 multimodal LLM 在 modality-incremental continual learning 里的核心矛盾:新模态接进来时,模型既要快速吸收新能力,又不能破坏已有模态对齐。现有方法常在保留旧能力和学习新模态之间拉扯,或者需要复杂回放与正则,工程代价高。
中文 LLM 的 tokenizer 词表里混入了大量可疑 token——色情、赌博、垃圾站点的片段。作者想把这些 token 当成训练数据污染的指纹,倒推主流 LLM 的中文预训练语料里到底混了多少脏数据。
长文本生成下的投机解码(speculative decoding)效率不稳定:draft 模型在某些片段 accept 率高,在另一些片段低,却还在白跑 K 步 draft。作者让 draft 模型自己判断什么时候该停。
数学推理的 SFT/posttrain 阶段,到底是更多数据有效还是更好的数据有效?现有工作在数据选择和数据合成两个方向上各有进展,但缺乏系统性的对比分析来回答这个根本问题。
在推测解码(Speculative Decoding)中,为了极致加速通常会对草稿模型和目标模型进行量化,但独立量化会导致两者输出分布偏移,严重降低接受率(Acceptance Rate)。
在针对推理任务的强化学习中,由于推理步骤长且最终奖励稀疏,传统的序列级采样效率极低,模型很难探索到正确的推理路径。
这篇论文要解决的是:现有 LLM 搜索能力训练通常把整轮搜索当作单一步决策来优化,导致奖励稀疏、信用分配粗糙,模型学不会稳定的多步检索与证据整合。这个问题过去常被工具调用模板、蒸馏或结果级 RL 暂时绕开,但一旦进入真实搜索环境,错误会在中间步骤迅速累积,所以值得单独做 step-wise 优化。
这篇论文要解决的是:如何让 LLM 在真实环境里完成“深度研究”这类长周期、高外部依赖的任务,而不是只在静态 benchmark 上做短链推理。过去很多工作在合成环境或离线问答上训练 agent,规避了真实网页、延迟、噪声和工具失败;但真正影响实用性的正是这些环境因素。
这篇论文要解决的是:现有 LLM 对齐大多把训练写成单边优化,例如让策略去贴近偏好数据或奖励模型,但这会忽略策略与评估者之间的相互作用,容易出现过拟合奖励、模式坍缩或局部最优。这个问题过去靠更好的 preference data 或更稳的 objective 缓解,但并没有从博弈结构上重写对齐问题。
这篇论文要解决的是:长上下文 LLM 的 KV cache 压缩通常按通用启发式做,无法针对具体任务保留真正有用的历史 token,结果要么省不了多少显存,要么损失回答质量。过去很多方法按注意力分数、位置或固定预算压缩,但没有充分利用‘不同任务需要不同记忆’这一事实。
这篇论文要解决的是:怎样用一个模型无关、计算便宜的方法衡量输入 token 对 LLM 输出的重要性,而不依赖昂贵且模型特定的解释性工具。现有可解释方法常常需要访问内部梯度、特定层结构或反事实重算,迁移性和成本都不理想;作者试图直接利用 embedding 与输出头之间的几何关系给出 token 重要性信号。
这篇论文要解决的是:LLM 幻觉不仅要检测,还要在检索或问答前就主动改写查询以减少后续幻觉,但现有工作通常把“检测”和“缓解”分开做,且很少利用 SAE 提供的可解释内部特征。过去方案往往在生成后做事实核验或置信过滤,能发现问题,但很难在源头上改变模型会去检索什么、会如何组织问题。
这篇论文要解决的是:线性 probing 测到的“句法信息可读出”到底能不能解释模型在真实句法测试中的表现。过去很多工作默认把 probe accuracy 当作模型内部掌握句法机制的证据,但这一步经常把“能从表示里读出来”混同为“模型实际依赖它完成任务”。作者要检验的正是这种机制—结果之间是否真的对应。
这篇论文要解决的是:LLM 在 4-bit 量化时最棘手的问题仍是激活和 KV cache 中的 outlier,常规均匀量化在这种长尾分布下误差过大。已有方法会做旋转或校正,但对 outlier 的处理还不够直接,尤其很难同时把权重、激活和 KV cache 都压到 4 bit 而不显著伤精度。
现有 interpretability 工具大多是 post-hoc、标量指标为主、集成成本高,难以在训练过程中连续观察语言知识的涌现。作者想要一个能随训练动态跑的分析工具链。
预训练 base model 通常被认为需要 SFT 才能跟随指令;作者主张 base model 本身就具备可指令化的能力,只是没被正确激发。
开源模型在复杂指令跟随(多约束、嵌套约束)上和闭源差距明显。核心困难是:真实复杂指令怎么 scale 合成?人工写贵,纯模型合成又容易 collapse。
长链 CoT SFT(蒸馏 o1/R1 风格推理轨迹)常出现模型没真正'理解'中间步骤就硬背格式的问题。作者关注如何在 SFT 阶段让模型从'理解问题'平滑过渡到'进行推理'。
LLM 在长上下文或 RAG 场景中容易产生幻觉(忽略给定上下文)。在 MoE 架构中,尚不清楚这种“上下文忠实度”是否由特定的专家网络(Experts)负责。
传统的稀疏自编码器(SAE)在训练时必须固定稀疏度(k值),为了寻找最佳的解释性分辨率,研究者需要训练和维护多个不同稀疏度的 SAE,计算成本极高。
多语言 LLM 在低资源语言中极易遭遇安全越狱,因为传统的安全对齐(RLHF/SFT)高度依赖英语数据,难以泛化到其他语言。
Tokenizer对日期字符串的碎片化切分(如将年份切为多个无意义片段)破坏了模型对时间顺序的内在理解,这是导致LLM时间推理能力受损的隐蔽瓶颈。
传统推测解码依赖外部草稿模型,导致系统复杂度和显存开销增加,难以在资源受限场景下扩展。
现有对齐评估过度依赖“拒绝率”,无法区分模型是真正理解了安全边界还是发生了模式崩溃。
LLM内部的事实认知表示脆弱且不一致,导致面对不同提示词时输出矛盾。
仅看Leaderboard总分无法揭示不同LLM在细粒度能力上的差异,难以解释分数相近模型在实际表现上的不同。
传统的 In-Context Learning 依赖在 Context 中拼接大量文本示例,推理效率低且容易受 Prompt 表面形式扰动。
在指令微调数据筛选中,低置信度的样本通常被直接丢弃,导致数据浪费且可能丢失困难样本的训练信号。
对千亿级 LLM 进行剪枝时,一次性剪枝会导致性能断崖式下降,而传统的迭代剪枝计算成本过高。
现有的长文本 Benchmark 往往将“上下文长度”与“任务复杂度”耦合,导致无法准确归因模型长文本能力的瓶颈。
这篇工作要解决的是:LLM 上的 beam search 在约束输出、结构化生成或大词表重复前缀场景下会做大量重复计算,导致它相比贪心/采样更难扩展。作者试图用 trie-based decoding 把 beam 间共享前缀显式利用起来,从而降低 beam search 的无效开销。
这篇工作要解决的是:BabyLM 这类小规模语言学习设置能否学到 filler-gap dependency 这种需要长程结构泛化的句法现象,现有工作往往只看整体 benchmark,难以知道模型到底学会了规则还是记住了表面模式。作者把焦点放到一个具体、经典且能区分真正结构泛化与浅层启发式的句法依赖上。
这篇工作要解决的是:test-time scaling 想靠多采样、多步验证或树搜索换性能,但纯生成会浪费算力,纯 verifier 又容易在错误候选上做无效筛选。作者提出 step-level verifier-guided hybrid scaling,目标是在每一步推理时更早地淘汰差路径,把额外计算用在更有希望的推理分支上。
这篇工作要解决的是:LLM 数据污染评测已经从静态 benchmark 泄露演化到更复杂的动态场景,但社区缺少从静态到动态的一体化梳理,导致‘模型到底有没有背题’经常停留在个案讨论。作者把它做成一篇 survey,试图统一污染定义、评测设定和防护思路。
Zero-shot CoT 在很多场景下被认为弱于 few-shot CoT,但这一结论可能源于 zero-shot prompt 设计不够好。本文重新审视这一对比,探索 zero-shot CoT 能否通过更好的 prompt 策略超越 few-shot CoT。
LLM 推理时 FFN 的 down projection 层存在大量冗余激活,如何利用上下文相关的稀疏激活来跳过不必要的计算,从而加速推理。
Sparse Autoencoder (SAE) 可以提取 LLM 内部的可解释特征,但如何利用这些特征高效地引导(steer)模型行为以改善 in-context learning (ICL) 表现,此前缺乏系统方法。
SAE 提取的特征在 ICL 中的多功能性(versatility)尚不清楚——这些特征是否能跨任务、跨层地解释和支持 ICL 的不同方面。
这篇工作要解决的是:在不依赖人工标注偏见数据的前提下,从 LLM 内部表示里直接抽取可控的“概念向量”,用于干预模型偏见。以往做法通常依赖监督属性标签、人工构造对比样本或外部分类器,因此迁移性差、成本高,也很难覆盖新型偏见维度;如果这篇方法成立,它提供的是一条更轻量的表示层控制路径。
这篇论文在处理一个很具体但重要的问题:如何让 LLM embedding 更好地遵循语言模型本身的自回归结构。很多 embedding 方法直接把 decoder-only LLM 拿来做 pooling 或对比学习,但句向量空间常与原始 AR 训练目标不一致,导致检索和生成表征之间存在断层。
这是一篇 survey,核心问题不是提出新方法,而是系统整理 MLLM self-improvement 的方法谱系、训练信号和评测现状。这个方向最近增长很快,名称相近但机制差异很大;没有统一梳理时,很容易把自训练、反思、合成数据、自奖励和工具反馈混为一谈。
几何推理训练数据稀缺且质量难控:现有合成方法要么生成的题目答案不可验证,要么靠人写模板多样性有限。作者想要一条能自动生成几何题、并且保证答案可证的流水线。
小规模 VLM 直接 RL 微调常常训不动:要么奖励信号太稀疏,要么任务跨度太大导致策略崩塌。作者把课程学习搬到 RL 微调上,想打破这个瓶颈。
SFT 后的模型回答千篇一律:现有'提升多样性'的数据选择策略经常只是偏向了长回答,把'长'混淆成了'多样'。作者想把长度因素剔除,看真正的多样性选择该怎么做。
基于宪法 AI(constitutional AI)的对齐通常把原则作为整体喂给模型,粒度太粗,评估和奖励都很糊。作者把宪法原则拆成一组 QA,让对齐过程可分解、可验证。
LLM 的安全性在不同输入形式下不一致:同一个有害意图换个表达方式(越狱 prompt、多语、改写)就能绕过。作者想让模型自己辨别这种一致性问题并自我优化。
让 LLM 从“解题者”变成“教学者”——在学生求助时不要直接给答案,而要引导。之前用 SFT 模仿教师对话的做法泛化差,因为教学行为是多轮、长期目标,单步模仿很难学到“何时不给答案”。
语音 LM 的越狱防护还几乎是空白。文本 LLM 的对齐/防越狱研究很多,但当输入变成语音(音频 token 或 waveform),攻击面新增了韵律、噪声、说话风格等维度,已有文本侧防御直接失效。
RLHF/偏好对齐样本效率太低——每条偏好数据都要更新策略,大量相似 prompt 上的经验没被复用。
去中心化 LLM 训练正在从玩票走向严肃方案——单集群受限于能源、芯片获取和带宽成本,但跨地域训练有慢互联、异构硬件、容错等开放问题。缺一份把这些问题梳理清楚的 survey。
RALM(检索增强 LM)训练时,检索回来的邻居和输入高度重叠——模型到底是学到了利用检索,还是只是用邻居当作答案的近似 copy?重叠度对训练效率和泛化的影响缺少系统研究。
推理型模型要么擅长长 CoT(慢思考、工具少),要么擅长 agentic 工具调用(动作多、推理浅),单个模型很难两者兼得。R1 类蒸馏常常只得到一种风格。
固定词表限制了生成中的实体、术语、长尾符号表达——每次遇到 OOV 就被切成若干 subword,生成冗长且易错。copy 机制和 pointer network 解决了一部分但未统一到现代 LLM 解码框架。
预训练后扩大模型规模通常需要昂贵的从头训练,如何在不破坏已有表征能力的前提下,通过复用已有权重实现低成本的参数扩展?
LLM 推理时所有 token 都必须经过所有 Transformer 层,但大量简单 token 的表征在浅层就已饱和,导致严重的计算冗余。
文档 Embedding 经常将语义内容与文档长度、作者风格、来源等混杂变量(Confounders)纠缠在一起,导致检索结果偏离真实语义需求。
在进行免训练的模型合并(Model Merging,如 Task Arithmetic)时,不同任务的权重更新会产生严重的参数干扰,导致合并后模型性能大打折扣。
这篇工作要解决的是:安全对齐微调常常损伤通用能力,而继续追能力又容易把安全性冲掉,作者试图用微调前后模型合并来缓解这种张力。过去更常见的做法是直接在单一 checkpoint 上叠加安全数据或拒答数据,但这种方式容易产生灾难性遗忘或安全脆弱性。
这篇工作要解决的是:LLM 剪枝常能保住常规 benchmark 分数,却容易损伤 truthfulness,尤其是在不确定知识和诱导性提问下更明显。作者要证明并缓解一个常被忽略的问题:压缩模型不只是掉能力,也可能更系统地掉‘说真话’的倾向。
解决长文本生成任务中,全局单一的 Reward 信号过于稀疏,导致模型难以获得细粒度优化方向的问题。
解决视觉 Token 剪枝(Token Pruning)过程中,容易破坏图像局部区域上下文(Region-Oriented Context)和空间结构的问题。
解决 LLM 在复杂推理任务中使用传统 MCTS(蒙特卡洛树搜索)时,探索策略单一导致容易陷入局部最优或搜索效率低下的问题。
解决人工标注数据集中存在大量隐性噪声,且难以通过静态规则进行大规模自动化清洗的问题。
这篇论文要解决的是:机制可解释性研究缺少一个足够可控、可分阶段、又带真实结构约束的 text-to-SQL 数据集。现有数据集要么过于真实导致变量太多,要么过于玩具化无法承载电路级分析,因此很难定位模型到底学会了哪一步。
这篇论文关注动态深度的一个现实障碍:怎样在不重训整网、不过多改动架构的情况下,让模型按输入难度自适应选择计算量。已有动态深度方法往往引入额外控制模块、训练复杂,或者收益被路由误差吃掉。
这篇论文讨论的是:推理训练里,表面上的步骤顺序变化可能不重要,但推理结构本身重要;因此能否用 order-centric augmentation 提升模型对推理本质的把握。很多 CoT 训练默认固定推理顺序,结果模型可能把顺序模式当捷径记住,而不是学会真正的依赖关系。
这篇论文想解决的是:怎样更可靠地控制语言模型行为,同时避免直接在 dense hidden state 上做 steering 带来的副作用和不稳定。已有激活编辑或向量 steering 往往有效但脆弱,容易牺牲无关能力,且控制边界不清楚。
这篇论文要解决的是:MoE 模型编辑成本高、定位难,而每个 expert 又天然带有参数冗余,能否在压缩表示下高效编辑。传统模型编辑大多围绕 dense 模型设计,直接迁移到 MoE 往往要面对 expert 选择、参数分散和编辑局部性差的问题。
这篇工作要回答的是:视觉模型和语言模型内部表征到底有没有深层对齐,而不是只在最终任务头上表现出表面可迁移性。以往很多工作主要看跨模态检索、zero-shot 分类或线性 probe,能说明输出层可对齐,但很难判断两种模型是否在中间层学到了相近的概念结构,因此这个问题值得单独拆开分析。
这篇工作讨论的是:如何重新设计 recurrent transformer,使它在保留递归状态效率的同时减少长程建模中的信息退化。过去 recurrent transformer 的主要问题是状态压缩过强、层间信号单一,导致它虽然省算省缓存,但在复杂上下文上容易丢层级结构。
这篇工作要回答的是:LLM 是否真的理解 token 到字符的映射,还是只在常见词上记住了表面模式。这个问题以前常被低估,因为很多评测默认 tokenizer 是透明的,而实际中 tokenization 会显著影响拼写、计数、反向字符串和代码等任务表现。
这篇工作要解决的是:如何用更省数据、也更省参数更新的方式,提高模型生成中立观点表述的能力。传统做法通常依赖大规模偏好数据和全参数 RLHF,但在 neutral POV 这种相对窄但高敏感的目标上,这样做成本高、容易过拟合,还可能顺带伤害一般能力。
这篇工作要解决的是:self-consistency 通过采样多条思维链能提高推理准确率,但推理成本很高,很多 sampled thoughts 实际上是冗余的,能否在不明显掉点的情况下做 thought pruning。过去的优化多集中在减少样本数,但这会粗暴牺牲多样性;更细粒度的思路是保留有用思路、剪掉无效思路。
解决多语言预训练中不同语系之间因共享参数导致的容量瓶颈和相互干扰(多语言诅咒)问题。
解决大模型自我训练(Self-Training)过程中,因采纳错误推理路径(即使最终答案正确)而导致的确认偏差(Confirmation Bias)。
在保护演示数据隐私的前提下,如何提升差分隐私上下文学习(DP-ICL)的效用。
分析大模型在逐层前向传播过程中,其输出置信度(Calibration)是如何演变的。
这篇工作要回答的是:不同语言模型架构究竟如何学习并传播语料偏差,而不仅仅是“是否有偏差”。以往偏差研究常把模型当黑盒测输出差异,较少追问 n-gram、RNN、Transformer/attention 在偏差吸收和传播路径上的机制差异;作者显然在做这种架构层面的拆解。
这篇论文要回答的是:预训练语言模型到底有没有学到准确的数值表示,而不只是记住常见数字模式。过去对 LLM 数字能力的判断通常来自算术 benchmark,结论多半偏悲观,因为模型在计算任务上错误很多;作者把问题收窄到“表示是否准确”,并给出一个相反方向的判断:预训练模型可能比外界以为的更会表示数字。
这篇工作要解决的是:多语大模型做 in-context learning 时,示例选择往往在多个因素上失衡,导致性能不稳定。现有 ICL 通常只按语义相似度、语言一致性或标签覆盖单独选例,结果是某一因素优化了,另一因素被破坏;作者提出 balanced multi-factor ICL 来同时平衡这些条件。
现有的推理模型微调通常只学习单一的“黄金路径”,忽略了多样化推理路径的价值,导致模型在遇到分布外问题时缺乏鲁棒性和灵活性。
CoT 究竟是真正在引导模型一步步得出结论(Active Guidance),还是模型在隐层已经得出了结论,CoT 只是在做马后炮式的合理化解释(Post-hoc Rationalisation)?
这篇论文要解决的是持续语言学习里的遗忘与低效复用问题。现有 lifelong language learning 往往用单模型顺序训练或回放来缓解遗忘,但不同阶段学到的知识很难双向传递,结果是新任务学得快时旧能力掉得也快。
这篇论文想回答一个很直接但有争议的问题:语言模型的“推理”能力,到底需要专门训练出来,还是从 demonstrations 就能很容易学会。此前大量工作把 reasoning 提升归因于链式思维数据、强化学习或专门合成语料,但这可能混淆了能力习得和格式模仿。
这篇论文要解决的是:CoT 推理里到底有多少是逐步计算,多少是逐 token 记忆复现。此前关于 CoT memorization 的讨论多停留在样例级或答案级,难以定位模型是在推理链的哪一段开始依赖训练记忆。
这篇论文要解决的是大模型训练样本选择的增量优化问题:在不能穷举所有子集的前提下,怎样一步一步加入更有价值的样本。过去常见做法是打分排序或一次性子集选择,但它们难以建模样本间互补性,容易选到一堆彼此重复的“高分”样本。
这篇论文要解决的是长上下文推理里的 KV cache 压缩偏差问题。现有压缩方法大多通过窗口截断、聚类或低秩近似节省显存,但一旦只保留有限窗口或做有偏摘要,模型对远程依赖的注意力会系统性失真。
这篇论文要解决的是 LLM 微调里低秩适配对注意力模块改动不够直接、效率与效果之间不够理想的问题。传统 LoRA 通常挂在线性投影上,虽然便宜,但它只能间接影响 attention pattern,某些任务下表达力不够。
这篇论文要解决的是 agent planning 的 RL 训练中,为什么非得依赖“好答案”才能学到好过程。很多规划任务很难拿到最终高质量答案或环境回报稀疏,结果 RL 训练信号要么太贵,要么几乎传不过去。
VLM 幻觉的归因一直模糊:到底是视觉通路看错了、语言先验压倒了视觉,还是两者交互出了问题?已有方法多靠相关性诊断,因果关系讲不清。
推测解码(speculative decoding)目前都是为单样本生成设计的,但推理时常需要 multi-sample(比如 self-consistency、best-of-N)。在这种场景下重复小模型起草和大模型验证的逻辑没有被复用,开销被放大。
现有表格推理 benchmark 基本都是短表、单一格式、学术域,和真实业务里的长表(多 sheet、财报、日志)脱节,导致 long-context 表格能力评估不可靠。
VLM 把图像塞进 LLM 时,视觉 encoder 输出经过投影/重采样进入文本空间的过程中到底丢了多少信息、丢在哪,业界描述模糊。
测试时对齐一般靠大模型重采样或 reward-guided decoding,成本高。能不能用小的 aligned 模型去引导大的 unaligned 模型,既省钱又对齐?
DPO 默认所有偏好数据都是确定且二元的(chosen 绝对优于 rejected),忽略了人类偏好数据中固有的语义模糊性和噪声,导致模型容易过拟合噪声信号并降低生成多样性。
当前对推理模型(如 o1)的评估主要依赖最终答案的准确率,缺乏对模型生成长思维链(CoT)内部认知过程(如规划、验证、纠错)的结构化分析和理解。
现有的免训练长度外推方法(如动态 RoPE 插值)通常会破坏局部注意力模式,导致模型在处理长文本时出现困惑度激增或局部信息丢失。
在 Agent 或 RAG 场景中,处理极长甚至无限长的 System Prompt(前缀)会耗尽 KV Cache 内存,并导致极高的首字延迟(TTFT)。
当前模型要么全部使用 System 1(直接生成,容易出错),要么全部使用 System 2(如 CoT 或 o1,在简单问题上浪费大量算力),缺乏动态分配计算资源的机制。
纯 Decoder 架构在处理超长上下文时受限于 O(N^2) 的注意力复杂度和庞大的 KV Cache,难以高效进行全局理解和推理。
纯粹的 RLHF 训练容易导致模型偏离预训练或 SFT 阶段的数据分布(即对齐税 Alignment Tax),表现为在通用能力(如 MMLU)上的性能下降。
这篇论文要回答的是:LLM 在整合句中信息时,并不是连续平滑地累加证据,而是会被语言结构标记显著门控。过去很多工作把信息整合看成更通用的注意力或记忆容量问题,这篇把焦点放到逗号、连接词、从句边界等结构提示上。
这篇论文解决的是 LM-based TTS 中的幻觉问题:模型会生成文本未给出的词、重复片段或不该出现的声学内容,而传统做法多靠解码约束或事后过滤,治标不治本。作者把问题重新表述为训练分布与目标语音-文本对齐分布不一致。
这篇论文解决的是:标准 RoPE 为一维文本序列设计,直接搬到视频 LLM 时很难同时编码时间顺序与空间结构,导致长视频理解和帧间对齐受限。作者提出面向视频的 rotary position embedding 变体 VRoPE。
这篇论文要解决的是复杂指令数据稀缺且人工编写成本高的问题,尤其是多约束、多步骤、易歧义的 instruction 数据难以规模化生产。现有自动合成方法往往一次生成就结束,复杂度和可执行性都不稳定。
这篇论文要解决的是:LLM 评测 verifier 和 outcome reward model 往往各做各的,鲁棒性不足、任务迁移差,而且容易被表面格式或风格噪声带偏。作者希望构建一个统一且更稳的 verifier,同一套模型同时服务评测与奖励。
LLM 经常产生幻觉,表面上看似乎缺乏对自己知识边界的认知(即元认知),但实际上这可能是因为缺乏有效的探测手段,导致内部置信度未被正确表达。
训练上下文感知(Context-aware)的机器翻译模型时,句子级数据与文档级数据的配比对最终长文本翻译性能的影响机制尚不明确,容易导致模型变“懒”或基础能力下降。
LLM 在没有外部草稿本(Scratchpad/CoT)的情况下进行心算,其内部 Transformer 注意力机制是如何完成信息聚合和隐式计算的,一直是个黑盒。
这篇工作要解决的是:小语言模型研究缺少一个可复现实验、可快速改变量、并且能把“想验证的假设”明确落到训练配置上的统一框架。过去很多 SLM 结论来自一次性脚本、强耦合训练流水线或只适配单一模型族的代码,这使得数据、架构、优化器和 tokenizer 的作用很难被干净拆开比较。
这篇论文要解释的是:为什么优化后的 prompt 往往有效,以及它们到底在利用模型的什么机制。此前很多 prompt optimization 工作能找到高性能模板,但得到的是经验现象,难以判断这些 prompt 学到的是任务语义、格式偏置,还是某种脆弱的表面触发器。
这篇工作要解决的是:如何更分布式、更可量化地评估稀疏自编码器(SAE)自动可解释性的质量,而不只看几个人工挑选 feature 的案例。过去 SAE 评估常卡在“看起来像解释了某些 feature”,但缺少同时覆盖语义一致性和功能一致性的系统指标。
这篇论文探讨的是:LLM 是否具备被低估的一步生成能力,也就是不依赖逐 token 自回归展开,就能在单步中生成有用文本。这个问题值得重提,因为 AR 是当前主流范式,但它在推理延迟、并行性和全局一致性上有天然限制。
这篇论文想回答的是:语言模型究竟如何表示和利用 discourse relations,也就是句间/段间的话语关系。以往模型能在篇章任务上得分,并不等于我们知道它是否真的学到了因果、转折、让步、展开等关系,还是只是在利用浅层连接词和局部模板。
这篇论文研究的是:Zipf 定律和 Heaps 定律在 token 序列与 LLM 生成文本中是否仍成立、如何偏离,以及这种偏离说明了什么。这个问题以前常停留在自然语言统计层面,但现在值得重做,因为 tokenizer 和生成模型改变了观测单位与生成机制,经典语言统计未必能直接沿用。
这篇论文解决的是:指令微调数据如何在预算有限时做更有效的筛选,而不是简单随机采样或只按单一质量分数取 top。过去 instruction tuning 的常见做法要么盲目堆数据,要么依赖一个粗糙打分器直接过滤,但这往往牺牲覆盖度,导致模型在长尾任务或困难样本上退化。
LLM 是如何通过上下文学习(ICL)完成算术推理的?其内部机制一直是个黑盒。
在偏好优化(如 DPO)阶段,提升模型的安全性往往会以牺牲有用性(Helpfulness)为代价,产生严重的“对齐税”(Alignment Tax)。
这篇工作要解决的是语言模型层级泛化不稳定这一现象到底来自模型归纳偏置,还是首先由数据驱动。过去很多关于 compositionality 或 hierarchical generalization 的讨论容易把失败归因于架构或训练目标,但数据分布、表面线索和采样不均衡可能已经足以制造看似深层的泛化差异。
这篇工作要解决的是 Orthogonal Finetuning 虽然参数高效、干扰小,但在大模型和实际训练设置下扩展性不足。过去这类正交约束方法常见的问题是优化开销高、实现不稳,或者当 rank 和层数上去后训练成本迅速膨胀,导致它们理论上干净、工程上难用。
这篇工作要解决的是让模型学会认知反思式行为时,大家过度依赖强教师蒸馏。现有做法往往用更强模型生成 reflection、critique 或 revision 轨迹,再训练小模型模仿;问题是教师成本高、风格依赖重,而且学生容易只学到表面格式而不是何时该反思。
这篇工作要解决的是 preference optimization 在噪声偏好、弱对比样本和分布外错误面前不够稳。标准 DPO/IPO 类方法通常把 chosen-rejected 对当成可靠监督,但一旦 rejected 太弱、错误模式过于单一,模型会学到脆弱边界,面对稍有变化的坏样本就容易失效。
现有指令微调依赖人工种子数据或强模型蒸馏来启动数据合成流程,这限制了可扩展性和自主性。本文要解决的是:能否在完全不需要种子指令数据的情况下,让模型自己生成高质量指令-回复对来完成 SFT?
大规模文本数据集的存储和训练成本高昂,数据集蒸馏/浓缩(dataset condensation)可以用小数据集替代大数据集训练,但现有方法主要面向图像分类,难以直接应用于文本和 LLM 场景。本文要解决的是如何用 LLM 驱动的方式对文本数据集进行浓缩。
VLM(视觉-语言模型)在行为层面(benchmark 分数)的表现不一定反映其内部真正的视觉理解能力。本文要解决的是如何从内部表示层面(而非仅看输出)来解释和评估 VLM 的视觉理解能力。
持续对齐(ongoing alignment)场景下,指令数据不断增长,但并非所有数据都对当前模型状态有价值。如何动态选择最有效的指令子集来维持对齐效果,同时控制训练成本?
标准的自回归(AR)生成在处理长思维链(CoT)推理时推理延迟极高,而传统的推测解码(Speculative Decoding)由于难以用小模型精准预测复杂的逻辑轨迹,在 CoT 任务上接受率极低。
Mamba 等状态空间模型(SSM)在端侧设备部署时受限于内存带宽,但现有的非结构化剪枝方法大多针对 Transformer 的注意力头设计,直接用于 SSM 会破坏其隐状态动力学。
LLM 在生成幻觉(Hallucination)时往往表现出极高的置信度,过去常认为这是因为模型预训练数据中缺乏相关知识,导致其“不知为不知”的能力缺失。
传统的安全对齐(如 SFT 或标准 RLHF)仅在输出端(Logits)惩罚有害回复,导致模型内部仍保留有害特征的表征路径,极易被越狱提示(Jailbreak)通过对抗扰动绕过。
这篇工作解决的是开放式 LLM cascade 的效率问题:怎样在不显著损失答案质量的情况下,让便宜模型先做、贵模型后兜底。难点在于开放式生成没有像分类那样简单的置信度判据,传统 cascade 很容易把难题错误地下放给小模型,导致质量不稳定。
这篇工作要解决的是:如何在 post-training 阶段压缩大语言模型,同时尽量保住能力,而不必重新做高成本蒸馏或再训练。常见压缩手段如剪枝、低秩分解、量化各有代价:剪枝易伤精度,低秩对复杂权重不够灵活,量化偏重数值表示而非结构压缩;Saten 看起来是在这些路线之间找一个更强表达的压缩形式。
这篇工作关注一个仍有争议的问题:强化学习能否实质性提升 LLM 的语言理解,而不仅是改善格式遵循、偏好对齐或推理搜索。过去 RL 在 LLM 上的主要成功更多体现在对齐和 reasoning style,真正的 language understanding 提升常被质疑只是 benchmark overfitting 或 response shaping。
这篇工作要解决的是大模型评测的效率和可靠性矛盾。当前 arena 式直接比较虽然贴近人类偏好,但配对数量随模型数增长很快,且评测方差受对手选择影响大;Arena-lite 试图用 tournament-based direct comparisons 在更少比较下保持稳定排序。
在极少量的用户特定数据下,如何对 LLM 进行个性化偏好对齐而不引发过拟合或灾难性遗忘。
闭源 LLM 的黑盒特性导致难以评估其训练数据、架构和安全性,缺乏系统性的逆向工程分析框架。
当上下文信息(如 RAG 注入的知识)与模型预训练的参数化知识发生冲突时,LLM 内部是如何进行路由和决策的。
引入“等待/暂停 Token”(Wait/Pause Tokens)以增加推理计算量时,模型内部的推理轨迹是如何被改变的。
LLM 生成的思维链(CoT)究竟是驱动最终答案的真实因果推理过程(Faithfulness),还是仅仅是事后合理化(Post-hoc rationalization)。
这篇论文要解决的是:状态空间模型(SSM)在长序列上很高效,但它们是否适合代码理解还缺少系统验证。代码和自然语言不同,依赖结构更离散、更层级化,很多人默认 attention 更适合处理这种非局部关系,因此 SSM 在代码上的位置一直不清楚。
这篇论文要解决的是:纯自然语言链式推理在数学任务上容易漂移,纯 formal 方法又难以覆盖开放式问题表达,因此需要一种更稳的自然语言—形式语言混合推理路径。过去很多工作在两端摇摆:要么全靠 CoT,要么让模型直接生成 Lean/程序;两者都各有脆弱点。
如何在不损伤模型整体能力的前提下做精准 unlearning。现有方法(梯度上升、任务算术等)要么忘不干净,要么会把相邻能力一起抹掉,根源是它们在参数空间做 coarse 编辑,没有抓住'待忘知识'到底占据了哪个子空间。
CoT 蒸馏里教师生成的 rationale 质量参差不齐,把好的坏的一股脑塞给学生会引入噪声。作者要的是能按质量区别对待的蒸馏方式。
做 LLM 对齐时,全局地改激活(比如 activation steering、ITI 类方法)容易伤通用能力,因为不同 token 对'是否需要纠偏'的需求完全不同。
能不能用极少的数据把 base model 的推理能力'激活'出来——作者直接推到极端:就一道题,用 critique fine-tuning 能走多远。这是在 R1-Zero 范式之后对'推理能力是激发不是教会'这条思路的进一步压力测试。
针对特定任务微调(Targeted SFT)时,基于梯度的核心集选择(Coreset Selection)计算开销过大,难以在 LLM 的数据规模下应用。
视觉-语言预训练数据来源繁杂、格式不一,缺乏一个统一的框架来标准化构建高质量的多模态数据集。
多模态大模型(MLLMs)内部神经元对特定多模态概念或行为的协同归因机制尚不清晰,单神经元分析无法解释复杂的跨模态交互。
指令微调数据选择中,单独评估每个样本的影响力(Influence)会忽略样本间的相互作用和冗余性,导致选出的数据同质化严重。
现有的 Web Agent 多依赖监督微调(SFT),难以在真实、动态的网页环境中完成复杂的多步交互。
现有的视觉 token 压缩方法致力于寻找并保留“重要”的 token,但这种基于重要性打分的策略计算复杂且容易破坏空间上下文。
这篇论文要解决的是:reward model 对输入表面变换是否稳健,尤其是当语义基本不变但措辞、格式或结构被改写时,评分会不会漂移。过去很多 RM 评测默认输入分布干净且风格稳定,因此高分模型可能只是学到浅层偏好,而不是稳定的人类价值判断。
这篇论文要解决的是:任务特定 instruction tuning 时,训练数据很多但质量不均,如何选出最有利于最终任务奖励的数据。传统做法常用 embedding 相似度、困惑度过滤或人工规则,这些指标和最终 reward 并不总一致,因此容易选到看起来干净但对任务收益有限的数据。
这篇论文要解决的是:Chain-of-Thought 很有用,但推理 token 太贵,如何在尽量不伤答案质量的前提下压缩 CoT。过去常见做法是直接蒸馏短答案或用摘要式压缩思路,但这会失去可控性,用户无法指定压缩程度,也难在成本与正确率之间做精细权衡。
LVLM 的 object hallucination 有一部分来自位置编码——图像 token 被摊平成一维序列后,视觉上相邻的 patch 在 PE 下可能很远,模型对视觉空间关系建模有偏,导致幻觉。
现有安全对齐主要靠 SFT/RLHF 在行为层面抑制有害输出,但已有工作发现 refusal 行为可以被单个方向向量抹掉(refusal direction ablation 越狱)。作者想把安全机制做得更 robust,而不是只停留在表面。
VLM 做 DPO 对齐时,偏好数据(chosen vs rejected)一般靠 LLM 或人工构造,容易引入和视觉内容无关的偏好噪声,导致'语言偏见'越对越强。作者想让 DPO 更对齐'视觉事实'。
推理模型的 long CoT 到底长什么结构?是线性推理、树状探索还是有回溯?现有分析多停留在文本层面或 token 级统计,缺少结构化视角。
音频-语言大模型(ALMs)发展迅速,但缺乏一个统一、全面的评估框架,导致不同模型在语音识别、音频理解和跨模态推理上的能力难以横向对比。
随着自回归推理模型(如 o1 范式)的兴起,模型能否在生成长思维链时,自主识别出“无用的想法(死胡同)”并进行回溯纠错,成为了一个关键的机制盲区。
传统的指令微调(SFT)通常是单向的:强迫模型去拟合人类提供的目标回答。这会导致“知识冲突”——当目标回答超出模型预训练知识边界时,强行拟合会引发幻觉或灾难性遗忘。
CLIP 等视觉-语言预训练模型高度依赖海量网络图文对,极易受到数据投毒(如恶意错配图文)的攻击,导致 InfoNCE 损失传播错误梯度。
使用强化学习优化 LLM 的上下文学习(ICL)能力时,单一的任务奖励信号过于稀疏且容易导致模型产生格式崩溃或奖励黑客(Reward Hacking)行为。
长文本解码时 KV Cache 占用大量显存,现有压缩方法多集中于 Token 维度的丢弃(序列剪枝),忽视了 Key Cache 在通道(特征维度)上的冗余。
当前的推理模型(如 o1 或强制 CoT 的模型)对所有查询都应用长思维链,导致在简单任务上浪费大量算力并增加推理延迟。
大模型的对齐(RLHF/DPO)通常在英文数据上进行,直接翻译偏好数据会导致质量下降,而多语言对齐往往面临“对齐税”,即非英语语言的性能或安全性受损。
这篇工作解决的是:如何在不改模型参数的前提下,用测试时组合多个专家分布来提升无损文本压缩。传统做法通常依赖单一语言模型或训练期集成,压缩收益受限于模型偏好固定,而测试时如果能按上下文动态混合专家,可能拿到更低的编码代价。
这篇工作讨论的是:在 pluralistic alignment 里,CoT 是否能帮助模型在多种合法价值取向之间做可控转向,而不是只学一个平均立场。现有对齐通常追求单一偏好最优解,容易把多元价值压平;而 steerable alignment 需要模型既能遵循特定立场,又不丢失推理过程,这正是 CoT 可能发挥作用的地方。
这篇工作要解决的是 LVLM hallucination 的一个具体来源:视觉注意力在浅层就出现 attention sinks,导致模型过早把注意力锁到少数无效位置,后续层再强也很难纠正。已有缓解幻觉的方法多在解码、对齐或后验校正层面动手,较少直接处理视觉流早期的信息路由失真。
这篇工作要解决的是:如何把 CLIP 有效地做成 MoE,而不是简单复制 ViT 或 LLM 里的稀疏专家套路。CLIP 的难点在于它是对比学习双塔结构,视觉和文本侧的对齐依赖共享嵌入空间,直接上 MoE 很容易破坏跨模态一致性或让专家退化成同质复制。
这篇工作解决的是:在真实事件检测这类高噪声、长尾且反馈昂贵的任务上,如何把 RL 训练有效 scale 起来。常规 RL 数据采样往往对样本难度和模型不确定性不敏感,容易把算力浪费在过易或过难样本上,导致 reasoner 学不到稳定策略。
这篇工作关注推理效率里的一个核心决策:模型什么时候该继续思考,什么时候该直接输出答案。现有长推理方法往往统一给固定 thinking budget,简单但浪费,因为不同样本难度差异很大;而完全自由生成又容易出现过度思考和时延失控。
这篇工作要回答的是:LLM 知识蒸馏会如何影响 membership inference 和 memorization 风险。过去大家常把蒸馏看成压缩与泛化手段,默认学生模型会更少记忆训练样本,但这一点在大模型知识转移里并没有被充分验证,尤其当教师本身已携带可恢复的训练痕迹时。
这篇工作要解决的是:如何检测模型是否泄露了受版权保护的训练数据,而且不只看输出复现,还看内部状态是否携带可识别痕迹。传统方法多依赖 prompt 诱导或字符串匹配,能抓到显式复述,但对隐式记忆、近似重构和未触发的内部存储不敏感。
现在影响 LLM 推理方向基本靠改 prompt 或加 CoT 示例,作者问:能不能在模型内部(激活层面)直接干预 thinking 过程的方向?类似 representation engineering,但针对 reasoning。
Agentic search 场景里训练 LLM 边想边搜:只有 outcome reward(最终答对)会让搜索策略学不稳,只有 process reward(奖励每次搜索是否合理)又容易 over-fit 到局部步骤。作者把两者混合训练。
推测解码(speculative decoding)通常假设 draft model 和 target model 都在 GPU 上运行,但当 GPU 显存不足以同时容纳两个模型时效率大打折扣。Dovetail 要解决的是如何利用 CPU/GPU 异构计算来高效实现推测解码,让 CPU 跑 draft model、GPU 跑 target model,并通过流水线隐藏延迟。
Reward model 训练中,不同偏好数据样本的质量差异很大,但现有方法对所有样本一视同仁地训练。DORM 要解决的是如何自动为偏好数据分配最优权重,使 reward model 更好地服务于下游对齐。
指令微调数据的质量参差不齐,如何从大量候选数据中自动筛选高质量样本是 SFT 阶段的关键问题。现有方法多依赖外部模型打分或简单启发式,缺乏对数据内在一致性的利用。
LLM 在选择题等结构化推理任务上的泛化能力很差——选项长度变化、问题类型切换、无关名词替换等表面变化就能显著影响模型表现。这揭示了 LLM 的推理可能依赖于表面模式而非真正的逻辑理解。
LLM 的后训练剪枝(post-training pruning)在高压缩比下性能下降严重。FISTAPruner 提出逐层剪枝方法来改善这一问题,核心思路是将剪枝问题分解为逐层的稀疏优化。
LLM 的不同 attention head 承担不同功能,但如何系统地识别和利用这些功能性 head 来提升模型能力仍不清楚。本文通过探测 attention head 的功能来理解和增强 LLM 的能力。
上下文压缩(如 KV Cache 驱逐或 Prompt 压缩)会破坏原有 Token 的位置编码(Position IDs)连续性,导致模型丢失相对位置感知并引发性能断崖。过去的方法往往直接保留稀疏的原始 ID 或粗暴重新编号,未能解决注意力机制的扰动问题。
现有的偏好对齐方法(如 DPO)主要依赖成对比较(Pairwise Comparison),未能充分利用人类标注中常见的列表级排序(Listwise Ranking)所包含的全局偏好密度信息。
这篇论文要回答一个被低估但很实际的问题:SFT 时使用更长上下文,是否会改变模型在短上下文任务上的行为,而不仅仅提升长上下文能力。过去很多人默认‘长数据只影响长任务’,或者把上下文长度当作吞吐与成本问题处理,而没有系统分析它如何重塑模型的响应风格、注意分配和短程决策。
这篇论文要解决的是:对于小语言模型,剪枝和量化到底谁更有效,这个问题在实践里常被经验判断替代,但未必有系统结论。过去很多工作分别优化剪枝或量化,却少有在统一设置下比较二者在质量、延迟、显存和可部署性上的真实 trade-off。
这篇论文要解决的是:当无法反传或显存/隐私受限时,零阶微调是一个可选方向,但它通常样本效率差、通信和存储成本高;如果再叠加量化,能否让 LLM 的 zero-order fine-tuning 真正可用。过去零阶方法在大模型上更多是概念验证,因为估计梯度本身就昂贵。
这篇论文要解决的是:把短视频内容治理从“每个违规类型各训一个小分类器”改成统一的多模态大模型判断,但现有 MLLM 的预训练分布和短视频平台数据差得太远,且违规定义往往依赖复杂规则与推理,直接拿来用效果不稳。过去做法主要靠任务拆分和重标注来补,代价高,而且跨问题泛化差;作者想用面向场景的 domain-adaptive pretraining 把感知、规则理解和推理一起补上。
这篇论文要解决的是:企业级多语言应用里,LLM 在非英语上的稳定性和一致性明显不足,即使接了 RAG 也会显著掉点,导致同一语义请求在不同语言上给出不同质量甚至不同结论。问题根源被作者归因为英语中心预训练和内部推理偏置;现有补救多依赖单语数据扩充或逐语种调参,成本高且难保跨语言对齐。
这篇论文要解决的是:英语是否真的是推理最省 token 的语言。现有 reasoning model 研究几乎默认用英语做 CoT 和评测,这让“token 效率”这个问题长期被忽略;但多语言预训练模型在不同语言上的分词长度、表达压缩率和推理习惯并不相同,英语未必最优。
这篇论文要解决的是:多语言模型在不同语言中是否真的保持一致的事实知识与指代理解。过去跨语言迁移通常看平均任务分数,但这无法回答同一知识在不同语言表达下是否被一致存取,更无法定位一致性在哪里断裂。作者因此用 code-mixed 的共指陈述来构造等价知识测试,并配合可解释分析看模型内部瓶颈。
在 few-shot 纠错提示中,错误答案是否必须配上详细的 rationale 才有用?作者质疑了这个默认假设。以前的做法(contrastive CoT、learn-from-mistakes 系列)都倾向于把错题和解释一起喂给模型,代价是数据贵、上下文长。
LLM 的组合泛化仍然薄弱——见过组件 A 和 B,新组合 A+B 的输入就容易崩。以往的做法(架构改、finetune、数据增强)要么扩展性差要么收益递减。作者想做一种在 finetune 之上插入的轻量干预。
判断某段文本是否出现在 LLM 的预训练数据中(membership inference)。现有方法多依赖 loss / perplexity 等整体分布指标,在大模型上信号弱、准确率有限。
SFT 的 label-efficient learning。以前的选样方法几乎都围绕 prompt-diversity 做(覆盖 prompt 空间),作者主张应该以 task-diversity 为核心维度:同一 task 内的 prompt 再多也带不来新信号。
定位 LLM 生成中 confabulation(编造事实)在内部表示里的位置。以往研究多在 attention head 或 logit 层面找信号,作者转向 latent feature 维度。
视觉语言模型(VLM)在多模态对齐中存在严重的表征割裂:给定文本实体能召回事实知识,但给定该实体的图像时却无法召回。
大型视觉语言模型(LVLM)如何从图像中提取文本(OCR)在内部机制上是一个黑盒,阻碍了对模型视觉文本理解能力的针对性优化。
虽然思维链(CoT)提升了大型视觉语言模型(LVLM)的性能,但模型输出的推理轨迹是否真实反映了其内部决策过程(即 CoT 忠实度)存疑,尤其是在面对视觉偏见时。
(注:论文摘要缺失,基于标题推断)大型语言模型的剪枝通常依赖局部的逐层指标或静态的全局阈值,难以在压缩率和模型性能之间取得最优平衡。
多语言预训练模型在非洲语言上的预训练数据严重偏向宗教文本或维基百科,导致其在社交媒体等快速演变、充满噪音的下游领域表现糟糕。
在神经机器翻译(NMT)中,企业术语往往是多义的,正确的翻译取决于上下文和风格指南。传统的硬性词典约束或输入端软约束难以处理这种歧义。
孟加拉语等形态丰富语言在传统BPE分词下面临词表膨胀和表示效率低下的问题。
预训练语料清洗和分词过程中对空白字符的压缩,破坏了诗歌等对空间排版高度敏感文本的结构语义。
现有幻觉检测多依赖外部知识库,缺乏从模型内部注意力机制直接提取幻觉信号的轻量级方法。
端侧LLM受限于显存,难以同时加载和并发处理多个针对不同任务微调的权重。
理论界长期存在连接主义与符号主义的对立,需要解释LLM如何在分布式向量空间中实现类似符号操作的能力。
现有长文本QA基准侧重信息检索,缺乏对长篇文学作品中复杂叙事结构和深层语义的有效评估。
现有特征归因方法静态且通用,难以根据特定任务需求定制解释,导致在复杂LLM任务中解释性差。
评估和对齐阶段,LLM 倾向于无条件赞同用户的观点或预设(阿谀奉承/Acquiescence Bias),导致其作为裁判或助手的客观性受损。
领域专有 Encoder 模型缺乏高质量训练数据,而直接使用 LLM 合成数据时,如何有效注入领域本体(Ontology)知识仍缺乏系统性结论。
静态 Benchmark 无法全面反映 LLM 的真实能力边界,需要一种自适应的方法来动态“诱导”并描绘模型能胜任的任务画像。
小参数量 LLM 的复杂推理能力存在明显瓶颈,传统的知识蒸馏难以有效传递大模型的内在推理逻辑。
LLM 在处理复杂数学推理时容易产生逻辑幻觉,自然语言的非形式化特性导致缺乏严格的验证机制。
在偏好优化(如 DPO/PPO)过程中,模型容易陷入模式崩溃,导致生成的论述缺乏多样性。
这篇工作要解决的是:adapter merging 常被当成低成本多任务适配的工程捷径,但它在性能和效率之间没有统一的优化准则,实际合并时常常要靠暴力试配方。作者把问题明确成一个 trade-off 导航问题:在给定预算下,怎么选合并策略,既不把推理/存储开销做高,也不把任务性能合并没了。
这篇工作要解决的是:所谓 sovereign LLM 往往被政策和市场需求推动,但缺少一套同时覆盖社会文化对齐与技术安全的评估框架,导致模型是否真的“适合本地部署”常被单一 benchmark 代替。作者把问题从一般能力评测转向“价值适配 + 安全边界”的双维度审视。
这篇工作要解决的是:LoRA 在低秩受限和数据有限的条件下也会出现 double descent 式的不稳定泛化,说明参数高效微调并不天然更稳。作者关注的不是再提一个更大的 rank,而是如何在低秩更新空间里抑制这种先好后坏再回升的训练行为。
这篇工作要解决的是:针对预训练 LLM 的 membership inference attack 往往忽略上下文,默认只要看目标样本本身的似然或暴露度就够了,但语言模型记忆和泄露常常强依赖提示、邻近 token 和语境匹配。作者因此提出 context-aware MIA,试图更真实地刻画训练样本是否能被推断出来。
这篇工作要解决的是:图像 caption 的好坏长期被 CIDEr、BLEU 等自动指标代理,但这些指标和真实“好 caption”之间并不总一致,尤其在信息覆盖、细节准确性、风格自然度和下游用途之间常有冲突。作者直接问‘什么样的 caption 才算好’,说明目标不是再刷一个 caption 模型,而是重审评价标准本身。
这篇工作要解决的是:小语言模型做 alignment 时容量更紧、容错更低,直接照搬大模型上的偏好优化或拒答训练,常会把有用能力一起损伤。作者提出 ReAlign,用 structured revision 的思路做小模型对齐,目标是在有限容量下把监督信号组织得更可学,而不是一味加更强偏好损失。
CoT prompting 在提升推理准确率的同时,可能掩盖了模型的幻觉线索——即 CoT 生成的中间步骤让幻觉更难被检测到。此前对 CoT 与幻觉之间关系的研究不够系统。
如何可证明地检测 LLM 是否在测试集上发生了数据污染(test set contamination)。现有检测方法多为统计启发式,缺乏可证明的保证。
LLM 推理(如 CoT)过程中,很多推理路径在早期就已经走向错误,但现有方法仍会完整生成整条链。如何通过部分奖励模型(partial reward model)在早期拒绝低质量推理路径,从而加速推理。
现有的 one-shot 剪枝方法(如 Wanda)主要针对英语 LLM 设计和评估,在多语言模型上表现不佳。本文改进 Wanda 使其更适合多语言 LLM 的剪枝。
实现无文本中间表示的语音到语音翻译(textless S2ST),用于无缝配音(dubbing)场景。传统方法依赖 ASR→MT→TTS 级联,引入延迟和错误累积。
如何高效地合成 Chain-of-Thought 推理数据,特别是针对需要双系统认知(System 1 直觉 + System 2 推理)的任务。现有 CoT 数据合成方法往往冗长且不够紧凑。
思维链(CoT)推理会生成大量冗余或无关的中间 token,这不仅增加了推理阶段的计算和显存开销,有时还会干扰模型自身的推理逻辑。
语音语言模型(Spoken LM)不仅处理文本内容,还处理声学特征(如口音、语调),但现有的社会偏见基准(如 BBQ)仅针对纯文本,无法评估声学特征引发的偏见。
LLM 在面对需要物理直觉或数值常识的“费米估算”问题时表现挣扎,单次贪婪解码往往会产生严重的幻觉或数量级错误。
在上下文学习(ICL)中,少样本示例(few-shot demos)的放置位置对模型最终的预测准确率有巨大影响,但这种位置偏置的具体规律缺乏系统性量化。
标准的预训练和 SFT 优化的是文本的流畅度和似然度,而 RLHF 往往迎合人类偏好(人类容易被自信但错误的详尽回答欺骗),这导致 LLM 频繁生成看似合理但缺乏事实依据的幻觉。
现有的奖励模型(Reward Models)通常只评估最终回答的质量,而忽略了回答是否忠实于检索到的上下文。这使得用标准 RM 来优化 RAG 系统时,模型容易脱离上下文产生幻觉。
评估 LLM-as-a-judge(用大模型做裁判)的准确性需要大量高质量的元评估(Meta-evaluation)数据,而完全依赖人工标注这些数据既昂贵又难以扩展。
现有的红蓝对抗(Red-Teaming)高度以英语和西方文化为中心。简单地将英语越狱提示词翻译成其他语言,会遗漏特定文化和地域语境下独有的安全漏洞。
这篇论文要解决的是:模型在量化、剪枝、权重损伤或其他退化后,能否在完全没有原始训练数据的情况下恢复精度。过去的精度恢复通常依赖少量校准集、蒸馏样本或再训练数据,这在隐私受限、模型来源不明或部署端修复场景里并不总是可行。
这篇工作关注自动化 red teaming 的两难:覆盖要广,但人工评估太慢;自动评估快,但往往噪声大、误报多。现有红队系统常在生成攻击样本和评估危险性之间失衡,因此很难既高效又可靠地扩展到大规模模型审计。
这篇论文要解决的是:如何识别 LLM 里哪些数据已经被成功“遗忘”,哪些其实还残留在模型中。现有 unlearning 评估经常依赖下游性能下降、模板攻击或少量案例检查,但这些信号要么太间接,要么覆盖不全;作者显然在尝试把 membership inference attack(成员推断攻击)变成 unlearned-data 识别工具。
这篇论文要解决的是:LLM agent 的过程监督太贵,人工逐步标注不可扩展,导致 agent 常学到结果导向而不是过程可靠性。现有方法往往只监督最终成败或少量轨迹,无法系统覆盖检索、规划、工具调用这些中间步骤的错误来源。
这篇论文解决的是 LVLM 幻觉问题,具体切入点是:如何在解码阶段更可靠地区分“来自图像的证据”和“来自语言先验的臆测”。许多现有方法要么改训练、要么做外部校验,部署成本较高;而纯解码式方法常因视觉信号太弱,无法稳定压制语言模型的惯性续写。
开放式生成的解码策略在'质量-多样性-重复'三角上很难兼顾:greedy 和低温采样易重复,高温采样又容易跑飞。作者用不确定性指标做自适应解码。
LVLM 是否知道自己不知道?纯文本 LLM 上的知识边界感知已经研究不少,但 LVLM 多了视觉通道,幻觉来源更复杂。作者做了系统性评测。
用生成模型自己的输出概率做 quality estimation(比如翻译质量评分)往往偏低、区分度不够。作者发现这是系统性的 underconfidence,并想办法修正。
风格可控的 TTS 数据太少、太窄——现有 style-prompted 数据集要么规模小,要么风格标签稀疏(只有情绪几类),导致 TTS 模型在自然语言风格指令下泛化差。
System prompt 泄漏是部署中的现实风险,但一直被当作黑盒输入/输出层面的问题。这篇想从模型内部 representation 去看:当模型“决定泄漏”时,内部是否有可识别的信号。
去毒通常靠外部分类器或额外训练,代价是流畅度下降或需要额外模型;想要一种不依赖外部判别器、推理时就能做的去毒解码。
标准对比学习(如 InfoNCE)将文档相关性简化为二元(正/负)标签,无法建模真实检索场景中多层级的相关性梯度,导致模型对难负样本和部分相关文档的区分能力不足。
当前 Agent 评估默认 LLM 选择某个工具是因为它“理解”该工具最合适,但这种偏好是否真正基于语义逻辑,还是仅仅是对提示词格式的过拟合?
将大规模视觉语言模型(VLM)扩展到多语言时,全参微调成本极高且容易导致灾难性遗忘(破坏原有的英文图文对齐能力)。
现有的多模态 RAG 系统通常将检索器和生成器作为两个独立的冻结模块,检索器无法根据生成器的最终输出质量来调整检索策略。
高分辨率图像在 MLLM 中会产生海量视觉 token,导致严重的 KV-cache 膨胀和注意力计算瓶颈,而其中大部分背景 token 对文本生成毫无帮助。
传统的 PEFT 方法(如 LoRA)在空间/权重域进行低秩更新,难以高效捕捉全局的、低频的语义模式,导致在复杂指令微调时表达能力受限。
将自然语言数学题转化为 Lean 4 形式化代码(Autoformalization)极度缺乏高质量平行语料,且依赖 SFT 难以满足编译器严苛的语法和类型要求。
这篇工作要解决的是:现有 LLM benchmark 很容易被预训练或后训练数据污染,导致评测分数越来越像记忆检测而不是能力测量。作者关注的不是再做一个更难题集,而是如何让 benchmark 在模型持续迭代、公开数据不断回流的环境里更抗知识泄漏,避免评测快速失效。
这篇工作要解决的是:持续学习中的模型合并常常忽略训练轨迹,只拿几个终态 checkpoint 做静态融合,因此难以同时保住旧知识和新知识。作者试图用训练过程信息做自适应迭代合并,以缓解 continual learning 里的遗忘与冲突。
这篇工作要解决的是:端到端 speech-to-speech dialogue 模型在长程对话记忆、事实一致性和风格延续上容易退化,作者尝试把检索增强直接接到语音到语音生成链路里。过去不少方法会先转文本再做 RAG,或者只在文本层加外部记忆,这会损失语音层信息并增加级联误差。
这篇工作要解决的是:LLM-based MT 的 reward modeling 仍然过于单一,单个分数难以同时覆盖忠实性、流畅性、术语、格式约束和细粒度错误类型,因此 RL 或 reranking 容易学偏。作者提出 RewardTree,目标是把翻译奖励从单值黑箱改成结构化框架。
这篇工作要解决的是:MoE 做参数高效微调时,专家路由和表示空间往往不够稳定,导致专家使用塌缩、任务区分不清或 PEFT 增益有限。作者提出用对比式表示来改进 MoE-PEFT,使专家分工更明确。
解决 LLM 中特定概念(如隐私、有害知识、版权内容)难以在参数层面被精准擦除,且容易损害模型通用能力的问题。
揭示并量化 LLM-as-a-Judge 框架中存在的严重自我不一致性(Self-Inconsistency)问题。
解决传统基于外部审查或输出过滤的 LLM 安全机制延迟高、且容易被复杂越狱攻击绕过的问题。
解决当前 LLM 概念编辑(Concept Editing)领域方法碎片化、缺乏统一评估和建模框架的问题。
解决 LLM 难以捕捉细粒度因果关系,导致在复杂逻辑推理任务中表现不佳的问题。
这篇论文要解决的是:能否用更便宜的“理解型”评测去替代昂贵的“生成型”评测,从而快速估计语言模型的真实生成能力。过去社区大量依赖开放式生成评测,但这类评测成本高、方差大、还容易被解码设置污染,因此值得重新寻找更稳定的代理指标。
这篇论文关注一个被单指令 benchmark 掩盖的问题:LLM 在面对多个同时成立的指令时,真实能力到底有多强,以及能否被可靠估计。过去很多指令跟随评测默认只有单一目标,因而高估了模型在复杂用户约束下的可用性。
这篇论文研究的是:语言模型不确定性估计到底有多大程度取决于 decoding,而不仅仅取决于模型本身。过去很多工作把采样、温度、beam search 当成后处理细节,但如果不确定性结论对解码非常敏感,那么当前大量风险评估可能并不稳固。
这篇论文要解决的是:LLM 做逻辑推理时,单链式生成容易前后不一致、遗漏分支,也缺乏严格证明结构。现有 CoT 往往擅长给出一条看似顺畅的路径,但不擅长系统探索可能的证明空间。
这篇工作关注的是:语音表征中的语法信息和概念信息是否按层次、按上下文逐步形成,而不是混在一起被一次性编码。过去对 speech representation 的分析常把语音当成单一表征黑箱,只看最终任务准确率,导致我们很难判断模型先学到的是音系、语法还是语义概念。
这篇工作要解决的是:通用 MLLM 在图表推理上常常看得见图却读不准逻辑,而纯文本 LLM 已经积累了更强的结构化推理能力,如何把后者蒸馏到前者。以往图表能力提升往往依赖额外标注数据或更强视觉编码器,但这两条路都昂贵,而且不一定真正补上推理短板。
这篇工作要解决的是:把 CISC 指令转成 RISC 指令时,纯程序综合或纯规则系统覆盖不足,而纯 LM 生成又缺少正确性保证,如何把语言建模和可验证测试结合起来。这个问题虽然偏程序语言,但其核心仍是 sequence modeling 在强约束空间里的可靠生成。
这篇工作关注的是:many-shot ICL 虽然强,但推理时要塞很多示例,成本高且上下文脆弱,能否把这种 in-context 行为蒸馏成一张更短、更稳定的“cheat sheet”。过去常见做法是直接减少 exemplars 或做 retrieval,但这通常牺牲性能,因为模型真正利用的不是单个示例,而是示例集合中归纳出的任务规则。
这篇工作要解决的是:现有 sycophancy 评测多是单轮问答,无法反映真实对话里模型如何在多轮互动中逐步迎合用户。这个问题现在值得重做,因为部署环境里大多数对齐失败不是单轮发生,而是在用户持续施压、暗示立场或暴露偏好后累积出现。
探讨预训练或SFT阶段注入的知识,是真正被模型理解并能用于下游推理,还是仅仅被浅层记忆。
如何在不扩展预训练上下文窗口、不增加KV Cache开销的情况下,让短上下文模型具备长文本推理能力。
揭示大模型安全对齐机制在面对“溯因推理风格”和“符号编码”组合时的脆弱性。
揭示跨层残差连接(Residual Connections)如何成为绕过大模型安全对齐的漏洞。
解决现有长上下文评估基准多局限于英语、且容易被简单的检索机制破解的问题。
剥离预训练数据记忆的干扰,严格评估大语言模型是否真正具备规划(Planning)能力。
这篇工作关注的是:用细粒度 persona prompting 生成的合成数据,词汇多样性到底有多高,是否真的比普通提示更丰富。当前合成数据讨论常把规模和任务覆盖放在前面,而忽略 lexical diversity;这会导致数据看起来多,实际上措辞高度重复,训练增益很快饱和。
这篇工作研究的是:当内容不变、只改表达格式时,LLM 是否会给出语义不一致的判断或回答。现有鲁棒性工作常测 paraphrase 或 prompt wording,但“格式变化”这个因素经常被低估;如果模型把列表、表格、JSON、自然段等形式当成不同语义线索,就会出现不该有的 meaning shift。
这篇工作要解决的是:LLM 权重剪枝里,二阶信息通常有效但代价太高,如何在不显式构造 Hessian 的情况下做高效剪枝。现有高质量 pruning 方法常依赖 Hessian 或其近似,计算和内存都重,不适合大模型快速压缩;作者提出 Hessian-free 的 SwiftPrune,目标是把二阶启发保留下来,同时去掉昂贵计算。
现有的 LLM 批评(Critique)模型通常依赖单一人类反馈或单一模型生成,难以覆盖多维度的缺陷,导致自我修正(Self-correction)的上限受限。
LLM 安全性研究(如越狱防御)与可解释性研究(如特征归因)通常脱节,缺乏系统性利用内部表示来理解和提升模型安全性的框架。
评估 CoT 等中间推理步骤的质量缺乏统一标准,通常只看最终答案对错(Outcome-based),忽视了推理过程的逻辑一致性和事实正确性。
知识编辑和遗忘领域普遍假设“找到存储知识的参数位置(Localization),然后修改它就能实现遗忘”,但这一假设的实际有效性存疑。
Test-time scaling(如 Self-Consistency)需要生成大量样本并进行多数投票,计算成本极高,且在文本空间容易被表面表达不同但语义相同的答案干扰。
小规模模型(Small Language Models)中注意力机制容易出现过度局部化(Attention Localization,即注意力坍缩到少数无意义 token 上),导致上下文利用率和推理能力下降。
LLM 的混合精度量化(不同层使用不同 bit 位)搜索空间巨大,手动设计规则难以在给定的显存/延迟约束下达到精度与压缩率的最优平衡。
Agentic RAG 在多步检索和生成中,决策(何时检索、检索什么)和执行(如何利用检索结果)容易出现级联错误,仅靠最终答案的反馈难以纠正中间步骤的偏差。
越狱攻击(Jailbreak)通常被视为输入空间的对抗扰动,但其在模型隐空间中究竟激活了什么特征、为何能绕过安全对齐尚不完全明确。
RAG 系统在处理多文档时性能下降,过去不清楚这究竟是因为总上下文变长了(Length),还是因为文档数量变多了(Distraction/Integration)。
这篇论文要解决的是模型合并对数据的依赖问题。现有 adaptive model merging 往往需要验证集或少量校准数据来估计不同模型/参数块的权重,但很多真实场景拿不到可用数据,或者数据本身会泄露隐私和分布偏置。
这篇论文要解决的是 reward model 对不同人群声音和偏好表达的系统性不公平。标准 reward model 常被当作单一“人类偏好”的代理,但真实人群在措辞、礼貌风格、文化习惯和风险偏好上差异很大,这会让某些群体的合理回答被系统性低估。
在 RAG 里"知识选择"(对检索回来的段落做重排/筛选)到底什么时候真正有用,这点一直靠经验。大家知道加个 reranker 有时涨点有时不涨,但缺乏系统的机制解释。
文本聚类里 LLM 和 embedding 模型一直是分工割裂的:embedding 给向量、LLM 给语义判断,两者谁都不帮对方。作者想让它们在同一个训练循环里互相提升。
MLLM 物体幻觉很多缓解方法都在语义层下手(prompt、decoding、对齐 loss),但视觉 token 本身在不同频段承载的信息差异很大,这个角度没人系统用过。
LLM 评测不稳定是老问题,prompt 模板、选项顺序、few-shot 示例都会让分数抖好几个点。现有做法要么多次重跑平均,要么固定一套模板,但两条路都有局限。
这篇论文要解决的问题是:现有 RAG 指令数据通常覆盖面窄、检索场景单一,导致模型学到的是固定套路而不是稳定的 retrieval-aware 行为。作者想用更丰富的检索增强指令来提升模型在真实检索链路中的泛化。
这篇论文解决的是测试时扩展(test-time scaling)常常发生在“生成之后再反思”阶段,导致错误思路已经外化,修正成本高且容易越修越偏。作者提出把额外算力前移到回答之前,让模型先形成内部计划或判断,再决定怎么说。
这篇论文要解决的是 LLM 往往难以同时兼顾快而直觉的响应与慢而规则化的推理,即所谓 dual cognition 的失衡问题。传统 RLHF/RLAIF 通常只优化单一结果分数,难以显式鼓励模型形成这两种认知模式的协同。
通用视觉语言模型(VLM)依赖单一视觉编码器(如 CLIP),在处理细粒度 OCR、密集检测等专业视觉任务时,受限于分辨率和特征提取偏好,能力严重不足。
CLIP 模型的注意力头中,对下游任务性能贡献最大的头,往往也是编码社会偏见最严重的头,导致模型性能与公平性难以兼得。
传统 RAG 强依赖独立的稠密向量模型(Embedding Models),增加了系统部署复杂度,且向量表征可能存在语义压缩瓶颈,导致检索不精准。
多模态模型在面对现实中低质量、缺失或噪声严重的模态数据时,标准交叉注意力机制容易被噪声误导,导致性能发生灾难性下降。
评估两个 LLM 的差异通常只能看 Benchmark 的聚合分数,无法用自然语言直观解释它们在微观行为、风格偏好或语义理解上的具体区别。
现有的长文本事实性评估方法(如基于 LLM 裁判)往往是确定性的,难以处理复杂长文本中事实的概率性、模糊性和逻辑依赖,容易产生误判。
对 LLM 进行不确定性量化(UQ)通常需要全参数的贝叶斯网络或模型集成,计算和显存开销极大,无法应用于千亿参数的大模型。
这篇论文的核心判断是:LLM 自己生成的反事实解释并不能可靠刻画它自己的决策边界。过去很多解释性做法默认模型既能给答案也能说明“什么改动会让答案改变”,但这种自我报告可能只是语言上合理,而不是机制上真实。
这篇工作要解决的是:主流 LLM 对本地社区语言变体和文化语境覆盖不足,导致即使“会该语言”,也未必能在真实社区场景中给出得体、准确、文化上可接受的回答。过去这类问题常被用更大通用模型或英文化数据绕开,但这通常不能真正补足地域语言与文化知识缺口。
这篇工作针对的是一个常见但工程上很痛的问题:如何把非结构化文档稳定地转成高质量、可扩展的 LLM 微调数据。过去很多团队靠人工规则、一次性脚本或让 LLM 直接自由生成训练样本,这常导致格式不统一、覆盖不可控、质量参差且难扩展到新文档类型。
这篇论文要解决的是:如何仅凭真实会话中的 in-situ 信号,为不同用户群体定制 LLM 回答,而且只在确有必要时才进行对齐调整。过去个性化或群体对齐往往依赖显式偏好数据、额外标注或对所有输入一律改写,这既贵,也容易把通用能力过度扭曲。
解决 LLM 在生成过程中容易被越狱或输出不安全内容的问题。传统的静态对齐容易被绕过,而后置过滤(Post-hoc filtering)成本高且延迟大。
多模态大模型(MLLM)的评估高度依赖人工,缺乏一个可靠的、能像 GPT-4 那样作为裁判的开源多模态评测模型。
多模态大模型(VLM)在面对用户提供的错误文本提示时,往往会放弃图像中的真实视觉证据,转而迎合用户的错误预设(即阿谀奉承 Sycophancy)。
RAG 系统生成的文本容易出现脱离检索上下文的幻觉(Out-of-Context),而用大模型做实时检测成本过高且延迟大。
LLM 在被赋予特定角色(Persona)时,其推理逻辑和输出风格会发生改变,但这种角色扮演是如何在模型内部电路上生效的尚不清楚。
南亚低资源语言在 LLM 预训练和评测中严重缺乏高质量数据和基准,导致多语言模型在这些语种上表现不佳。
除了通过 Prompt 让模型进行角色扮演,能否直接在隐空间(Latent Space)通过向量干预来改变模型的行为模式?
现有的安全对齐(如 RLHF)往往导致模型过度敏感(Oversensitivity),对正常的、略带边界的 prompt 也会拒绝回答,而静态评测无法捕捉这一动态交互缺陷。
在多语言推理中,强制模型用非英语(用户的母语)输出思维链(CoT)会导致准确率下降。过去通常假设模型具备跨语言的等效推理能力,但实际上思考语言与推理性能强绑定。
这篇工作要解决的是 LLM 推理里最难被系统优化同时又最影响首 token 延迟的 prefill 阶段。现有方法多半靠内核优化、KV cache 工程或近似注意力提速,但这些方案通常不改模型本身,因此在长上下文和大 batch 下仍受限于算量;而更激进的结构改动又容易破坏模型知识与输出分布。
这篇工作要解决的是 LLM 剪枝在实际推理里常见的一个失配:静态剪枝对所有输入一刀切,因此平均有效但对具体样本往往剪错位置,既浪费可裁剪冗余,也放大难例退化。这个问题现在值得重做,是因为部署侧越来越在意按样本自适应的算力分配,而 block-level 结构化剪枝比非结构化更可落地。
这篇工作要解决的是 reasoning-intensive retrieval 里“检索查询不会想”的问题。现有 RAG 和 dense retrieval 多数直接把原问题或轻量 reformulation 送进检索器,但在多跳、约束组合或需要中间假设的任务上,这种查询通常信息不完整,导致后续生成再强也吃不到对的证据。
这篇工作要解决的是 inference-time alignment 常见的两难:best-of-N 能提高回答质量,但采样代价高;树搜索能更系统地探索,但 rollout 成本和价值评估开销更高。现有方法经常在质量和时延之间只能取其一,尤其在推理型任务上更明显。
这篇工作要解决的是模型合并里任务特征相互覆盖的问题。现有 merge 方法常把多个 finetuned 权重简单线性组合、稀疏选择或按重要性重加权,但不同任务更新往往共享参数方向,结果是某个任务增强的同时把另一个任务冲掉,尤其在任务差异较大时更明显。
这篇工作要解决的是我们对语言模型 pragmatic reasoning 的评估过窄,导致模型看起来会“理解言外之意”,但其实可能只是在少数经典设定上记住了模式。过去不少研究集中在某个特定语用现象,如 implicature、reference 或 speaker-listener game,而缺少跨广泛概念的一致测量。
这篇工作要解决的是 RAG 对知识的使用常常“检到了但没用对”,而现有对齐方法多偏好输出风格、帮助性或事实性,缺少针对“哪些检索知识应被偏好吸收”的专门优化。结果是模型可能引用无关片段、忽视关键证据,或者在外部知识与参数记忆冲突时做出次优选择。
个性化偏好学习(personalized preference learning)的难点在于不同用户的偏好分布差异大,单一 reward model 或对齐策略难以同时满足多样化需求。以往方法要么忽略个性化,要么需要为每个用户单独训练,成本高。
长上下文推理中 KV cache 占用大量显存,需要淘汰部分 KV 条目来降低开销。现有 KV cache eviction 方法通常对所有层使用统一的淘汰预算,忽略了不同层对注意力信息的需求差异。
说话人生成(speaker generation)涉及多种模态信息(语音特征、面部外观、说话风格等),现有方法通常针对单一模态或任务设计,缺乏统一框架。本文提出一个多模态驱动的统一说话人生成方法。
LLM 在被问到自身行为时会给出声明(claims),但这些声明是否与其实际行为一致?本文通过反事实问题来检验 LLM 的自我声明与实际行为之间的一致性。
LLM 在推理时通常采用固定的采样策略(如恒定的 Temperature),导致在简单步骤上浪费算力,而在复杂、高不确定性的步骤上又缺乏足够的探索。
大型视觉-语言模型(LVLM)在对齐过程中经常出现严重的失调现象(如物体幻觉、跨模态干扰),但现有的对齐研究多停留在经验层面,缺乏从模型内部机制(可解释性)视角的深入剖析。
标准的参数高效微调(PEFT)方法如 LoRA 虽然降低了显存占用,但在极端预算受限的场景下仍显笨重,且低秩矩阵分解难以捕捉复杂任务所需的高阶权重交互。
这篇工作要解决的是:如何更省 token 地做 autoregressive LLM 的 disparity audit,也就是检测模型在不同群体、属性或提示条件下的系统性差异。传统审计往往依赖完整生成或大量采样,成本高且方差大;因此用单 token masked evaluation 替代长生成,是一个很实际的评测效率问题。
这篇工作关注 VLM 在组合推理上的薄弱点,尤其是模型能识别对象但难以稳定处理层级概念和多概念组合关系。以往很多方法靠更多指令数据或更强 backbone 硬顶性能,但没有显式组织概念结构;因此作者提出 COCO-Tree 这类概念树,目标是把“知道什么”变成“按层级和组合关系去推理”。
这篇工作要解决的是:能否在不大改模型权重的情况下,稳定地引导 LLM 的推理路径。过去常见做法是 LoRA、全量微调或 prompt engineering,但前两者成本不低,后者控制力度有限且不稳定;bias-only adaptation 试图用最小参数改动实现更可控的 reasoning steering。
这篇工作关注 VLM 的模型控制问题:如何在不重训模型的情况下,对视觉语言模型的输出风格、行为边界或安全属性进行稳健控制。现有控制手段常见于 prompt、解码约束或较重的微调,但在多模态场景下往往不够稳定,且容易被视觉输入扰动破坏。
这篇工作要解决的是多语言生成评测的覆盖和成本问题,尤其是很多语言缺少高质量人工基准,导致“支持任何语言”的生成能力很难可靠衡量。过去通常只测少数高资源语言,或者依赖昂贵人工评审;MUG-Eval 试图提供一个可扩展的 proxy evaluation framework。
现有的 LLM 知识遗忘(Unlearning)方法是否真正从权重中擦除了知识,还是仅仅掩盖了提取路径。
Transformer 模型对输入中的拼写错误(Typos)具有惊人的鲁棒性,但其将破碎的 Token 映射回正确语义的内部机制尚不明确。
计算影响函数(Influence Functions)以进行预训练数据归因时,海量参数导致的逆海森矩阵计算成本过高,难以在 LLM 和 Diffusion 模型上扩展。
视觉语言模型(VLM)缺乏细粒度、多步骤推理的评估基准,导致难以训练和评估用于多模态复杂任务的过程奖励模型(PRM)。
评估 LLM 生成内容的逻辑一致性通常依赖脆弱的黑盒 Prompting,缺乏一种能反映模型内部状态的白盒量化指标。
LLM 往往表现出过度自信,其输出的不确定性(Uncertainty)极易受到 Prompt 措辞的干扰,导致在未知领域产生严重幻觉。
这篇论文要解决的是:长上下文视频指令微调缺少足够强、足够简单的基线,导致很多方法改动很多却难判断真实增益来自哪里。视频 instruction tuning 常见问题是序列极长、帧冗余高、监督信号稀疏,复杂方法未必比扎实的工程基线更值得投入。
这篇论文要解决的是:现有安全对齐主要靠训练时约束,但推理时用户意图和风险级别是动态的,模型需要更细粒度、可调的安全生成控制。传统做法要么把安全都塞进 SFT/RLHF,要么用硬规则拦截;前者缺可控性,后者往往过于粗糙。
这篇论文要解决的是:LVLM 在视觉问答里看起来会“理解场景”,但在更接近人类自然交流的 referential communication 场景中,尤其是旁听式理解(overhearing),可能并不具备同等能力。以往评测多是明确指令、明确目标的单轮任务,回避了真实交流里隐含说话人意图、共同背景和指称消解的难点。
这篇论文要解决的是:参数高效微调通常默认所有可训练参数的重要性相近,但实际上不同参数对迁移和稳定性的贡献差异很大。过去很多方法只是减少可训练参数数量,却没有认真处理“该训练哪些、该隔离哪些”这个更细的问题。
从大量已发布 LLM 的结构参数出发,用数据驱动的方式回答'在给定预算下模型应该长什么样'这一实证问题。过去这个问题要么靠零散的 scaling law,要么靠厂商经验,缺乏把宽度/深度/头数/FFN 比例等超参联合考量的系统归纳。
LVLM 幻觉的根源究竟在'视觉侧'还是'语言侧'——这篇明确把矛头指向视觉表示本身不够强,而不是 LLM 解码端 overconfident。过去缓解方案大量集中在对比解码、RLHF、指令数据上,对视觉 tokenizer/编码器这一侧的干预相对少。
长上下文推理下 KV cache 又大又慢,现有稀疏检索方法要么粒度太粗(按 block 选)导致召回差,要么太细(token 级 attention)开销扛不住。
MLLM 对细粒度视觉(小物体、局部属性、文字)理解偏弱,核心是单一尺度的视觉特征不足以同时覆盖全局语义和局部细节。
能否在模型生成答案之前就预判它会不会胡编——即 pre-generation 层面的非事实性检测。现有幻觉检测大多在生成之后做(采样一致性、自检),代价高且晚。
VideoLLM 在时间敏感任务(什么时候该说话、定位事件、在线解说)上表现差,根源是训练格式——把整段视频一次性喂给模型再输出——本身就没教模型'时机感'。
PiSSA 类(基于主奇异分量初始化的 LoRA)在单卡上已经比普通 LoRA 好,但秩仍受单卡限制。作者要在分布式场景下把有效秩拉高,同时避免多卡适配器之间的冗余。
多模态大模型在处理图文混合输入时,其内部的激活模式(Activation Patterns)和模态路由机制尚不透明,导致计算存在冗余。
这篇论文要解决的是:MLLM 在指令微调后常出现视觉知识遗忘,语言对齐变强了,但视觉理解被冲淡。这个问题以前多用混合图文数据或保守学习率来缓解,但这类办法往往只是在吞掉遗忘,而没有直接处理图像梯度和语言梯度相互干扰的根因。
这篇论文要解决的是:test-time scaling 想提高答案质量,通常要生成更多推理样本,但代价高且置信度不可靠。过去做法要么盲目多采样,要么靠启发式停止规则,缺少一个能同时控制计算开销和答案可信度的校准机制。
这篇论文要解决的是:视觉语言理解模型如何在保持跨模态交互能力的同时降低计算成本。传统 cross-attention 融合往往效果好但开销大,尤其在高分辨率视觉 token 或长文本条件下,融合层容易成为延迟和显存瓶颈。
长文本生成评测长期卡在'真实任务'和'可验证性'二选一的矛盾里。已有 benchmark 要么是开放式写作(靠 LLM-as-judge,打分不稳),要么是人造的合成任务(可自动判分但脱离真实需求),作者想做一个既贴近真实场景又能自动可验证的长文生成 benchmark。
Whisper 原本只做 ASR+X→En 翻译,要做多方向语音翻译和文本翻译就得分别接不同模型或重训。作者想在 Whisper 框架里统一语音翻译、文本翻译、跨方向翻译四种任务。
LLM 在能解决子问题 A 和 B 的前提下,能不能自动解决 A+B 的组合问题?现有数学 benchmark 大多测单一技能,无法隔离'组合泛化'这个能力。
LLM unlearning(让模型忘记指定知识)目前要么靠访问原训练数据构造反例,要么做一次性梯度操作,效果不稳。作者想在不依赖原始遗忘数据的情况下做稳定的 unlearning。
VLM 在小样本/下游任务适配时,提示模板(prompt template)和多模态特征融合方式通常是手工或固定的,换任务就掉点。作者想让模板和融合都自适应。
大模型的水印和隐写技术通常依赖于在 token 级别修改 logits,但由于 BPE 等子词分词器的“分词不一致性”(前缀改变导致后续文本的分词边界发生变化),会导致解码错误或水印失效。这个问题在理论研究中常被忽略,但在实际部署中是致命的。
当前的越狱(Jailbreak)评估指标过度惩罚了模型,将模型输出的“困惑”或无意义的顺从(如格式上答应但内容胡言乱语)也算作越狱成功,导致真实的安全威胁被严重高估。
多轮对话的安全红队测试(Red Teaming)极其困难,因为随着对话轮数增加,攻击空间呈指数级膨胀,传统的单轮启发式或 RL 攻击很难在深层对话树中找到突破口。
代码数据能提升大模型的通用逻辑推理能力,而通用推理技术(如 CoT)也能反哺代码生成。这种双向促进现象在业界广为人知,但缺乏系统的理论梳理和实证归纳。
这篇工作要解决的是:长文本生成中的不确定性表达缺少系统 benchmark,导致模型是‘不知道但说得像知道’还是‘知道自己不确定’很难被量化比较。现有评测多关注事实正确性或校准分数,但对长段落中不确定性的语言形式、位置分布和任务适配性覆盖不足。
这篇工作要解决的是:LLM 的 post-training pipeline 很复杂,包含数据配方、超参、评测、迭代决策等大量人工试错,导致优化效率低且难复现。过去 AutoML 更多关注模型或超参搜索,但对现代 LLM 后训练这种多阶段、闭环、带评估反馈的流程支持不足。
这篇工作要解决的是:知识编辑往往能改对单个事实,但泛化差、容易副作用大,难以让模型学成可复用的‘知识学习器’。过去很多 editing 方法更像局部修补:命中目标快,但一离开模板或关系邻域就不稳。
这篇工作要解决的是:长链推理训练里,整条错误轨迹常被整体丢弃或整体降权,导致很多局部正确但后续跑偏的中间步骤没有被利用。这样做的问题是监督粒度太粗,模型学不到‘前半段是对的、错在后半段哪里’。
这篇工作要解决的是:LLM 的 tool use 训练往往按任务名或数据集名组织,忽略了任务背后的能力特征,导致训练覆盖不均、迁移性差。过去常见做法是堆更多工具调用样本,但没有明确回答‘哪些任务特征才是决定工具使用泛化的关键变量’。
这篇工作要解决的是:角色扮演对话中的奖励存在歧义,同一回复可能在角色一致性、帮助性、安全性和风格沉浸感之间相互拉扯,导致单一标量奖励难以稳定优化。现有方法若直接做 RLHF/DPO,往往把这些维度压成一个模糊偏好,训练信号容易互相冲突。
扩散模型在迭代去噪过程中对所有时间步和空间区域分配同等算力,导致推理延迟极高且存在大量冗余计算。
现有的幻觉检测方法过度依赖外部知识库或模型输出的概率置信度,而经过 RLHF 对齐的模型往往存在置信度校准不良(过度自信)的问题。
标准 LoRA 在所有层和模块上分配相同的秩(Rank),忽略了不同层对下游任务的敏感度差异,导致参数利用率次优。
大型动作模型(LAM/Agent)的训练缺乏统一的基础设施,不同环境(Web、OS、API)的轨迹数据格式各异,导致数据收集和模型训练的工程壁垒极高。
在复杂推理任务中,直接将大模型(Teacher)的完整思维链(CoT)蒸馏给小模型(Student)往往效果不佳,因为小模型难以一次性吸收过于复杂的推理逻辑。
这篇工作要解决的是:如何让奖励模型在大规模代码仓库的 fault localization 场景里学到“分层定位”能力,而不是只对单个文件或片段打分。已有方法通常把问题扁平化成候选片段排序,能在小范围代码修复里工作,但遇到跨文件依赖、仓库级调用链和长上下文时,奖励信号会变得稀疏且不稳定,因此值得单独建模。
这篇工作要解决的是:现有多模态评测对 text-rich image understanding 覆盖不足,导致我们很难知道 LMM 在复杂图文混合场景里到底是视觉理解问题、OCR 问题,还是跨模态推理问题。过去很多 benchmark 把图片当自然图像处理,文本密集图像只占很小比例,因此现在单独做 TIU-Bench 是有意义的。
针对 LLM 推理置信度估计的问题:单条 CoT 的 token 概率或 self-consistency 投票都没有利用多条推理路径之间的结构关系。作者想把多次采样得到的推理路径当成一张图来建模置信度,而不是简单数票。
情感支持对话里,策略(要安慰/要建议/要共情)和具体回复内容高度耦合,DPO/SFT 把它们混在一起训练时,策略选择被回复表面形式带偏。作者想把策略层和回复层的偏好学习解耦。
用 LLM 给检索/RAG 任务自动标注相关性,目前多数做法沿用传统 IR 的 topical relevance 标准,但 RAG 真正关心的是这条文档能否帮下游生成回答正确——两者不一定一致。作者要把标注目标改成 utility(对生成是否有用)而不是 relevance。
Reranker 目前要么是传统 cross-encoder(无推理),要么是 LLM pointwise/listwise 打分(弱推理),都没把重排当成一个需要多步推理的问题。作者用 RL 把 reranker 训成一个会思考的 agent。
LLM 面对不可完成(infeasible)的任务时倾向硬编——编造答案或给出看似合理的空洞回答,而不是承认任务做不了。作者要系统研究 LLM 识别不可行任务的能力。
现有 LLM benchmark 大量集中在 '记忆+应用' 层,但 Bloom's taxonomy 的高阶层(analysis/evaluation/metacognition)很少被显式考到。作者问:现在的 benchmark 到底在测什么能力?
LLM 驱动的搜索 agent 在多轮检索中缺乏自我改进能力——它们通常按固定策略检索,无法根据已获取的信息动态调整搜索策略。问题在于如何让 agent 在迭代搜索过程中自主演化查询和推理。
LLM 在叙事场景中遵循指令的可靠性不足——当指令嵌入在长叙事文本中时,模型容易忽略或错误执行。本文通过稀疏激活编辑来提升叙事场景下的指令遵循能力。
对齐后的 LLM 面对 jailbreak 攻击时防御能力不稳定。AdaSteer 的核心观察是:对齐过的 LLM 内部已经包含了区分安全/不安全请求的表示,可以利用这些内在表示来实现自适应防御,而不需要额外的安全分类器或重新训练。
我们真的知道 LLM 不知道什么吗?现有的知识探测(knowledge probing)方法在不同探测方式下给出不一致的结论——同一个事实,换一种问法模型就可能从'知道'变成'不知道'。本文系统研究了知识探测的一致性问题。
当前多模态大模型(MLLMs)的评测多局限于单一视觉或单一音频,缺乏对音视频联合建模(Audio-Visual)能力在效率、泛化和鲁棒性等多维度的系统性基准测试。
零阶优化(Zeroth-order Optimization, 如 MeZO)虽能通过避免反向传播大幅降低 LLM 微调显存,但梯度估计方差大、收敛极慢,难以在深层网络中稳定应用。
视觉语言模型(VLMs)在生成时容易过度依赖语言先验(Language Bias),导致“幻觉”——即根据文本惯性捏造图像中不存在的物体,忽视了真实的视觉输入。
LLM 在提供情感支持时,往往倾向于给出冰冷的逻辑建议或套路化的安慰,缺乏像人类心理咨询师那样基于策略的深度共情与多轮引导能力。
传统的对话强化学习(如无模型的 RLHF)难以对用户的长期信念状态(User Belief)和多轮交互动态进行有效建模,导致对话策略短视。
在极低参数预算的参数高效微调(PEFT)中,均匀分配可训练参数(如统一的 LoRA rank)无法适应不同 Transformer 层在特征提取上的差异性,导致性能次优。
视觉语言模型(VLM)的幻觉往往源于注意力机制的失效——模型在生成描述时,其注意力权重并没有真正聚焦在对应的视觉信息流上,而是被语言先验主导。
在上下文问答中,对所有问题使用固定的测试时计算量(Test-Time Compute,如固定的采样次数或检索深度)会导致简单问题算力浪费,而复杂问题算力不足。
这篇论文要解决的是:如何用一个统一模型同时覆盖多语言语音合成、声音克隆和语音编辑,而不是为每个任务和语言分别训练系统。过去这些能力往往拆成多个模块或多个模型,工程上可行,但会牺牲表示共享、跨任务迁移和部署复杂度。
这篇论文要解决的是:推荐系统能否像基础模型一样先做生成式预训练,再在零样本条件下完成推荐,而不是严重依赖任务特定监督和召回/排序流水线。传统推荐方法在各数据集上能做得很强,但迁移弱、冷启动差、任务边界重,这使‘foundation model for recommendation’成为值得单独验证的方向。
这篇论文要解决的是:蛋白质大模型通常从序列到结构或功能做预测,但如果直接把结构编码成 token,再做 structure-to-token 的语言建模,是否能更好地捕捉蛋白折叠与设计中的离散规律。过去结构信息常作为连续几何特征喂给图网络或扩散模型,而不是被离散化后纳入 LM 框架。
这篇论文要解决的是:神经网络训练是否存在可利用的子空间二分结构,从而在不显著损伤效果的前提下加速优化。过去训练加速通常靠优化器、低秩近似、梯度压缩或并行系统,而不是假设参数/梯度动态天然落在两类不同作用的子空间里。