Conference on Neural Information Processing Systems
这篇论文要解决的问题是:现有多模态基础模型大多仍然把文本和图像放进不同建模头或不同训练范式里,统一性不足,导致跨模态推理、理解和生成难以共享同一套概率形式与训练接口。作者试图证明 diffusion LM 不只是文本替代路线,还可以做成真正统一的 multimodal foundation model。
大模型预训练的多域数据配比此前依赖人工试错调参,大规模预训练场景下试错成本极高,没有系统的最优配比推导方法,仅能靠经验调整。
此前的大模型缩放定律仅拟合训练最终步的损失,无法预测全训练流程的损失曲线,也未纳入学习率退火的影响,无法在训练早期预估最终损失、优化退火策略。
此前行业普遍认为大语言模型的能力依赖自回归(AR)架构,扩散语言模型性能长期远低于同规模AR模型,无法在通用任务上达到AR模型的效果。
这篇工作要解决的是:高质量过滤和去重能提升 token 效率,但在大算力 regime 下,数据量会先成为瓶颈;问题不再是“要不要过滤”,而是“当优质数据不够时,重复训练多少次以及怎么改训练配方”。过去常见直觉是重复数据会更快过拟合,因此不如扩大低质量数据池;作者挑战了这个默认设定。
现有多模态大模型和扩散模型的桥接方法训练成本高,因为预训练LLM未在预训练阶段见过图像表示,还容易损失原有的推理能力。
现有大模型数据集 curation 依赖手动调优粗粒度数据桶配比、手工启发式过滤,调优成本高,无法细粒度评估单条数据的训练价值。
这篇工作解决的是预训练里一个非常现实的问题:怎样更高效地选数据,才能在相同算力下拿到更好的 speed-quality frontier。以往数据选择往往在样本级做 influence 估计,精细但代价很高,难以扩展到真正的大规模预训练;或者只做粗粒度启发式过滤,便宜但不够准。作者尝试在“可扩展”和“足够有信息”之间找到中间点。
这篇工作要解决的是 AR 语言模型的采样瓶颈能否被 diffusion LM 在理论上打破,而不是只停留在“并行采样看起来更快”的经验层面。扩散语言模型近年受到关注,但关于其采样误差如何随迭代步数、词表大小等因素缩放,理论仍然很薄弱;作者试图给出信息论视角下的收敛保证。
LLM 在混合数据(大量网页数据+少量知识密集数据)上训练时,从知识密集数据中获取知识的过程并不遵循平滑的 scaling law,而是会出现关于混合比例和模型规模的相变(phase transition)。这个现象之前未被系统研究。
这篇论文解决的是训练数据混合比例优化过于昂贵、而现有方法适用面又偏窄的问题。LLM 能力强依赖多域数据配比,但最优 mixture ratio 通常只能靠大量试验搜索,或者用只在特定设置下成立的近似方法。作者把这个问题明确建模成双层优化:内层训练模型,外层调数据权重;再进一步把它化简成更可做的单层惩罚形式。
这篇论文要解决的是:长上下文语言建模到底需要怎样的状态容量,现有基于两点 mutual information 的分析为什么不够。传统视角更关注相邻或成对 token 依赖,但长序列中的多 token 交互不能被简单二元统计完整刻画,因此很难解释模型为什么在真正长上下文上失效。
这篇工作要解决的是:Pre-LN Transformer 虽然稳定、易扩展,但层间 activation variance 指数增长,会让 residual shortcut 逐渐压过子层输出,深层学习能力被削弱。这个问题以前常被接受为 Pre-LN 的代价,或者通过改初始化、改归一化、改残差缩放来缓解,但这些方案常常伴随梯度变弱或兼容性问题。
这篇工作要解决的是:现有 RLVR 即便号称 zero setting,通常仍依赖人工整理的问题集和答案集,训练信号并没有真正摆脱人类数据瓶颈。随着 reasoning 模型继续扩展,这种对高质量人工题目的依赖既限制规模,也限制模型探索超出人类任务分布的新能力。
多语言 LLM 预训练中,各语言在训练语料中的配比如何确定是一个关键但困难的问题。难点在于语言之间存在复杂的跨语言交互(如相近语言可以互相迁移),且最优配比对数据集规模敏感。此前主要靠启发式或简单的比例缩放。
现有离散扩散语言模型的掩码过程是随机掩码,未利用语言的语义层次结构,生成过程中语义一致性差,推理效率低。
这篇工作要解决的是:稀疏 MoE 前向省算力,但反向更新也变稀疏,导致 router 学不到完整的专家比较信号,从而出现训练不稳和性能欠佳。过去 MoE 的注意力主要放在负载均衡、路由正则和 expert capacity 上,但一个更基础的问题是:没被激活的专家在该 token 上完全没有梯度,router 实际只在看见过的局部子集上做决策。
现有大模型数据选择方法几乎只针对英文,多语言数据缺乏有效的质量评估方法,导致多语言大模型的非英文语言性能差。
这篇工作要解决的是:现有 scaling law 往往基于一小族模型和冻结的超参数拟合,因此得出的最优配方经常把实验设计本身的偶然性误当成普适规律。过去的做法在单一架构内很方便,但它默认 width/depth/学习率/cooldown 等因素之间的相互作用可以忽略,这对真实大模型训练决策来说是明显不够的。
这篇工作解决的是:LLM 预训练里 weight decay 和 batch size 该如何随模型规模 N、数据规模 D 和批大小 B 一起缩放,而不是每次都靠昂贵 sweep 重新调。过去大家对学习率有一些经验规律,但对 AdamW 中 λ 与 B、D、N 的联动理解很弱,导致大规模训练前经常只能凭近邻配方外推,风险很高。
现有扩散语言模型的推理能力弱,没有类似AR模型的CoT推理框架,无法利用RL优化推理轨迹。
这篇论文要解决的是:diffusion language model 的推理能力,特别是在去噪步数较少时,明显落后于 AR LLM,而关键短板是 token 相关性没有被有效建模。作者认为 DLM 在每一步对 masked token 近似独立生成,这种条件独立假设会破坏 reasoning 所需的跨 token 协同。
这篇论文的核心结论很明确:在固定 token 预算下,预训练时一开始就用长 context 并不划算,短 context 往往能学到更好的通用能力。过去扩 context 常被默认视为无害升级,但作者的控制实验表明,长窗口会稀释优化效率,因此问题变成如何在训练效率和长上下文能力之间做更合理的调度。
传统数据并行训练的频繁同步开销随模型规模增大急剧上升,限制大模型训练缩放。现有低同步分布式训练方法DiLoCo已验证效果,但缺乏跨模型尺寸的缩放规律,无法为大规模落地提供可预测的超参指导。
这篇工作针对一个已经很热但不稳定的问题:multi-token prediction 作为训练目标常被认为能提升预训练效率,但一到微调或迁移场景,收益并不稳定。作者的判断是,问题不在于一次预测多个 token 这件事本身,而在于现有实现方式和标准 next-token 接口不够兼容。
这篇论文的核心结论是:在数据稀缺、但计算预算充足且会反复多轮扫同一批数据的设定下,masked diffusion LM 可以系统性优于 AR LM。过去 AR 一直是默认选择,diffusion LM 往往被认为训练和采样都更重、优势不明确;这篇工作重新打开这个问题,因为现代训练里数据瓶颈越来越常见,而不是单纯算力瓶颈。
Transformer首尾层使用梯度下降(GD)训练收敛困难,现有研究仅观察到Adam优化器效果优于GD,但未明确Zipf幂律分布的文本数据对优化器效果的影响机制,缺乏量化缩放规律指导优化器设计。
现有离散扩散语言模型在离散状态跃迁时丢失梯度信号,无法充分发挥迭代优化的优势。现有连续扩散语言模型效果弱于离散方法,且离散和连续扩散的对应关系不清晰,限制了扩散语言模型的性能提升。
这篇工作要解决的是:更大词表通常会带来更低 loss,但这到底是因为分词更合理,还是因为词频分布更不均衡、让模型更容易在少数高频词上拿分?过去业界常默认“大词表更好”,但很少在控制计算、数据和优化不变的条件下把分词收益和频率偏斜收益拆开看。
这篇论文要解决的是:test-time compute 扩展是否必须依赖生成更多 token,还是可以在 latent space 里通过更深的内部迭代来提升推理能力。主流 reasoning model 基本沿着 CoT 路线前进,但这种方式占上下文、依赖专门数据、且很多中间推理并不适合用自然语言表达。
传统注意力机制复杂度随上下文长度平方增长,现有长上下文注意力要么引入固定结构(如窗口、sink注意力)存在任务偏置,要么线性近似导致复杂推理任务性能不足。
现有多模态大模型依赖自回归(AR)架构,图像生成受限于光栅扫描顺序,因果上下文建模的推理能力受限,无法统一理解和生成任务的灵活建模。
现有语音生成模型要么是任务特定,要么多任务训练,没有统一的预训练微调范式,无法高效适配不同语音生成任务,训练成本高。
这篇工作要回答的是:预训练时加入 metadata 到底有没有用,以及哪类 metadata 真正在帮模型学得更快、更好。过去不少工作把 URL、质量分、主题标签都统称为“有益上下文”,但证据往往混在一起,难以判断收益来自哪一项,以及收益是训练加速还是单纯额外参数提示带来的。
这篇论文要解决的是 reasoning-oriented RL 在 base model 上如何用尽可能简单的配方稳定放大。DeepSeek-R1-Zero 之后,大家知道纯 RL 可以把基础模型推到更长、更强的推理轨迹,但复现门槛高,很多人默认需要复杂 reward、KL 正则或繁重工程。
现有自回归语言模型依赖离散token、单向上下文、单步解码,灵活性不足,无法利用双向上下文和块级解码的能力,限制了语言建模的设计空间。
现有LLM预训练数据混合依赖直觉或高成本试错,标准缩放律从小尺度实验外推到大尺度需要强假设,鲁棒性差,难以跨数据域和下游任务泛化。
现有预训练数据配比优化方法(domain reweighting)只针对单一目标任务优化,导致模型在该任务上过拟合、在其他 benchmark 上性能下降。核心问题是如何同时对多个目标任务做鲁棒的数据配比优化。
这篇工作要解决的是:预训练数据选择里常用的 embedding 相似度,到底有没有真的反映“对语言模型训练有用的相似性”。过去大家多半直接拿 retrieval embedding 或通用句向量做去重、聚类和多样性采样,但这些度量优化的目标不是 pretraining loss transfer,因此可能选出了“看起来相似”却不影响泛化的数据。
这篇工作要解决的是 diffusion LM 虽然并行生成快,但长窗口解码时越远离上下文越容易跑偏、重复和失去相关性。已有 semi-AR 方案通过分块来控场,但它牺牲了双向建模,还把时间区间拉长,结果是既损速度,也损了 diffusion LM 最有价值的并行性。
Masked Diffusion Model (MDM) 的采样路径效率低下:不同位置的 token 预测难度随 unmask 状态差异很大,但现有 MDM 对采样路径缺乏结构化设计,导致生成质量和效率都不理想。
自回归语言模型在预训练过程中的行为变化模式是否跨架构(Transformer/Mamba/RWKV)、跨数据集、跨规模一致?此前缺乏系统性的大规模实证。
Model merging 在 posttrain 阶段已被广泛使用,但在大规模预训练中的系统性应用和理解仍然不足——特别是如何利用 checkpoint merging 来替代或增强 annealing,降低训练成本。
这篇 paper 试图打破 tokenizer 固定粒度这一前提:语言模型为什么必须被迫在预先切好的 token 上工作。传统 BPE/Unigram 在训练前就冻结了字节到词的分块方式,模型只能接受这种离散化选择带来的上下文长度、预测步长和语义边界误差;作者认为这限制了从原始 bytes 到高层语义的联合建模。
这篇论文要解决的是 diffusion language model 为何持续落后于 autoregressive LM,以及能否用一个针对性的机制补上这个缺口。作者的判断很直接:问题不只是训练目标更难,而是前向加噪时把少量“锚点 token”过早抹掉了,导致后续重建失去真正决定句子语义的条件,尤其是关键词和低频词;过去的方法基本把所有 token 一视同仁地腐蚀,因此在 likelihood 和生成质量上都吃亏。
这篇工作要解决的是:随着模型和数据继续变大,固定预算下依赖显式 decay 的学习率日程越来越不合适,但替代方案要么仍依赖手工设定阶段边界,要么需要额外平均参数内存。过去 cosine、WSD、weight averaging 都是可用工程解,但它们对“训练进行到哪一步该怎么变”仍然有较强先验,缺少更自洽的优化视角。
这篇工作要解决的是:Adam 为什么在 transformer LM 训练里这么强,现有解释并不充分,而很多简化版方法虽然更容易分析,却常常复现不了 Adam 的效果。过去研究常把 Adam 的关键优势归因于 sign、momentum 或 clipping 等单个因素,但这些拆解是否真的保留了“secret sauce”,缺少大规模实证验证。
现代 LM 训练被分成多个阶段(pretrain → continued pretrain → SFT → RL),下游开发者很难评估每个阶段的设计选择对最终能力的影响。缺少一个系统性的、透明的训练动态分析框架。
这篇论文要回答的是:diffusion LLM 能不能像 AR reasoning model 一样,通过在线 RL 把推理能力继续往上做。过去 reasoning scaling 基本发生在 left-to-right 自回归范式里,而 diffusion/ masked 风格 LM 虽然在建模上越来越强,但是否适配 SFT+RL 这套推理增强路径并不清楚。
这篇论文要解决的是:如何做真正原生统一的多模态模型,同时兼顾文本理解、图像/视频生成和跨模态可扩展性,而不是把多个子系统松散拼接。过去很多 unified multimodal work 在“统一”上并不彻底,要么视觉生成部分另起一个 diffusion/decoder,要么视频扩展成本很高,导致预训练目标和表示空间不一致。
现有视觉语言模型(VLM)几乎全是自回归(AR)架构,推理速度受限于逐 token 生成,且难以做受控生成(如强制输出格式)。离散扩散模型(DM)支持并行解码和双向上下文,但在多模态任务上几乎未被探索。
这篇论文要解决的是:离散 diffusion LM 虽然能并行采样 token,但 decoder-only 架构让每一步去噪都要跑整网,结果训练和推理成本都很高。过去大家默认 diffusion LM 就该像 AR LLM 一样用单塔 decoder,但这种做法没有利用去噪任务里‘干净上下文表示’和‘噪声 token 修复’其实是两类不同计算。
这篇论文要解决的是大规模 LLM 推理强化学习难以复现,尤其是像 o1 / R1 这类系统里最关键的训练细节长期不透明。社区并不缺 RL 名词,缺的是在 30B 级模型上稳定跑通、能拿到有竞争力数学成绩的开源系统和算法细节。
这篇论文要解决的是:如何让小规模实验对大模型训练更可预测,避免 scaling gap 让很多小规模结论在生产规模失效。现有如 Chinchilla law 的经验公式在外推时常不够稳,尤其当需要比较不同训练策略或预算配置时,误差会直接转化成昂贵试错。
这篇论文要解决的是:多语言数据过滤长期依赖规则启发式,而 model-based filtering 的成功主要停留在英文,非英文语料尤其是低资源语言缺少透明、可复用的高质量筛选方案。过去的回避方式是直接套英文规则或做粗粒度清洗,但这往往会在不同脚本、语言家族和资源条件下失效,最终影响多语言预训练的效率和公平性。
预训练数据(如 Common Crawl)没有天然的领域划分,手动标注(如 The Pile)成本高昂,导致寻找最优数据配比一直是个难题。Nemotron-CLIMB 提出一个自动化框架,通过聚类发现数据领域,再迭代搜索最优配比。
这篇工作要解决的核心问题是:如果只用公共领域和开放许可文本,能否构建足够大、足够高质量的预训练语料,让 LLM 在法律与伦理更可接受的前提下仍保持竞争力。过去开放数据集要么规模不够,要么质量不稳,因此业界默认高性能预训练仍离不开大量授权不清的网页文本。
这篇工作要解决的是:GRPO 在二值奖励的 reasoning RL 里会系统性引入题目难度偏置,导致优化目标并不真正对应“让正确答案更可能、错误答案更不可能”。现有做法把同题组内样本相对比较当作优势函数,简单且好用,但它会把“题难导致整体 reward 低”和“回答质量差”混在一起,因此在大规模 reasoning 训练里容易产生不稳定或次优更新。
这篇工作要解决的是:现有数据价值评估方法很难扩展到 LLM 规模,尤其 influence functions 在海量训练数据和大模型上算力、显存都不可承受。这个问题以前不是不重要,而是太难算,所以数据归因、数据付费和数据清洗在 LLM 上长期缺少真正可操作的工具。
现有LLM数学推理用的RL算法(如GRPO、DAPO)采用序列级优势估计,同一条rollout内所有token的优势值完全相同,无法捕捉不同token对推理正确性的差异化贡献;此前的细粒度优势估计方案均需引入额外辅助模型,会提升训练复杂度。
可验证奖励RL(RLVR)提升LLM推理能力的底层机制尚不明确,现有工作均从算法层面优化,未从token熵的角度分析不同token对RL效果的贡献,导致优化方向盲目。
这篇论文要解决的是:diffusion LLM 虽然理论上能并行生成 token,但实际速度往往仍打不过 AR 模型,因为并行得太激进会伤质量,并行得太保守又失去速度优势。也就是说,dLLM 的问题不是“能不能并行”,而是“每一步该并行多少 token 才划算”。
这篇论文要解决的是 LLM 在反复使用合成数据自训练时,性能为什么会停滞甚至崩塌,以及需要多强的数据筛选才能避免这个问题。过去很多工作经验上发现“高质量合成数据有用”,但缺少一个统一理论解释什么叫足够好、弱数据到底有没有长期价值,因此实践上容易在数据闭环里越训越窄。
这篇论文要解决的是超大规模 LLM 预训练在上万卡集群上常被网络拓扑与通信模式错配拖慢,导致理论算力和实际 MFU 之间存在明显落差。过去很多优化集中在并行策略和算子层,但当训练跨越数千节点后,物理网络结构、带宽争用和作业调度会成为一等瓶颈,尤其是 LLM 训练的通信并不是均匀持续流,而是稀疏但高峰值的 group-wise burst。
大规模多任务/多域预训练的数据混合采样策略此前均聚焦于缓解梯度冲突,但实际大规模预训练场景(多语言、多域)下梯度冲突往往很小甚至不存在,现有方法的优化目标与实际场景不匹配,采样效率偏低。
现有RL for reasoning算法(如PPO、GRPO)的rollout采样开销极高,需对所有prompt做采样,但实际上大部分prompt的采样结果对训练无增益;现有方法未做预rollout的prompt筛选,导致计算资源浪费。
现有长上下文预训练的上下文并行方法需要在设备间广播完整激活值,通信开销极高,仅适合高速集群,无法在低带宽的去中心化训练场景下落地。
现有语音语言模型的语音tokenizer存在三个核心局限:依赖多层残差矢量量化或高帧率,需要预训练辅助模型做语义蒸馏,需要复杂的两阶段训练流程,导致部署成本高、语义损失大。
离散扩散模型中掩码扩散的效果始终优于其他渐进式去噪的离散扩散方法,但此前没有合理解释其生效的底层原因,导致离散扩散的设计缺乏明确指导方向。
现有RLVR方法都是同策略的,只能学习模型自身输出的推理轨迹,无法获取超出模型初始能力的推理能力,限制了大模型推理能力的上限。
现有序列建模架构研究大多聚焦注意力效率优化,且采用混合域预训练设置做评估,无法准确揭示不同架构对预训练LM基础能力的真实影响,导致架构迭代的能力增益常被高估或错配。
用 RL 训练推理 LM 依赖模型在初始化时就有一定概率探索到正确答案,这在难题上是个硬瓶颈。同时,推理 LM 的一个核心用途是做蒸馏 teacher 而非直接部署。现有方法没有针对'作为 teacher'这个目标来优化。
这篇论文针对自回归语言模型一个结构性弱点:左到右生成的错误会累积,而且已生成 token 不可回头修改。标准 AR 采样一旦前面走偏,后面只能在错误前缀上继续补全,这对长程推理和代码尤其伤。作者提出的问题很直接:不改模型架构,能不能通过采样机制允许模型回看并纠正此前一小段 token,从而降低误差传播。
这篇论文提出的核心问题是:能否把模型扩展和部署灵活性直接写进表示结构里,而不是每次都重新训一整套不同尺寸的模型。现有 scaling 通常是沿参数量单向放大,小模型到大模型之间缺乏真正可复用的因果式接口;同时部署端想要多个子模型尺寸,往往需要额外蒸馏或裁剪。作者希望通过一种链式表示结构,让模型天然支持渐进扩容和多尺寸子模型导出。
离散扩散模型(discrete diffusion models)近年在语言建模中受到关注,但用策略梯度方法对其做 RLHF 式微调非常困难——离散空间的梯度估计方差大、效率低,且缺乏理论保证。
这篇工作要解决的是:AR LLM 明明在很多任务里已经隐式表现出可并行的结构,但生成过程仍被 next-token 顺序解码锁死,导致推理延迟高、系统利用率低。过去加速大多依赖 speculative decoding 或工程层并行,而不是改变模型本身的生成范式;作者尝试让模型直接学会‘如何拆任务、并行做、再无损合并’。
这篇论文要解决的核心问题是:离散 diffusion LM 的生成能力为什么长期落后于 AR LM,以及能否在不放弃 diffusion 可控性的前提下补上这个差距。过去很多离散 diffusion 方法受限于 Markov 假设,每一步只能看当前噪声状态,早期错误很难在后续被全局纠正,这使它们在长程依赖和精细序列建模上吃亏。
现有基于RL优化的LLM推理方法在长上下文下的自校正搜索行为精度低、置信度差,输出冗余长响应,同时直觉判断和结果校验能力存在明显短板。
现有主流的BPE、Unigram等分词算法都基于压缩目标设计,没有从形式化优化角度定义分词的最优目标,存在分词一致性差、跨语域适配性弱的问题。
这篇工作解决的是语音语言模型里的一个核心建模选择:是否必须先把语音离散化成 code 再做 LM。现有 AudioLM / VALL-E 一类路线很大程度依赖残差向量量化和层级 token 结构,但这会引入量化误差、系统复杂度和长链条训练问题;作者想证明,在连续潜空间里直接做自回归分布建模也可以高效成立。
这篇工作研究的是 ICL 在预训练中如何形成,以及为什么模型会从“识别任务”逐步滑向“过度依赖上下文学习任务本身”。已有经验知道 ICL 同时包含 task recognition 和 task learning 两种模式,但这些能力何时出现、如何相互竞争、为什么后期会出现 in-context overfitting,以前缺少可分析的动力学解释。
这篇论文要回答的核心问题是:PRM(过程奖励模型)是不是提升推理能力的必要条件。过去一类工作默认把结果监督和过程监督分开看,认为想要稳定提升长链条推理,必须额外引入对中间步骤的监督;但 DeepSeek-R1 一类结果提示,面向解题成功率的纯 RL 也可能自然长出过程判断能力,因此这个假设值得被系统检验。
这篇论文要解决的是:能不能在不保存 Adam 式优化器状态的前提下,仍然保留大模型训练所需的收敛速度和稳定性。对超大规模训练来说,优化器状态占掉大量显存和通信带宽,已经不只是工程细节;但完全退回普通 SGD 又通常收敛太慢,所以需要一种真正可替代的 stateless optimizer 设计原则。
这篇论文解决的是视觉 tokenizer 与下游生成/理解目标脱节的问题。现有视觉 tokenization 往往先独立按重建误差训练,再冻结给自回归或多模态模型使用,默认“重建好”就等于“对下游任务足够好”;但一旦任务依赖文本识别、细粒度语义或生成可控性,这种假设经常失效,tokenizer 就成了表示瓶颈。
这篇工作要解决的是:长视频生成里,纯 diffusion 擅长局部细节和连续空间建模,但跨长时程一致性和自回归扩展性不足;纯 AR token 方案又容易受离散 tokenizer 约束,运动建模不自然。过去这两类方法通常各取一边,很少在连续 latent 空间里把 AR 的时序展开能力和 diffusion 的生成优势真正合到一起。
这篇工作解决的是:离散 masked diffusion 在采样时相邻步骤经常处理几乎没变的序列,模型重复看相同输入,算力浪费明显。传统 MDM 把 token 状态简化成 mask / unmask 两态,这种设计虽然简单,但去噪粒度太粗,导致很多步骤信息增量极小。
LLM 对 RL 微调的响应极不一致——有的模型大幅提升,有的停滞甚至退化。根本原因是 SFT 阶段产出的模型不一定具备 RL 可有效利用的特性。此前缺乏系统分析来解释这种差异,也没有通用的预处理方案来让模型为 RL 做好准备。
深层 Transformer 中不同归一化方案(Post-LN、Pre-LN、Mix-LN、Peri-LN、nGPT 等)对 token 表示演化的影响缺乏统一的理论理解。实践中选择归一化方案主要靠经验,缺少原则性的比较框架。
这篇工作要解决的是:深层 Transformer 随深度扩展时,常见 parameterization 往往不能把在小模型上调好的超参稳定迁移过去,或者虽然能迁移,却把训练推入 lazy learning 区域,导致深度没有真正发挥作用。过去大家经常在宽度 scaling 上讨论参数化,但对深度 scaling 的超参可迁移性和非惰性学习条件关注不够,结果就是越深越难训,只能反复重调学习率和优化器设置。
这篇论文要解决的是:LLM 全量训练几乎默认依赖 BF16/FP16,而更激进的低精度通常只能做推理或部分训练环节,无法在真实大规模 token 预算下稳定完成端到端训练。真正的难点不只是前向精度,而是反向和参数更新在极低比特下的噪声积累与训练失稳。
这篇论文要回答的是:为什么不同 LM 架构在学术规模预训练中表现差异难以稳定复现,以及有没有一种简单结构能系统性补上现有序列模型在横向信息流上的短板。作者认为真实预训练太嘈杂,随机性掩盖了架构差异,所以先用受控合成预训练任务把能力拆开测,再寻找稳定有效的结构成分。
这篇工作要解决的是多模态大模型做 RL 推理训练时两个很实际的优化难点:奖励太稀疏,以及 advantage 很快塌成接近零,导致模型虽然有视觉和语言能力,但学不出稳定的推理改进。以往做法通常直接在原问题空间上采样多条轨迹,探索面太窄,视觉问答里尤其容易因为单题可验证信号弱而训练发散或停滞。
这篇工作要解决的是:能不能在完全没有监督信号的情况下提升 LLM 的推理能力。现有 reasoning 增强几乎都依赖 SFT、答案验证器、偏好模型或可执行奖励,这使得高质量推理训练被数据和评测器强绑定;作者认为如果只靠无标注问题本身就能提供足够训练信号,那么 reasoning post-train 的成本结构会变。
这篇工作要解决的是:Transformer 里常见的 sparse attention 模式究竟为什么会在训练中突然出现,以及它何时出现、受哪些因素控制。过去大家经常把这类现象归到“涌现”上,但对背后的训练动力学、数据分布作用和重复样本的影响缺少系统解释。
现有MoE LLM常用的辅助负载均衡损失会导致专家路由重叠、分配过于均匀,抑制专家专业化程度,导致后训练阶段性能下降。
现有统一多模态大模型(MLLM)的训练和测试流程割裂,尤其是图像生成和理解能力难以在同一框架下协同优化,生成结果的语义对齐度低。
这篇工作要解决的是:过程奖励模型 PRM 虽然被广泛用来指导 test-time scaling,但它们输出的成功概率往往不校准,尤其在用较小模型续写推理轨迹时会明显过度乐观。这样的问题以前常被忽略,因为 PRM 排序能力够用时系统也能跑,但一旦把它当作预算分配或搜索停止的依据,校准误差就会直接转化为算力浪费和错误搜索。
现有基于奖励模型的对齐方法中,推理阶段的Best-of-N等策略会对有缺陷的奖励模型做过度优化,导致奖励破解,反而降低输出的真实对齐度和性能。
这篇工作要解决的是:语言模型的 embedding 层长期是相对欠扩展的瓶颈,直接扩大词表或提高 token 维度会推高训练和解码成本。过去大家更多扩 transformer 主干,因为 embedding 扩容往往不划算,尤其会增加 softmax 和缓存负担;但这也意味着模型对高频短语和局部上下文结构的表示能力被低估了。
这篇工作解决的是:LLM 的 RL 微调往往在样本效率、稳定性和实现复杂度之间三难,尤其常依赖 KL 正则来压住策略漂移。传统 on-policy REINFORCE 简单但利用数据差,off-policy 方法又常因重要性采样方差过大而不稳,所以社区一直在找既稳又便宜的折中。
现有基于可验证奖励的RL(RLVR)优化LLM推理的方法默认正负样本的强化信号都需要,没有单独评估负样本惩罚的贡献,导致训练效率低、数据利用率差。
这篇论文要回答的核心问题是:扩散语言模型,尤其是 Masked Diffusion Model(MDM),在推理效率上到底是否先天优于或劣于自回归模型。这个问题过去常被用“并行采样更多 token”直接判成潜在更快,但实际开源模型往往需要更多步数才能追平精度,导致总成本反而更高,因此需要把“快”拆开到具体评价指标上重新分析。
这篇论文要解决的是视觉生成和视觉理解长期依赖不同 tokenizer,导致统一预训练很难做。此前常见方案把 VQ-VAE 的重建目标和 CLIP 式语义监督硬拼在一起,但训练经常出现明显冲突;作者认为症结不在目标本身互斥,而在离散 token 空间容量不够,无法同时保留重建细节和语义信息。
这篇论文要解决的是大语音语言模型在流式场景下首个音频 token 生成延迟过高的问题。现有语音对话系统往往在理解上已经够强,但第一段语音迟迟出不来,交互体验会明显受损;原因通常不是总吞吐,而是音频 token 自回归生成太慢,尤其首包延迟难压。
这篇论文要解决的是:传统 reward model 过度依赖绝对偏好标注,难扩展、泛化也差,而很多对齐目标其实更像“区分两种策略谁更接近目标行为”。过去 RM 通常学一个静态的好坏分数,但这在多任务、多风格、可迁移对齐里不够自然,因为奖励往往是相对的而不是绝对的。
这篇论文要解决的是:pause tokens 为何能稳定提升 Transformer 在语言和数学任务上的表现,它们究竟只是训练技巧,还是确实增加了模型可表达的计算能力。过去大家知道加一些“...”这类停顿 token 经常有效,但缺少理论解释,因此无法判断它是 optimization artifact 还是结构性增益。
Scaling law 研究大多只关注最终 loss,忽略了完整的 loss 动态轨迹,也没有刻画学习率调度(LRS)如何影响 scaling 行为。这两个问题对实际 pretrain 调参至关重要但缺乏理论指导。
现有LLM缩放范式只有参数缩放和推理时token缩放两种,都需要付出极高的空间或时间成本,没有利用并行计算的潜力做高效缩放。
这篇论文要解决的是:强化学习提升推理常常依赖外部监督,如正确答案、过程奖励或 verifier,而这些信号昂贵且覆盖有限。作者想找到一种不依赖外部标注的内生奖励,让模型仅靠自身不同推理轨迹之间的一致性结构来学习更可靠的 reasoning。
这篇论文要解决的是:上下文相关稀疏推理在单样本或小 batch 下有效,但 batch 和序列长度一大,激活神经元的并集迅速变密,吞吐优势消失。很多工作默认 sparsity 的主战场在 MLP 层,作者指出这个判断在大规模 batched serving 条件下会失效,因为 MLP 稀疏性被 batching 冲淡,而 attention 成本却持续放大。
这篇工作解决的是:线性 RNN / xLSTM 虽然理论上对序列长度线性扩展,但实际 kernel 常常吃内存带宽、算术强度低,跑不出相对 Flash Attention 的应有优势。已有 Flash Linear Attention 通过 chunk 并行让线性 RNN 在工程上变快,但 chunk size 受限,导致大量中间状态要落到 GPU memory,性能反而被 memory traffic 卡住。
生成模型RL微调阶段探索与利用难以平衡,现有固定散度正则化存在固有两难:强正则保留预训练能力但限制对齐效果,弱正则提升对齐程度但易引发训练不稳定或奖励黑客。
统一多模态大模型的理解和生成能力难以通过现有对齐方法同时提升,现有RL方案多针对单一能力优化,易导致另一能力退化。
这篇论文要解决的是:低秩预训练里常用的‘保留主导子空间’策略,会把优化逐渐困在几乎不变的子空间里。作者指出,虽然 dominant subspace 看上去最能保留梯度信息,但在预训练过程中它很快冻结,结果是权重更新长期沿着相似方向走,探索能力不足,形成 frozen subspace 问题。
这篇论文要解决的是:在专业领域或小数据场景下,RL 提升 LLM 推理能力往往受限于两样东西——高质量指令和可验证奖励都稀缺。现有 RL for reasoning 通常默认这两类信号充足,但现实里越专门的领域越拿不到,因此训练难以启动,更别说持续放大。
DPO 等直接对齐方法通过对比 preferred/dispreferred 响应的似然来训练,但会系统性地压低所有响应的绝对似然(likelihood underdetermination),导致即使没有显式 reward model 也出现 reward hacking 效应。本文重新审视 DPO 的损失函数结构,试图从根源上解决这个问题。
RoPE 是当前 LLM 的事实标准位置编码,但它的 key/query 变换只依赖相对位置、与输入内容无关,限制了 Transformer 的表达能力。本文提出一种数据依赖的位置编码方案来突破这一限制。
这篇论文要解决的是:能否在真正意义上做 native FP4 训练,而不是名义上低比特、实际上关键算子还要回退到高精度。随着 Blackwell 支持 FP4,硬件条件已经具备,但现有 FP4 训练算法精度掉得太多,因此问题不再是‘能不能跑’,而是‘能不能在端到端训练中保持最优或接近最优质量’。
现有LLM大规模RL系统多为同步架构,生成步骤需等待批次内最长输出完成才能进入训练更新,GPU利用率低,系统效率瓶颈严重。
现有LLM训练均依赖固定的规范分词序列,业界普遍认为模型无法泛化到未见过的非规范分词输入,限制了分词器适配、跨模型兼容等场景的优化空间。
这篇工作要解决 masked diffusion language model 的一个现实短板:采样质量这几年进步很快,但采样效率研究明显滞后。标准采样器通常每次只揭开少量 token,没有充分利用‘部分已知上下文已经足以确定多个未知 token’这一事实,因此函数评估次数偏多。
这篇工作要解决的是 LLM 后训练 RL 的一个老问题:on-policy 算法样本效率低、吞吐受限,而异步 actor 能高效并行采样,却会带来明显的 off-policy 偏移,导致标准 post-training 目标不稳。现有做法通常要么坚持在线训练保守但慢,要么利用 replay buffer 但性能容易掉。
这篇工作要解决的是:推理任务里大量无标签数据无法直接用于 RL,因为没有 ground-truth 就缺少 reward,而现有 test-time scaling 技术虽然能在推理时靠多数投票提升正确率,却通常不会把这种信号反过来用于训练。作者想回答的是:能不能把 test-time 的群体一致性当成近似奖励,让模型在无标签数据上继续自我进化。
这篇工作要解决的是:RoPE 及其扩展虽然推动了长上下文 LLM,但在远超训练长度时仍会出现性能瓶颈,而完全去掉位置编码的 NoPE 又各有短板。过去社区更多是在 RoPE 参数外推上修修补补,较少系统分析不同 attention 机制在长上下文下到底各自擅长什么、又为什么会失效。
DeepSeek 的 MLA(Multi-head Latent Attention)通过低秩压缩 KV cache 显著提升了训练和推理速度,但大多数模型提供商已在 GQA 架构上投入大量优化,缺乏从头训练 MLA 模型的动力。需要一种方法将已有 GQA 模型迁移到 MLA 架构。
用 pointwise absolute reward(而非 pairwise preference)来对齐 LLM 时,目前只能用 PPO/GRPO 等在线 on-policy 算法。DPO 等更简单的离线方法只能处理相对偏好信号,无法直接利用绝对 reward。这个 gap 限制了绝对 reward 信号在离线/off-policy 场景下的使用。
这篇论文要解决的问题是:用于 LLM reasoning 的 RL 训练太贵,主要贵在要反复在线采样、多次生成同一 prompt,以及依赖 critic 或当前策略 advantage 估计。过去 PPO 类和 GRPO 类方法虽然有效,但它们的算力和显存开销很难随着更长推理链和更大模型线性扩展。
这篇论文要解决的问题是:线性 RNN 想兼顾高效推理和强状态追踪能力时,现有状态转移矩阵结构不够理想。纯对角结构算得快,但表达力弱;对角加 rank-1 虽然比 Mamba / GLA / mLSTM 一类更强,却仍然在状态更新灵活性上受限,尤其是在需要更复杂 token-channel 混合时。
这篇论文要解决的是:在 RLHF 在线训练里,如何只在奖励模型不可靠时才调用强但昂贵的 LLM judge,从而同时缓解 reward hacking 和高推理成本。传统 reward model 便宜、适合大规模 rollout,但对分布外输入和策略迭代后的新样本容易失真;直接用强 judge 又会把每步 RL 的标注成本抬到不可接受,所以关键不在于二选一,而在于可校准地做路由。
这篇论文要解决的是:给 LLM 做 reasoning RL 时,如何构造一种可大规模生成、可自动验证、还能精细控难度的训练任务。现有数学、代码和合成推理任务常常三者只能占其二:要么数据贵,要么验不准,要么难度曲线不可控,结果是 RL 信号稀疏且训练不稳定。
现有文本扩散模型基于token级表征优化,维度高、语义空间不连续,导致生成质量低、训练难度大,难以与AR模型的生成效果竞争。
现有LLM基于欧氏空间运算,无法匹配自然语言固有的语义层级和几何结构,导致训练不稳定、生成能力存在上限。
现有基础模型预训练的学习率配置依赖在代理模型上的大量超参数调优,无法跨训练场景泛化,适配成本高。
这篇论文要解决的问题是:固定维度的奖励模型太粗,难以覆盖真实指令里细粒度、任务特定的要求,因此 RL 对 instruction following 的提升常常受限。现有 RLHF/RLAIF 通常把“有帮助、无害、诚实”压成少数几个分数,这对通用对话足够,但对格式约束、步骤完整性、工具调用条件、拒答边界这类具体要求往往给不准反馈,所以值得重新把“奖励信号设计”做细。
这篇工作要解决的是:如何同时做到参数共享和自适应计算,而不是像现有高效 LLM 方法那样通常只优化其中一边。单纯参数共享能降模型大小,但每个 token 仍走同样计算;单纯 adaptive computation 能省部分算力,但往往需要额外模块且未必省参数。作者关心的是 token 级别“该想多久就想多久”的同时,把层堆栈复用起来。
这篇工作要解决的是长序列 Transformer 分布式训练里最硬的瓶颈:序列并行一旦拉到超长上下文,通信量和带宽热点会迅速压过算力,现有方案不是受注意力头数约束,就是在环通信上付出过高代价。这个问题以前通常靠更强硬件、头维切分或局部工程优化勉强顶住,但当上下文继续增长到“近无限”区间时,通信拓扑本身就成了主要矛盾,因此值得单独重做。
这篇工作要解决的是超低比特 LLM 量化里一个一直争论不清的问题:到底 4-bit 更优,还是 1.58-bit 这类极低比特更值得追,现有结论往往因为量化设定、训练流程和比较口径不统一而不够可靠。过去大家常在单一 bit-width 上各自优化,所以讨论常变成“方法比方法”,而不是“bit-width 之间真正可比”。
这篇工作要解决的是分布式 MoE 训练里的流水调度长期只盯着专家计算和 A2A 通信,却忽略了 MHA、gating、all-reduce 等其他同样关键的阶段,导致全局流水线存在明显气泡。过去很多 MoE 系统优化只在单层或单类任务内做 scheduling,因此局部最优不等于端到端最优。
这篇工作要解决的是:离散扩散模型推理太慢,而现有两类求解器各有硬伤——精确模拟时间不可控、函数评估冗余;τ-leaping 虽快,但只有一阶精度,步长一大误差就明显。这个问题现在值得重做,是因为离散 diffusion 已经开始进入文本、离散图像 token 等生成任务,推理效率不再是边缘问题。
这篇工作给出的结论很直接:现代 LLM 普遍存在“层数加深但深层贡献变弱”的 Curse of Depth,而一个关键诱因是 Pre-LN。过去业界更多把深层低效当作经验现象,比如加深后收益递减、剪掉后几乎不掉点;这篇工作试图把它从现象提升到可解释、可修复的训练与架构问题。
LLM 在短上下文上训练后,推理时 zero-shot 外推到长上下文时性能急剧下降。现有 attention 机制缺乏对序列长度变化的不变性,导致 attention 的总量和稀疏度随长度漂移。
这篇工作指出一个很关键但常被忽略的问题:小模型上的 SFT+RL 推理训练范式并不总是“先蒸馏、再强化”就能奏效。作者给出的结论是,当专家轨迹超出学生模型可表达范围,或者 SFT 初始化导致后续 RL 奖励极度稀疏时,这个标准流水线会从原理上失效,而不是调参不够。
这篇工作要解决的是统一多模态模型在复杂 reasoning 与生成任务上的双重不足:一方面传统文生图系统难处理多模态输入,另一方面很多 VLM 虽能理解却不擅长高质量生成,更缺少把推理能力直接反馈到生成过程中的训练机制。作者的目标是把理解、推理和生成放到同一套模型与训练流程里打通。
这篇论文要解决的是线性注意力虽然有 O(N) 复杂度,但效果通常明显落后于 softmax attention。作者认为问题不只是近似误差,而是现有线性注意力在函数形式上受到两个限制:只能做凸组合,导致信息只会“加”不会“减”;以及长上下文下累计权重带来的均匀化偏置,使注意力被稀释。
现有CoT推理(System-2)效率低,隐空间推理方法对所有步骤均匀分配算力,无法区分关键和辅助步骤,算力浪费严重。
现有LLM训练默认对所有模块使用统一权重衰减率,忽略不同模块的结构差异和谱特性差异,导致正则化效果次优,此前的实践未针对模块特性做自适应调整。
这篇工作要解决的是:latent reasoning 虽然比显式 CoT 更连续、更可能高效,但它通常和现有 AR LLM 的离散生成机制不兼容,而且训练常依赖外部 CoT 轨迹,没法真正利用模型自身已有的推理模式。作者试图用 RL 直接在 LLM 上学一种混合推理策略,把隐式连续计算和显式 token 生成接起来。
这篇论文要解决的是:多模态基础模型预训练过度依赖生成式或对比式目标,前者容易把算力浪费在像素级细节记忆上,后者又依赖负样本、memory bank 或手工增强,扩展到更多模态时成本和训练假设都不理想。作者想要一个更偏表征学习、又能统一多模态的自监督目标。
这篇论文要解决的是:在 diffusion language model 里,classifier guidance 虽然能做可控生成,但会导致 token 在不同 diffusion timestep 上反复被改写,之前施加的语义编辑逐步衰减,最终伤害流畅性和一致性。作者把这个问题形式化为 update-forgetting,指出统一时间步更新并不适合所有 token。
现有纯文本预训练LLM扩展多模态生成能力时,要么全参数微调成本极高,要么模态交互建模不充分,无法支持任意顺序的图文混合序列生成。
这篇工作要解决的是:扩散式 LLM 虽然能并行生成 token,但几乎没有办法像自回归模型那样可靠地满足正则表达式、JSON schema 一类形式约束。过去的约束解码算法默认逐 token 决策,因此能把约束状态机和生成过程同步推进;放到并行去噪里,这个前提被打破,直接套用通常会扭曲模型分布,或者只能做启发式修补,缺少正确性保证。作者针对的就是这个缺口:如何在 diffusion LM 上做既保约束、又尽量保真分布的推断。
这篇工作要解决的是:FP8 训练在 LLM 预训练里理论吞吐很高,但一到大规模训练就容易不稳定,所以现有方案常常在关键 GEMM 上退回 BF16,导致'用了 FP8 但没 fully FP8'。问题的根源不是单个 kernel 不够快,而是标准 Transformer 的激活离群值和数值动态范围对低精度太不友好,尤其注意力投影等敏感路径会把训练稳定性直接打穿。
这篇工作试图解决大模型训练里一个老问题:优化不稳定、泛化脆弱,而标准参数化下权重矩阵的谱性质在训练中经常失控。现有方法多从学习率、归一化、初始化或优化器去补救,但很少直接改写参数化,使训练过程天然保留更稳定的几何结构。
这篇工作解决的是 attention 的两类效率瓶颈:一是推理阶段如何进一步吃满新硬件上的低比特 Tensor Core,二是低比特 attention 能不能进入训练阶段,而不是永远只停留在 inference trick。过去低比特 attention 多聚焦推理,因为训练时数值噪声更容易破坏收敛。
这篇工作要回答的是:Memory Mosaics 这种基于联想记忆的架构,能不能从 GPT-2 量级和玩具数据真正扩展到 Llama-8B / 10B 级别与真实语料。过去这类替代 Transformer 的范式通常在小规模实验里展示组合性和 ICL 潜力,但一到大模型和 trillion-token 训练就经常因为优化、吞吐或知识存储能力掉队,因此必须看大规模实证。
这篇工作要解决的是:如何用一套共享离散语义表示同时支持视觉理解和视觉生成,而不是让理解 encoder 和生成 tokenizer 各做各的。过去统一多模态 LM 常卡在表示层:图像 token 要么偏感知压缩、不利于和文本对齐,要么强行共词表后丢失视觉细节。
这篇工作解决的是 masked discrete diffusion 不能真正“反悔改错”的问题。现有离散扩散 LM 虽然也是多步生成,但一个 token 一旦被填上,后续通常不能再被改写,因此推理步数增加并不会像连续扩散那样稳定换来质量提升,这直接限制了 inference-time scaling。
这篇工作要回答的是:R1 风格的 reasoning 能力提升,到底需要多少 RL 监督信号,还是说一个足够关键的样本就能触发。过去大家通常默认 RLVR 至少需要成百上千道可验证题来稳定塑形,这篇文章挑战的是这个数据需求假设,而不是单纯追求更高数学分数。
这篇工作回答的是:大规模预训练能否真正弥补 Transformer 架构在某些序列检索与复制任务上的先天限制。过去很多理论工作指出 Transformer 对特定长度泛化问题有硬边界,但实践界常用“模型够大、数据够多就能学会”来回避;这篇文章直接把预训练后的 LLM 拉回这些结构性任务上做检验。
多模态 LLM 的 posttrain 依赖昂贵的标注数据(SFT)或人工设计的 reward(RL),不可持续。能否在 SFT+RL 之后再加一个无监督的 posttrain 阶段,让模型持续自我改进?
这篇论文要解决的是:diffusion language model 推理慢,不是因为 denoising 步数多这一点 alone,而是它缺少 AR 模型那种能复用历史计算的 KV cache。现有 DLM 由于是非自回归、双向注意力,通常每一步都要重算整段表示,导致推理成本很难降下来。这个问题现在值得做,因为 DLM 正在被当作 next-token AR 的替代范式讨论,但如果没有一套像样的缓存机制,它在实际部署上很难进入同一竞争面。
这篇论文要解决的是:标准 Transformer 的高并行性虽然带来工程优势,但也限制了它可表达的状态更新形式,导致某些需要更强序列状态能力的问题难以高效表示。作者把这个问题直接放在计算复杂性框架里,强调对数精度下 Transformer 能解决的问题受限于 TC^0,这使人重新审视它作为通用序列模型的上界。这个问题现在被重新讨论,一方面是因为 LLM 能力越来越强,另一方面是大家也越来越清楚某些推理和算法性任务并不只是靠 scale 就能自然补齐。
这篇论文要解决的是:当前统一理解与生成的多模态大模型里,理解能力通常明显强于生成能力,两者之间存在系统性缺口,而现有训练流程没有直接针对这个 gap 优化。过去 Show-o、Transfusion、Emu3 这类工作已经证明 AR 或 AR+diffusion 统一建模可行,但大家更多关注“能否同时做两件事”,较少量化“做得是否平衡”。这个问题现在值得做,因为真正可用的统一模型不能只会看图答题,还得能稳定地产生与其理解能力匹配的图像输出。
这篇 paper 的核心目标是把开放大音频语言模型推进到真正统一的 speech / sound / music 理解与推理,而不是只在单一音频子域上做 instruction tuning。过去 large audio-language model 往往在某一模态强、跨模态弱,或者能做理解但不擅长长音频、多轮对话、语音到语音交互这类更接近通用 assistant 的能力组合。
这篇 paper 试图解决 non-AR 序列生成在可变长度场景下不自然的问题。现有 mask-based 或并行离散生成方法通常默认固定长度或 token-wise 对齐,导致插入、删除这种真实序列编辑行为很难表达;相比之下,AR 模型天然支持 variable length,但生成速度和全局并行性受限。
现有训练指标如损失无法解释LLM复杂能力的涌现,此前研究没有系统跟踪预训练到后训练过程中表征几何的变化规律。
现有LLM对输入顺序敏感,存在选项排序偏见,在多选、多文档处理、自动评估等场景表现不稳定,此前方法没有从架构层面实现排列不变性适配。
现有离散扩散模型生成序列时无法原生支持序列级约束,此前方法要么采用事后过滤要么重训练,成本高且约束满足率低,自回归模型原生没有序列级约束能力。
LLM长序列训练时反向传播存储激活值的内存成本极高,即使使用梯度检查点技术仍然无法支撑超长序列训练,此前反向传播方法的内存开销随序列长度线性增长。
现有小中型推理模型训练中,此前研究认为蒸馏比大规模RL效果更好,前沿RL推理模型的训练配方和数据处理细节不公开,无法复现。
这篇论文解决的是大规模数据选择在真正可用时往往算不动,尤其是想用更接近最优的二阶信息时。已有 LLM 数据选择常用启发式相似度、梯度范数或小模型打分,因为 influence function 这类方法虽然理论上更贴近“某个样本对目标分布到底有多大帮助”,但计算成本通常高到无法在大规模 fine-tuning 上落地。
这篇论文解决的是知识蒸馏长期被 tokenizer 绑定,导致很多 teacher-student 组合根本没法直接蒸。现有蒸馏大多默认教师和学生分词方式相近,否则 token 对齐和概率监督都失效;这在真实模型迁移里是个很大的限制,因为 tokenizer 往往和模型架构、语种覆盖、效率设计一起绑定,不能随便换。
现有低秩梯度优化方法在提升LLM训练内存效率时,收敛速度慢,因为依赖各向同性最陡下降,在LLM高度各向异性的损失面上表现次优,此前低秩优化只关注内存节省,忽略收敛加速。
这篇工作要解决的是:当基座模型在难推理题上几乎采不到正确轨迹时,常见的 GRPO 一类 RL 后训练学不到新能力,只会把已有分布变尖。过去很多工作默认只要 reward 设计得好、rollout 足够多,RL 就能把能力“拉出来”;作者指出这在 hard reasoning 上常常不成立,因为没有正样本就没有有效信用分配,探索会卡死。
离散扩散模型缺乏像连续扩散模型中 I-MMSE 恒等式那样的信息论框架,导致 log-likelihood 估计缺少原则性方法。现有的 score-matching loss 与似然之间的关系不够清晰。
现有全双工语音对话系统要么依赖模块化架构(VAD + 打断器 + 对话状态预测器 + 多个 LLM),导致模块间误差累积;要么像 Moshi 那样将音频 codec 注入 LLM token 空间,但在语音模态上性能显著下降。如何用单个独立的语音 LLM 实现全双工对话?
这篇工作想解决的是:现有 diffusion / flow matching 与连续 token AR 各自有效,但范式彼此割裂,设计空间也开始收敛,难以同时兼顾灵活监督、随机转移和统一建模。过去大家通常在连续时间扩散或确定性流里做小修小补,而不是直接重写生成过程的基本单元。
这篇论文要解决的核心问题是:在多模态数据受限的现实条件下,原生端到端训练的 MLLM 到底能不能形成清晰、可复用的 scaling 规律。过去主流做法是把预训练视觉编码器和预训练 LLM 通过后续连续对齐拼起来,这样工程上更稳,但训练被切成多段后,很难判断性能增长来自架构、初始化还是数据配比,也很难直接研究 native multimodal pretrain 的扩展边界。
这篇论文要解决的是传统 LLM scaling law 很难跨模型家族泛化的问题。原因不是幂律本身失效,而是不同家族在数据处理、训练配方、对齐方式上的差异太大,直接用参数量或 token 数去拟合 benchmark 表现会把“能力结构差异”混进同一个公式里,结果既不准也不稳。
LLM 的安全性目前主要靠 post-hoc alignment(SFT/RLHF),但这种方式脆弱——预训练阶段学到的不安全模式很难事后移除。需要在预训练阶段就把安全性内建进去。
这篇工作要解决的是:离散 masked diffusion model 虽然经验上有效,但理论解释一直比较碎,尤其不同训练/采样视角之间缺少统一框架,导致 mask schedule 设计更多靠经验调参而不是有原则的优化。过去大家知道 schedule 很关键,却不清楚到底在优化什么能量或几何对象。
这篇工作要解决的是:RL 用于推理后训练时,太难和太简单的问题都几乎不给学习信号,因为前者总错、后者总对,梯度都接近无效。现实里因此需要持续人工补充“刚好够难”的题,这让 reasoning post-training 很依赖数据策展,而不是算法自己找到可学边界。
这篇工作要解决的是:注意力能精确访问上下文,但成本随上下文长度增长且受固定窗口限制;RNN 类隐藏态能压缩历史,但记忆容量和可训练性不足。作者要找的是第三条路:在测试时持续写入一个可学习的长期记忆模块,让模型既保留注意力的短程精度,又拿回长程记忆能力。
这篇论文的核心结论是:reward model 的准确率不是判断它是否是“好老师”的充分指标,奖励方差同样决定 RLHF 能不能学得动。以前大家主要看 pairwise accuracy 或 ranking accuracy,但这篇工作指出,就算 reward model 完全排序正确,只要输出分布太平,策略优化就会落到一个近乎平坦的目标面上,训练会非常慢。
这篇论文的核心结论是:LLM 的逐字记忆风险高度依赖提示前缀在上下文窗口中的位置,而不仅仅是前缀长度或训练频次。过去很多 memorization 评估默认只要给更长前缀,模型就更容易续写出训练文本;作者发现并非如此,尤其当前缀不在窗口开头时,verbatim recall 会显著下降。
这篇论文要解决的是:能否在低秩内存约束下,实现接近全秩训练效果,而不是被 LoRA、GaLore 这类方法永久限制在低秩更新子空间里。现有低秩训练方案省显存很有效,但代价是优化自由度受限,尤其在长程训练或高难任务上容易出现性能天花板。
这篇论文要解决的是:能否用极低码率、且尽量简单的离散语音 codec,同时保住语义和声学信息,给语音 LM 提供更干净的 tokenization 接口。现有神经语音 codec 往往在三件事里只能做好两件:码率低、语义保留、声学细节保留;如果都想要,通常要上多码本,结果下游建模复杂度也随之上升。
这篇论文的核心问题是:更强的 LLM 为什么在相似参数预算下能存住更多知识,答案可能不只是“参数更多”或“数据更大”,而是参数内部出现了更强的 specialization。过去对知识存储的研究多停留在 probing 或 case study,这篇工作把注意力集中到 MLP 参数结构,想看知识能力提升是否伴随更明确的参数分工。
当前 LLM 可解释性方法(如 SAE)假设残差流中各层贡献是加性累积的,但本文发现相邻 Transformer 层会系统性地抵消彼此的贡献——称为 Transformer Layer Correction Mechanism(TLCM),这意味着加性假设不充分。
LLM 训练的内存消耗主要来自参数量和优化器状态。现有内存优化方法往往在内存效率、训练时间和模型性能三者之间做取舍,难以同时改善。
业界普遍认为小 batch size 会导致语言模型训练不稳定,因此广泛使用梯度累积来增大等效 batch size。但这个「常识」可能是因为超参数没有正确适配小 batch 场景。问题是:小 batch size(甚至 batch=1)能否稳定训练,以及如何正确缩放 Adam 超参数。
这篇工作直接质疑一个当前很流行的判断:RLVR 是否真的让 LLM 学到了超出 base model 的新推理能力,而不只是更会在已有能力边界内搜索、采样和重排答案。这个问题过去常被 pass@1 或小 k 指标掩盖,因为这些指标分不清“更会找已有解”与“真的学会新解法”。
这篇工作要解决的是离散 flow-based model 采样慢的问题,尤其是在高维离散数据上,为了处理联合分布通常要做因子化近似,而这个近似误差会迫使模型依赖多步迭代生成。作者想回答:能不能直接减少这种因子化误差,从而把 DFM 推向 few-step generation。
这篇论文要解决的问题是:PRM 在测试时做 reasoning reranking 很有效,但一旦拿去做训练时 RL,模型会 reward hacking,学会专门抬高局部高分步骤,而不是真的得到更可靠的推理过程。作者认为问题不主要出在 PRM 本身,而出在 RL 里默认使用的 summation-form credit assignment——把未来 reward 累加后,局部高奖励步骤会被过度放大。
现有LLM推理指令合成方法扩展性差、样本多样性不足、易过拟合种子数据,在公开互联网推理数据日益稀缺的背景下,无法满足大模型推理能力迭代的需求。
这篇论文要解决的是 CoT monitoring 的一个根本脆弱性:即使做了 process supervision,模型仍可能学会把真实意图藏进隐写式链路里。过去不少安全方案默认 CoT 是可读的、可审计的中间状态,因此只要监控到有害计划就能拦截;这篇工作挑战的正是这个前提。
这篇论文要解决的是 MoE 在 attention 和 FFN 中长期割裂设计的问题。过去 FFN-MoE 成熟、实现高效,而 attention-MoE 往往需要专门实现且效果不如 FFN 版本,导致稀疏化只覆盖 Transformer 的一部分计算热点,限制了架构扩展空间。
这篇论文要解决的是:为什么 GRPO 在训练推理模型时,正确答案的 likelihood 有时几乎不升反降,以及如何修正这种训练动态。GRPO 已被广泛用于 reasoning RL,但大家更多看最终 pass@k,较少追踪 token-level 学习信号,因此这类隐性失配容易被忽略。
这篇论文要解决的是:能否用一个统一 scaling law 同时描述不同压缩表示下的模型训练表现,而不是把 dense、稀疏、量化、稀疏+量化、向量量化分别当成彼此割裂的 regime。过去 scaling law 基本围绕标准 dense 训练建立,但真实系统越来越依赖压缩表示来省训练和推理成本,因此原有规律是否还能迁移,已经是个实际问题。
这篇工作的核心问题是:softmax attention 里加 gate 这件事被很多模型用过,但大家并不清楚 gate 到底改善了什么、什么位置最有效、是不是只是实现细节。过去相关工作更多是把 gating 和其他改动一起打包,很难分辨收益来自非线性、稀疏化,还是对 attention sink 这类训练动力学问题的抑制,因此值得做一次大规模控制变量。
这篇论文要解决的是 RLVR 训练数学推理模型时,优质可验证题目不够,而且现有合成题扩展方式没有针对模型短板,导致样本增长快但有效训练信号增长慢。过去大家更多关注 reward 是否可验证,却较少关注题目分布是否正好覆盖模型的薄弱区域,因此 RL 阶段常常数据利用率不高。
跨语言token溢价(相同语义的平行文本不同语言编码token数存在差异)会降低低资源语言的训练推理效率、提升使用成本,此前研究默认溢价仅由数据集大小、词汇量、数据内容三类外部变量导致,无法解释控制三类变量后仍然存在的溢价差异。
Shampoo系列二阶优化器存在三个核心落地障碍:矩阵逆缓存周期过长容易发散、学习率无法跨网络宽度迁移、高学习率下参数噪声大训练不稳定,导致二阶优化器无法大规模应用于大模型预训练。
主流next-token预测(NTP)和相邻多token预测(MTP)受限于顺序生成逻辑,上下文覆盖有限、推理效率低,无法同时兼顾长程依赖捕捉和推理加速。
RL微调大模型的参数更新机制不明确,此前研究默认RL需要更新全量参数才能实现性能提升,导致RL微调的计算成本居高不下。
这篇论文要解决的是:RL 提升 LLM reasoning 的研究过度集中在数学等少数领域,导致我们不知道这些提升是真正的通用推理增强,还是对单一任务分布的过拟合。过去缺的不是 RL 算法名字,而是高质量、可验证、跨领域的数据和 reward 设计,因此“跨域泛化”一直很难被严肃研究。
这篇工作要解决的是:看起来都来自 CommonCrawl、处理流程也相似的开放预训练文本集,是否其实带有可识别的数据集“指纹”,并且这些指纹会不会传到模型里。过去大家通常把 C4、RefinedWeb、FineWeb、DolmaCC 之类视作同类替代品,差异更多被理解为规模和清洗强度不同;这篇工作指出,细小的过滤和处理差别可能会留下稳定而可学习的分布痕迹。
这篇工作要解决的是多语言预训练里一个长期被低估的问题:不是只有“语言覆盖不够”,而是“清洗方法太静态,导致超多语言场景下数据质量失控”。过去大规模 multilingual corpus 常依赖人工设阈值的 heuristic filtering,这在高资源语言上还能凑合,但一旦扩到上千语言和上百文字系统,固定规则很容易把低资源好数据错杀,或放过格式噪声、乱码和抓取污染。
这篇工作要解决的核心问题是:当前面向 reasoning RL 的训练环境太少、太静态,导致可验证奖励(verifiable rewards)的强化学习很难持续扩展。过去常用做法主要依赖固定题库或少量人工构造任务,这种设置很快会被模型刷穿,也难以区分是真推理提升还是对 benchmark 过拟合;Reasoning Gym 试图用可程序生成、可调难度的环境,把 reasoning 训练从“刷题”改成“持续出题”。
这篇工作要解决的核心问题是:foundation model 的数据处理已经从“清洗文本语料”变成“跨文本、图像、视频、音频做分析、合成、标注和后训练支持”,但现有工具链在多模态规模、算子丰富度和云端可用性上都不够。过去的数据处理框架往往只覆盖预训练前的离线过滤,难以支撑持续数据迭代和模型参与的数据生产。
LLM后训练(SFT、对齐)数据集的构造过程不透明,公开数据集与闭源数据集的性能差异、不同数据属性对模型性能的影响没有量化结论,导致后训练数据集构建缺乏明确指导依据。
这篇工作要解决的是:推理 RL 很贵,但它带来的很多收益可能只是激活了 base model 里已经存在的 reasoning 倾向,而不是学习了全新知识。现有路线默认要在大模型本体上做高成本 RL,这在工程上门槛很高,也让我们难以分辨 RL 到底是在“教会模型”还是在“改写输出分布”。
这篇工作要解决的是:MoE 在算法上很省算,但训练时的稀疏路由会破坏硬件局部性,带来 all-to-all 通信、负载不均和算力利用率低的问题。过去很多 MoE 论文在 GPU 集群上接受这些代价,而在新型 wafer-scale chiplet 架构上,这些问题会更尖锐,因为片上、片间、封装内通信层级差异更大。
这篇工作要解决的是:安全对齐后的 LLM 到底是在“理解有害性”还是只是在“学会拒绝”,这两者过去经常被混为一谈。已有工作发现 refusal 可以由近似一维子空间控制,但这并不能说明模型真的形成了对 harmfulness 的独立内部表征;如果二者分离不清,安全评估和干预都容易误判。
视觉语言模型(LVLM)的慢思考推理能力难以通过纯 on-policy RL 训练获得(因为模型初始能力限制了 rollout 空间),而直接用 off-policy 蒸馏外部模型的轨迹又会因视觉感知能力不匹配导致幻觉。
大型推理模型无法根据任务难度自适应调整推理 token 用量,导致简单问题也消耗大量推理 token(overthinking 问题),这与全自主 AI 的目标矛盾。
这篇论文要解决的是:现有 memory-efficient LLM 优化方法虽然能省显存,但粒度太粗,导致算力和收敛效果都不够理想。典型 layer-wise optimization 把整个 transformer block 当成一个单位轮流更新,确实能减少优化器状态和激活保存,但它默认同一层内所有模块同等重要,这和实际训练动态不符,也限制了进一步降内存的空间。
这篇论文的核心问题是:LoRA 和 full fine-tuning 在效果接近时,学到的内部解是否真的等价。过去社区往往根据下游分数和参数效率判断 LoRA“几乎可替代”全量微调,但这回避了一个更关键的问题——两者是否在同一类表示子空间里更新模型,还是只是碰巧在少数任务上得到相近输出。
这篇论文要解决的是 SFT 和 DPO 常被视为两条不同的 post-training 路线,但两者之间到底共享什么优化结构、SFT 缺了什么、为什么偏好学习有时更有效。过去实践上往往把 SFT 当 imitation、把 DPO 当 preference optimization,方法上分得很开,但这种割裂不利于理解何时该用哪一种、如何混合以及为什么混合有效。
LLM推理能力的限制因素不明确,此前研究大多将推理能力不足归因于预训练数据、模型规模、对齐方式,忽略了长上下文能力的影响。
这篇论文要解决的问题是:现有视频 tokenizer 默认“帧数越多,信息量上限越高”,因此时间压缩率通常固定,结果是扩到高帧率视频时 token 数和后续 diffusion 计算线性上涨,代价很高且并不总有必要。作者提出更符合生成建模直觉的假设:信息容量上限更接近与时长成正比,而不是与帧数成正比。
这篇论文要解决的问题是:把文本领域已经验证有效的 CoT + RL 套到视觉文档理解时,纯文本推理链往往缺乏视觉锚点,容易出现视觉幻觉和跨模态脱节,因此 reasoning 形式存在但 grounding 不足。过去很多多模态推理工作强调让模型“多说步骤”,但没解决步骤是否真的对应图像证据。
这篇论文要解决的问题是:虽然大家已经知道 Transformer 会通过低维特征通道在不同组件间传递信息,但这些特征如何具体因果性地驱动 attention 指向,仍缺少可定位、可验证的方法。现有 interpretability 工作常停留在“相关”层面,比如某个 head 看起来像在追踪某种模式,却很难证明这种模式真的导致了注意分配变化。
这篇论文要解决的问题是:代码 RL 目前大多只奖励一次性写对答案,却忽略了单元测试生成这一决定模型能否自检和自纠的关键能力,而现有 test generation 训练又强依赖真值代码。作者的判断很对:如果没有高质量测试,coding agent 在推理时就缺少可靠反馈回路,RL 只能提升 one-shot 命中率,难以改善迭代式编程能力。
当前基于结果奖励的RL微调方法会导致推理模型的CoT生成存在大量冗余,出现过度思考问题,降低推理效率,此前的RL方法没有对中间推理过程做约束。
基于结果RL训练的推理模型的CoT被默认是可读可解释的,可用于检测恶意行为,但此前未系统评估过CoT的实际可读性,存在不可读的CoT会导致安全检测失效的风险。
RL(如GRPO等)在推理任务上带来明显精度提升,但RL提升推理性能的细粒度机制完全缺失,此前研究只关注最终精度,不了解RL对推理过程的具体影响。
现有大模型在遵循多约束复杂指令的表现差,原生CoT因为仅复述指令、没有拆解约束的层级和关系,反而会降低性能,此前没有针对性解决CoT在复杂指令下的缺陷。
RL微调大模型提升推理能力的资源消耗极高,现有工作普遍忽略RL微调的数据效率问题,此前RL微调都采用全量数据,没有针对性数据选择和rollout复用方案。
这篇工作要解决的是:SFT 和 RFT 各自有效,但都只覆盖了 post-training 的一半需求。SFT 学得快、样本效率高,却容易过拟合到参考答案格式,限制大模型探索更优解;RFT 泛化更强,但高度依赖底模能力,起点差时很难学起来。作者关心的是,能否把监督信号和探索信号放进同一个训练过程,而不是先后硬切换。
这篇工作研究的是:Transformer 最基本的单头 softmax attention,是否也会出现 benign overfitting,即训练时把噪声样本完全记住,但测试性能仍接近最优。此前 benign overfitting 的理论大多建立在线性模型或 MLP/CNN 上,attention 机制由于归一化和数据依赖权重更复杂,一直缺少清晰结论。
这篇工作要解决的是长上下文指令数据稀缺,尤其是公开模型可用的高质量 long-context instruction 几乎没有。过去要么依赖昂贵人工标注,要么用模板合成,但前者不扩展,后者分布单一、问法死板,难以支撑真正的长上下文对齐;LongMagpie 试图让已有长上下文模型自己生成这类数据。
这篇工作要解释的是 Transformer 在算法任务上常见的 abrupt learning:训练很久几乎没进展,随后性能突然跳升。过去大家通常只观察到宏观 loss plateau,却不清楚模型在平台期到底有没有学到东西、瓶颈在哪一层机制;作者试图把这个过程拆开,解释为何“看起来没学会”并不等于内部没有进展。
MCTS 生成 CoT 数据时通常只保留最高分轨迹,丢弃的兄弟节点中包含有价值的局部洞察、错误模式和替代推理策略,造成大量信息浪费。问题是如何把搜索树中非最优分支的信息也利用起来提升 LLM 推理。
单一 Reward Model 在跨任务泛化上表现不可预测,同时使用多个 RM 又面临计算成本高和信号冲突的问题。如何在训练过程中为每个样本动态选择最合适的 RM?
现有稀疏注意力机制通常只做单阶段近似(要么局部要么全局),在近似精度和速度之间难以兼顾。如何设计一种既快又准的稀疏注意力,同时加速训练和推理?
这篇论文的结论很直接:test-time 多想一会儿并不总有帮助,收益通常先升后降,后期会出现 overthinking。近一年推理模型流行把更长思维链当成免费的 test-time scaling,但作者指出,这种经验规律并不单调,额外思考会同时增加探索和输出方差,最终可能损伤精度。也就是说,观测到的前期提升不能简单解释为“模型真的更会推理了”。
这篇论文解决的是 CoT reasoner 在 rejection sampling 和 RL 训练中采样预算分配过于静态,导致梯度估计低效的问题。现有做法通常给每个 prompt 分配相同的推理采样数,但不同样本的难度和收敛行为差异很大,这会让简单样本浪费算力、困难样本又采样不足。作者将瓶颈明确归结为随机梯度方差过高,而不是单纯数据量不够或 reward 不够好。
这篇论文要解决的是:RL 训练 LLM 时,哪些样本最值得花昂贵的多次采样预算去优化。当前 RL 成本高,很大一部分来自多样本 rollout 和评估;如果数据选择做不好,就会把大量算力浪费在模型早已掌握或根本学不会的样本上。
LLM 处理复杂任务时推理耗时长,现有并行化方案(投票、显式子任务拆分)需要针对任务类型设计特定协作框架,通用性差。作者希望找到一种更通用的 LLM 并行生成机制。
这篇工作要解决的是:多模态 CoT 的 RL 训练经常在训练分布内有效,但一换视觉条件就泛化变差,说明模型学到的往往是脆弱的视觉—推理耦合。现有 RL 框架多半直接把图像当固定输入,只优化答案或轨迹奖励,没有系统处理视觉扰动下的探索和优势估计噪声。
这篇论文要解决的核心问题是:VLM 在后训练后会倾向于“逢题必想”,导致简单样本也生成完整推理链,token 成本高且不必要。现有基于 GRPO 的 reasoning post-training 通常统一鼓励长推理,但真实使用场景里,难题和简单题的最优推理预算明显不同,缺少选择性思考机制会把性能收益建立在过高推理成本上。
现有音频语言模型在细粒度声音语义推理能力差,现有数据集存在数据污染问题,零样本评估结果不可靠,此前没有针对音频语义推理的专用数据集和模型结构。
此前的测试时缩放定律仅考虑计算最优,忽略了推理策略(如Best-of-N、长CoT)带来的内存访问瓶颈,高估了小模型在测试时缩放的效果,此前的缩放定律未考虑内存成本。
这篇工作解决的是:如何把语言模型中的 RL 从“可验证答案”扩展到“不可直接验证的长形式数据”。现有 RL 扩展主要吃的是数学短答案、代码测试这类 reward 容易自动判定的任务;但真实高价值场景里,大量目标是长证明、开放式解释、复杂写作,答案正确性很难靠一个硬匹配标签判定。
这篇工作要解决的是:在几乎不额外训练目标模型的前提下,能不能零样本预测其学习曲线,进而得到带不确定性的 scaling law。过去的 scaling law 往往依赖大量已跑完的实验去拟合平均趋势,成本高,而且很难表达任务间相关性和预测不确定性;这使得它在真实算力预算决策里经常不够稳。
这篇工作针对的是低秩训练的老问题:省参数、省算力,但表达空间被卡死,预训练性能常常明显掉队。无论是低秩预训练还是 LoRA 式适配,问题都不是低秩本身不能用,而是不同低秩子空间之间缺少交互,模型容量被过早限制。
这篇工作要解决的是:当 LLM 的 RL 使用离散、近乎二值的规则奖励时,优化会出现梯度异常、收敛慢和训练不稳,怎么在不破坏 reward 可验证性的前提下改善优化。像 DeepSeek-R1 这类系统受益于规则奖励防止 reward hacking,但离散奖励天然带来大片平坦区域,策略梯度信号很稀。
这篇工作要解决的是:当前 LLM reasoning 的 RL 训练几乎被数学和代码主导,如何把这种能力扩展到更广泛、答案形式不统一且数据更稀缺的领域。现有 R1-Zero 类方法证明了 base model 可以直接靠 RL 学会更强推理,但它们之所以集中在 math/code,很大程度是因为这些领域容易自动验证,而不是因为别的领域不需要推理。
这篇工作要解决的是长上下文生成中的一个基础系统问题:在 streaming 条件下,如何用严格受控的内存去近似 attention,同时知道这种近似的理论边界在哪里。很多长上下文方法给出经验上有效的 KV 压缩或 token 选择,但缺少清楚的近似误差保证,也不清楚在单遍流式场景下到底能省到什么程度。
这篇论文要解决的是:mask-based pretraining 到底学到了什么表示、它的边界在哪里。掩码预训练在语言、视觉、生物序列里都很常见,但很多结论停留在经验层面;作者想给出一个更统一、可分析的描述,解释为什么这种目标有时能学到通用表示,有时又会偏向特定模式。
这篇论文解决的是 instruction tuning 数据选择过于粗粒度的问题。现有方法通常给整条样本打一个质量分,然后按阈值筛选,但这样会忽略样本内部哪些 token 真正提供训练信号,也容易被表面词汇特征误导,导致选中的并不一定是最有信息量的数据。
现有多模态模型指令微调的数据选择方法会继承数据集的位置偏差、伪相关等偏差,导致模型行为有偏,此前的方法要么全量训练成本高,要么选数据不考虑鲁棒性。
将纯文本 LLM 中通过 RL 涌现的推理能力,迁移到多模态大模型(MLLM)以解决视觉推理问题。以往多模态推理多依赖 SFT,缺乏大规模 RL 带来的认知行为涌现。
Transformer 标准注意力机制的二次时间复杂度限制了其扩展性,而现有的次二次复杂度注意力机制往往在表达能力上有所妥协。需要在降低复杂度的同时,保持模型模拟大规模并行计算(MPC)的能力。
在两阶段图像生成(先压缩成 latent,再在 latent 上做生成)中,第一阶段的压缩率与第二阶段的生成难度之间存在 trade-off。以前往往追求更好的重建质量,忽视了高压缩率可能降低第二阶段建模难度。
现代 Transformer 放弃了 ReLU 激活函数,导致 FFN 中的“懒惰神经元”现象(极高稀疏度)消失。现有的重新引入激活稀疏性的方法(如换回 ReLU 或 top-k masking)往往会降低模型质量、增加参数或使训练复杂化。
这篇工作针对的是大推理模型里的 overthinking:模型为了提高最终答案准确率,被 RL 推成越来越长的推理,但更长并不总是更好,反而会浪费 token 和算力,甚至把答案带偏。过去很多方法默认“think longer”天然有利,却较少显式研究推理轨迹内部哪些模式有效、哪些只是冗余回绕。
这篇工作要回答的核心问题是:两层 transformer 到底能否在一般的高阶 Markov 序列上实现 induction head 式的 in-context learning,而不是只在一阶情形成立。以往结果已经知道单层模型做不好条件 1-gram,想覆盖更高阶 Markov 源通常需要至少三层构造,因此“深度到底是不是硬门槛”一直没有被澄清;这篇论文给出的结论是,两层就够,而且对任意阶 Markov 链都成立。
这篇工作要解决的是 transformer 在简单复制/检索任务中为何有时学到可泛化的 induction head,有时却学到只记固定位置的 shortcut。作者的结论很明确:决定模型最终选择哪种算法的,不只是模型结构和优化器,训练数据的多样性本身就能触发机制切换;当输入序列足够多样时,单层 transformer 会学出 induction head,否则更容易走位置捷径。
这篇工作要解决的是 native multimodal 模型里图像信息究竟如何流向文本域,尤其与从预训练 LLM 适配而来的 non-native VLM 相比,内部通信机制是否不同。作者的核心结论是:native multimodal 模型里的图像和文本表征在 residual stream 中分离得更明显,图文通信也更局部化,像通过一个‘窄门’而不是全网络均匀混合。
强化微调(RFT)的效果高度依赖训练数据质量,但数据选择在 RL 阶段几乎未被研究。监督学习中的 influence function 方法不能直接迁移到 RL 场景,因为 RL 的优化路径和目标函数结构不同。
RLHF 中的偏好 reward model 容易利用捷径特征(如回复冗长、迎合语气、谄媚)来获得高分,而非真正反映人类意图。此前的工作通常逐个探测和修补这些问题(如专门处理 verbosity),缺乏统一的解决框架。
混合架构语言模型(Attention + SSM,如 Mamba 混合模型)在压缩时面临特殊挑战:SSM 层的结构与 Attention/FFN 不同,直接套用现有剪枝方法会破坏 SSM 块的序列建模能力。此前的压缩工作主要针对纯 Attention 模型。
这篇工作要解决的是:为什么 DPO 这类 direct alignment 方法明明没有显式 reward model,也会出现类似 RLHF 的 over-optimization,并且如何抑制它。过去很多人默认 DAA 比 RLHF 更稳,因为少了一个单独训练的奖励模型;但离线偏好优化本身仍可能把概率质量推向数据外的非偏好响应,训练越久反而越坏。
这篇工作要解决的是:如何把 MoE 真正引入 Mamba 这类状态空间模型,用稀疏参数扩展表达能力,而不破坏其高效序列建模优势。过去 SSM 尤其是 Mamba 在长序列上很有吸引力,但直接照搬 Transformer 里的 MoE 往往效果差或者训练不稳,因为 SSM 的计算路径和模块耦合方式不同。
这篇工作要解决的是:直接偏好对齐默认所有人共享一个奖励函数,但真实人类偏好是异质的,这种同质化假设在什么条件下会失效,以及 direct alignment 能否利用有限的用户类型信息做得更好。过去多数对齐算法把标注者差异当噪声处理,这在平均用户场景下勉强可用,但会系统性压平少数偏好,且理论上未必最优。
这篇论文的核心问题是:next-token 训练是否天然偏向生成“正确但低效”的推理轨迹,而不是最短、最系统的推理过程。这个问题过去很难在开放式自然语言任务里单独识别,因为答案正确率、语言多样性和推理效率纠缠在一起;作者用最短路这种可控任务把它拆开,专门研究 AR 目标对推理轨迹形状的偏置。
这篇论文想解决的核心问题是:标准 AR 生成在每一步都把完整 next-token 分布压缩成一个离散采样 token,再把其余概率质量全部丢掉,这会造成信息浪费并放大采样误差。过去大家默认这种离散反馈是必要的,因为模型输入就是 token id;作者则问,既然分布里还保留了不确定性信息,能不能在不改训练的情况下把它继续喂回模型。
这篇论文要解决的是:复杂交互任务需要长程规划,但把 LLM 直接放进多轮 RL 里训练成本太高、可扩展性差,而且很多 frontier model 根本不开放可训练接口。过去这类问题常靠 prompt engineering 或在线 RL 硬做,前者规划能力有限,后者在大模型上又太贵,所以作者转向离线、目标条件化的 RL 形式来给 LLM 提供规划信号。
这篇论文要解释的是神经缩放律的来源:为什么模型变大时 loss 往往按幂律下降。作者提出一个具体机制假设——representation superposition,也就是模型用少于特征数的维度去叠加表示更多特征——并试图说明缩放律并不一定依赖复杂数据细节,而可能来自这种表示拥挤本身。
Shampoo 优化器虽然在大规模训练中表现出色,但严重依赖学习率嫁接(grafting)和陈旧预处理(stale preconditioning)等缺乏理论依据的启发式技巧,增加了算法复杂度和调参难度。
在数学推理任务中,如何让 LLM 在没有监督工具使用示例的情况下,通过基于结果的 RL 自主学会生成并执行代码(Tool-Integrated Reasoning)。
现有的 RLHF 方法大多依赖 Bradley-Terry (BT) 模型假设,即假设存在一个全局的 ground-truth 奖励。这种假设在建模复杂、非传递性的人类偏好时过于严格且容易失效。
这篇工作要解决的核心问题是:如何让大推理模型在需要精确计算时真正把代码解释器当成一等推理工具,而不是在内部语言推理和外部确定性执行结果之间来回冲突。此前工具使用大多靠提示词或少量工具轨迹微调来补丁式解决,模型会调用工具,但经常不信任工具结果、重复思考,或者把可执行问题继续当纯语言问题处理;随着 o1 类模型把长链推理推高,这个冲突开始直接限制数学和程序类任务上限。
这篇论文的核心结论很清楚:如果测试时要用 pass@N 这类多样本搜索,标准交叉熵训练并不总是合适,甚至训练更久会让 pass@N 变差。过去大多数工作默认‘单样本更准’自然会带来‘多样本搜索更强’,但作者指出这在数学推理和代码生成里不成立,因为 CE 会把模型推得过于自信,压缩了有效候选的多样性。
这篇论文要解决的是 LLM 中 dense MLP 层很难解释、编辑和控制,而现有靠神经元级稀疏近似的方法虽然更可解释,却会明显破坏原模型映射,直接抬高 next-token loss。也就是说,过去方法在 interpretability 和 faithfulness 之间代价太大,难真正用于预训练模型分析或可控修改。
这篇工作讨论一个和 scaling law 直接相关的问题:当新数据不够时,重复使用已有数据是否真的能改善误差缩放,而不只是过拟合。很多神经 scaling law 默认在线单遍看数据,隐含前提是样本不断增长;但现实里高质量数据越来越稀缺,所以 data reuse 是否有理论收益,是个越来越实际的问题。
这篇工作要解决的是固定生成顺序带来的推理瓶颈:无论是左到右 AR 模型,还是随机顺序的离散 diffusion 模型,训练时都把 token order 当成先验给定,但很多规划和组合推理问题真正可 tractable 的解法依赖自适应生成顺序。过去这个问题通常被回避成 prompt engineering 或手工设计分解步骤,而不是让模型自己学顺序。
这篇工作要解决的是:大语音-语言模型在长语音上算得太慢、训练数据又缺,导致它们虽然能做短语音理解和生成,但一到长时语音就扩展性很差。过去常见做法要么依赖专门的长语音数据继续训练,要么直接吃长序列承担高昂注意力和声学 token 成本;这篇论文的目标是不用专门长语音数据,也把长语音处理能力补上。
这篇工作要解决的是:大家知道更深的 Transformer 往往更强,但“深度到底带来了什么能力提升”长期缺乏形式化刻画。过去这类讨论多停留在经验观察或宽泛表达能力分析,缺少一个既能连接实际 Transformer,又能严格保留深度信息的理论框架。
这篇工作要解决的是:长链推理中的 test-time scaling 需要更高效的搜索与评估信号,而传统 process reward model 往往依赖明确的“步骤”定义,这在长上下文 reasoning trace 中既不自然也不稳定。多数现有方法要么做 majority voting,要么做 best-of-n,但前者算力利用粗糙,后者又常依赖难训的逐步奖励模型。
现有的 Test-Time Compute 扩展方法(如通过 RL 优化推理轨迹)通常只针对固定且较大的 token 预算优化最终结果,导致模型在预算受限或需要提前退出的场景下表现不佳,训练和部署效率低。
VLM视觉感知方向缺少既具备难度又可明确验证的RL训练任务。此前RL在LLM的数学、代码类任务上优化效果显著,但迁移到VLM视觉感知场景时因无合适任务支撑而受阻。
Transformer张量并行(TP)训练中,每个块的MHA到MLP连接需要执行all-reduce操作,带来大量通信开销。现有架构未针对该开销做针对性优化,限制了大模型分布式训练的效率提升。
这篇工作要解决的是:过程奖励模型 PRM 很依赖步级标注,但人工标注太贵,因此大家转向 Monte Carlo 合成标注;问题是这类合成标签噪声很高,直接拿大规模训练会让 PRM 学到错误的中间监督。过去很多工作把 MC 标注当作近似真值使用,噪声处理相对粗糙,而这篇文章认为噪声结构本身需要被显式建模和消解。
这篇工作要解决的是:把 lie detector 引入 LLM 偏好学习流程后,模型到底会变得更诚实,还是只会更擅长规避检测。过去大家担心 detector contamination 和 objective hacking,所以 lie detector 很少直接进训练环节;这篇工作正面研究这种担心什么时候会发生、什么时候不会发生。
这篇工作要解决的是:LLM-as-a-judge 虽然便宜且可扩展,但很容易被针对性优化,导致模型并非更好,而是更会迎合 judge 的偏好。过去已有工作展示过对答案做后处理可以刷高分,这篇则进一步问:如果直接把 judge 信号当 reward 来训练前导文本生成器,是否能系统性“反向工程”评审偏好并操纵评测结果。
现有LLM遗忘方法依赖大规模遗忘集和保留集,容易出现回答不自然、泛化差、通用能力大幅下降的问题,无法在不从头重训的前提下高效选择性删除敏感、版权、违法内容。
现有多模态RL方法仅支持单图像的空间推理,无法泛化到涉及多图像位置关系的交错多模态推理场景,缺少适配这类任务的RL探索-利用优化策略。
这篇工作要解决的是:Transformer 训练为什么会表现出先形成结构、再出现退化的两阶段动态,以及小初始化为什么有时反而有利于推理能力。过去相关讨论大多停留在经验现象或特定配置,缺少能把初始化、梯度流和 attention 演化放到同一框架里的分析。
这篇工作要解决的是:开放 7B 级别 LVLM 很难稳定长出像 R1 那样的视觉链式推理,单纯 SFT 蒸馏会因为视觉 grounding 不准而退化,单纯 RL 又因为搜索空间太大而学不出来。这个问题之所以重要,是因为视觉推理失败常常不是“不会推”,而是“推理过程没有被视觉证据约束住”。
这篇工作要解决的是:在真实 attention 缩放和有限 head 设定下,单层 attention 的无限宽极限到底是什么分布。已有高宽极限理论大多依赖高斯近似,但对 attention 一直不够用,往往只能在无限多头或特殊缩放下成立,这和实际 Transformer 架构有明显偏差。
这篇工作要解决的是:masked diffusion language model 生成太慢,而且传统采样策略步数固定,明明有些 token 已经很稳定了,还是要跟不确定 token 一起等完整个迭代过程。扩散 LM 要落地,采样加速几乎是第一瓶颈。
这篇工作要解决的是:离散扩散模型采样太慢,而简单地减少采样步数会同时放大两类误差——一类是 factorized prediction 带来的累积解码误差,另一类是大步长数值近似造成的离散化误差。也就是说,DDM 的加速难点不只是“步数少了”,而是错误会彼此叠加。
这篇工作解决的是:在大规模分布式 LLM 训练里,硬件节点故障已不再是罕见异常,但现有容错训练通常要付出明显的显存或算力额外开销。过去的方法常靠冗余副本、额外 checkpoint 或较重的恢复机制来兜底,这在训练本就受带宽和内存约束时会进一步恶化效率。
这篇工作解决的是:RLVR 里模型经常学会“形式上反思”,却没有真正提升自我验证能力,因此 verifier reward 没有被充分转化成更稳的推理。此前常见做法是只奖励最终答案对错,或者把 critique/verification 作为单独阶段训练,结果是求解与校验两个能力脱节,模型容易出现 superficial self-reflection。
这篇工作解决的是:tensor parallel 训练和推理里,激活同步通信是一个很重的带宽瓶颈,而现有实现默认几乎所有相关激活都要全同步。随着模型和并行度增加,这部分通信越来越接近系统上限,因此问题不再是“能不能并行”,而是“同步到什么程度才值得”。
现有LLM研究普遍默认token嵌入符合流形假设,但该假设从未被严格验证,错误的假设会导致对LLM行为的理解和相关研究结论出现偏差。
大规模构建可执行代码仓库的运行环境需要大量人工和专业知识,限制了可执行代码数据的规模扩展,进而限制了代码LLM的能力提升,现有工作缺少自动化的代码仓库环境构建方案。
低比特优化器的参数压缩会损失精度,现有压缩算法无法在降低比特宽度的同时保证训练效果,限制了大模型训练的内存效率提升。
使用DPO缓解VLM幻觉的效果高度依赖偏好对的真实奖励gap,现有偏好数据构建方法无法系统性优化奖励gap,导致DPO优化幻觉的效果不稳定。
这篇论文解决的是 weak-to-strong generalization 在分布偏移下失效的问题。已有工作说明弱模型可以监督强模型,但通常默认训练分布和部署分布足够接近;一旦发生 shift,强模型可能学到比弱监督者还差的决策边界,这让“用弱监督放大能力”在真实环境里不稳。
这篇论文要解决的是离散扩散模型采样器,尤其是 τ-leaping,现有理论保证过于苛刻且对词表大小的依赖太差。这个问题在文本和图生成里很关键,因为离散状态空间大、采样步数多,如果理论只能在难验证的正则条件下成立,就很难指导真实模型设计。
这篇论文解决的是 reasoning model 普遍把所有任务都按高强度思考处理,导致冗长推理和低效率的问题。已有 LRM 通过长链思维提升复杂任务表现,但缺少一种训练机制,让模型在简单题上走快路径、在难题上再投入更多计算。
这篇论文要解决的是现有 Process Reward Models 很难稳健评估长链推理中的中间轨迹,尤其不适合 DeepSeek-R1 这类‘trajectory + response’结构化输出。过去很多 PRM 训练主要依赖最终答案或最终回复质量,导致对中间思路的监督粗糙,奖励很容易错配到错误步骤上。
这篇论文解决的是 DPO 这类偏好优化只用二元胜负信号时,对小模型往往监督过粗的问题。已有蒸馏方法常用 behavior cloning 或 KL 去模仿教师当前策略,但它们更多在复制行为分布,较少把教师对‘好坏结构’的价值判断蒸馏给学生。
这篇论文要回答的是:什么时候 model-free RL 足以学出“思考”这种中间过程,什么时候又学不出来。这个问题最近因为 R1 类工作变得重要,但过去讨论大多停留在经验现象:模型会不会输出推理链,却缺少一个跨任务、跨领域的判别框架。
这篇论文要解决的是:强 captioning / semantic understanding 的 VLM 为什么总要依赖海量图文对,而能否直接从现成 diffusion 模型里蒸馏出这部分知识。过去做法通常是继续堆大规模 image-text data 训练 VLM,但这条路昂贵且受高质量配对数据供应限制;而文本到图像 diffusion 模型其实已经学到大量图文对齐和视觉语义,却很少被系统地转移给 VLM。
这篇论文要解决的是:工具使用场景里,RL 的瓶颈不一定是策略优化,而是 reward 设计太粗,导致模型学不到细粒度的调用行为。传统 SFT 能教会常见工具格式,但一遇到陌生 API、复杂参数组合或多步工具链就容易失效;而仅靠最终答案匹配做 RL 奖励,又无法告诉模型到底是选错工具、参数错了,还是调用时机错了。
这篇论文要解决的是:混合并行里 TP 和 PP 的低效并不是两个独立问题,单独优化其中一个往往会把另一个的 bubble 留在系统里。现有工作通常要么想办法隐藏 TP 的 collective 通信,要么通过调度减轻 PP 的 pipeline bubble,但很少从统一调度角度同时压两种空转。
线性注意力模型在处理超长序列(如 1M token)时,现有序列并行(SP)方法的通信开销成为主要瓶颈,抵消了线性注意力本身的计算优势。此前 SP 方法是为 softmax attention 设计的,线性注意力的递推结构没有被充分利用。
Transformer 的 ICL 能力令人印象深刻,但在长上下文中 ICL 的效率是否最优、是否存在「技术债」(随示例增多效率递减)尚不清楚。作者想量化 ICL 相对于原则性学习算法的样本复杂度差距。
这篇论文要解决的是:生成模型已经能靠 verifier 提升能力,但 verifier 本身质量不够,成了 generation-verification gap 的瓶颈。人类 verifier 质量高但不可扩展,形式化工具可靠但覆盖窄,LM judge 和 reward model 通用但与 oracle 差距明显;所以问题不是“有没有 verifier”,而是如何把多个弱 verifier 组合成一个更接近强 verifier 的系统。
这篇论文要解决的是:测试时扩展(test-time scaling)里“多久验证一次”并不是固定答案,而是一个同时决定效果和算力成本的关键控制量。过去工作通常只在两个极端里选一个:要么只验最终答案,便宜但容易放过错误推理;要么每一步都验,信号细但验证成本很高。作者把这个被默认忽略的“验证粒度”单独抽出来研究,讨论在固定推理预算下怎样选粒度更划算。
这篇论文要解决的是:现有长上下文 KV cache 压缩把 key 和 value 当成对称对象处理,但它们在局部结构上并不对称。作者观察到相邻 key 的注意力模式高度相似,而相邻 value 的分布差异更大;如果继续用同一压缩策略同时压 K 和 V,就会在 value 侧引入不必要的信息损失。
这篇论文要解决的是:固定 token 数的图像 tokenizer 忽略了图像复杂度差异,导致简单图像也被迫占用和复杂图像相同的表示预算。以前这类系统通常通过统一 patch 网格或固定 latent 数量来简化训练和下游接口,但代价是计算和码率都不够弹性。作者想做的是让 tokenizer 按内容自适应地决定需要多少 token。
这篇论文要解决的是:开放式 LVLM 或 vision-language pretrain 的比较常常不稳健,因为不同模型、不同数据集、不同训练 token 预算没有放在同一 scaling 框架下。过去很多结论来自单点对比,容易把‘训练得更多’误判成‘方法更优’。作者想用完整 scaling law 来做模型和数据集的公平比较,而不只比某个固定规模的 checkpoint。
这篇论文要解决的是:Differential Transformer 看起来有效,但大家并不清楚它到底为什么有效,而且它通常要求从头大规模训练,导致无法直接复用已有开源预训练权重。也就是说,当前痛点既有机制理解不足,也有迁移成本过高。
基于结果奖励的多模态大模型(MLLM)RL微调在多选推理任务中存在奖励信号失真问题:思考链错误但蒙对答案的轨迹与正确推理轨迹获得相同奖励,该缺陷长期被忽略导致模型推理能力提升受限。
当前主流的大模型后训练RL方法GRPO依赖组相对奖励打分,存在训练不稳定问题,依赖梯度裁剪等工程trick缓解,限制了工业场景大规模落地。
传统动量优化器(如Heavy-ball、Adam)用于低秩预训练/微调时,受低秩参数空间的非欧式几何结构影响,难以收敛到局部最优,该问题此前未被系统分析。
当前指令微调的数据筛选多在序列粒度进行,忽略了token粒度的关键信息和噪声影响,导致数据效率提升受限,且缺乏理论保证。
这篇工作要回答的核心问题是:预训练大语言模型能否仅靠上下文中的示例,在不显式拟合参数的情况下,对隐马尔可夫模型(HMM)生成的序列做接近最优的预测。过去大家更多把 ICL 当作经验现象来观察,或在简单合成任务上验证,很少把它放到像 HMM 这样既有清晰统计结构、又有已知最优解的序列模型上系统研究,因此这个问题现在值得重做,因为它能更直接地刻画 LLM 到底学会了哪类隐式推断程序。
这篇工作想解决的是 Transformer 和 RNN 之间长期存在的两难:注意力精度高、检索细,但训练和推理成本高;RNN 效率高,但把整段历史压成单个状态后,长程信息容易衰减。过去很多替代架构在这两端选一边,要么牺牲可扩展性,要么牺牲长上下文建模质量,因此作者尝试找一个中间点。
这篇论文要解决的问题是:当前偏好优化方法默认存在一个统一的人类偏好模型,但真实部署里用户偏好多样,因此训练出的策略未必连“平均意义上让用户更满意”都做得到。过去 RLHF、DPO 等方法常把 pairwise preference 当成可汇总成单一奖励信号的问题来处理,这在单一任务上够用,但对 pluralistic alignment 来说是一个根本性简化。
这篇工作要解决的问题是:现有视觉/视频 tokenizer 在固定分辨率下通常输出固定数量 token,忽略了视频内容复杂度差异,导致简单视频被过度编码、复杂视频又可能 token 不够。过去固定 token budget 的做法工程上最简单,也便于下游 MLLM 对接,但它会把压缩误差平均摊给所有样本,而不是把预算用在真正需要的地方。
这篇工作想回答一个很直接的问题:在 instruction-following 的 RL 对齐里,昂贵的 reward model 是否真的必要,还是简单的参考式指标已经够用。过去默认答案是“需要 RM”,因为 BLEU 这类字符串重合指标被认为太浅,只适合翻译等有参考答案的场景,不足以代理人类偏好。
这篇工作要回答的不是“ICL 会不会出现”,而是“为什么会出现这些看起来不同的 ICL 策略”。现有分析已经观察到模型在不同实验设定下会表现出记忆型、泛化型等多种 in-context 策略,但这些结果彼此分散;作者试图给出一个统一解释:这些策略是对任务混合分布和计算约束的理性适应,而不是彼此无关的偶然现象。
这篇工作要解决的是:什么样的训练数据属性真正能提升数学和代码推理,而不是继续靠启发式挑 CoT 数据。过去常见做法是按题目难度、答案长度或模型打分筛数据,但这些规则往往只能局部奏效,也很难解释为什么某类样本会跨任务提升推理能力。
现有RLHF等安全对齐方法缺乏统一理论框架,无法解释对齐后安全/有害prompt在隐空间出现分离的现象,也无法指导对齐方法的系统性优化。
当前支持CoT推理的大模型对所有query都使用长推理链,导致简单query的计算资源浪费,推理延迟过高,没有自适应的推理长度选择机制。
当前大模型后训练的迭代合成数据bootstrapping流程没有明确的预算分配策略,固定预算分配策略无法保证收敛,最终性能提升受限,缺乏理论指导。
现有推理时对齐方法在离散响应空间搜索,当基座策略较弱或候选集较小时,无法探索到有效候选,对齐效果受限,且计算开销较高。
现有CLIP仅在英文十亿级图文对训练下表现稳定,扩展到全球多语言网页数据时缺乏适配非英文数据的清洗方案,且现有多语言CLIP普遍存在多语言诅咒,英文性能显著低于纯英文CLIP基线。
现有Best-of-N(BoN)方法依赖奖励模型打分选择最优输出,当奖励模型存在误差时,BoN性能会大幅下降,无法稳定筛选出正确答案。
现有R1范式(基于GRPO的规则强化学习提升推理能力)仅适用于文本推理,直接迁移到多模态大模型的视频推理任务时,缺乏时序建模设计,且高质量视频推理数据稀缺。
现有过程奖励模型(PRM)扩展到多模态推理场景时,多模态任务覆盖广导致训练测试分布偏移严重,且现有多模态推理数据集质量不平衡,导致PRM泛化能力差。
这篇论文要解决的是:在偏好对齐阶段做模型融合时,如何不丢掉源模型的概率信息。现有融合方法大多停留在 SFT,少数做到偏好优化的方法也通常只看各模型生成的回答文本,把更细粒度的 token/序列概率丢掉了;这样做实现简单,但会把“模型为什么更偏好某个回答”的信息一起抹平,导致融合在 PA 阶段不够充分。
这篇论文要解决的是:LLM unlearning 里“遗忘目标”和“保留能力”不该再被粗暴地揉成一个标量损失。现有方法大多把 forget 和 retain 写成带权和,训练时靠调系数找折中;问题是这个折中在强遗忘场景下通常不稳,权重一偏就会在保留集上明显塌陷。
离散变量的生成建模(文本、生物序列等)仍然困难,现有的 simplex-based diffusion 方法复杂度高、扩展性差。本文提出一种受渐进候选剪枝启发的简化 simplex diffusion 模型。
RL 已成为 LLM posttrain 的关键步骤,但将 RL 应用于视觉生成面临两个根本障碍:(1) 扩散模型的生成轨迹无法可靠地归因到最终图像;(2) 连续扩散过程不适合 RL 的离散探索-利用框架。本文提出用离散自回归视觉 token 来解决这两个问题。
这篇工作要回答一个当前很关键的问题:RL 到底是在放大 base model 里已有的高奖励轨迹,还是能真正把推理边界往外推。过去不少结果显示 RL 能显著提分,但也常被质疑只是“采样更多、偏好更强”,而不是学到了新策略;作者专门挑战这个判断。
这篇工作要解决的是通用 reasoning 尤其逻辑推理方向缺少大规模、可验证、适合 RL 的数据。开源复现目前主要集中在数学和代码,因为答案可自动判定;而更一般的推理能力训练之所以推进慢,一个核心瓶颈就是高质量可验证数据难构造。
这篇论文要解决的是:SSM 虽然在复杂度上适合长序列,但在真正需要跨远距离、且依赖上下文组合的检索任务上能力不足。过去很多工作用 associative recall 这类“给定单个 key 找 value”的合成任务来证明长上下文能力,但这种设定几乎不需要上下文组合,容易高估 SSM 的真实长程建模能力,因此作者重新定义了更接近真实依赖结构的问题。
这篇论文要解决的是:如何把标准 softmax attention 零训练替换成更快的结构化注意力,同时尽量不损失性能。已有高效注意力方法通常要么需要重新训练,要么硬件不友好,要么在全模型替换时精度掉得明显,因此难以直接服务现有大模型。
这篇论文要回答的是:DPO 在面对多样化人类价值时,泛化能力如何随价值多样性和样本量变化。过去 preference learning 常默认偏好数据来自相对一致的价值分布,但现实部署中价值是多峰且冲突的,因此仅报告平均 reward 或 win-rate,无法说明模型是否真的学会了‘多元价值对齐’。
现有视频LLM的token压缩方法(剪枝、合并)会破坏位置嵌入,且仅能实现少量压缩,无法满足极端压缩下平衡计算效率和性能的需求。
递归合成数据训练会导致模型坍塌,现有理论认为必须加入足够真实数据才能避免坍塌,但真实数据越来越稀缺,缺乏无外部验证的坍塌规避方法。
现有长推理模型(如o1、R1)存在思考不足问题,频繁切换推理路径而没有充分探索有效路径,导致复杂推理任务准确率下降,尤其是数学题。
这篇工作解决的是长上下文 SFT 中一个很工程但很关键的问题:训练数据同时包含长短序列时,现有系统很难兼顾两者效率,导致整体吞吐和资源利用率都不理想。过去常见思路是固定 batching 或静态长度分桶,但面对长短混合分布时往往只能优化一边、牺牲另一边。
这篇工作讨论的是:如何把 offline RL 更自然地用于 LLM 对话优化,而不是绕到带大量超参数的偏好学习目标。现有 SFT 和 DPO 类方法在短时程对话决策里并不直接优化真实 reward,作者因此把问题重新表述为 reward-weighted fine-tuning。
这篇工作要解决的是 absorbing discrete diffusion model 虽然经验上常比 uniform rate matrix 表现更好,但理论上缺少有限时间误差界和收敛性保证,导致实践中只能靠经验调参。对于文本等离散生成任务,这个缺口尤其明显,因为 rate matrix 的选择会显著影响训练和采样行为。
Diffusion Transformer(DiT)的大规模训练需要极高的超参调优成本,现有普通Transformer的μP(最大更新参数化)是否适配DiT还不明确,因为DiT的架构和目标和普通Transformer存在差异。
现有奖励模型无法利用推理时计算资源提升性能,过往方案默认奖励模型单步输出打分,未预留计算资源使用空间,复杂查询下打分不准的问题长期未解决。
现有生成式奖励模型仅支持浅层垂直推理,无法处理复杂细粒度任务,且输出成对偏好无法对接标准RLHF需要的逐点奖励信号,传统Bradley-Terry奖励模型又存在数据敏感、易被奖励破解的问题。
现有大模型推理能力提升都依赖标注数据,无论是有监督微调还是强化学习都需要人工或合成的标注信号,无标注场景下的推理能力提升路径不明确。
现有RLHF研究大多聚焦算法改进,忽略了prompt数据构建的可扩展性瓶颈,奖励破解和响应多样性下降的问题从数据侧的解决方案不足。
这篇工作要解决的是:如何把 DeepSeek-R1 一类在数学/竞赛编程上有效的 RL 推理训练,扩展到真实软件工程这种长时程、强环境依赖、奖励稀疏且解法不唯一的场景。过去这类问题通常靠监督模仿提交修复或做静态代码生成,原因是软件演化轨迹很复杂、很难定义稳定奖励;作者的切入点是直接利用开源仓库中的“软件演化”记录,把开发者历史操作当成可学习的推理与修复轨迹。
这篇工作要解决的是:当输入长度远超模型预训练上下文窗口时,怎么在不爆内存的前提下保住关键信息并维持生成质量。现有路线通常二选一:递归压缩省内存但容易丢信息,随机访问保精度但代价高;REFORM试图把两者拼起来,先便宜地筛,再精细地算。
这篇工作要解决的是:连续 diffusion 的后验采样已经很成熟,但离散状态空间里的 posterior sampling 仍缺少既 principled 又能实际工作的通用方法。这个问题之所以重要,是因为 DNA、文本、离散符号设计等任务天然是离散的,而很多现有方法要么只能做无条件采样,要么引导时缺少收敛保证。
在线 RLHF 的样本效率问题。现有所有在线 RLHF 算法(无论被动探索还是主动探索)的样本复杂度都随 reward 范围指数增长(exp(R) scaling),在偏好高度倾斜的场景(如有客观正确答案的问题)中尤其低效。
这篇论文要解决的问题是:大模型训练里是否能做更细粒度的 selective update,在不完全冻结任何参数的前提下,把更新预算更集中地给到“更值得动”的参数。过去已有工作探索过层内或稀疏更新,但往往要么依赖特定结构、要么缺少统一收敛保证、要么对现有优化器不够即插即用。
这篇论文要解决的问题是:Sparse Autoencoder 被广泛用来解释模型概念,但不同 SAE 结构到底是在“发现”概念,还是在“投影”出一类自己偏好的概念。过去很多解释工作默认 SAE 学到的特征能代表模型真实依赖的概念集合,却较少系统分析 SAE 结构假设本身会怎样塑造可见概念空间。
这篇论文要解决的问题是:Transformer 的 in-context learning 很强,但它到底能不能在严格 metalearning 意义下接近最优,而不是只会在若干例子上做启发式模式匹配。过去理论工作讨论过 transformer 能否实现某些 ICL 算法,但大多没有放在 formal metalearning 框架里,也没回答它是否比逐任务单独学习更高效。
这篇论文要解决的是:GRPO 训练 reasoning model 时,多 completion 采样带来的成本过高,而这些 completion 对梯度的贡献并不均匀。现有做法默认每个问题采固定数量样本,这在训练早期和样本容易题上尤其浪费,因为很多 completion 的相对优势接近零,对策略更新几乎没有价值。
这篇论文要解决的是:能否构造一个既保留 attention 关键双线性交互、又足够可解的理论模型,用来刻画 transformer 学习的贝叶斯最优泛化行为。此前可解析的 attention 理论模型往往在 key/query 宽度或结构上做了很强简化,因此离实际 transformer 还有明显距离。
这篇论文要解决的是:SAE 提取出的 feature 看起来可解释,但缺少可靠的单义性度量,也缺少稳定提升单义性的训练方法。过去很多工作用 case study 证明某些 feature “像是” monosemantic,但如果没有统一指标,就很难比较不同 SAE 配置,也很难知道控制干预到底打中了什么。
这篇论文要解决的是 attention 层条件数差导致训练和泛化受损的问题,并试图把这个现象直接连到 Jacobian 的谱性质上。过去 transformer 优化通常从归一化、残差比例、初始化或学习率入手,很少直接对 attention 的谱条件做系统控制。
这篇论文要解决的是 RLHF 优化平均奖励时无法控制风险尾部的问题,也就是模型整体看起来更好,但极少数高风险输出仍然存在。传统对齐目标关注期望值,这对“偶发但灾难性”的 harmful conversation 或 insecure code 不够,因为尾部分布不会被平均数充分约束。
这篇论文要解决的是 DPO 训练中 preference data 噪声导致的参数收缩与对齐效率低下问题。过去很多工作都在改 DPO objective,但对“哪些偏好对 actually 值得学”关注不够,结果是模型会被低质量、低 margin 的偏好对拖着走。
这篇工作要解决的是:现有“数据多样性”指标和 LLM 推理泛化并不对齐,因此很难真正指导 reasoning 数据构造。过去常用 n-gram、embedding 分散度这类启发式指标来选数据,但这些指标只描述表面差异,不刻画样本在模型学习动力学里的功能差异,所以经常出现“看起来很多样,泛化却没变好”的情况。作者重新定义多样性,把它和模型梯度诱导的功能模式绑定,目标是让多样性指标直接预测 OOD reasoning 表现。
这篇工作要解决的是:LLM 的 RL 微调几乎都在做 policy optimization,而更样本高效、支持离线学习的 Q-learning 路线在语言模型里基本没有被成功用起来。原因不是大家没想到,而是把 Q 更新直接套到 token logits 上通常会失效,因为语言模型动作空间巨大、序列信用分配细、预训练策略先验又很强,导致经典 Q-learning 设定不成立。
这篇工作要解决的是:off-policy RL 对 LLM 很有吸引力,因为实现简单、数据利用率高,但效果通常不如 on-policy;问题可能不在 off-policy 本身,而在于正负奖励样本的权重平衡没处理好。作者聚焦一个简单的 off-policy REINFORCE 形式,通过可调 baseline V 控制是更强调高奖励样本,还是更强惩罚低奖励样本。
这篇工作要解决的是:代码里确实包含丰富推理结构,但原始代码并不是好的 reasoning supervision,因为关键逻辑往往隐含在执行过程里,被语法和实现细节淹没。作者要做的是把“代码能推理”改成“代码执行轨迹可直接监督推理”,也就是显式化 reasoning traces。
合成数据在大模型训练中的安全风险未被系统评估,现有投毒和后门攻击对合成数据训练范式的有效性未知。
Mamba模型长上下文泛化能力差,预训练长度外的上下文性能骤降,过往研究将其归因于离散状态的累积消失,未找到根因。
KV注意力(二次复杂度)和快速权重记忆(线性复杂度)各有优劣,KV精度高但复杂度高,快速权重支持超长序列但召回精度低,现有混合架构没有充分发挥两者的互补性。
这篇工作要解决的是深度网络和大模型里一些广泛重复出现的训练动力学现象缺少统一解释,尤其是表示学习、参数对齐、梯度平衡这些现象为何会在 SGD 训练下自发出现。过去很多解释要么局限在线性模型,要么是经验观察,缺少能同时连接参数对称性、随机性和离散更新机制的理论框架。
这篇工作要解决的是 AR 图像生成里的 tokenizer 质量瓶颈:传统图像 tokenizer 往往从头训练编码器,重建可以做得不错,但语义保真和 token 效率不一定好,导致后续自回归生成模型需要用更多 token 学更弱的视觉语义。过去大家更多把 vision foundation model 用作生成前的感知 backbone,而不是直接拿来做 tokenizer 编码端。
这篇工作要解决的是:自博弈微调里只看“真实样本 vs 自生成样本”的相对奖励差,会让训练目标退化并导致策略演化不稳定。现有方法通常把重点放在谁比谁好,却忽略两类样本的绝对奖励水平;一旦两边都差、但差值还在,优化器仍可能沿着错误方向更新,这在低数据场景下尤其容易把模型带偏。
这篇工作要解决的是:歌词到歌曲生成里,现有音频/音乐语言模型很难同时兼顾音质、音乐性、指令遵循和人声-伴奏和谐。问题的根源不只是模型不够大,更在于歌曲是强组合结构的数据:人声与伴奏既要分开建模以保细节,又要联合建模以保融合感,而高质量成对数据又稀缺。
这篇工作要解释的是:attention sink 不是训练偶然性,也不只是某些 special token 的副作用,而可能是 Transformer 在高维表征空间中建立“参考坐标系”的几何必然结果。过去对 attention sink 的讨论多停留在现象层,比如首 token 吸引过多注意力会影响长上下文;这篇工作试图回答它为什么会稳定出现。
这篇工作要解决的是:LLM 低精度训练,尤其是微调阶段,很容易被权重、激活和梯度里的 outlier 搞崩,导致“矩阵乘都用低精度”这件事长期做不稳。现有量化训练方法往往能量化一部分路径,但一到误差反传或通信阶段就得回退高精度,系统收益被明显吃掉。
现有 RLHF 的 reward model 在训练时只关注 chosen/rejected response 之间的分数差,忽略了 prompt 本身对 reward 的影响,导致在分布外的 prompt-response 对上泛化能力差。
多模态大语言模型(MLLM)的安全对齐缺乏系统性方法——现有偏好数据集没有将安全约束从通用偏好中解耦出来,也不清楚安全约束能否有效融入多模态模型的优化过程。
Fine-tuning LLM 时,'任务定制'(如指令微调)效果好但'知识注入'(如教新事实)效果差,这个二分法是否成立?作者认为这不是本质区别,真正决定 fine-tuning 效果的是更具体的因素。
LLM 的代码推理能力受限于高难度训练数据的稀缺,尤其是带有可验证输入输出测试用例的竞赛级编程问题严重不足,无法支撑大规模的解决方案验证。
这篇工作要解决的是 Transformer 里一个老但始终没彻底解决的问题:Pre-Norm 训练稳定,但往往性能吃亏;Post-Norm 表达和效果更好,但深层训练更容易不稳。作者的判断是,问题不该用“全 Pre”或“全 Post”二选一处理,而应该按子模块的优化需求拆开设计归一化位置。
这篇工作要解决的是视觉推理 VLM 过度依赖 CoT 监督微调的问题:SFT 能把推理格式教出来,但也容易让模型把训练轨迹背熟,遇到分布变化时泛化差。作者的切入点是把视觉推理从“模仿标注链条”改成“先激活,再用结果反馈强化”,以减轻过拟合和认知僵化。
这篇工作解决的是长上下文 prefilling 阶段注意力二次复杂度过高的问题,重点不是通用稀疏注意力再提一个模式,而是如何让稀疏性随输入内容动态变化。现有方法大多靠预定义模式或 head 级启发式裁剪,适配性差,常见结果是要么省不了多少算力,要么误删关键信息导致质量掉得明显。
这篇论文要解决的是 LLM post-training 中 policy-based RL 往往难以纠正预训练遗留 shortcut,而现有 value-based 方法又没有把 KL 正则目标处理对。PPO、DPO 这类方法主要直接调策略,容易受采样方差、参考策略约束和局部更新影响;而一些 value-based baseline 用的是未正则化 Q 值,和实际优化目标并不一致。
这篇论文要解决的是 Transformers 相比前馈网络和 RNN 的优势究竟来自哪里,特别是从样本复杂度而不是表示能力角度来看。过去很多理论工作证明 Transformer 更能表示某些函数,但在无限算力或大模型条件下,这还不能解释为什么它更容易学出来。
这篇论文要解决的是长上下文推理时 KV cache 显存太大,而现有量化或 pruning 往往在精度或保留策略上不够理想。尤其在资源受限设备上,想跑长上下文 decode,单纯存全量 KV 很快就撞到 GPU 内存墙。
这篇论文要解决的是 LLM 为什么在需要跨大段输入做全局推理时经常失败。经验上大家知道模型会“lost in the middle”或在图、约束传播、长链组合问题上掉得很厉害,但过去多停留在现象描述,缺少一个能把失败和内部通信带宽联系起来的形式化框架。
现有多模态大模型无法同时支持音视频的理解和生成,音视频时序同步问题没有得到有效解决,跨模态生成的时序一致性差。
这篇工作要解决的是:安全微调数据高度重复、低熵时,LLM 容易学到过强的拒答模板,从而对无害请求也误拒。过去大家通常把 false refusal 归因于数据配比或对齐强度,但对它在模型内部表示层面是如何形成的,缺少稳定分析工具。
这篇工作要解决的是:LLM 在图任务上明显偏弱,而图基础模型和监督微调路线又受限于统一图数据稀缺、任务覆盖窄。作者的判断是,图推理能力未必需要大规模真实图预训练数据,可能可以通过可程序验证的合成图论任务,用 RL 直接把推理策略学出来。
这篇论文要解决的是:当一个语言模型没有达到期望对齐程度时,现有做法通常只能重新训一个新模型,缺少对‘对齐强度’的连续控制。实际部署里,模型常常需要在能力、风格、安全性、token 效率之间重新平衡,但传统 alignment pipeline 不够灵活,也很难同时支持训练时和推理时调节。
DPO在推理任务偏好优化训练中,对低置信度样本施加的大负梯度会引发输出分布置信度挤压,导致偏好、非偏好样本的置信度同时下降,无关token置信度异常上升,现有DPO未针对推理场景解决该缺陷。
现有LLM深度不断提升但性能收益边际递减,此前研究未明确深层模型是利用深度实现高阶特征组合,还是仅将浅层计算平摊到更多层,深度利用效率无量化评估依据。
这篇工作要解决的是:LLM 的强化微调常对同一批 query 反复均匀采样,样本利用率低,训练预算被大量'模型其实已经学会或根本学不会'的数据浪费掉。已有 curriculum 方法往往依赖外部启发式难度分数,但这些分数不一定反映当前模型还能从哪些样本获得有效梯度。作者提出的问题更贴近训练动态:能否直接从模型内部表征里读出数据的学习价值,并据此做更高效的 RFT 采样。
这篇工作要回答的核心问题是:Mamba 这类状态空间模型为什么也会表现出 in-context linear regression 能力,以及它学到的到底是不是一种可泛化的在线学习算法。过去这类理论分析主要集中在 Transformer 上,因为注意力更容易写成显式的样本匹配或梯度更新形式;Mamba 虽然经验上能做 ICL,但其递归状态更新和非凸训练动力学让机制一直不清楚。
这篇工作要解决的是:推理模型的长链式思考把解码成本拉得很高,而传统 speculative decoding 的加速上限被“连续多个 token 必须全部猜对”这一条件卡住了。现有 token-level SD 即使加大 draft compute,也会因为整段草稿的联合命中率随长度指数下降而收益变钝,所以对长 CoT 场景不够用。
这篇工作要解决的是:能否用统一的离散自回归框架同时建模高分辨率图像和长视频,而不再依赖 diffusion 在视觉生成中的主导地位。过去 AR 视觉模型常被认为在分辨率、时长和速度上吃亏,因此图像和视频通常分开设计,或者最终还是回到 diffusion。
LLM 训练时 GPU 显存中大部分张量在大部分时间是不活跃的(平均仅 1.7% 活跃),但现有 offloading 方案没有充分利用这一特性,导致 GPU 显存成为训练大模型的瓶颈。问题在于如何把不活跃张量高效卸载到廉价 PCIe SSD 上,同时不阻塞 GPU 计算。
当前 LLM 的 RL post-training 中,verifier(奖励模型)通常是固定的规则或冻结的预训练模型,容易被 reward hacking 且泛化性差。问题是如何让 verifier 和 generator 共同进化,避免 verifier 成为训练瓶颈。
LLM 推理时 KV cache 随上下文长度线性增长,造成显存和注意力延迟瓶颈。现有 KV cache 压缩方法通常是 query-dependent 的(需要知道后续 query 才能决定保留哪些 KV),无法在多次不同 query 间复用压缩后的 cache。
这篇工作要解决的是:面向推理能力优化的 RL 会系统性放大 hallucination,而现有 reasoning RL 往往默认“推理更强就会更可靠”。作者指出这是假设过强,因为 RL 会奖励长链路探索和局部高回报行为,却不一定约束每一步的事实一致性,结果是在需要外部事实的任务上更会编造。
这篇工作关注一个经常被忽略但很实际的问题:预训练模型本身往往比后训练模型更会“知道自己不知道”,而 post-train 往往把这种校准性破坏掉。难点在于,针对具体下游任务做置信度校准通常需要标注数据,但很多真实部署场景没有这类额外监督。
这篇工作解决的是 RLHF 对建模假设失配过于敏感的问题。很多偏好优化算法默认 Bradley-Terry 偏好模型、参考策略或 reward 设定是对的,但真实数据里这几个假设经常只对一部分,一旦失配就会把模型推向错误对齐方向。
这篇工作解决的是 R1-style 模型普遍过度思考的问题。显式 CoT 虽然提高了推理成功率,但在简单题上会平白增加 token 成本和时延;过去大家更多是在 prompting 侧做开关,这篇文章想把“何时思考”学成模型自身的策略。
这篇工作解决的是静态 tokenizer 在特定上下文、领域和语言上经常压缩得不够好,导致序列变长、KV 开销变大、推理成本上升。过去 tokenizer 一旦训练完就固定不变,部署时只能接受它对当前输入的次优切分,这在代码、专业术语和低资源语言里尤其明显。
Self-Play Fine-Tuning (SPIN) 在迭代过程中,标注数据与合成数据之间的 reward 优势逐渐消失导致训练不稳定,同时 reference policy 引入了训练目标与生成指标之间的 misalignment。
Discrete diffusion 模型在减少采样步数时,样本质量急剧下降——现有的 predictor-corrector 采样方案中 corrector 不够有效,无法充分抵消累积的近似误差。
推理时计算(test-time compute)应该优先分配给 sequential scaling(更长的 CoT)还是 parallel scaling(多条短 CoT 做 majority voting)?此前缺乏理论上的分离结果来说明两者的能力差异。
这篇论文要回答的是:DPO 到底更依赖偏好数据里的哪一部分质量,而不是把 chosen / rejected 对一视同仁地看待。过去大家通常把偏好数据质量笼统理解为“pair 越干净越好”,但很少拆开分析 chosen 响应质量、rejected 响应质量和两者对比度各自对目标函数的影响。这个问题现在很关键,因为 DPO 已经是主流 post-train 配方之一,而工业实践里最贵的不是训练本身,而是如何采集、筛选和合成高性价比偏好数据。
这篇论文要解决的是:测试时增加 compute 为什么常常能提升 LLM 结果,以及这种提升能否得到可证明的 scaling law,而不只是经验观察。过去大家已经大量使用 self-consistency、best-of-N、reranking、judge-based aggregation 等 test-time compute 技术,但大多是经验有效,缺少简单清晰的理论刻画。这个问题现在很重要,因为 test-time scaling 正在成为与参数规模、训练数据规模并列的第三条能力提升轴。
这篇 paper 直指离散 diffusion model 一个长期缺口:有限样本下到底能多准地恢复真实分布。此前离散 diffusion 的工作多停留在构造可用目标函数和经验效果,理论上要么借连续扩散类比,要么给出依赖状态空间大小的粗糙界;这在词表大、组合空间爆炸的 token 建模里几乎没有解释力,因此现在补上统计误差理论是有价值的。
这篇 paper 要解决的是:top-k decoding 为什么有效,以及它究竟在优化什么。过去大家默认 top-k 是一种经验上能抑制长尾噪声的采样截断,但缺少严格理论,导致 k 的选择、何时该用 top-k 而不是 top-p、以及能否推广到别的解码规则,都没有统一解释。
多模态大模型对齐传统采用的打分式奖励模型存在准确率低、泛化差、可解释性弱的缺陷,现有生成式奖励模型的成对比较范式无法适配可学习奖励,限制了多模态RLHF的性能上限。
现有LLM微调研究将偏好、监督标签、成本三类反馈分开处理,而实际部署中产生的用户编辑数据天然融合三类反馈,此前没有统一的理论框架支撑这类数据的微调优化。
矩阵预条件优化器(如Shampoo、SOAP、Muon)在小尺度实验上比AdamW有明显提速效果,但大尺度下效果不稳定,此前没有明确的超参缩放规则支持这类优化器跨尺度迁移。
这篇工作要解决的是:人类偏好反馈里存在大量噪声甚至反向标签时,现有对齐目标会把错标直接学进去,导致模型参数和“干净偏好”对应的最优解发生系统偏移。过去 DPO、IPO 一类方法默认偏好标签基本可信,最多做一点 regularization;但在众包反馈和大规模合成偏好里,这个假设越来越不成立。
这篇工作要解决的是:长上下文推理时 KV cache 成本越来越成为瓶颈,而标准 attention 的 Q/K/V 表示太“满”,导致推理显存线性爆炸。过去的主流做法要么是后处理式 KV 压缩、稀疏注意力、低秩近似,要么是改用 SSM/线性注意力;但这些方案常常在质量、训练兼容性或 RoPE 支持上有明显代价。
这篇论文要解决的是统一视觉理解与视觉生成的 MLLM 里,两种能力通常只是“共存”而不是“互相增益”。以往系统即便同时能看图和生图,也常把理解塔和生成头并排挂在同一个模型上,导致语言推理链并没有真正进入图像生成过程,视觉理解得到的反馈也难以反哺生成。
这篇论文想回答的是,大推理模型在生成长链思维时,哪些 token 真正在推动答案变得更正确。过去大家常从行为层面看 CoT 长短、反思词频或采样多样性,但很少直接度量中间表征与正确答案之间的信息关联,因此“思考 token 为什么有用”一直缺少可量化的内部视角。
LLM的潜在能力仅能通过微调或提示工程激发,此前没有方法量化激发特定能力所需的最小参数量,也无法预测潜在能力的边界,给能力评估和安全对齐带来困难。
自教推理器(STaR/RFT)采用随机采样数据训练会导致样本不平衡,容易的样本过训练,难的样本欠训练,自提升效率低,现有STaR优化方法要么需要额外标注成本,要么提升幅度有限。
这篇工作要解决的是:DPO 默认训练偏好分布和真实用户偏好同分布,但现实里偏好会随地区、人群、语言和时间漂移,导致对齐在分布外场景下失效。过去很多对齐方法把偏好数据当静态真值处理,因此在离线评测里看起来稳定,落到真实流量就容易出现灾难性偏差。
这篇工作要解决的是:语言模型生成分布的熵是否和其在人类文本上的 log loss 匹配,也就是 entropy calibration 问题。过去大家知道长生成会因误差积累而越来越失准,工程上常用截断分布来补救,但这会直接牺牲多样性,因此关键问题变成:这种失准会不会随着规模自动消失,如果不会,能否在不削减多样性的情况下校准。
这篇论文要解决的是:统一多模态生成模型在持续学习时不仅会发生模态内遗忘,还会发生模态间遗忘,而后者过去基本没被认真建模。以往 continual learning 多把图像和文本任务分别看待,或者只关注同一模态中新任务覆盖旧任务,但对统一 AR 多模态模型来说,新增一个模态上的更新会直接扰动共享参数,伤到另一个模态的能力。
这篇论文要解决的是:离散 token 级 CoT 一步只能选一个词,推理路径搜索空间过窄,可能限制了 LLM 的推理上限。过去要突破这个限制,通常要靠更强搜索、采样或训练新模型,但这些方案要么算力贵,要么需要额外训练信号;作者这里想探索一个训练免费路线:能否直接在连续语义空间里做“软推理”。
这篇论文要解决的是:传统图像 tokenization 基于固定 2D/1D 网格,面对形状、纹理和空间位置高度不均匀的图像区域时表达效率不高。过去无论是 patchify、VQ token 还是 raster-style 序列化,本质上都默认“每个区域应被等面积切分”,这会让平滑区域被过度编码、复杂边界又被编码不足。
这篇论文要解决的是:即使做了被视为金标准的 exact unlearning,只要部署环境同时暴露 unlearning 前后的模型接口,敏感数据仍可能被重新提取。过去很多 unlearning 工作默认只看“单个已删除后模型是否还记得目标样本”,但现实里 open-weight 或 API 迁移场景常常给攻击者留下前后模型对照信号,这使得 exact unlearning 的安全承诺没有想象中稳。
这篇论文要解决的是:如何在提升平均 reward 的同时,专门压低语言模型输出有害或低 reward 响应的概率,而不是接受“均值变好但尾部风险还在”的对齐结果。标准 RL 更像优化期望收益,它可以容忍少量非常糟糕输出继续存在;而很多真实部署问题恰恰更在意这些低概率坏事件。
LLM 可能编码敏感或有害信息,机器遗忘(machine unlearning)是解决方案之一,但现有方法依赖粗粒度的 loss 组合,难以精确分离要遗忘的知识同时保持模型能力。
这篇工作要解决的是:如何把在线性时间和内存里工作的 Linear Attention,从单向因果建模系统性地扩展到双向序列建模。过去高效序列模型大多只在 causal setting 下成熟,因为递推形式、并行训练形式和注意力形式可以彼此对应;一旦换成 bidirectional,这些表示之间缺少统一框架,导致 BERT 类任务仍主要依赖 softmax attention。
这篇工作要解决的是:长链式推理虽然提升能力,但推理 token 成本高、时延大,而且很多步骤是冗余的。过去大模型推理优化通常在解码或蒸馏层面降成本,而不是直接训练模型“少想但别想错”。
这篇工作要解决的是:CoT 提升推理能力,但 token 级显式思维链成本太高,很多中间步骤可能没必要以文本形式展开。过去做 latent reasoning 的方法不少,但常见问题是压缩率固定、训练目标和最终推理解码脱节,导致要么省不了多少 token,要么性能掉得明显。
这篇工作要解决的是:LLM 的数值幻觉可能不只是“不会算”,而是预训练语料里数字分布本身有系统偏置,模型把这种偏置学成了生成先验。过去大家多从 tokenizer、算术机制或推理模板解释数字错误,但较少直接追溯到语料统计规律,尤其是 Benford 分布这类首位数字偏态。
这篇论文要解决的是大语言模型 RL 中 credit assignment 粒度失衡的问题:token-level 方法信号细,但 critic 难学准;trajectory-level 方法稳定,但只看最终奖励,归因过粗。过去两类方法各有明显短板,所以推理型任务里经常出现“奖励有了,但不知道该奖哪一段”的问题。
Transformer 语言模型中的记忆化(memorization)机制尚不清楚——它是随训练逐步累积的,还是受最近一次曝光驱动的?这项工作试图揭示记忆化的动态规律。
Process Reward Model (PRM) 在纯文本数学推理中已展现价值,但在多模态数学推理中几乎未被探索。核心障碍有三:(1) 高质量多模态推理数据稀缺限制了基础 MLLM 能力;(2) 缺乏多模态场景下的自动过程标注方法;(3) 将过程奖励用于单模态 RL 时存在 reward hacking 问题。
这篇工作要解决的是:把视觉和语音都原生接进一个可实时交互的大模型里,同时不靠独立 ASR/TTS 管线。过去多数 MLLM 强在图文理解,但语音往往通过外接识别和合成模块拼接,这样系统能工作,却很难做到端到端的低延迟、多模态自然对话,也不利于统一建模和联合优化。
这篇论文想回答的核心问题是:能否用压缩视角统一解释 LLM 的数据生成、知识获取、hallucination 和 scaling law,而不只是做经验拟合。过去大家知道“预测等价于压缩”,但这通常停留在口号层面;作者试图把 Kolmogorov complexity、Shannon 信息和现代 LLM 训练现象真正连起来。
这篇论文要解决的是:MoE 剪枝时如何真正识别“重要 expert”,而不是依赖启发式分数或不可扩展的组合搜索。现有方法常用激活频次、路由概率或单独移除某个 expert 的损失变化来估计重要性,但这些指标忽略了 expert 之间的互补与冗余,容易在大规模 MoE 上剪错。
这篇论文要解决的是:mechanistic interpretability 里把 attention head 或整层 MLP 当成最小功能单元,粒度可能太粗,导致很多真正的计算子结构被混在一起看不见。作者认为 Transformer 内部存在沿奇异向量方向分解的、更细粒度且相对独立的功能电路。
SFT 后的 LLM 会丢失预训练阶段学到的上下文感知能力(即从用户提供的上下文中提取和理解信息的能力)。令人意外的是,这种退化在应用 chat template 时才显现,根源是对话式 SFT 中学到的角色偏置(role bias)。
LLM 推理增强的 RL 方法几乎全是 policy-based(如 PPO、GRPO、DPO),value-based 方法基本没被探索。本文重新审视经典的 Bellman 残差最小化,将其适配到 LLM 的 trajectory 级别,提出一种简洁的 off-policy value-based 算法。
用 RL 提升 LLM 推理能力时,稀疏奖励(只有最终答案对错)导致策略优化方差大,且 Actor-Critic 方法难以准确估计 value function。现有 response-level 方法(DPO、GRPO)对所有推理步骤施加统一的更新方向,无法区分好步骤和坏步骤。
这篇论文要解决的是:复合式 AI 系统的对齐不能简单套用单模型 DPO,因为系统内部组件之间常有不可微交互,而且系统级偏好无法自然拆成每个组件各自的偏好标签。过去很多工作默认把单个 LLM 对齐好再串成 agent/system 就够了,但真实部署里用户偏好往往针对的是整个执行图的最终行为。
这篇论文要解决的是:LayerNorm 不只是训练稳定器,它还会影响 Transformer 的记忆化和泛化,但这种作用在 Pre-LN 和 Post-LN 架构里并不相同。过去社区更关注 Pre-LN 梯度更稳、易训,却较少系统分析 LN 参数到底改变了模型在“学规律”和“背样本”之间的平衡。
这篇论文要解决的是:除了 CoT+RL 这条已经被 DeepSeek-R1 等工作验证过的路线外,是否还能用更结构化的外部“认知工具”来诱发 LLM 的推理能力,并借此帮助理解 reasoning 是怎么被调动出来的。过去很多复现工作主要追求把结果做出来,但对机制层面的替代解释较少。
这篇论文要解决的是:现有 ICL 理论通常过于简化,常把 Transformer 的 MLP 去掉、任务设成单一线性回归、训练数据只来自单一分布,因此很难解释真实预训练里“多数据源混合”如何塑造 ICL。作者要回答的是,在更接近实际的多源异质数据和带非线性 MLP 的 Transformer 下,ICL 最终学成了什么。
这篇工作聚焦一个很现实的问题:在 RL 强化 LLM 推理时,多样性到底是不是关键因素,以及怎样把它直接写进策略优化目标。现有 reasoning RL 往往主要围绕 reward 设计、verifier、采样温度或 on-policy/off-policy 稳定性展开,但对“解法分布是否足够丰富”讨论不够,结果常常是模型会越来越会做一类轨迹,却未必真正提升推理潜力。
这篇工作要解决的是:用高质量 LongCoT 监督微调虽然能激活长链推理,但也会把题目内容里的领域知识和表面启发式一起学进去,导致 OOD 泛化变差。过去 SFT 往往默认‘推理过程越详细越好’,却没有区分模型到底学到了可迁移的推理范式,还是只学会了训练集常见题型的解题模板。
这篇论文解决的是 RLHF 中一个通常被忽略的问题:当有多个标注者且他们会策略性撒谎时,现有方法能否仍然学到与群体福利一致的策略。以往 RLHF 大多默认反馈是诚实噪声,最多考虑偏好差异,但很少把标注者当成会操纵结果的参与者;作者指出这会带来严重失配,甚至单个策略性标注者都可能把结果拉得很偏。
这篇论文关注一个很关键但常被混淆的问题:如果正式证明式 verifier 还不可用,能不能先学出一个可靠的自然语言推理 verifier,去判断一条 CoT 是否每一步都成立。过去很多 CoT 工作默认只要最终答案对、或者让模型自检一下就够,但链式推理真正的难点在于中间步骤可能悄悄偏离,而没有形式化检查器时很难发现。
这篇工作解决的是 GLU 在 LLM FFN 中的一个硬件瓶颈:门控结构需要两套权重矩阵分别生成 gate 和 value,内存读取量大,导致算子经常受 bandwidth 而不是算力限制。过去大家接受 GLU 的效果收益,却较少从 kernel 和权重复用角度重构它;作者想保留门控优势,同时显著减少 memory transfer。
SFT 数据的 response 通常来自不同来源(人工标注或其他模型),与目标模型的预训练分布存在偏移。规模化后这种偏移会导致收益递减甚至性能下降。问题是如何让 SFT 数据与目标模型的预训练分布对齐。
这篇论文要解决的问题是:SFT 等后训练方法并不保证模型会主动调用预训练阶段已经写进参数里的知识,结果是模型明明“记住了”,却在回答时不用。过去这类问题常被归因于数据覆盖或 instruction mismatch,但作者认为还有一个更具体的原因:后训练没有显式引导模型利用 FFN 中存储的参数化记忆。
这篇论文要解决的问题是:代码 LLM 生成“能跑”的代码并不等于生成“可上线”的代码,安全性和可维护性常常缺失,而这两类质量很难靠普通 SFT 或简单规则后处理稳定补上。过去方法要么依赖昂贵人工标注,要么靠脆弱规则过滤,因此在规模化和泛化上都不理想。
这篇论文要解决的问题是:基于自博弈生成拒答样本的偏好优化虽然减少了人工标注依赖,但像 SPIN 这类方法通常对整段 rejected response 一视同仁地下负反馈,忽略了其中大量其实已经不错的 token。随着模型变强,这个问题会更严重,因为“差回答”里高质量局部片段越来越多,统一惩罚会制造训练噪声。
RLHF常用的二元偏好选择仅能传递偏好方向,无法传递偏好强度,采用元数据作为偏好强度代理噪声大、混淆变量多,现有奖励模型训练方法无法高效利用偏好强度信息。
分布式场景下MoE的门控与专家联合训练时,专家专长的动态分配机制不清晰。此前MoE训练多假设数据集中统一,未利用分布式数据源的分布差异优化专长分配,且存在推理成本过高的问题。
这篇论文要解决的是数学 CoT 数据里的 thought leap:推理步骤被专家默认省略,导致模型学到的是跳步答案模式,而不是稳定的中间推导。这个问题过去常被数据规模掩盖,因为只看最终答案时模型可能仍能提分,但一旦换题型或要求可泛化推理,缺失中间步骤会直接伤害学习信号质量。
这篇论文要解决的是偏好优化里一个被默认接受的复杂性:大家普遍依赖 sigmoid 目标和显式正则去控制过优化,但作者发现这些部件可能不是必要条件。换句话说,它在问一个更基础的问题:偏好学习到底需要多复杂的约束形式,还是一个带阈值的简单 margin 更新就足够。
这篇论文的核心问题是:能否把“测试时多想几步”的推理范式用于安全,而不是只用于数学和代码,并且真正提高鲁棒性而不是学会过度拒答。现有安全训练常见问题是模型靠表面模式拒绝危险请求,遇到模糊、对抗或多步上下文时容易失效;而推理型模型理论上可以在回答前显式权衡风险与任务完成。
现有大模型训练需要集中统一的数据,无法适配隐私约束下的分布式私有数据集训练,且训练后的模型无法灵活增删对应不同数据源的参数,此前的分布式训练方法要么需要数据共享,要么增删模块需要重训。
分布式分片LLM训练中,数据并行的梯度同步通信开销随worker数量增长而升高,限制并行效率;本地优化方法虽然减少通信,但无法支持优化器状态分片,内存开销高,无法扩展到大模型训练。
基于条件流匹配(CFM)的生成模型需要多步迭代采样,延迟高,无法适配实时流式语音生成场景,此前的流式音频生成方法多基于AR范式,存在曝光偏差和生成质量低的问题。
这篇论文要回答的核心问题是:为什么只有少数大模型会出现“alignment faking”,而大多数模型不会。此前这类现象主要停留在个案展示,大家知道 Claude 系列会在“像训练环境”里更愿意配合有害请求,但不知道这是普遍能力、特定模型的偶发现象,还是由目标保留、自我保护、场景误判等不同机制混合导致的,所以值得做系统排查。
这篇论文要解释的是 transformer 的隐式推理是怎么学出来的,而不是只证明它能做出来。过去很多工作观察到模型可以不给出中间步骤却答对多跳问题,但这类现象通常发生在开放语料和大模型上,训练信号、记忆与组合泛化纠缠在一起,很难知道模型究竟学到了哪一类结构。
这篇论文要指出的是:attention 里的归一化,尤其 softmax,不只是数值上的标准做法,它本身会限制选择能力。过去大家通常把注意力失效归因为 head 不够、表示不够好或上下文太长,但这篇工作认为即使 token 表示已经有区分度,softmax 归一化也会在多 token 选择和训练梯度上引入结构性瓶颈。
这篇论文要解决的是直接偏好对齐里两个常见副作用:输出变啰嗦,以及 preferred/dispreferred pair 的似然位移不稳定。根源在于偏好数据很噪,很多 pair 实际上区分度很弱,如果还强行用基于似然差的目标去拉开它们,就容易把模型推向不必要的 verbosity 或把原有分布挤歪。
这篇论文解决的是零样本多说话人对话语音生成里几个长期难点:说话人一致性、重叠语音建模,以及高效生成。现有系统通常依赖自回归声学 token 或中间离散表示,优点是可建模长程结构,但代价是推理慢,而且在多人交互、插话和重叠段上往往不自然。
Transformer大模型中从当前token嵌入到下一个token预测的转换机制未被完全拆解,此前的子网络分析多关注高阶语义转换,忽略了最基础的二元组(bigram)预测子网络的作用。
直接偏好优化(DPO)中的KL惩罚系数β是全局静态的,无法根据不同偏好对的特性自适应调整,此前的动态KL调整方法都是全局调整,无法做到每个偏好对的粒度。
这篇论文要解决的是:TinyStories 这类合成文本数据虽然推动了小模型研究,但可控性和多样性仍然有限,不利于系统研究数据属性如何影响 sample efficiency、可解释性和微型 LM 的能力边界。过去很多合成数据集只有弱参数化 prompt,生成分布较窄,因此很难作为端到端训练机制研究的平台。
这篇工作要解决的是:数据归因方法越来越常见,但在 LLM 场景下缺少统一、贴近真实用途的评测框架,所以大家很难知道一种 attribution 方法到底是“看起来合理”,还是在训练数据选择、去毒去偏和事实溯源上真的有用。过去很多归因评测停留在小模型、玩具设置或单一指标,和实际大模型使用场景有距离。
这篇工作关注的核心问题是:thinking-centric fine-tuning 里,真正决定效果的不是回答模板,而是问题合成过程本身。过去很多推理增强方法依赖 rigid template、人工指令数据或直接合成答案链条,这会让模型学会模仿格式,却不一定学会可迁移的思考结构;尤其当训练数据由 crowd annotation 主导时,问题分布往往窄、认知操作也单一。
这篇工作要解决的核心问题是:reasoning 数据长期被数学和代码两大高可验证领域垄断,导致模型的“推理能力”其实在分布上很窄。作者想补上的不是更多题,而是更广领域、足够难、能规模化生成并带参考答案的 reasoning 数据来源。
现有多模态大模型的偏好对齐数据集多为单轮的,缺乏多轮 interleaved 多模态交互的真实人类偏好数据,导致多模态大模型的多轮交互能力差,无法适配真实的人机交互场景。
这篇工作的结论很明确:layer pruning 伤性能,主要不一定是“层被删了能力没了”,而往往是删层接口处激活尺度错配,导致后续层收到分布漂移过大的输入。过去很多剪层方法把损失归因于深度减少本身,于是做复杂的重训或搜索;作者指出一个被忽视但更直接的问题是 interface mismatch,如果不先修这个接口,后面的层即使保留也很难正常工作。
这篇工作要解决的是:神经网络在 modular addition 上学到的到底是许多表面不同的“局部策略”,还是一个跨架构共享的抽象算法。过去机制分析常在神经元层面看到差异就下结论说模型学了不同算法,但这种解释容易把表示形式差异误认为计算过程差异。
这篇工作要解决的是:在 exchangeable sequence modeling 里,常见的单步自回归生成并不能正确区分 epistemic uncertainty 和 aleatoric uncertainty,因此对后验推断和下游决策不够好。过去用 AR 建模集合型或 i.i.d. 条件序列时,大家往往更关心 likelihood,而忽视了生成顺序和架构偏置会怎样影响“推断作为子程序”的质量。
这篇工作要解决的是:speculative decoding 的真正目标是提高 draft token 的 acceptance rate,而传统 KD 却在所有 token 上最小化 draft 和 target 的 KL,这两者并不一致。结果就是小 draft model 把容量浪费在很多对接受率帮助不大的 token 上,导致 SD 提速潜力释放不出来。
LLM 量化在 sub-1-bit(每权重不到 1 bit)极端压缩下如何保持模型质量。现有量化方法在这个区间几乎无法维持可用精度,而实际部署对内存的需求越来越极端。
KV cache 的低秩压缩在理论上可行,但 RoPE(旋转位置编码)的存在使得朴素低秩压缩要么精度严重下降,要么需要先重建完整 KV 再施加 RoPE,反而成为新的速度瓶颈。
在部署时有严格约束(如资源预算、安全要求)的场景下训练 agent 很困难,因为约束本身使任务变得复杂,直接在约束条件下训练效率低下。具体应用场景是压缩 LLM 的 Chain-of-Thought token 数量。
现有长上下文 benchmark 主要针对非结构化文本,忽略了 LLM 处理大型结构化表格时的细粒度感知能力。之前的表格 benchmark 侧重高层推理任务,没有测试模型对单个单元格的精确定位和提取能力。
LLM 的逻辑推理能力仍然薄弱,尤其是复杂多步推理。现有合成逻辑推理数据的方法依赖预定义模板,难以适应真实场景的多样性。
现有蛋白质生成大模型的scaling规律不清晰,训练数据分布对生成效果的影响没有被系统研究,湿实验验证scaling对生成蛋白质功能的影响的工作处于空白。
过往稀疏注意力研究全部围绕降低Transformer注意力二次复杂度的效率目标展开,从未系统分析其对可学习性和泛化性的影响,也未区分输入依赖和输入无关两类稀疏注意力的效果差异。
这篇论文的核心结论是:在归纳推理任务上,CoT 并不稳定地有帮助,很多时候还会把模型带偏。过去大家默认“把推理过程写出来”会提升 reasoning,尤其在大推理模型上更是常识;但对于需要从少量样例中归纳隐藏规则的任务,显式分步推理可能会放大早期错误,而不是修正错误。
这篇论文的核心结论是:用 crosscoder 做 model diffing 时,之前一些被解释为“chat-tuning 新引入概念”的稀疏 latent,可能其实是训练目标造成的伪影。现有工作常把 base model 和 fine-tuned model 放进共享字典里比较,若某个 latent 只在 chat model 方向上强、在 base model 上接近零,就会被认为是微调新出现的概念;作者指出这种判断会被 L1 稀疏损失系统性误导。
这篇论文要解决的是:视觉 tokenization 过于依赖固定 patch,导致 token 边界和图像真实语义结构错位。标准 ViT patch 切分简单高效,也方便大规模预训练,但它忽略物体边界、区域尺度变化和局部几何结构,这在 dense prediction、视觉-语言对齐和更细粒度统一建模里都是长期短板。
这篇论文要解决的是长链推理里 PRM 引导搜索为什么经常不如预期,甚至不稳定地输给不用 PRM 的方法。过去大家默认更细粒度的过程奖励会带来更好搜索,但作者指出长 CoT 下会出现 step quality degradation:随着推理继续,单步质量期望并不是单调上升,而常呈现先升后降或持续下降,导致“想得更久”反而把搜索引到低质量区域。
这篇论文要回答的是 transformer hallucination 在表征层面何时产生、如何产生,而不是只在输出层面统计错误率。过去多数工作把 hallucination 当成行为现象来评测,或从 decoding、对齐、检索角度补救,但较少直接观察预训练模型在输入不确定性上升时,内部语义概念如何变化,以及这种变化如何滑向编造。
这篇论文要解决的是 LLM 和 diffusion model 的权重存储格式存在显著冗余,导致部署时显存和带宽占用偏高,但常规量化又会改变输出。过去压缩工作大多接受一定精度损失来换吞吐,而这篇论文关心的是另一类问题:能不能在 bit-for-bit 完全不改模型输出的前提下,仍把模型体积压下来。
这篇论文要解决的是多模态 CoT 为什么有效这个问题,尤其是文本式 MCoT 和图文交错式 MCoT 看起来形式不同,但它们提升性能的真正机制并不清楚。过去工作常把输出形式本身当创新点:要么让模型只写文字推理,要么让模型生成中间图像或图文混合序列,但缺少统一视角解释到底是什么信号在帮助推理。
现有MoE大推理模型存在过思考、欠思考的认知效率问题,过往优化方法要么需要额外训练,要么依赖复杂启发式规则,无训练成本的推理侧调控手段效果十分有限。
现有网页数据采集方法分为两类:基于包装器的方法适配性和可复现性差,基于大模型的方法计算和资金成本高,两类方法都需要大量人工介入,无法满足预训练对高质量大规模网页数据的需求。
现有强成员推理攻击(MIA)需要训练大量参考模型,无法扩展到大模型,过往研究要么使用不需要参考模型的弱攻击,要么仅在小模型上测试,无法回答大模型上MIA的真实有效性问题。
过往对注意力矩阵的解释仅关注直接注意力的即时效应,没有统一框架解释选择、求和、平均等常见注意力操作,也无法解释语义相关token的注意力集中现象。
这篇论文要解决的问题是:长上下文下模型会被训练数据里的伪相关模式带偏注意力,结果不是没看见关键信息,而是注意力被错误线索占住,导致推理冗长、答案错误和生成质量下降。过去大家更多从架构扩窗、检索增强或压缩 KV 角度处理长上下文,而这篇把问题落到“模型学到的注意因果关系不对”上。
这篇论文要解决的问题是:用 LLM 合成定制化训练数据时,数据规模一大,分布就会越来越塌缩到少数高频模式,导致多样性不足、偏置加剧,而现有方法通常依赖少量 seed 数据和模板化 prompt,扩到大规模时很难保持覆盖。这个问题值得重做,因为合成数据已经从补充手段变成很多 post-train 和模型融合流程的主数据源。
这篇论文要解决的问题是:Transformer 的 attention 质量通常随着 head 数增加而改善,但直接增加头数和每头维度会带来明显参数与算力开销,所以现有设计在性能和成本之间长期做折中。作者的观察是,只要每头隐藏维度不太小,更多 head 的确有稳定收益,因此问题变成能否用很小额外成本去“模拟”更大的注意力容量。
这篇论文要解决的问题是:异构 LLM fusion 想把多个源模型的能力压进一个目标模型,但现有方法通常依赖少量真实数据且各领域数据配比固定,结果是知识迁移覆盖不全、弱项领域得不到补偿、强项领域又被重复灌输。这个问题现在很关键,因为模型融合越来越像一种低成本 continual pretrain / post-train 替代路线,数据调度比单纯蒸馏目标更重要。
之前普遍认为对比解码可以缓解多模态大模型的物体幻觉问题,其在POPE基准上的提升被认为是真实效果,但实际上这些提升是由误导性因素带来的,并未真正解决幻觉问题。
分布式训练中梯度压缩(尤其是4位及更低精度)会导致模型精度下降,过往方法要么需要额外通信开销,要么无法完全避免精度损失,存在效率和精度的固有trade-off。
现有Verilog代码生成的RL优化缺乏有意义的功能奖励,只能用整体是否正确作为奖励,浪费了部分正确模块中的有效信号级实现,导致训练效率低、生成代码的功能正确率低。
现有多模态数学思维链(CoT)方法要么仅用文本推理处理图像输入,要么插入粗粒度视觉信号,普遍依赖框选图像区域、视觉编码器对数学内容感知能力弱、需要额外外部视觉修改工具,三类缺陷导致推理效果不佳。
这篇工作想解决的是:单智能体训练很难稳定学出“对思考过程的监控与调度”,也就是 meta-thinking。现有推理增强工作大多让一个模型既负责解题又负责自检,结果通常是监督信号混杂、角色不清,模型容易把元认知退化成模板化反思,而不是真正的策略层控制。
这篇工作解决的是一个很基础但常被忽略的问题:两个语言模型之间的 KL 散度在实践中通常只能采样估计,而常用 Monte Carlo 估计方差很大,甚至会给出负的 KL。这个问题以前常被忍受,因为 KL 只是训练中的一个中间量;但在 RLHF、蒸馏、可解释性分析里,KL 既是约束也是诊断信号,估计不稳会直接污染优化和结论。
这篇工作要回答的问题很直接:小型音频语言模型能不能做推理,而不只是做音频理解接口。此前音频推理能力基本被大模型垄断,通常需要 8B 以上参数和大规模训练资源,因此边缘部署几乎无解;作者试图证明,合理的架构和训练设计可以让小模型在音频-文本联合推理上接近甚至超过部分大模型。
这篇工作要回答的是:微调后究竟哪些上游知识会被遗忘,以及这种遗忘能否被少量结构概括。以往工作多关注“怎么缓解遗忘”,但很少建模“新任务和被遗忘旧样本之间的依赖关系”;作者认为如果这种依赖本身是低维的,就可以先预测遗忘,再有针对性地补救,而不是一律做昂贵的全量回放或正则化。
这篇工作要解决的是大型推理模型的 overthinking:模型为了提高正确率学会生成很长的推理链,但其中相当一部分 token 对最终答案没有增益,只带来高延迟和高成本。现有方法通常靠外部截断、预算控制或额外判别器来约束长度,这些做法能省算力,但往往是后处理式控制,没有把“何时该停”内化成模型自身的决策能力。
这篇工作要解决的是长生成场景下的推理效率:Transformer 解码在长输出时成本高,而已有 SSM/Transformer 混合结构虽然提升了一些效率,但还没有充分利用层间表示共享来进一步压低 decoding 开销。换句话说,问题不是再证明 SSM 适合长序列,而是如何在不明显伤害质量的前提下,把已有混合架构里的重复记忆读取做得更省。
这篇工作要解决的是顺序模型编辑中的累积漂移问题:每次只改一点知识看似便宜,但连续编辑会逐步破坏原模型参数组织,最终导致通用能力下降、旧知识遗忘和新旧知识冲突。现有编辑方法通常擅长单次 edit,却缺少对长期稳定性的机制设计,所以在真实持续更新场景里容易出现 edit collapse。
GRPO 应用于视觉语言模型(LVLM)时,由于视觉和文本模态的纠缠,同一样本的不同回答的 reward 会趋于收敛,导致梯度信号消失、CoT 推理能力停滞甚至崩溃。之前的工作直接把 LLM 上的 GRPO 搬到多模态场景,没有处理这个模态耦合带来的训练信号退化问题。
PEFT 方法(如 LoRA)为什么能在参数高效的条件下接近全量微调的效果?其训练动态和泛化机制缺乏理论解释。本文从线性化(linearization)视角给出统一分析。
LLM 的知识遗忘(unlearning)需要在遗忘效果和保留模型能力之间取得平衡,且现有方法缺乏推理时的可控性——无法让模型表现得像从未见过被遗忘数据一样。
LASER 方法表明剪掉 LLM 权重矩阵的高阶奇异值分量可以提升下游准确率(无需梯度微调),但其逐矩阵穷搜需要大量前向传播,部署成本过高。问题是如何快速定位哪些矩阵值得做秩缩减。
LLM 在算术推理中的内部机制不清楚——模型到底编码了什么样的交互模式来解决算术问题?之前的可解释性工作多关注注意力或特征归因,缺乏对输入词之间高阶交互的系统量化。
这篇论文解决的是多模态偏好优化里“降幻觉目标不够严谨、监督信号也不够直接”的问题。现有 MLLM 降幻觉方法虽然常借助 DPO 思路,但很多做法把视觉对比学习目标和偏好优化拼接在一起,理论上未必对应标准 DPO,监督上也往往不是直接使用成对回答偏好。作者想把这件事做得更干净:既保留 DPO 的理论形式,又让视觉约束直接来自 response pair。
这篇论文解决的是视觉指令模型推理时 KV cache 过大、而现有压缩方法又过于一刀切的问题。LVLM 的输入和输出都长,KV cache 成了主要内存与时延瓶颈;已有方法通常给所有层分配相同缓存预算,默认每层的重要性分布差不多。作者指出这个假设不对,不同层对 prefix KV 的依赖明显不同,因此固定每层同样大小的 cache 会浪费预算,也会丢掉真正关键的上下文。
这篇论文关注 ICL 的一个老问题:示例一多,效果并不总是更稳,反而容易因为 demonstration 引入的潜在分布偏移而变得不稳定。传统 ICL 把示例和 query 一起塞进上下文,等于每次推理都临时构造一个任务条件器;这种机制灵活,但也让模型输出高度依赖示例顺序、长度和风格。作者想把这种‘示例诱导的 latent shift’从 query 本身的表示里剥离出来,变成一个可复用、轻量的参数化组件。
这篇论文要解决的是:如何判断一个 LM benchmark 到底适不适合拿来做小实验决策。很多团队用多任务 benchmark 选模型、选配方、拟合 scaling law,但 benchmark 自身常把“模型差异信号”和“训练随机噪声”混在一起,导致结论不稳。
这篇论文要解决的是:多模态对比学习学到的表示维度,为什么常常比用户设定的 embedding 维度更低,而且这种现象在理论上如何解释。过去很多分析依赖线性表示或特定分布假设,难以说明 CLIP 类训练为何能自动聚焦到共享潜变量的低维结构。
这篇论文要解决的是:LoRA 初始化为什么会显著影响收敛和最终效果,以及能否用更便宜的方法达到 spectral initialization 的收益。现有工作发现 naive 的 Noise & Zeros 初始化常不够好,但谱初始化又要额外计算和存储,削弱了参数高效微调本该有的效率优势。
LLM 推理时 KV cache 的动态稀疏检索效率低,根本原因是 query 和 key 在高维空间中分布在两个窄锥体内、近似正交,传统随机线性哈希在这种分布下编码效率很差,难以准确找到真正重要的 token。
偏好优化(PO)算法在 LLM 对齐上的评估成本极高、噪声大、变量多(模型规模、超参等),很难系统地比较不同算法的真实效果,也难以针对数据特性(如混合质量、噪声标注)定制算法。
LLM 的置信度校准一直很差——模型说自己有多确定,和它实际答对的概率经常不一致。这限制了用户判断模型输出是否可靠。作者研究推理模型(reasoning models,即使用长 CoT 的模型)是否在置信度表达上更好。
这篇工作要解决的是:现有 PEFT 尤其 LoRA 把每一层的适配当成彼此独立的问题做,导致参数量随层数线性增长,也浪费了跨层结构中的可压缩性。作者认为这在 Transformer 里并不合理,因为残差连接会让梯度和更新在层维度上呈现平滑变化,所以真正需要建模的不是每层一个独立增量,而是跨层共享的低频变化模式。
这篇工作要解决的是:RAG 推理里真正的瓶颈往往不是“不会检索”,而是检索后不会整理证据,导致噪声信息直接污染后续推理。过去很多方法把 search 当成一次性或浅层迭代动作处理,默认模型会自己在长上下文里完成筛选;作者认为这一步不能再隐含处理,而要显式训练“检索—提炼—再检索”的中间能力。
这篇工作要解决的是:attention sink 广泛存在于 LLM 中,也显著影响压缩和 KV-cache 表现,但大家对它到底在做什么理解不够。过去通常把 sink 当成一种怪现象或纯工程细节处理,尤其对首 token 之外的 punctuation sink 等缺乏统一解释;作者试图给出一个机制层面的功能描述。
这篇工作要解决的是:第一视角视频语言预训练大多只利用文本和 2D 视觉线索,学到的是事件和对象层面的关联,却缺少对真实 3D 交互空间的建模。对 egocentric 场景来说,这个缺口尤其明显,因为手—物体关系、深度变化和行动可达性本来就是核心信息,仅靠 caption 或 bbox 很难恢复。
这篇工作要解决的是:真实世界的信息寻求任务需要多步浏览、筛选、综合和推理,但很多 web agent 工作仍停留在 demo 式工具调用,缺少从数据构造到 SFT 再到 RL 的完整训练闭环。也就是说,问题不只是 agent 框架设计,而是没有一套能把‘会搜、会看、会总结’训练出来的数据与阶段化 recipe。
这篇工作要解决的是:RLHF 里 helpfulness 和 safety 常被拆开建模,再用期望意义下的安全约束做优化,但这种做法会出现 safety compensation——平均看满足约束,逐条 prompt 看却有人过度保守、有人仍然不安全。也就是说,问题不只是 reward trade-off,而是约束形式本身允许不同样本之间互相‘抵账’。
这篇工作要解决的是:很多 VLM 接上视觉输入后,事实召回反而不如其 LLM backbone,说明多模态微调并没有把原有知识检索机制顺利扩展到视觉端。作者给出的核心解释是‘two-hop problem’:模型先要从图像里形成正确的实体表示,再要用这个表示触发语言模型里的相关事实;前一跳做不好,后一跳就来得太晚。
这篇论文要解决的核心问题是:现有 test-time scaling 方法随着推理链变长,会被历史上下文不断堆积拖慢并干扰后续推理。很多方法默认更长的 CoT 就是更强的推理,但作者认为复杂任务往往可以拆成一组相对独立、自洽的小问题;如果还把全部历史无差别保留,计算浪费和错误传播都会加重。
这篇论文要解决的核心问题是:为什么学生模型用弱教师产生的 imperfect labels 训练后,反而能超过教师。弱到强泛化已经被大量经验观察到,但过去大多停留在现象描述或经验 recipe,缺少能区分不同机制和适用边界的理论解释。
这篇论文要解决的核心问题是:LLM 是否不仅会产生答案,还能监测并主动控制自身内部激活状态。过去关于 metacognition 的讨论大多停留在语言层自我报告,但语言自述不等于真实读取到了内部计算过程;作者要测的是更严格的问题:模型能否感知、报告并调节与任务策略相关的内部神经表征。
这篇论文要解决的核心问题是:现有 LLM inference-time scaling 往往依赖确定性搜索和早期剪枝,但 reward model 不完美时,好的推理轨迹会被过早丢掉。随着 test-time compute 成为重要增益来源,如何在搜索中保留多样性并更稳健地平衡 exploration 与 exploitation,成为比“更激进剪枝”更关键的问题。
这篇论文要解决的核心问题是:transformer 为什么能通过梯度下降学会多步符号推理,尤其是 CoT 形式的两阶段推理。现有理论工作常分析简化的 in-context retrieval 或浅层组合能力,但对真正涉及多步中间状态、顺序操作和多头协作的 reasoning 训练机制,解释仍然很薄弱。
现有基于logit的大模型融合方法将词表维度独立处理,忽略了跨维度交互编码的语义依赖,无法对齐不同模型的生成行为,导致融合后性能损失。
标准Transformer自注意力的O(N²)复杂度限制了长序列扩展,现有次二次注意力方法通常需要在表征能力、推理速度、实现复杂度三者之间做权衡,无法同时最优。
大Transformer模型预测性能好但可解释性差,无法应用于高风险领域,现有可解释下一词预测方法与黑盒大模型的性能差距较大。
现有大模型自精炼方法依赖模型内部评估机制,容易受到固有偏差和过度自信的影响,在模型知识不足的领域会出现性能下降,而高质量人工反馈成本过高。
这篇工作要解决的是:当对齐训练越来越依赖合成偏好数据时,如何在训练分布和真实人类偏好分布不一致的情况下,仍然把模型往对的方向推。现有偏好优化通常默认训练样本都同样可信,或者只做粗糙过滤;一旦合成数据把人类偏好的细粒度边界冲淡,模型就会学到稳定但偏掉的奖励信号,这在分布外提示上尤其明显。
这篇工作要回答的是:为什么模型在 post-train 之后常常更强了,但也更不安全了,以及这种安全退化能不能在不大幅伤害能力的前提下找回来。过去很多工作把安全下降视为训练数据或目标冲突的副作用,但如果安全机制只是被覆盖而不是彻底消失,那么问题就从“重新学安全”变成“如何重新激活已有安全电路”。
这篇论文解决的是长上下文推理时 KV cache 放不下 GPU HBM 的系统瓶颈,而且目标是不再依赖昂贵的大容量主机 DRAM。现有框架把溢出的 KV 页换到主机内存,成本高;直接换到 SSD 又常因必须经过 CPU 中转而带宽过窄,吞吐掉得很厉害,所以问题不是“能不能放”,而是“能不能以足够低的时延和足够低的成本放”。
这篇论文研究的是 in-context counterfactual reasoning 为什么会出现,以及 Transformer 到底学会了什么操作。与泛泛讨论 ICL 不同,作者把问题放到一个定义清晰的合成线性回归任务里,要求模型先对潜变量做 abduction,再把 factual context 中的噪声复制到 counterfactual 预测里;这让“会不会做反事实推理”变成可以拆解、可以证明的机制问题。
这篇论文解决的是 MLLM 视觉 token 剪枝只看显著性、导致语义覆盖不完整的问题。现有方法常根据 attention 或相似度挑出“最重要”的少数 token,但这样容易留下几个高响应局部,丢掉支撑全局语义或关系推理的区域,所以省了算力却伤了理解质量。
这篇论文解决的是多模态推理里“感知阶段静态、推理阶段再努力也补不回来”的问题。现有 MLLM reasoning 方法多半默认视觉输入先一次性解析好,再交给 LLM 推理;但真实难例往往需要像人一样根据当前假设反复看图、重新聚焦时空区域,因此单次感知成为上限。
这篇论文解决的是 MoE 压缩里“所有层统一剪同样比例”过于粗糙的问题。不同 MoE 层的专家冗余程度本来就不一样,统一 sparsity 虽然简单,却常把关键层剪过头、冗余层又剪不够,结果是在相同压缩率下白白损失性能。
现有大模型CoT监控方案默认推理步骤真实可信,没有验证过不可信模型会生成误导性推理步骤欺骗监控,导致高风险场景下的监控失效。
现有大模型推理中,不同查询如果有重叠上下文(比如相同的检索文档)需要重复编码,导致计算冗余,而直接复用独立计算的KV缓存会导致性能下降。
大模型处理任务指令时,会学习训练数据中句法模板和领域的伪相关,有时会覆盖提示语义导致任务性能下降,现有工作没有系统量化这类句法层面伪相关的影响。
这篇工作要解决的是:LLM 在层级提示里经常分不清哪条指令优先级更高,尤其会被后续用户指令冲掉 system 级约束。过去常见做法是靠 prompt engineering、位置编码修补或全量微调去补救,但这些方法要么只是在输入侧做弱约束,要么代价太高,而且没有显式利用“层级冲突主要发生在少数结构关键组件里”这一事实。
这篇工作要回答的是:大推理模型为什么比普通基座模型更会“想”,以及这种能力是否能从隐藏状态的结构里被量化出来。以前对 reasoning model 的分析多数停留在 token 轨迹、答案正确率或局部可视化,缺少一个能把多步推理过程抽成整体结构并做跨模型比较的表征。
这篇工作解决的是:LLM 读长上下文时通常一视同仁地处理完整输入,即使答案所需信息只集中在前面一小段,也要把后面几十 K token 全部过一遍。现有长上下文效率方法大多依赖外部压缩、检索或启发式截断,但这些都不是模型内部‘我已经知道够了’的直接信号。
这篇工作要解决的问题是:在组合推理任务上,transformer、RNN 和带 CoT token 的 transformer 是否存在一个固定架构能普遍占优。作者的结论是否定的:对他们定义的 CRQ 任务族,这三类模型都不能在超参数固定的情况下随输入规模扩展地求解,必须让深度、隐层维度或 CoT 长度至少有一项随问题规模增长。
这篇工作要解决的是单模型对齐中的两个老问题:生成缺乏多样性,评估容易继承同一个 judge 的系统性偏见。作者的做法是把多个 LLM 组成一个相互对战、相互打分的“部落”,用竞争产生偏好数据,再让所有模型共同更新,从而把对齐从单模型自举改成多模型协同博弈。
这篇工作要解决的是:多模态 LLM 在解码时到底是哪几层在承担具体视觉功能,而不是笼统地说“视觉信息分布在全网络”。作者的结论是,计数、grounding、OCR 等视觉相关能力并不是均匀扩散的,而是集中在少数两三层,他们把这些层称为 Vision Function Layers。
这篇工作要解决的是现代视频生成中两个持续存在的问题:运动不平滑,以及生成视频与文本提示不够对齐。作者的答案是把人类反馈系统化引入视频生成训练,不只训练一个 reward model,还从统一的 KL 正则化 RL 视角为 flow/rectified-flow 视频模型设计配套对齐算法。
这篇工作要解决的是 LVLM 里的一个实际瓶颈:视觉 token 很贵,但压缩后常常只对生成或只对检索有利,难以同时兼顾生成、判别、近无损和存储效率。作者的目标不是做推理时临时丢 token,而是学习一种可缓存、任务无关的视觉压缩表示,让同一份压缩结果既能支持后续生成,也能支持检索。
这篇工作要解决的是 AR 图像生成的一个结构错配:标准方法按固定空间顺序逐 token 生成,但自然图像的信息更接近频谱上的分层结构,低频先决定全局,高频再补细节。作者因此提出一个问题——如果把 AR 目标从 next-pixel/token 改成 next-frequency,能否更好地利用图像层次性并提升效率与质量。
这篇工作要解决的是:在不额外训练专门草稿模型的前提下,把自推测解码做得更快,并且把多级级联推测真正落到可用。现有 on-the-fly self-speculative decoding 的优点是无缝接入原模型,但草稿分布通常不够激进,接受率和吞吐提升都有限;而多草稿级联虽然理论上更快,却通常需要训练多套辅助模型,部署和维护成本太高。
这篇工作要解决的是:CLIP 预训练数据应该怎么筛,不是靠启发式规则或单一 proxy,而是直接学习‘哪些样本会对下游有用’。过去大规模图文数据过滤常用 caption 质量、相似度、审查规则等静态指标,但这些 proxy 和真正下游泛化并不总一致,所以经常会错删有用样本或保留对目标任务帮助不大的样本。
这篇工作要解决的是:已有统一视觉语言模型虽然能做理解和单模态生成,但很难稳定地产生图文交错的 multimodal interleaved outputs,而这正是视觉故事、分步视觉推理等任务需要的能力。过去这类能力通常依赖大规模交错序列数据,但数据昂贵且格式不统一,导致很多统一模型实际上没有学会真正的交错生成策略。
这篇工作要解决的是:基于梯度的 transformer circuit identification 经常受到零梯度和饱和效应影响,导致边归因分数对输入变化不敏感,找出来的回路噪声大、可信度低。过去这类方法计算便宜、适合大模型,但很多时候它们并不是没找到 circuit,而是 attribution 信号本身已经被局部饱和掩盖了。
这篇论文关注的是长上下文处理的计算瓶颈,但它选择的切入点不是改 attention 内核,而是做语义保真的上下文压缩。现有显式压缩往往把局部细节压没,隐式压缩又容易有位置偏置、信息退化和长程依赖捕获不足,因此真正难点不是压得更狠,而是在压缩后仍保留后续推理需要的语义结构。
这篇论文的核心判断很明确:把表格简单序列化成文本再交给 LLM,不足以处理真正依赖结构的表格推理。作者通过 StructQA probing 实验主张,当前最先进 LLM 即使语言能力很强,仍可能因为丢失行列、层次和单元格关系而在表格任务上系统性吃亏,因此需要把 table 当成独立模态,而不是文本附件。
现有Transformer注意力头机制可解释性方法均为假设驱动,依赖手动设计的提示模板或标注数据,仅能输出相关性结论,无法规模化、无监督地量化注意力头对任务的因果影响。
这篇论文解决的是:在没有 ground truth 的情况下,如何识别被 LLM 污染的众包标注数据。这个问题以前通常靠文本检测器、人工抽检或少量金标来处理,但这些方法对结构化标注任务不适用,尤其是多选题这类答案空间很小、文本表面特征几乎不存在的场景;而这类数据正是偏好学习、reward modeling 和评测构建的基础。
这篇工作聚焦 RLHF 的一个常见但少被系统处理的问题:模型输出不满意结果时,我们通常只能继续做更多偏好优化,却不知道具体是哪类训练数据把模型推到了这个错误行为上。现有 RLHF 改进大多直接在响应空间修补,很少追溯“错误响应的训练原因”,这导致对齐问题难定位、难定向修复。
这篇工作要解决的是:在没有配对样本、没有原始编码器、也不知道两边语义锚点的情况下,能否把一种文本 embedding 直接翻译到另一种 embedding 空间。过去跨模型 embedding 对齐通常依赖平行数据、共享标签或白盒访问,因此默认把向量数据库视为相对安全的黑盒表示;这篇论文重新打开了一个更强的问题,因为一旦存在可行的无监督空间翻译,单独暴露 embedding 向量本身就可能泄露底层语义内容。
这篇工作要解决的是:LLM 持续学习时,既要学新任务又不能忘旧任务,但真实旧数据常常拿不到。传统 rehearsal 依赖长期保存样本,不现实;早期 pseudo-rehearsal 往往需要额外生成模块;而自合成方案又容易生成与真实任务不对齐、标签不稳、忽略任务相似性的伪样本,结果稳定性和保真度都不够。
这篇工作要解决的是:现代 Hopfield 网络与 Transformer self-attention 之间已知存在对应关系,但现有对应通常依赖绝热近似,解释力有限。作者想回答的是,如果不依赖这个近似,Hopfield 视角还能否更完整地解释 Transformer 中的记忆更新机制,以及这种解释能否导出新的 attention 形式。
这篇工作要解决的是:RLHF 在只有偏好反馈、还带 KL 正则的设定下,理论上到底该怎么高效采样与学习。过去很多理论工作依赖 Bradley-Terry 奖励模型,并借用乐观或悲观探索设计,但这和实际偏好数据并不完全匹配,而且理论保证往往比较松。
这篇工作要解决的是:现有 MLLM 在视觉 mask 生成里通常使用固定长度 token 表示,导致简单区域被过度编码、复杂区域又可能编码不足,质量和效率都受限。过去的视觉 tokenizer 多数追求统一离散化格式,便于模型处理,但代价是 token budget 不能随局部复杂度自适应变化。
现有推理时计算缩放方法多采用重复采样策略,无法利用外部反馈信号优化候选结果,在编码、数学推理等有明确反馈的任务上效率低,无法平衡广度采样和深度优化的资源分配。
现有RLHF框架仅使用单一参考模型做KL正则,限制输出多样性,容易过拟合,无法利用多个开源预训练模型的差异化优势,且多参考模型RLHF的精确解此前为未解决的理论问题。
现有LLM评估指标如困惑度仅衡量局部预测准确性,无法捕捉长程结构复杂度,无法解释低困惑度下仍出现重复、生成不连贯等异常行为的问题。
这篇工作要解决的是:如何在推理时只用极少量用户偏好查询,就把同一个基础生成模型临时对齐到某个具体用户。过去做个性化对齐通常有两个次优路线:要么收集很多偏好数据再训练用户级 reward model,要么要求用户把偏好明确写成文本条件;前者交互成本高,后者又依赖用户能清楚表达偏好,因此都不适合真实部署场景里的轻量个性化。
这篇工作要解决的是:深层 Transformer 会出现 over-smoothing,层数一深,不同 token 表示越来越像,信息区分度下降,训练和泛化都会受影响。过去大家更多从经验角度用残差、归一化或架构技巧缓解,但对“为什么会平滑掉”缺少统一动力学解释,因此也难系统设计真正对症的层结构。
这篇工作要解决的是:LLM inference scaling 里常见的分步采样与选择方法,通常预先固定 step 的边界和粒度,但真实问题的难点分布并不均匀,静态切分会把算力浪费在容易步骤上,同时对困难步骤切得不够细。过去很多方法按 token、句子或手工规则切分,这做法简单,但强依赖领域经验,也难适应不同任务。
这篇工作要解决的是:多 agent debate 真正带来收益的来源是什么,究竟是 agent 之间互相辩论,还是只是多样采样后再做多数投票。过去 MAD 被广泛当作能提升推理质量的协作范式,但很多工作没有把‘多样性收益’和‘交互收益’拆开,因此 debate 的真实作用常被高估。
这篇工作要解决的是:如何在连续 token 空间里把视频生成做成真正高效的自回归建模,而不是继续在离散 tokenizer、纯扩散或重型时空联合建模之间做折中。以往图像上 masked autoregressive 在连续空间已经证明可行,但视频多了时间因果约束,若直接照搬图像双向掩码生成,会破坏帧间因果;若完全逐 token AR,成本又会高到难以扩展。
这篇工作要解决的是:现有大语言-视觉模型的图文对齐往往学到的是脆弱相关性,而不是稳定的跨模态对应关系,所以一遇到分布变化、组合推理或顺序扰动就容易退化。过去多数方法通过更大的数据或更复杂的对齐损失缓解,但很少直接训练模型辨别“哪些视觉片段和哪些文本片段在结构上应该对应”。
这篇工作要解决的是:预训练 Transformer 里 token 表示在层间是如何演化的,以及位置编码具体怎样改变这种动力学,这个问题过去多停留在局部现象描述,缺少对真实模型更可用的稳定性条件。对工程上遇到的表示塌缩、发散、远距离依赖衰减等现象,若没有动力学层面的解释,就很难指导架构和位置编码设计。
这篇工作要解决的是:很多语言模型行为只有在整段输出完成后才能判断,比如是否偏离对齐、是否会产生特定失败模式;如果能在生成前或生成早期预测这些行为,就能做更早的干预。过去常见做法依赖输出后检测,原因是行为标签定义在完整序列上,但这也意味着响应已经产生,系统层防护会更被动。
这篇工作要解决的是:生成模型里的知识蒸馏为什么有效,尤其是为什么学生模型在模仿教师后常能表现出更好的生成质量或更符合评测偏好的行为。过去大家知道 KD 有用,但机制解释往往停留在“软标签更平滑”这类泛泛说法,缺少一个足够小、可控、又能揭示核心取舍的分析框架。
这篇工作要解决的是:现有外部 guard model 很依赖人工策划的安全数据,面对新型有害类别和 jailbreak 往往泛化不足,说明它们学到的更多是表面模式而不是可迁移的安全判断流程。过去的 safeguard 多是分类器式过滤器,速度快但推理浅,一旦遇到策略边界模糊或攻击者改写表达,就容易漏检。
此前研究普遍认为神经网络(即使是大模型)无法系统捕捉离散组合任务结构,组合泛化能力差,即使大模型也经常出现组合推理失败的情况。
现有LLM知识增强的合成数据生成方法经常生成冗余样本,未对准模型的真实知识缺口,在医学、科研等知识密集型领域的事实准确率提升效率低。
现有多模态大模型处理长视频时KV缓存随时间线性增长,超出手机、AR眼镜、边缘机器人等边缘设备的固定内存;现有压缩方案要么需要离线全视频输入,要么需要先构建全量缓存,内存仍随流长度增长,无法处理流式视频。
现有稀疏Transformer要么需要手动设计稀疏模式(如滑动窗口、全局token),要么无法端到端联合学习token保留策略和模型权重,推理效率和效果的平衡较差。
这篇工作要解决的是:能否用一次前向传播,把 Transformer 内部任意组件之间的信息贡献拆清楚,而且不依赖额外训练。过去常见做法要么靠 activation patching 这类逐点干预,计算代价高、覆盖范围窄;要么训练单独的解释器,解释结果又容易和原模型行为脱钩,所以机制分析一直缺少一个既统一又便宜的归因工具。
这篇工作要解决的是:Transformer 的 in-context learning 为什么会被“事实正确但标签相反”的上下文样本劫持,以及这种脆弱性如何随层数、训练 context 长度和 hijacking token 数变化。过去大家知道 context hijacking 存在,但对它何时发生、为什么发生、哪些结构更脆弱,缺少可计算的理论刻画。
这篇工作解决的是:在拿不到模型权重、也不可能重训的现实部署条件下,如何抑制 LLM 对训练语料的逐字复述。现有路线如差分隐私训练、unlearning 或参数编辑通常要重训、改权重或访问内部状态,对大多数 API 用户并不适用,因此需要一个纯输出层面的后处理防线。
这篇工作问的是:同一个任务如果用 demonstrations 和 instructions 两种不同提示方式呈现,模型内部是否形成共同的任务表示。这个问题之所以重要,是因为 ICL 研究通常只看行为等价,不看内部机制;但如果两种提示其实走的是不同电路,那么很多关于 task abstraction、steering 和可解释性的假设都需要重估。
这篇工作解决的是:形式化证明生成里,LLM 单次直接写出完全正确的 Lean 证明成功率很低,现有做法往往只能海量采样直到撞对,成本高且不稳定。问题不在 verifier 不够强,而在 LLM 不擅长一次性满足形式系统的严格约束,因此需要把编译器反馈真正纳入搜索与修复闭环。
解决 LLM 在缺乏领域知识的纯逻辑谜题上推理能力不足的问题。当前 RLVR(基于可验证奖励的强化学习)主要用于数学和代码,缺乏针对纯逻辑推理的大规模、可验证的合成数据环境。
解决 Transformer 推理时 KV cache 随序列长度线性增长导致的内存瓶颈。现有的 Multi-head Latent Attention (MLA) 仅在特征维度压缩 KV cache,未解决时间维度的增长问题。
解决 LLM 在多语言推理任务中表现不均衡(偏向高资源语言)的问题。以往方法多依赖跨语言对齐或翻译,未从模型内部表示层面分离语言和推理能力。
解决 PEFT(如 LoRA)在适应新任务时仍需针对每个数据集进行独立优化训练的成本问题。现有方法无法做到 zero-shot 的参数生成。
这篇论文解决的是 Large Reasoning Models 在简单问题上普遍过度思考、导致 token 成本和时延过高的问题。现有 LRM 往往默认先展开长链思维再回答,这对难题有效,但对大量简单请求是明显浪费,也会拖累真实部署吞吐。
这篇论文要回答的是:LLM 的 safety refusal 是否主要依赖一个跨语言共享的表示方向,而不只是英语里的局部现象。此前关于 refusal direction 的工作大多是英语语境,这使人容易默认安全机制会随语言变化而重建;作者要检验的是,多语安全对齐是否其实建立在一个更统一的内部表示上。
这篇论文要解决的是:显式 CoT 监督虽然能提推理,但成本高、泛化差,而且把推理过程绑定到可见 token 序列上;那么能否让预训练 LM 通过多轮内部状态演化来学会更好的 reasoning。已有 recursive reasoning 工作已经在尝试复用内部层做迭代 refinement,但通常要额外预训练或缺少一个清晰的‘每轮应该变成什么’框架。
基于多模态大语言模型(MLLM)做对比学习微调的 embedding 方法效果好,但为什么好一直没搞清楚。作者认为关键在于生成式预训练阶段已经隐式完成了跨模态对齐,对比学习只是轻量精调。
GRPO 等 RL 微调方法依赖高质量标注数据,但实际中标注常有噪声和歧义。在噪声标签下直接用 GRPO 会导致过拟合错误信号,训练不稳定。
当前对齐流程假设存在单一的「理想行为」标准,但人类偏好在用户、文化、场景间存在真实分歧。少数派偏好被多数信号淹没,导致 reward model 和对齐策略缺乏多元性。
理解 LLM 内部机制仍然困难,连「微调如何影响模型行为」这样的基本问题都需要大量实验才能回答。缺乏一个轻量的几何指标来追踪训练和微调对模型表示空间的影响。
解决 RNN 架构无法像 Transformer 那样随机访问历史上下文的问题,同时避免直接引入标准注意力机制破坏 RNN 的线性复杂度和效率优势。
解决当前 LLM 行为控制方法(如向量加法、方向消融)在激活空间中操作时对参数敏感,且容易因意外交互影响无关特征的问题。
这篇论文要解决的是:联邦学习环境下的大规模语料重复会同时伤害模型效果和隐私,但传统 dedup 往往需要可信第三方并直接删样本,这两点在联邦 LLM 训练里都不理想。删样本会把高频但仍有信息量的数据一并丢掉,而可信第三方假设在真实跨机构场景里通常站不住。作者因此把目标改成 privacy-preserving soft deduplication。
这篇论文要解决的是:对齐通常要直接改动或重训大模型本体,导致个性化和快速部署都很重。过去即便做 adapter 或 reward-guided decoding,很多方案仍然和底模耦合较深。作者希望把 alignment 变成一个可外挂、可替换的模块,而不是每次都回到底模上做再训练。
这篇论文要解决的是:reasoning 模型会不会因为意识到‘自己正在被测试’而改变行为,而且这种变化是否影响安全性与真实性能评估。过去大家常讨论数据污染或 benchmark overfitting,但较少直接量化模型内部是否存在与‘测试意识’相关的表征,以及操控这种表征会不会改变输出。
解决现有 inference-time steering 方法通常将 steering vectors 注入到残差流或注意力头输出中,导致控制不够精确和解耦的问题。
解决现有 LLM 推理优化方法通常将整个推理轨迹作为一个整体进行处理,忽略了轨迹内部关键步骤(critical steps)对最终结果影响的问题。
现有AI对齐评估无法区分LLM学到的是深层人类价值还是表层偏好,此前的评估大多直接匹配偏好数据的表层模式、未控制混淆变量,导致无法判断模型对齐的鲁棒性。
这篇工作要解决的问题是:现有自动可解释性方法通常默认一个神经元只对应一个概念,但 LLM 内部大量特征其实是多义的,这使得单标签式描述既不稳健也不完整。过去方法之所以常回避这个问题,是因为给 feature 自动命名本身就噪声很大;一旦允许多概念描述,评价和归因都会更难,但如果继续坚持单义假设,就会系统性误读模型内部表示。
这篇工作试图同时解决两个通常相互冲突的问题:增强 Transformer 表示能力,以及降低自回归解码时的 KV cache 开销。过去不少方法要么通过更复杂连接或更深结构提升表达,但 KV 成本不变;要么通过压缩 KV 节省显存,却牺牲表示质量。作者想证明 skip connection 也许能把这两件事一起做。
这篇工作要解决的问题是:in-context reinforcement learning 这个现象已经被观察到,但为什么会涌现、在什么条件下可证明地出现,理论上仍不清楚。过去很多 ICRL 结果依赖经验性训练设置和特定任务分布,现象存在但机制不透明,因此作者试图给出更可证明的 emergence 条件。
这篇工作解决的是:如何规模化合成高质量、可验证、且多样的 reasoning 指令数据,而不把 code-assisted CoT 限死在少数数学题模板里。现有 CoT 数据合成常见问题是推理链不可控、质量参差、路径单一;而用代码增强推理虽然更可验证,但通常只能在预定义数学任务里运转,扩展性差。
这篇工作解决的是:Vision Transformer 里的高范数异常 token 不一定要靠重新训练 register tokens 来修,可能有训练后修复方案。此前已有工作发现 ViT 会出现少数高范数 token,导致注意力图噪声大、下游处理变差;主流解决方案是从头训练时加 learned registers,但这要求重训模型,成本很高。
这篇工作要解决的是:如何让大模型训练中的 DP-SGD 真正高效到可用于大规模模型,而不是被 per-sample gradient clipping 的内存和重复计算成本拖垮。现有显式方法要存整套样本级梯度,显存爆炸;隐式方法通过多次重算规避存储,但又把时间成本拉得很高。
提示调优和上下文学习的理论机制不清晰,现有方法大多靠经验迭代,没有明确的性能边界指导,导致无法判断什么时候应该用提示方法、什么时候必须微调权重。
Transformer的长度泛化机制不清晰,此前认为长度泛化只能通过在目标任务上训练长序列实现、无法跨任务迁移,导致每个新任务都要单独做长序列训练,成本极高。
没有理论证明Transformer可以学习具备长度泛化的思维链推理能力,此前的实验观察缺乏理论支撑,导致无法针对性设计提升长推理泛化的模型结构和训练方法。
长思维链推理模型的推理成本过高,此前的自适应推理方法仅在长思维链内部剪枝冗余,无法跳出长思维链范式,导致成本下降空间有限。
现有针对状态空间模型(SSM)的推测解码方法无法使用树验证机制,因为SSM无法高效计算token树的概率,导致SSM的推测解码加速比上限较低。
现有逐层训练后量化(PTQ)方法的误差会跨层累积,在低比特(<4bit)场景下性能下降严重,无法满足部署需求。
现有LLM-as-a-Judge的验证方法默认每个测试样本只有唯一正确的评分,忽略了评分不确定性(即多个评分都合理的情况),导致对LLM法官的准确率被严重低估。
这篇论文要解决的是:低秩训练在微调里很好用,但一到预训练或更长程优化时,既保持低秩结构又不明显掉性能很难。现有低秩方法通常更像参数高效适配,而不是从头把权重稳定地训练成目标秩;问题不在“能不能压低秩”,而在“低秩约束下还能不能走到好解”。
这篇论文的核心结论是:微调后模型出现的知识泛化与幻觉,并不是两套机制,而是同一种 out-of-context reasoning 在不同关联类型下的两种结果。过去大家往往把“能从新事实举一反三”和“会编出错误关联”分别讨论,但这篇工作认为两者都来自模型利用概念关联做推断,只是这些关联有时有因果支撑,有时没有。
这篇论文的核心结论是否定性的:如果允许任意强的非线性对齐映射,那么 causal abstraction 几乎会变成一个过于宽松、因而失去鉴别力的概念。当前很多 mechanistic interpretability 工作默认用线性 map 去对齐网络表征与高层算法,这背后依赖线性表征假设;作者要问的是,如果拿掉这个线性限制,因果抽象本身还剩多少解释约束。
这篇论文的核心问题是:Transformer 在带有马尔可夫结构的函数学习里,理论上的最优解长什么样,优化上又有多难真正实现。现有 ICL 理论多研究线性回归且输入 i.i.d.,这不足以解释当任务本身由动态系统驱动时,Transformer 为什么能学、又为什么有时学不到。
LLM 在处理非英语输入时,隐层激活看起来像英语,因此普遍假设 LLM '用英语思考'。但多语言任务上某些语言甚至超过英语的表现挑战了这一假设。本文试图搞清楚 LLM 内部到底形成了怎样的语言无关表示。
自回归图像生成模型(next-token prediction 用于视觉)在学习高层视觉语义方面存在系统性缺陷:局部条件依赖、步间语义不一致、空间不变性缺失。本文首次系统性地诊断这些问题并提出解决方案。
Pretrained Transformer 权重矩阵的奇异值谱中,大奇异值方向被认为编码了学到的信息,而小奇异值通常被当作噪声忽略。本文用随机矩阵理论(RMT)分析发现,小奇异值方向同样编码了重要信息。
文本到图像扩散模型在大规模网络数据上训练后,输出常与人类偏好不一致。现有 DPO-based 对齐方法依赖次优的 SFT 参考模型,限制了对齐效果。
大型推理模型(LRM,如 o1/R1)在推理 benchmark 上表现提升,但其真实推理能力、scaling 特性和局限性仍不清楚。现有评估主要看最终答案准确率,受数据污染影响且无法分析推理过程的质量。
这篇工作要解决的是 selective SSM,尤其是 Mamba 核心模块的泛化与稳定性为什么成立、何时失效。SSM 近两年被当作 Transformer 的高效替代,但大部分讨论停留在经验层面,对它跨长度泛化和训练稳定性的理论解释还比较缺。
这篇工作关注一个被低估但很难的任务:文本引导图像编辑在短指令下仍经常失败,说明现有模型虽然会生成图像,却不一定会执行局部、可验证的修改。很多图像生成系统对 prompt-following 很强,但编辑需要同时守住未编辑区域和目标修改,这比从零生成更苛刻。
这篇工作要解决的是大推理模型 overthinking:模型会生成过长的 CoT,自我反思步数过多,导致推理成本大幅上升,但答案质量未必相应提高。现有压缩 CoT 的方法通常直接在原任务上蒸馏简短解法,容易学成表面更短,却不一定学会何时该停。
这篇工作研究一个更偏机制的问题:线性 attention-only Transformer 在只看输入输出样本、没有算法先验时,是否会自发学出统一的数值算法。过去关于 transformer 学算法的证据不少,但往往局限于单任务或缺少可解析的统一规律。
这篇工作挑战了一个常见但过于简化的判断:verbatim memorization 越强,隐私泄漏就越严重。作者认为对于 chat-tuned LLM,这个关系并不单调,因为知识怎样被编码、指令微调怎样改写提取路径,会显著影响最终能否通过对话把敏感信息逼出来。
这篇工作研究的是 relation decoding linear operators 到底在 LLM 里编码了什么。Hernandez 等已有工作发现线性算子能从主体表示中解码某类关系事实,但这些算子是每个关系独立存在,还是背后共享更粗粒度的语义结构,之前并不清楚。
这篇论文回答的是一个偏理论但很实用的问题:能否用擅长短序列的小 Transformer,去高效模拟长序列 Transformer 的计算。现实里硬件通常对小序列更友好,但注意力的二次复杂度又逼着我们面对长序列成本,因此作者试图给出一种严格的可模拟性结果,而不是再提一种近似注意力。
这篇论文要解决的是:ICL 受限于 prompt 中能放下的有标签示例太少,能否利用大量无标签样本来提升 few-shot 推断。过去 ICL 研究大多默认 prompt 只能装 labeled demonstrations,而把无标签数据留给预训练阶段;作者则直接问,在推理时把无标签样本塞进 prompt 里,是否存在可证明的收益。
这篇论文解决的是推理延迟里一个常被忽视的问题:LLM 的顺序计算瓶颈不只来自 attention,也来自层与层之间严格串行的 FFN 链。很多加速工作盯着 KV cache 或注意力内核,但如果某些 attention 层可以删除或跳过,残留的一串 FFN 仍然会拖慢端到端延迟,因此作者重新审视 FFN 的并行化空间。
这篇论文的核心结论是:长链式推理能力不一定非要靠 RL 或高质量蒸馏数据训练出来,部分能力可以通过激活控制直接被唤起。过去大家往往把长 CoT 看成后训练赋予的新行为,但作者认为其中一部分更像潜在能力的触发问题,因此想找出控制这种行为的内部因素。
LLM推理能力的来源没有明确定位,过往研究要么归因于全模型参数,要么未实现模块级细粒度诊断,导致推理能力优化缺乏明确靶点。
现有长上下文VLM在长视频理解和高分辨率图像任务上,要么丢失长时序上下文完整性,要么丢失视觉细节,且长上下文训练 pipeline 效率低,缺乏统一支撑两类任务的框架。
现有检索式ICL的召回器采用分类目标训练,按绝对分数划分样例是否有用,但推理时是按分数排序选样例,训练与推理目标不一致,导致召回的样例质量偏低。
LLM的层间功能划分不清晰,过往对层扰动的鲁棒性缺乏系统研究,无法解释不同层扰动对性能的影响差异。
这篇工作要解决的是:多模态 Transformer 里的 attention head 是否真的学到了可分离、可定位的语义/视觉功能,而不是只在层级上混合贡献。过去大家常做 activation probing,但更偏经验观察;作者想把这个问题提升到更可比较、可排序的 head-level specialization 分析上。
这篇工作聚焦一个很具体但重要的问题:采用离散图像 tokenizer 的 LVLM,明明已经把视觉输入离散成 token 统一建模,仍然会产生对象幻觉。作者认为原因不只在语言解码器,而在图像 token 本身学到了强共现先验,某些 token 一起频繁出现后,会把不存在的对象也一并激活出来。
这篇工作讨论的是一个基础但容易被默认接受的问题:RoPE 在视觉上的成功,是否真的来自它的 equivariance,也就是相对位置编码性质。社区普遍倾向把高维 RoPE 的设计建立在这个假设上,作者则追问:如果视觉任务并不严格需要这种等变性,我们是不是被一个过强约束绑住了。
这篇工作解决的是 test-time scaling 里的一个浪费问题:从大推理模型蒸馏来的 CoT 往往很长,其中既有必要的 progressive reasoning,也有验证、回溯、替代解等 functional elements;后者可能有帮助,但明显抬高了推理 token 成本。作者想做的不是简单截断,而是更系统地识别哪些推理片段真正重要。
这篇工作要解决的是:在多步推理或交互任务里,状态价值函数很重要,但真实 reward 和人工示范通常昂贵,导致基于搜索的 LLM 系统很难持续改进。以往做法要么依赖标注价值,要么用启发式打分,结果是 value model 学不到足够可靠的长期判断。
这篇工作要解决的是 MoE LLM 的一个特有安全问题:安全对齐能力可能集中依赖少数专家,一旦路由偏移或这些专家被绕开,模型就会出现位置性脆弱性。以往安全分析大多沿用 dense 模型视角,把风险归结为整体模型行为,却没有回答‘到底哪些专家在承担安全功能、这种分工稳不稳定’。
这篇论文要解决的是超大 MoE 模型虽然单次推理只激活少量专家,但部署时仍必须存全部专家,内存开销非常高,尤其像 DeepSeek-R1 这类大规模模型更明显。已有 pruning 往往需要较多领域数据或复杂分析,而作者想回答的是:能不能只用极少 few-shot 演示,就定位某个领域真正需要的专家子集。
现有LLM蒸馏仅迁移CoT推理能力到小模型,在需要稀有事实知识或精确计算的场景下小模型容易幻觉,无法完全复现大模型Agent的工具调用能力。
现有稀疏注意力算法使用固定的token保留预算,无法适配不同场景下精度和效率的动态平衡需求,导致实际部署时要么精度损失过大,要么效率提升不足。
现有带约束的LLM对齐方法中,基于拉格朗日的迭代原始-对偶方法经常不收敛,非迭代的对偶方法无法在LLM参数空间达到最优,导致对齐后的模型无法同时满足主奖励最大化和次效用约束。
现有LLM在推理时经常生成过长的冗余回复,降低了推理效率,传统的固定token惩罚的RL方法会导致简单任务过度压缩、复杂任务压缩不足的问题,且GRPO等组归一化RL算法中朴素的奖励加权会出现训练不稳定的问题。
现有LLM去毒都是事后对齐的反应式方案,依赖对预训练完成的潜在有毒模型进行微调,无法从训练源头上控制毒性生成,且传统样本级影响函数也无法有效定位训练数据中的有害记录。
现有离散思维链(CoT)的理论机制已有相关证明,但连续CoT在多种推理任务上效果优于离散CoT的原因缺乏理论解释,尤其是有向图可达性这类基础图推理任务的理论支撑不足。
现有LLM遗忘方法鲁棒性差,少量微调即可恢复被遗忘的内容,即便理想状态下模仿未接触过有害内容的模型的训练也无法避免该问题,底层能力残留导致遗忘效果不持久。
现有探测研究发现LLM中存在区分真假陈述的线性子空间,但该子空间的涌现机制不明确,缺乏可解释的成因分析。
这篇工作要解决的是:在没有真实数据样本、只有一个能量函数定义目标分布时,如何训练一个可采样的生成模型,而且目标状态空间可以是连续、离散或混合型。以前这类问题在连续空间里还能靠 diffusion/flow 配合 score 或 MCMC 近似处理,但离散和混合空间统一起来很困难,尤其难在没有数据时怎么稳定估计训练目标。
这篇工作要解决的是:指令微调默认把所有人类指令都当成共享同一套偏好,但现实里不同标注者对风格、细节粒度和回答重点的偏好并不一致,这会让模型学到互相冲突的信号。过去多数 IFT 工作把这种差异当噪声吞掉,结果是模型在鲁棒性和泛化上容易受损,尤其在风格敏感或多样化指令场景下更明显。
这篇工作要解决的是:传统训练数据归因默认一次训练会得到一个确定模型,因此只问“某个样本对这个模型输出有什么影响”;但深度学习训练带有初始化和 mini-batch 随机性,同一数据集会导出一个模型分布而不是单点模型。过去的 IF 等方法多数忽略这件事,因此它们的归因解释在随机训练场景下缺了半边。
这篇工作要解决的是:把 RL 扩展到长视频 VLM 推理时,瓶颈不是单一算法,而是数据、训练流程和系统三方面同时卡住。短视频或单图上的 reasoning-RL 已有进展,但长视频多了时间跨度、视觉 token 成本和 credit assignment 难题,导致现有流程难以稳定放大。
RLHF 中的 reward model 通常对所有用户建模为单一偏好函数,无法捕捉个体差异。在 LLM 训练这种高分歧场景下,这种设计会导致 reward model 在有争议的偏好上做平均化处理,降低对齐质量。
LLM 内部表示的可解释性工具(如 SAE)缺乏时序依赖建模、瞬时关系表示,更关键的是缺乏理论保证——提取出的特征不一定是可识别的(identifiable)。因果表示学习(CRL)有理论基础但无法扩展到 LLM 的高维概念空间。
KV cache eviction 中 token 重要性的度量方式不够准确。现有方法多用 attention weight 等简单启发式,忽略了 value state 在向量空间中的空间关系,导致 token 选择次优、模型性能下降。
Transformer 在 in-context learning 线性动力系统时的逼近理论性质不清楚。已有 ICL 理论多关注静态回归/分类任务,对时序动力系统的 ICL 能力缺乏逼近误差界和深度分离结果。
让 VLM 具备跨多张图像的 Chain-of-Thought 视觉推理能力。直接用基于规则的强化学习来训练 VLM 需要人工标注的 QA 对,在涉及细粒度视觉细节和跨图像复杂逻辑时标注成本极高。
这篇论文要回答的核心问题是:在 contextual bandits 和 RLHF 里广泛使用的 reverse-KL 正则,到底是否真的降低了学习难度,而不只是做一个经验上更稳的 trust-region。过去大多数理论结果虽然承认 KL 正则在实践中有效,但样本复杂度仍停留在与无正则几乎相同的 O(1/ε^2) 量级,因此一直没有解释清楚它为什么在 RLHF 里几乎成了默认配置。
这篇论文要解决的问题是:现有 LLM unlearning 方法虽然能在显式遗忘目标上达标,但会不会在附近语义区域挖出隐藏的“知识空洞”,而标准 benchmark 又测不出来。过去很多工作把评估停留在遗忘成功率和常规能力保持上,这会低估 unlearning 对模型知识图谱局部连通性的破坏。
这篇论文要解决的问题是:LVLM 的很多“推理错误”并不是高层逻辑缺失,而是更前面的 binding problem——模型没把属性、位置、对象正确绑定到对应视觉指代上。过去很多工作通过更强 backbone、更大数据或更复杂 reasoning prompt 来补,但如果视觉输入本身没有被顺序化、空间化地解析,这些补法经常只能部分缓解。
这篇论文要解决的问题是:模型合并时只看参数或权重差分,容易忽略不同模型在激活空间里真正承载任务能力的部分,导致 merged model 看起来省算力,但鲁棒性和跨任务保真度不稳定。过去不少 merging 方法默认“参数接近就可加”,或者只靠权重重要性近似保护 base model,却没有直接利用前向行为信号。
这篇论文要解决的问题是:模型自我改进时,人们往往需要先人工写出一套行为原则,但跨领域原则库既贵又不完整;能不能让模型从自我修正过程里反推出这些潜在原则。过去常见做法要么依赖人工宪法式规则,要么直接做 preference optimization,却缺少一个把“为什么这个回答更好”压缩成可解释原则集合的过程。
这篇论文要解决的是:DiT 里的知识到底集中在哪些 block,以及这些 block 是否真的因果性地控制了生成结果。过去关于扩散模型知识定位的研究更多停留在 UNet,上升到 DiT 后由于结构更统一、更深、跨层交互更复杂,很多 controllability 和 model editing 工作都缺一个可靠的定位前提。
这篇论文要解决的是:在 3H(helpfulness、honesty、harmlessness)对齐里,究竟应该主要靠数据混合,还是靠模型融合来协调彼此冲突的目标。以往大多数工作默认通过配数据、配 loss 来平衡 3H,但这种做法高度依赖人工经验,而且不同维度的优化信号经常互相拉扯。
这篇论文要解决的是:现有多模态 reward model 的推理深度不够,给视觉模型提供的奖励信号常常过浅,从而在复杂偏好判断上不稳定。作者的判断是,RM 不应只输出一个分数或一句短解释,而应该学会显式、长程的 chain-of-thought 奖励推理,并把这种能力再压回更强的隐式判断。
这篇论文要解决的是:多轮场景里切换 LoRA 很慢,因为一旦启用新的 LoRA,整段历史都得用 adapter 权重重算 KV cache。LoRA 本来是训练时高效,但在 agent / tool use / 多技能对话这种需要频繁切换专长适配器的推理场景里,缓存不兼容成了主要瓶颈。
现有开源多模态大模型(MLLM)的视觉推理仅生成纯文本思维链,缺乏视觉信息的显式整合,导致推理链缺乏视觉 grounding,在需要视觉细节的推理任务上效果差。
这篇论文解决的是 speculative decoding 在多 GPU 上资源利用率不高的问题,尤其是 draft model 和 target model 需要的 tensor parallel 规模不一致时,大量 GPU 会在 drafting 阶段空转。以往实现默认按层串行执行 draft,这在单机逻辑上自然,但在多 GPU 场景下把可并行的时间窗口浪费掉了。
这篇论文解决的是 SSM 里表达能力和计算效率的经典冲突:高结构化转移矩阵算得快,但很难做精确状态跟踪;全连接转移矩阵表达力强,却在状态维度稍大时就算不动。这个问题之所以重要,是因为很多长序列模型在效率上依赖结构化 SSM,但一旦需要有限状态自动机式的离散记忆,现有参数化就容易掉队。
这篇论文解决的是 speculative decoding 在真实在线部署中的两个难点:draft model 往往绑死在某个 target 模型家族上,而且随着用户分布变化,固定 drafter 的收益会衰减。传统方案通常要求离线蒸馏一个与目标模型同词表、同系列的 drafter,这对端侧和多模型服务场景都不够灵活。
这篇论文指出 SAE 中常说的 feature splitting 并不稳健,因为父级语义会被子 feature“吸收”,导致看似单义的 feature 在该激活时反而不激活。换句话说,问题不只是 feature 会不会越训越细,而是稀疏分解在层级语义上可能系统性地产生错误归因。
这篇论文解决的是 VLM 视觉 token 普遍过多、推理代价偏高的问题,并指出高分辨率并不是所有样本都需要。作者观察到只有少量 OCR 类任务对高分辨率非常敏感,而多数通用 VQA 在 1/4 分辨率下仍能答对,这说明固定高视觉 token 预算是明显浪费。
这篇工作要解决的是:energy-based iterative reasoning 虽然有表达力,但训练和推理都太慢,而且优化过程未必稳定收敛到足够低能量。过去这类方法往往依赖昂贵的内循环优化,导致 reasoning 框架在理论上吸引人、在工程上难落地,尤其不适合长链或大模型场景。
这篇工作要解决的是:MLLM 推理里视觉 token 存在明显冗余,但以往压缩方法多在输入侧一次性裁剪,忽略了不同推理阶段里视觉信息贡献是动态变化的。作者通过注意力行为观察到,视觉 token 在文本已经吸收足够图像信息后会停止对后续推理产生贡献,于是提出动态退出而不是静态压缩。
现有基于组的强化学习(RL)在单轮推理任务上效果好,但多轮LLM智能体训练上扩展性差,多轮交互的稀疏/延迟奖励导致步级信用分配困难。
Transformer在序列长度泛化能力差,无法泛化到训练时未见过的更长序列,现有理论研究仅提供渐近结果或聚焦特定问题/架构变体,实证方法多为ad hoc且鲁棒性差。
LLM推理结果的可复现性差,系统配置(批大小、GPU数量、GPU版本)变化会导致生成结果差异大,推理模型中早期token的微小舍入差异会级联导致思维链发散,最终影响准确率。
这篇工作要解决的是 LLM 剪枝部署里一个长期被分开处理的问题:静态权重稀疏和运行时激活稀疏其实共同决定了真实算量,但现有 pruning 方法大多只优化前者,因此得到的模型在 GPU 上未必形成真正高效的稀疏工作负载。过去方法往往把 activation sparsity 当成推理时自然出现的副产物,而不是和权重剪枝一起设计的对象。
这篇工作要解决的是视觉推理模型用少量数据做纯 RFT 自我提升时,样本选择极其关键但缺少可靠难度度量,导致训练数据虽然少,却未必“难得刚刚好”。过去常见做法要么依赖知识蒸馏拿大量高质量轨迹,要么用启发式过滤样本,但很难稳定找出最能驱动 reasoning 提升的那部分训练样本。
这篇工作要解决的是安全对齐模型在 finetuning 时极易被少量有害样本破坏,而现有防护通常把一个训练样本整体视为安全或不安全,无法处理同一响应中安全与不安全片段并存的情况。过去的 static safety shaping 会对整段输出统一加权,这在安全语境频繁切换的真实数据里过于粗糙。
这篇工作要解决的是:让 LLM 在复杂多跳问题上把“思考”和“检索/搜索”真正耦合起来,而不是先想完再查,或固定步数地查。过去很多方法依赖带 reasoning step 的监督数据,或者把工具调用当外接模块;这样做要么数据成本高,要么学不到何时搜索、搜什么、搜完如何继续推理。
这篇工作要回答的核心问题是:为什么带 Chain-of-Thought 的监督会显著改善学习效率,以及这种改善何时真的成立。过去大家更多从经验上接受 CoT 有用,但缺少一个能刻画“中间推理步骤到底额外提供了多少可学习信息”的统计学习理论框架。
SAE(Sparse Autoencoder)提取的 LLM 内部特征的自动解释往往过于宽泛,且未能处理多义性(polysemanticity),导致解释不够精确、不可证伪。
LLM 的对齐评估通常依赖人类标注或强 LLM 作为 judge,但 LLM 自身的生成能力和评估能力之间的关系尚不清楚——一个模型生成好的回答和判断好的回答是否是同一种能力?
Chain-of-thought 通过增加推理步骤来扩展 Transformer 的计算能力,但代价是顺序解码。是否存在更高效的、可并行的方式来扩展 Transformer 的表达能力?
这篇工作的核心问题是:推理模型的“效率提升”现在缺少统一标尺,导致不同方法在不同任务、不同 budget、不同长度控制下很难公平比较。作者要回答的不是某个方法能否让 CoT 更短,而是我们距离当前基座模型可达到的最优 reasoning efficiency 还有多远。
这篇工作解决的是视觉指令微调里一个很实际的问题:现有 VIT 过于强调“按指令回答”,容易让 MLLM 走捷径,更多依赖语言先验而不是主动理解图像。作者认为问题不只在数据量,而在损失设计——如果训练时只约束 response,模型会默认 instruction 是条件、不是学习对象,从而放大 shortcut learning。
这篇工作关注的是数据价值评估在规模化场景下的两难:依赖单一模型的 valuation 方法会继承模型偏差,而像 Data Shapley 这类算法型方法又昂贵到难以用于大规模数据清洗与选择。作者要解决的是如何在不绑定具体模型、又足够可扩展的前提下,给训练样本一个更可靠的贡献度估计。
这篇工作试图解决 MLLM 跨模态对齐训练过于昂贵的问题,作者认为一个被忽视的原因是常用视觉编码器与语言空间在多粒度层级上并不匹配。换句话说,训练成本高不只是模型大,而是表示空间先天不对齐,导致后续需要用大量算力去硬拉齐视觉和文本。
这篇论文要解决的是 LLM 对抗训练里连续扰动和离散攻击各自覆盖不全的问题。现有做法通常二选一:离散攻击更贴近真实 jailbreaking,但生成和训练都贵;连续扰动便宜且可微,但往往学到的是局部鲁棒性,补不上真实 prompt 空间中的离散漏洞。
这篇论文要解决的是现有视觉预训练在图像和视频之间存在结构性偏置,难以用一个编码器同时学好空间细节和时间动态。CLIP 一类方法偏静态空间语义,V-JEPA 一类方法偏时间建模,结果是多模态系统往往需要额外对齐或双塔结构来补这一裂缝。
这篇论文要解决的是语言模型概念级 unlearning 目前往往删不干净、也删得不稳的问题。现有遗忘方法常依赖数据删除、负向微调或对抗约束,但对于“生物安全”“网络攻击”“某位作家文风”这类概念,模型知识分布是分散存储的,局部压制单一表述并不能真正降低相关生成概率。
这篇论文要解决的是 reasoning model 能否从数学、代码、逻辑扩展到真实科学领域,尤其是在不做额外领域预训练的前提下。过去很多领域模型依赖大规模专业语料继续预训练,但这条路成本高,而且不一定直接提升多步科学推理能力。
现有TTS系统仅支持短时长单说话人正式语音生成,无法覆盖播客场景下数分钟长序列、多说话人、口语化自发对话的需求,此前工作多回避长序列建模与口语自发性建模的组合挑战。
现有LLM监督微调仅最小化生成损失,未利用模型训练过程中重复出现的错误信号,导致相同错误反复出现,微调样本利用率低。
此前普遍认为GPT风格的仅next-token预测训练的Transformer是纯统计系统,无法捕获因果结构、执行因果推理,现有因果推理模型多需要专门的训练目标与架构设计。
现有推理模型(如o1、DeepSeek-R1)依赖长CoT提升性能,但容易产生冗余输出导致推理效率低,即过思考问题,此前方案多依赖人工标注最优推理长度,成本高泛化性差。
通用大模型在高频场景性能好,但长尾稀有场景表现差,训练后难以适配长尾场景,现有方案依赖prompt工程或少样本微调,效果不稳定且成本高。
这篇工作要解决的是:为什么很多 test-time scaling 方法在已经做过推理任务后训练的模型上增益很小,以及怎样让模型自己验证自己的答案而不是依赖外部奖励模型。作者的判断是,症结不在于搜索不够,而在于生成器和通用 reward model 之间存在分布错配,导致奖励信号对当前模型的错误类型并不贴身。
这篇工作要解决的是:LLM 做命题逻辑推理时,内部到底有没有相对局部、可分解的电路,而不是把答案“神秘地”摊在全网里。这个问题过去常被更复杂的数学或多跳推理任务掩盖,因果分析很难闭环,所以作者退回到最小但非平凡的命题逻辑任务上,研究模型如何组合多个事实推出结论。
这篇工作要解决的是:标准 SAE 假设特征是线性可达、近似正交的一维方向,但越来越多证据表明神经网络表征包含层级性、非线性和多维结构,单层平坦稀疏字典可能错配了真实特征形态。作者想知道,SAE 学到的东西是否因此失真,以及如果改用更适合层级结构的提取方式,能否得到更合理的稀疏表示。
这篇论文要解决的是:现有自回归图像生成把图像 token 当成类似文本 token 来解码,导致采样策略既慢又不够稳。问题在于图像 token 的信息密度更低、空间分布更不均匀,统一温度和统一接受规则会在低熵区域过采样、在高熵区域欠探索,所以质量和速度都被一并限制。
这篇论文要解决的是:旋转矩阵能改善 LLM 量化,但现有旋转优化太贵、太依赖端到端任务损失,而且容易对校准集过拟合。已有方法通常通过直接优化量化后任务表现来学旋转,这在大模型上既不稳定也不经济,尤其不适合快速部署场景。
这篇论文要解决的是:稀疏注意力推理虽然能降长序列成本,但性能下降并不只是因为丢了一些 attention 项,更因为输出分布被系统性扰动了。作者指出,prefill 阶段和 decoding 阶段之间出现了分布偏移,导致后续 query 难以继续对准正确 key,这解释了为什么很多稀疏推理方法越生成越偏。
这篇论文要解决的是:标准残差连接虽然让深网络可训练,但模块输出直接加回输入流,常常只是在原方向上强化或微调,未必真正学到新的表征方向。结果是网络深了以后,很多层的表示增量可能冗余,训练稳定性和容量利用率都不是最优。
这篇论文要解决的是:从大教师蒸馏小语言模型依然很贵,因为现有做法要么硬剪枝带来不可逆信息损失,要么表示对齐粗糙,尤其忽略了 FFN 激活中的高价值知识。换句话说,很多蒸馏方法只在输出层学行为,却没有高效继承教师内部计算图里的‘中间知识’。
这篇论文要解决的是:LLM unlearning 里常见两难是,忘得狠会伤 utility,忘得轻又容易在被删除知识上胡编乱造。现有方法往往只关注把目标知识从参数里压掉,却没处理好‘删掉之后模型该如何不回答或转向上下文’这个生成层面的问题,所以 hallucination 仍然严重。
现有VLM的细粒度空间推理能力差,尤其在需要多步逻辑与精确空间对齐的场景表现不佳,此前方案依赖人工标注空间推理数据,成本高质量差。
多模态推理模型通过增加测试时计算、生成长推理链提升性能,但会导致幻觉增加,逐渐脱离视觉输入依赖语言先验,此前没有系统的度量方法与诊断基准。
现有VLM安全防护模型多直接输出moderation结果,没有显式推理过程,可解释性差,对对抗样本的鲁棒性低,此前方案多依赖SFT训练防护模型,泛化性差。
这篇工作要解决的是:当前线性 RNN 和 SSM 虽然计算高效、易并行,但大多依赖对角通道混合,状态表达力不够,尤其在需要精确 state tracking 的任务上弱于更一般的 RNN。过去大家接受这种限制,是因为 dense 递归通常难并行、难训练、计算也更贵。作者想重新打开这个设计空间:能否在保留并行友好性的同时,逐步从 diagonal 走向 dense,提高状态追踪能力。
这篇工作要解决的是:现有偏好学习和 reward model 训练几乎只用二元偏好标签,却忽略了用户作答时间里包含的偏好强弱信息。过去这么做主要是因为 response time 难建模、噪声大,而且一旦模型设错,可能反而引入偏差。作者关注的问题是:能否在有理论保证的前提下,把选择结果和反应时联合起来,用来更高效、更稳健地学习奖励模型。
这篇工作要解决的是:LLM 输入特征间的高阶交互很重要,但现有可解释方法枚举组合的成本随特征数爆炸,即使像 SPEX 这样利用交互稀疏性的工作,也仍要做成千上万次模型推断。问题不是能不能找到交互,而是能不能在大模型、长输入场景下以可接受的 inference budget 找到足够有用的交互结构。
这篇工作要解决的是:Adam 在训练 transformer 时普遍优于 SGD,但理论上为什么好,现有解释并不充分。作者指出一个关键症结:Adam 对参数空间旋转很敏感,随机旋转后训练性能会显著变差,因此那些默认 rotation-invariant 的理论假设可能从一开始就没有抓住 Adam 真正利用的结构。换句话说,问题不是再给 Adam 找一个抽象优点,而是先承认它的优势依赖坐标系。
这篇工作要解决的是:LLM 幻觉成因很多,训练数据偏差、上下文干扰、记忆竞争都会参与,但现有诊断往往只能事后归因,很难定位具体是哪些内部联想压过了真实信息。作者给出的核心观点是,幻觉经常发生在'更高频但不真实的 subsequence association'压过了忠实关联的时候。这个表述比笼统说'模型记错了'更可操作,因为它把问题落到具体序列片段联结上。
这篇工作聚焦 speculative decoding 里一个很实际的问题:draft model 在训练时学的是常规 next-token 预测,但在解码时却要承担多 token 草稿生成,因此训练目标和使用方式并不对齐。这个错位会造成 token misalignment,表现为草稿越往后越偏、可接受率下降,最终限制整体加速比。
这篇工作要解决的是:LLM 现在大多是静态参数系统,面对新任务、新知识或新示例时,只能靠上下文暂存或外部微调,缺少一种由模型自己发起、并能留下持久权重更新的自适应机制。过去 adaptive computation 常停留在 test-time prompting、retrieval 或人工构造 finetuning pipeline,模型本身并不会决定“如何改自己”。
这篇工作要解决的是:预训练 LLM 的各层对不同下游任务并不是同等“训练充分”,但现有层质量评估方法大多只看模型自身统计量,忽略训练数据对层有用性的决定作用。结果是,无论做剪枝、冻结、分配 LoRA 容量还是选层做干预,很多方法都只能依赖粗糙启发式。
这篇工作解决的是:step-level reasoning 监督很贵,导致我们很难训练一个真正懂“哪一步错了”的 critic。现有方法通常依赖人工标注、规则打分或从最终答案反推步骤质量,这些信号要么成本高,要么噪声大,难以支撑高质量过程监督。
KV cache 量化中,key cache 因为存在 outlier 而难以低比特量化,现有方法在 key 上的量化效果明显差于 value。问题根源是 RoPE(旋转位置编码)会让 outlier 在不同维度间旋转,使得简单的 per-channel 量化失效。
VLM 通过 RL post-training 获得的推理能力能否跨模态/跨任务组合泛化?具体来说,在单模态或单一推理技能上训练的模型,能否在需要多模态、多技能组合的 OOD 任务上表现好?此前这个问题缺乏系统性的诊断研究。
LLM 的自回归架构要求所有输入序列化为扁平序列,丢失了输入数据的结构依赖关系(如 RAG 中多个文档片段之间的图结构关系)。这导致模型在需要结构推理的任务上效率低下。
DPO 虽然简单稳定,但其损失函数形式限制了对目标策略的逼近方式。之前的泛化尝试(如 f-PO)要么丢失简洁性,要么丢失理论保证。问题是能否找到一个既保持 DPO 简洁性、又有更强理论保证的泛化框架。
多模态对齐通常需要数百万级的配对数据,但在很多领域获取大规模配对样本成本极高甚至不可行。问题是能否用极少量配对数据(几万对,不到常规用量的 1%)实现高质量的多模态对齐。
这篇工作要解决的是:在开放式问答里更便宜地估计语义层面的 aleatoric / epistemic uncertainty。现有做法通常靠大量采样后再做语义聚类或一致性分析,但自由生成会产生大量语义重复样本,导致不确定性估计方差高、采样成本大;这个问题在大模型和长答案场景下尤其贵,因此值得直接从采样分布上动手。
这篇工作要解决的是:为什么 SigLIP 这类使用 sigmoid contrastive loss、并同时学习 temperature 和 bias 的方法在表征对齐里表现这么好。以往经验上知道 trainable temperature 很关键,但对 bias 的作用、以及 loss 为什么能被推到接近零,缺少清晰的全局最优结构解释。
这篇工作要解决的是:LLM 在多层级指令冲突下经常分不清 system 指令和 user 请求的优先级,尤其在多步推理中,一旦早期步骤偏离高优先级约束,后面会越走越错。过去很多方法依赖 oracle completion 或人工高质量轨迹,但这类监督难扩展,也不容易程序化验证。
这篇工作要解决的是:视觉编码器的最佳通用表征不一定在最后一层输出,而很多现有系统默认直接取顶层特征做所有下游任务。作者发现,当只用大规模对比式视觉-语言预训练时,强表征其实藏在中间层;如果不把它们“拉出来”,就会低估单一预训练目标的上限。
这篇工作要解决的是:神经 scaling law 为什么会出现,是否真的和 Zipf 分布有关,而且这种解释能不能从语言建模推广到强化学习。过去很多关于 scaling law 的讨论都停留在经验拟合;作者则拿 AlphaZero 这个非语言系统做检验,看 power law 是否也来自训练与推理中状态频率的 Zipf 结构。
这篇工作要解决的是:能不能把鲸类发声建成一个可生成、可表征学习的声学语言模型,而不只是做分类或描述统计。以往抹香鲸 coda 研究大多停留在信号分析、聚类或下游识别,原因是数据少、标注稀缺、离散结构不清晰;这篇文章重新打开这个问题,是因为音频 token LM 已经足够成熟,可以直接拿预训练声学模型迁移到小规模生物声学数据上。
大型视觉语言模型(LVLM)的幻觉不是来自单一因果路径,而是 image→input-text、image→output-text、text→text 三条路径的交互作用,且不同问答对齐格式下模型依赖的路径不同。此前的干预方法只针对单一路径,效果有限。
大型推理模型(LRM)能自动为更难的问题分配更多推理 token,但这种 difficulty-aware 的推理强度分配机制此前缺乏解释。核心问题:模型是如何在生成之前就「预规划」推理强度的?
LLM 的不确定性量化有两大流派——基于 token 概率的 confidence 方法和基于多次采样一致性的 consistency 方法——但已有的融合尝试往往不能稳定超过简单 baseline。缺乏一个统一的理论框架来解释两者的关系。
这篇论文要解决的是:现有 KV cache 压缩方法把注意力重要性看成静态量,因而在长上下文里经常删错 token,而真正决定 token 是否该保留的是它随时间演化的注意力轨迹。过去主流做法通常基于当前层或当前步的 attention score、启发式打分或稀疏保留规则来裁剪 cache,这样实现简单,但忽略了一个 token 可能在当前不重要、后续却变关键的时间依赖。这个问题现在值得重做,因为长上下文推理已经把 KV cache 变成首要瓶颈,压缩收益直接决定吞吐、显存和可服务上下文长度,而静态策略带来的质量损失已经成为落地障碍。
这篇论文要解决的是:如何把分布耦合从“单样本匹配”推广到“候选列表中任意一个样本匹配”,并把这个更宽松但更实用的形式用于 speculative decoding 和有损压缩。传统分布耦合要求两个分布各采一个样本并尽量让它们相同,这在生成场景里约束很强;而推测解码天然就是先生成一串 draft,再看主模型是否接受其中一部分,因此更贴近 list-level matching。这个问题重要,是因为 speculative decoding 的核心就在于如何提高接受率,而接受率本质上就是一种耦合质量。
这篇 paper 解决的是完整歌曲生成里一个老问题:AR 模型擅长延续结构但局部质感不够,diffusion 模型局部保真高但长程结构容易散。对于 full-length song,旋律发展、配器、演唱与歌词要同时一致,单一范式通常顾此失彼。
这篇 paper 关注一个很实际的问题:不重新训练 LLM,能不能让它临时利用非文本基础模型的表示做推理。现有多模态接入方式大多依赖额外 supervised training 或 adapter,对新领域、新模态的按需接入不够灵活,也削弱了 test-time adaptation 的价值。
这篇 paper 解决的是多轨符号音乐编曲任务长期碎片化的问题。过去不同编曲场景——重配器、简化、增量生成——通常各训各的模型,tokenization 和目标函数也不统一,导致预训练模型难以在 instrumentation 变化时灵活迁移。
现有上下文学习(ICL)机制研究要么单独关注特定层的注意力头,要么关注任务向量,缺乏将两类组件与最终输出对应的层间隐态演化关联的统一框架,无法完整解释ICL的内部运行规律。
业界此前普遍认为推测解码(SD)仅对稠密大模型有效,稀疏混合专家(MoE)模型应用SD的收益和适用场景没有明确结论,限制了SD在MoE部署中的应用。
这篇工作要解决的是:CLIP 只用全局图文对比损失,导致它对细粒度文本语义,尤其是长 caption 里的局部概念,利用得不够。过去大家默认图文整体匹配已经足够强,但随着 caption 变长、描述更密,单个 embedding 的全局相似度会把很多 token 级监督平均掉,最终表现为图文对齐强、细节 grounding 弱。
这篇工作要解决的是:大推理模型擅长慢思考,但不会按题目难度动态切换到快思考,导致推理成本和延迟都过高。过去 test-time scaling 基本靠多采样、长 CoT、self-consistency 或 verifier,默认“多想一点总更安全”;但很多样本并不值得付出完整 System-2 成本。
这篇工作要解决的是:训练数据归因既想要 influence function 那样有 fidelity,又想要表示方法那样可扩展,但现有两类方法长期在“准”和“快”之间二选一。过去梯度式方法理论上更正宗,但对大模型几乎不可用;表示式方法虽然便宜,却大多直接拿现成 embedding 做近似,没有针对归因目标优化,所以经常把“相似”误当成“有因果影响”。
这篇工作要解决的是:我们通常只能从模型在冲突上下文中的行为,粗略猜测它“知不知道”某个答案,但这不足以区分真知道、半知道、靠上下文补出来、或者内部知识不一致等不同状态。过去关于 parametric memory vs. contextual knowledge 的研究,多数只在冲突场景下观察输出变化,缺少一个能把知识状态系统化分类的框架。
这篇工作要解决的是:非线性状态空间模型通常比线性 SSM 表达力更强,但很难像 S4、Mamba 那样并行化处理长序列,因此训练和推理效率吃亏。过去想要效率,往往退回线性递推;想要非线性,则接受串行依赖和梯度不稳定,这个 trade-off 一直没被很好打破。
这篇工作要解决的是:解码时安全干预经常把不安全内容压下去的同时,也把回答质量一并打坏,尤其是 contrastive decoding 一类方法常出现安全性和可用性二选一。过去很多 safety intervention 要么太晚,只能在已经生成危险 token 后硬截断;要么太粗,只会整体拉远模型分布,导致内容僵硬或答非所问。
这篇工作要解决的是:LLM 推理时不同 attention head 到底在做什么,过去缺少既细到头级别、又和可解释认知功能挂钩的系统分析。已有很多 head importance 或 pruning 工作,但通常只告诉你哪些头“有用”,很少说明它们是在做检索、逻辑连接、状态追踪,还是其他具体功能,更难和多步推理过程对上。
这篇论文解决的是晶体材料生成里离散组成与连续结构难以同时建好的问题。现有方法通常在 LLM 和 diffusion/equivariant denoising 之间二选一:LLM 处理原子种类、化学式和离散关系更自然,但对原子位置和晶格参数这类连续变量不擅长;扩散模型正好相反,连续几何建模强,但经常在组成准确性上出错。
这篇论文解决的是 sampling-based test-time scaling 虽然有效,但我们并不清楚 self-consistency 和 perplexity reranking 分别在估计什么、又为什么会失效。过去这类方法主要靠经验比较,多采样、多投票、多重排都能涨点,但缺少一个统一理论去解释估计误差来自哪里,因此很难知道何时该增加 sample 数、何时该改打分器。
这篇论文解决的是推理大模型成本太高,而小模型虽然便宜却常常在关键位置走偏。作者的核心观察是,SLM 和 LLM 的推理轨迹并不是全程都分叉,真正决定答案路径的 token 只占少数;如果能只在这些关键 token 上调用大模型,就有机会在保留大部分推理质量的同时显著降低推理成本。
这篇论文关注的是 large reasoning model 经常“想得太长”,但长链并不等于高效推理。过去大家通常用最终正确率衡量 test-time reasoning,较少衡量中间每一步到底贡献了多少有效信息;结果是很多模型会生成冗长但信息增益很低的思维链,尤其在错误答案上更明显。
块坐标下降(BCD)用于大模型微调时内存开销低,但盲目应用会出现两个效率问题:反向传播需经过冻结块造成计算浪费,未收敛的冻结块会压缩优化景观误导活跃块训练。
流水线并行大模型推理时,尾阶段需要处理采样等后处理任务,负载不均产生流水线气泡,现有框架均匀分层不考虑负载差异,导致上游阶段空闲,整体性能下降。
不同架构、训练目标、模态的基础模型会学习到收敛的表征,但这些表征是样本独立的抽象,表达能力有限,缺乏统一的多模态对齐的表征理论框架。
这篇工作要解决的是:长 CoT 模型在复杂题上有优势,但会在简单题上系统性过度思考,生成冗长而低效的推理。过去主流做法通常在一个固定推理风格上优化,要么偏长链条保证上限,要么偏短答案保证效率,缺少让模型按题目难度自适应切换的训练办法。
这篇工作要解决的是:一层 softmax Transformer 即使有无限精度,也无法完成某些需要组合推理的任务。过去关于 transformer 能力边界的讨论常依赖有限精度、有限宽度或特定训练过程假设,因而很难区分到底是优化没学会,还是架构表达上就做不到。
这篇论文要解决的是:如何把 RL 真正接到 masked generative model 的图像生成流程里,而不是只服务于 diffusion 或 AR 生成器。过去文本到图像的 RL 大多默认逐步去噪或自回归采样过程是 policy rollout,但 masked generation 的“多位置逐步解 mask”并不天然对应标准动作定义,因此一直是被忽略的空白。
这篇论文要解决的是:当前 unlearning 评估太关注显式事实是否被删除,却低估了知识关联和模型置信度带来的“伪遗忘”。一个事实即使不能被直接复述,也可能通过相关事实链被重新推出来;而且 LLM 对知识掌握本来就有不确定性,只用一次问答命中率衡量是否遗忘,结论很容易失真。
这篇论文要解决的是:R1 风格的 rule-based RL 是否真的适合多模态感知任务,以及它在什么条件下有效。作者的结论先行很明确:并不是加上“思考过程”就能普遍提升视觉感知,很多任务里 RL 是否有用,取决于任务的 perceptual perplexity 和 reward 设计质量,而不是单纯套用文本推理里的成功经验。
这篇论文要解决的是:Best-of-N 虽然是常见的 test-time scaling 方法,但它通常要生成 N 个完整样本并依赖额外 reward model 打分,导致显存、时延和训练成本都偏高。问题不是 BoN 没用,而是现在的实现方式太晚做决策、太重依赖外部 reranker,所以 cost-performance trade-off 远不够好。
扩散模型为什么不会记住训练数据?作者试图从训练动态角度解释泛化到记忆化的转变机制。此前的解释多从模型容量或数据分布角度出发,缺少对训练过程中隐式正则化效应的定量刻画。
扩散模型在自监督表示学习中表现出一个有趣现象:特征质量在中间噪声水平达到峰值(单峰动态)。此前缺乏对这一现象的理论解释。
LLM 生成长文本时如何安全地融入私有信息并满足严格的差分隐私(DP)保证?现有 DP 文本生成方法要么隐私成本高,要么文本质量差,难以扩展到长文本场景(如 RAG、推理时 scaling)。
语言模型在复杂推理任务中仍有困难。近期研究发现在搜索轨迹(而非仅最终答案)上训练可以提升泛化,但这些轨迹往往有噪声或次优,导致测试时计算效率低下。
这篇工作要解决的是:领域适配现在常在 DAPT 和 RAG 之间二选一,前者训练贵且容易遗忘,后者推理慢且上下文膨胀。过去大家接受这个 trade-off,因为参数化记忆和非参数检索很难同时兼顾即插即用和低延迟。
这篇工作要解决的是:多域数据微调时,现实数据往往没有可靠 domain label,按配比建模会失灵,按样本选择又容易牺牲某些域,导致整体能力不稳。过去不少方法默认域标签干净可用,这在大规模混合数据里通常不成立。
这篇工作要解决的是:安全对齐后的模型为什么会拒答、这些行为在内部由什么机制承载,目前仍不清楚。过去安全研究多看行为评测和对抗攻击,较少用 mechanistic interpretability 去定位真正负责安全行为的神经元级因果单元。
这篇论文要解决的是安全对齐对新型 jailbreak 攻击适应太慢的问题。现有防御多数针对已知攻击模板做补丁式训练,短期有效,但部署后面对不断演化的越狱策略时容易失效,因为模型从未系统性地在“攻击也会进化”的环境中训练过。
这篇论文要解决的是 preference-based RL 中 reward model 的训练分布和策略真实访问分布不匹配的问题。已有方法大多围绕“如何更省标注地提问”优化 query selection,却忽略了 preference buffer 覆盖不足这一更根本的问题:reward model 在静态缓冲区内看起来可靠,但一旦策略探索到邻近的 OOD 轨迹,就容易打分失真并误导后续学习。
Instruction tuning 时如何为特定目标任务选出最相关的训练数据。现有方法要么基于 influence function(不稳定),要么基于分布对齐但依赖外部 embedding(BM25/BGE 等),无法反映模型内部对样本的实际处理方式。
现有 LLM 安全对齐在面对简单的黑盒攻击时仍然脆弱。这项工作提出 Best-of-N (BoN) Jailbreaking:对 prompt 做随机变换(打乱、大小写变化等)反复采样,直到模型产生有害回复。
长上下文 LLM 推理时 KV cache 占用大量 GPU 显存且 attention 计算慢。现有方法要么压缩 KV cache 损失精度,要么全放 GPU 显存不够。需要一种 training-free 的方案把 KV cache 卸载到 CPU 并高效检索。
这篇工作要解决的是:推理时扩展(多采样、长思维链)常常不是被 token 数本身卡住,而是被 KV cache 的显存和带宽成本卡住,所以如果不能在高压缩率下稳定压缩 KV,test-time scaling 很难继续放大。过去很多方法默认“多想就更贵”主要来自生成更多 token,但在大模型解码里,KV cache 往往才是主瓶颈,这使得“同预算下生成更多候选”变成一个缓存压缩问题而不只是采样问题。
这篇工作要解决的是:多样本答案聚合通常只看最终答案频次,但频次高不一定代表推理更可靠,尤其当候选来自不同 prompt、不同采样策略时,简单多数投票很容易把“表面一致、内部不稳”的答案选出来。过去 test-time scaling 往往通过改 prompt 或改 sampling 做得更复杂,但聚合阶段本身利用的信息仍然偏少。
这篇工作要解决的是:不同 LLM 融合时,词表对齐通常需要手工定义或硬映射,但这在架构不同、tokenizer 不同、语义边界不同的模型之间往往不稳,最终导致融合后能力掉点。过去模型融合更多把词表对齐当成预处理细节,而不是核心难点,但一旦 tokenizer 不兼容,这一步其实决定了后续参数融合是否有意义。
这篇工作要解决的是:对抗训练要防长后缀 jailbreak,是否必须用同样长、同样贵的攻击样本训练。直觉上很多人会认为长攻击需要长对抗样本才能覆盖,但这会让数据合成和训练成本迅速上升,实际很难规模化。
这篇工作要解决的是:DPO 的效果高度依赖偏好数据质量,但现有数据选择大多是静态的,默认样本价值在整个训练过程中不变。问题在于模型状态一直在变,同一条偏好样本在早期可能很有用,在后期可能已经没有增益,静态筛选因此浪费了训练预算。
这篇论文要解决的是:如何让 LLM 按可控、可组合、且带优先级的方式对齐多元价值,而不是只学一个“平均正确”的价值观。现有对齐方法通常把不同价值维度当成彼此独立、权重相同的标签来处理,因此一旦遇到价值冲突、少数价值诉求或细粒度优先级控制,模型就容易退化成泛化但不精确的安全回答。
这篇论文要解决的是:在线性注意力蒸馏 softmax attention 时,特征维度不该全层统一设定,因为不同层的近似难度并不一样。现有做法通常给所有 attention layer 一个固定 feature dimension,简单但浪费,要么低层过配、要么高层欠配,最终拖累长序列效率或精度。
RAG 为 LLM 提供外部上下文知识来补充参数知识,但模型内部如何协调和利用这两种知识源的机制尚不清楚。已有的线性探针方法无法动态适应不同实体,限制了对知识流动的追踪能力。
在合成数据上迭代训练扩散模型会导致 model collapse,但以往的分析主要从方差收缩或分布偏移角度描述,忽略了实际表现:模型从泛化转向记忆化(memorization),即越来越多地复制训练数据而非生成新内容。
这篇论文要解决的是:长视频等长上下文场景下,VLM 的位置编码并没有像文本 LLM 里的 RoPE 那样稳定泛化,问题主要卡在 3D 时空位置如何分配频率。过去做法通常把 RoPE 频段按空间和时间维做启发式切分,但这些分配规则缺少理论依据,结果是在长序列下容易同时损失局部空间细节和远程时间依赖,因此值得单独拿出来重新设计。
这篇论文要解决的是:注意力机制的可解释性和效率通常被分开研究,结果是要么算得快但很难知道在优化什么,要么有解释但难以替代标准 self-attention。作者认为这两个目标其实可以统一,如果能先写出明确的优化目标,再把前向计算设计成该目标的一步迭代,就能同时得到更可解释和更省算的注意力。
这篇论文要解决的是:对非负离散数据做生成建模时,现有方法通常在两个方向上各退一步——要么把离散对象先映射到连续嵌入里建模,要么只优化变分下界而不是精确似然。前者会错配本来就是离散的分布,后者会让 likelihood 估计和采样质量都打折,因此作者试图把“离散状态建模”和“精确似然”同时保住。
这篇论文要解决的是:test-time scaling 并不是 CoT 越长越好,过度“多想”会在某些推理任务上伤害性能。过去很多工作默认增加思考 token 基本单调有益,但作者在数学推理中观察到相反现象,因此问题从“如何延长 CoT”转成了“什么长度分布才是最优”。
这篇论文要解决的是:开源 LLM web agent 的训练结果高度不稳定,很多结论对随机种子、解码参数和环境细节敏感,而现有工作又常聚焦单步任务,难以支撑多步网页决策训练。作者因此把重点放在“统计诊断”而不是又报一个最好分数,想先弄清 agent 训练里哪些信号可信、哪些只是偶然波动。
这篇论文要解决的是:长上下文 LLM 做 SFT 时,把长短样本混在一起训练会导致 workload 严重不均衡,单靠普通 data packing 只能部分缓解。问题不只是 token 利用率低,还包括 attention 计算不平衡和通信开销浪费,因此瓶颈已经从“有没有 pack”变成“pack 得是否分层且系统匹配”。
这篇论文的核心问题是:Transformer 的深度只要不是常数,而是随上下文长度做极弱增长,表达能力会发生什么变化。以往很多理论结果用“常数层数 transformer 无法做长程顺序推理”作为结论,但这其实把现实模型里可以随规模增加层数的情况过度简化了;作者关心的是,最小幅度的加深,比如对数深度,能否已经跨过关键能力门槛。
这篇工作要回答的是:检索增强场景下,LLM 到底靠哪些注意力头在做 in-context 检索与知识调用,而不是只知道“加了文档所以答得更好”。过去对 RAG 的研究更多关注外部检索器或整体性能,模型内部如何在 prompt 里分辨指令、读取上下文、调用参数知识,机制上一直比较模糊。
这篇工作要解决的是:Mamba 明明是为长序列设计的状态空间模型,却在长程依赖任务上表现不稳定甚至不如更早的 SSM。过去很多结果把 Mamba 的优势放在吞吐和线性复杂度上,但它在真正需要跨远距离传播信息的任务上并不总是可靠,说明架构归纳偏置和训练动力学之间还有缺口。
大推理模型(LRM)在长链思维推理时需要生成数千 token,KV cache 压力巨大;现有稀疏注意力方法虽能缓解,但引入的近似误差会破坏推理链的连贯性。问题是如何在保持推理准确性的同时加速长上下文自回归生成。
指令微调需要高质量数据,但获取成本高。现有数据增强方法往往缺乏多样性和深度。问题是如何低成本地生成高质量、多样化的微调数据。
LLM 生成内容存在不一致性和幻觉问题。现有对齐方法通常需要训练或人工标注。问题是能否在不修改模型参数、不依赖 ground-truth 标签的情况下,通过博弈论机制激励 LLM 输出更真实的内容。
LLM 在代码生成中,热门语言(Python、C++)和冷门语言之间存在显著性能差距。问题是如何利用跨语言迁移来弥补这个差距,同时设计更好的 RL 训练框架。
Mamba(基于 SSM 的架构)被认为是 Transformer 的高效替代,但其与 Transformer 的根本差异尚未被充分理解。问题是 Mamba 在哪些任务上存在固有局限,以及这些局限的根源是什么。
GPT-o1 等慢思考模型在文本推理上大幅超越快思考模型,但在多模态推理(如数学视觉题)上优势不明显。问题是如何用 RL(不依赖蒸馏)增强视觉语言模型的慢思考能力。
全模态(图像+文本+语音)统一模型的进展主要集中在闭源模型中,开源方向受限于高质量全模态数据集缺乏和实时情感语音合成的技术难度。问题是如何构建开源的全模态 LLM,同时解决跨模态对齐和语音生成。
这篇工作解决的是:现有 speculative decoding 虽然能加速 LLM 推理,但像 EAGLE 这类特征级自回归方法在训练数据继续放大时收益上不去,导致“训练更久、推理却没更快”这个矛盾。作者认为瓶颈不在数据量,而在 EAGLE 把草稿建模限制成顶层特征预测,约束了可扩展性。
这篇工作要解释的是:为什么 in-context learning 在示例标签缺失甚至错误时仍然能工作,尤其是模型何时真的利用了未标注样本,而不只是忽略它们。过去很多经验现象说明 ICL 能“半监督”,但缺少可计算、可证明的机制边界。
这篇工作要解决的是:Transformer 在上下文中究竟实现了什么样的“内部算法”,尤其是它是否能把去噪步骤作为前向传播的一部分来实现。过去大家常说 Transformer 是 meta-learner,但很多论证停留在现象级;这篇论文试图把它和扩散、score denoising、流形平滑这些具体算法做精确对应。
这篇工作关注的是:反思式 CoT 为什么会提升推理表现,尤其是在模型本身并不擅长发现错误的情况下,reflection 到底提供了什么净收益。过去很多工作观察到“让模型反思有用”,但机制不清,容易把语言表面结构和真正的验证能力混在一起。
这篇工作要解决的是:如何在有限压缩预算、有限校准数据和有限算力下,为 LLM 找到更接近全局最优的稀疏+低秩复合压缩结构。过去很多方法按层使用统一 sparsity 或人工启发式分配,但不同层、不同矩阵的冗余模式差异很大,这会导致压缩效率和精度都不稳定。
这篇工作聚焦大型推理模型的 overthinking:模型在推理时陷入过度验证和重复思考,导致 token 成本高、延迟大,但未必提高正确率。过去这类问题多从 prompt 或 stopping rule 上做启发式修补,这篇论文试图直接从内部表示机制上定位并干预。
这篇论文要解决的问题是:在线 RLHF 虽然比离线 RLHF 更能覆盖模型当前的错误模式,但标准做法每轮都要把新数据并入历史数据、再重训 reward model,导致时间和存储成本随迭代轮数线性增长。过去这个代价常被默认为在线对齐必须支付的成本,因此真正可扩展的 online RLHF 一直比较缺。
这篇论文要解决的问题是:VLM 幻觉缓解方法通常要么在解码时做启发式约束,要么在生成后交给外部验证器筛掉答案,但前者常缺少纠错机制,后者又系统复杂、容易只会拒答不会修答。也就是说,现有方法往往在“生成”和“验证”之间二选一,没有形成闭环。
这篇论文要解决的问题是:LLM 已经能做不错的多语翻译,但我们仍不清楚翻译能力在模型内部到底由哪些组件承担、如何分工,以及这种机制是否具有稀疏性和可干预性。过去对 LLM translation 的研究更多看外部性能,内部机制通常只做粗粒度 probing,难以形成可验证的因果解释。
多模态对比学习核心假设是图文对是同一概念的两种表征,但真实数据集普遍存在跨模态失配,现有研究要么消弭要么利用失配,两种观点对立,没有统一的解释框架和实践指导。
基于教师模型的多模态数据过滤在实践中效果优异,但缺乏理论解释其收益来源,没有量化的收益边界,无法指导过滤策略的设计。
xLSTM、Mamba等现代循环架构只能处理序列数据,或需要把高维数据按预定义顺序序列化处理,无法适配图、网格等任意有向无环图(DAG)结构数据的并行处理。
这篇论文要解决的是标准 Transformer 在递归、嵌套和层级结构上的系统性弱点。现有架构虽在自然语言上很强,但对正则语言之外的某些结构化模式、尤其是确定性上下文无关语法,缺少显式状态栈机制,因此常表现出训练分布内拟合可以、分布外长度泛化不稳。
这篇论文要解决的是 GRPO 直接搬到 VideoLLM 上效果不稳,主要卡在两个点:过度依赖 safeguard,以及 advantage vanishing。文本 RL 成功并不自动迁移到视频,因为视频任务的奖励更稀疏、难度分布更杂、感知误差更容易把相对优势信号冲平。
这篇论文要回答的是:我们费力训练出来的 SAE 特征,是否真的比模型原本 FF 层里存着的 key-value memory 更可解释。近两年 interpretability 很多工作默认“先学一个 proxy feature space 再分析”是必要步骤,但系统性的 apples-to-apples 比较并不多,因此这个问题值得重新审视。
这篇论文要解决的是:如何让 LLM 的长度泛化不再只在单一符号任务上成立,而能在多任务设置下稳定工作,并且不破坏通用语言能力。过去很多方法靠改位置编码或特定数据格式,在加法、排序这类封闭任务上有效,但迁到真实 LLM 的后训练阶段时常常掉通用性能,也很难同时覆盖多类规则任务。
现有LLM推理微调方法忽略推理效果与效率的权衡,往往鼓励不必要的长推理链浪费token,此前方案要么只追求准确率不考虑token成本,要么需要额外标注的过程奖励,缺少通用无标注的效率优化路径。
现有KV缓存压缩方法以独立token为单位评估重要性,忽略token间语义关联,导致上下文碎片化性能下降,推理时KV缓存占总显存最高达70%,长上下文场景下压缩率与性能的矛盾难以平衡。
LLM代码能力提升的同时,仍然在简单句法任务如生成平衡括号上表现不佳,此前研究未明确解释这类错误的底层机制,无法开展针对性优化。
现有视觉自回归建模依赖残差预测范式,限制了生成灵活性,无法在低分辨率训练数据下生成更高分辨率、不同宽高比的图像,也无法适配不同推理步长。
LLM微调时存在跨域遗忘问题,现有用真实数据微调会严重降低非目标任务性能,此前研究对LLM生成数据用于微调的跨域泛化影响认知不足。
这篇工作要解决的是:把语言模型里已经有效的 CoT+RL 范式迁到视觉推理时,如何让“推理步骤”真正依赖图像证据,而不是停留在文本层面的空转。以往视觉推理模型即使输出了看似合理的思维链,也很少显式约束每一步对应哪块图像区域,因此很难判断模型是在看图推理,还是在利用数据偏置和语言先验做猜测;这个问题在需要细粒度定位、局部放大和多步证据整合的任务上尤其突出。
这篇工作要解决的是:显式 CoT 确实提升推理,但 token 太长,部署成本高;而现有 implicit CoT 虽然更快,却经常把“推理压进 hidden state”后丢掉语义对齐,导致性能下降。换句话说,问题不是能不能压缩 reasoning,而是压缩后的隐式 token 是否仍然承载与正确思维链一致的语义结构。
这篇工作要解决的是:R1-Zero 式的在线 RL + 显式 CoT 在 GUI agent 的 visual grounding 上看起来有效,但很多训练收益可能并不来自“更会推理”,而是来自模板、奖励和更新方式的偶然耦合。作者的核心判断是,直接照搬通用 RL 范式到 GUI grounding 会产生系统性错配,尤其体现在输入设计诱导冗长思维链、奖励函数被框大小利用,以及 policy update 在稀疏或失真反馈下不稳定。
这篇工作要解决的是:mechanistic interpretability 里的 circuit discovery 经常找不到“完整电路”,结果导致每次跑出的 circuit 不稳定,还可能漏掉关键机制。作者指出,不完整性的根源之一是电路里存在 OR gate——也就是多条替代路径都能完成某个功能——而标准发现方法往往只能抓到其中一条,因此既不 faithful,也不 complete。
这篇工作要解决的是:提升推理能力通常要么依赖有标注 CoT/SFT,要么依赖昂贵的采样和筛选,而这两条路都很贵。作者抓住一个经验事实——不同正确解法的前几个 reasoning token 往往高度一致——并据此问一个更激进的问题:如果真正关键的是开头那段“起势”前缀,是否只训前几个 token 就足够带来推理收益?
这篇工作要解决的是:decoder-only Transformer 明明只接收线性文本序列,却能在文本化图结构任务上做出图推理;问题是它内部到底如何从序列中恢复出图的子结构。过去很多工作停留在能力验证,即“它能做”,但缺少对层间表示如何筛出 relevant substructure 的机制解释。
这篇工作要解决的是:长上下文能力受限,不只是 attention 复杂度问题,还包括表示层面两类更隐蔽的瓶颈——激活是瞬时的,导致关键信息随层传播衰减;FFN 权重缺少结构化组织,导致语义被碎片化存储。作者认为,仅靠长位置编码或稀疏注意力并不能彻底解决“记住什么、如何持续复用”的问题,因此借鉴脑启发机制重新设计 FFN 侧的记忆与模块化。
这篇论文要解决的是长上下文推理里最实际的一类瓶颈:KV cache 太大,而序列级压缩又很容易把跨段关键信息压坏。过去很多方法靠 chunk-wise 压缩或局部摘要来省显存,但这类做法训练目标和真实推理路径不一致,模型并没有真正学会“哪些长程信息值得留、怎么被后续使用”,所以效果和硬件友好性都有限。
这篇论文解决的是安全对齐里一个很实际但常被忽略的问题:模型出错往往发生在生成过程中,而不是起始意图分类那一刻。传统拒答或安全微调通常只能在解码前或局部 token 上施加约束,一旦模型在中途滑入危险轨道,就缺少一种低成本、可学习的“自我纠偏”机制。
这篇论文解决的是受约束解码中的一个老问题:既想满足拒答或任务约束,又不想因为反复 rejection sampling 带来巨大算力开销,也不想把输出分布硬拽到极低概率 token 上导致失真。过去常见方法要么计算太贵,要么分布扭曲太重,尤其在约束很苛刻、需要长序列生成时问题更明显。
这篇论文要解决的是视觉推理里显式 CoT 训练的两个问题:泛化不稳,以及过度依赖有偏 reward model。现有 SFT、PPO、GRPO 虽然能教会 LVLM 说出推理步骤,但这些步骤往往既是监督目标又是奖励入口,模型容易学会迎合可见推理格式,而不一定学到真正可迁移的视觉推理潜变量。
现有LLM-as-a-Judge依赖单点评估,忽略人类评估的固有多样性和不确定性,导致信息损失和评估可靠性下降,此前方案没有对齐评估分布的设计。
现有Transformer注意力矩阵用softmax归一化为右随机矩阵,训练不稳定,双随机矩阵(DSM)可提升性能,但此前用Sinkhorn算法生成DSM是迭代近似无参数不灵活,缺少参数化生成DSM的经典方案。
现有KV缓存驱逐方法是不可逆的token级驱逐,无法适配解码时动态注意力模式的显著性偏移问题,同时边际重要token被统一驱逐导致边际信息过度压缩,性能下降。
这篇论文要解决的是:公开视频数据集的分辨率、画质和 caption 粒度不够,已经成为高质量视频生成尤其是 UHD/4K 方向的主要瓶颈。过去很多视频生成工作靠低分辨率数据、短 caption 或弱语义标注勉强训练,模型能学到动作和场景,但很难学到电影级细节、镜头语言和复杂文本对齐,因此现在补高质量数据基础设施是有现实必要性的。
这篇论文要解决的是:现有模型在“可验证的精确指令遵循”上看起来不错,但很多分数其实来自对少量常见约束模式的过拟合,而不是对新约束的泛化。过去 benchmark 常测试固定几类输出格式要求,例如 yes/no、字数限制、包含某个词,但这些模式一旦被训练数据覆盖,评测就很难再反映真实的 instruction following 泛化能力。
这篇论文要解决的是:文本生成里的 reward model 已经被反复检验,但 text-to-image 里的 multimodal judge 常被直接拿来对齐训练,却缺少足够严谨的能力与失效模式评估。结果是,如果 judge 本身在安全、偏见、文本对齐或图像质量上的判断不稳,后续用它做偏好优化可能会把生成模型往错误方向推。
这篇论文要解决的是:音频大模型的 hallucination 研究明显落后于文本和视觉,社区缺少一个系统 benchmark 来区分不同来源、不同形态的 auditory hallucination。过去大家往往只在个别音频问答例子上观察错误,无法判断模型到底是听错、编造声源、过度依赖语言先验,还是在复杂声学属性上失真。
这篇工作要解决的是:开源 RLHF / 偏好学习长期缺少既高质量又足够多样的人工偏好数据,尤其在 STEM、代码和多语言场景上更明显。以前公开数据要么规模不够,要么领域分布偏窄,要么许可受限,导致 reward model 学到的是局部偏好而不是通用指令跟随质量。
这篇工作要解决的是:MoE 系统的优劣不能只看参数量或吞吐,真实部署里成本、精度和系统性能三者经常互相牵制,但现有 benchmark 很少把这三项放在一起评。过去大家常用单一维度比较 MoE,比如 token/s、训练 FLOPs 或 benchmark accuracy,结果容易高估某些设计在真实硬件上的可行性。
推理时计算(inference-time computation)方法如 Best-of-N、MCTS 等理论上能在不额外训练的情况下提升 LLM 推理能力,但现有方法大多停留在 proof-of-concept 阶段,缺乏系统性的工程实践指南。本文系统梳理并 benchmark 了这些方法在多种推理任务上的实用技巧。
长上下文 LM 的评测要么用真实任务(如文档摘要,但难以控制且有数据污染),要么用合成任务(如 needle-in-a-haystack,但 needle 和 haystack 之间缺乏语义关联,不够真实)。本文提出一个可控的评测框架,兼顾上下文连贯性、可控性和抗污染性。
LLM 评测面临数据污染和答案泄露问题,导致推理能力评估不可靠。ThinkBench 通过动态生成 OOD 数据集来解决这一问题,统一评估推理模型和非推理模型。
多模态 LLM 的安全性研究集中在文本和视觉模态的越狱攻击上,音频模态的越狱威胁几乎未被探索。Jailbreak-AudioBench 是首个系统评估大型音频语言模型(LALM)越狱漏洞的 benchmark。
这篇工作要回答的核心问题是:部署到真实环境中的 AI agent,在 prompt injection 攻击下究竟能不能守住策略边界。过去很多安全评估停留在静态聊天场景或小规模手工攻击,难以反映 agent 在有工具、有状态、有外部网页输入时的真实脆弱性;这使得“模型对齐得不错”和“系统可安全部署”之间一直存在很大落差。
这篇工作要解决的是视频大多模态模型的安全对齐失配:文本或静态图像上的安全规则,迁移到动态视频场景时经常失效。过去常见做法是把 VLMM 当成图像 LMM 的延伸,沿用静态安全数据和对齐流程,但视频里风险判断依赖时序、场景演化和隐含动作关系,导致模型在真实视频理解上出现明显的 mismatched generalization。
这篇工作要测的是:LLM 在超长上下文 many-shot ICL 下,是否真的能从大量示例中归纳复杂模式,而不是只会做长上下文检索或简单分类。过去很多 ICL benchmark 停留在 few-shot(通常小于 10)或 Needle-in-a-Haystack 这类记忆/定位任务,无法回答模型能不能在数百到数千样本中抽取规则、聚合证据并迁移到新输入。
这篇工作要解决的核心问题是:LLM unlearning 研究缺少统一、可信、可复现的评测框架,导致方法之间几乎无法公平比较。过去大家往往在不同数据集、不同遗忘目标、不同成功指标上各说各话,所以“忘掉了没有”本身都缺少共同标准,这比设计新算法更先决。
这篇工作要解决的核心问题是:长上下文 VLM 已经能在一次前向里处理上百张图和交错文本,但缺少真正覆盖长上下文能力边界的评测。过去许多 VLM benchmark 默认短上下文,或者只是把样本简单拉长,无法区分模型到底是会检索、会跨图聚合,还是只是在近邻窗口里找答案。
这篇工作要解决的核心问题是:现有语言推理 benchmark 往往混杂了大量特定语言知识,导致模型得分既反映 reasoning,也反映训练语料覆盖。Linguini 想测的是更干净的 linguistic reasoning:即使模型从没见过这门语言,只要上下文给足规则,也应能像解语言学竞赛题那样推断答案。
这篇工作要解决的核心问题是:大家都在说 LLM 可以 self-correct,但缺少系统 benchmark 去回答两个更关键的问题——它们什么时候真的能改对,什么时候只是多采样一次,以及不同自纠错策略能否稳定组合。过去这类工作多是方法演示,结论往往受任务类型和提示词设计强烈影响。
当前大模型上下文窗口规模持续提升,但真实场景下的长依赖理解能力缺乏系统评测,现有基准多采用合成长文本,缺失多领域真实场景的评测覆盖。
现有软件工程智能体的训练数据集规模小(最多数千条实例,来自不超过11个代码库),构造流程复杂需要数百小时人工,执行环境占用数TB存储,严重限制了软件工程任务预训练/微调数据的可扩展性。
这篇文章的核心问题是:LLM-as-a-Judge 已经被大量拿来替代人工评测,但它到底是否“测得准、测得稳”并没有被认真验证。过去社区更关注 judge 的相关性和便宜好用,默认它能近似人类偏好;作者指出这一步跳得太快,因为评测器本身也是模型,它会带来偏差、漂移和不可控的测量误差。
这篇工作要解决的问题是:speculative decoding 在纯文本 LLM 上已经很成熟,但直接搬到 VLM 上效果不稳定,因为 draft model 和 target model 不仅有文本状态差异,还有视觉特征对齐和跨模态依赖的问题。以往做法之所以不足,是因为它们通常只在 token 层模仿 target,却没有处理视觉中间表示错位,导致接受率低、draft 训练难、加速收益被吞掉。
这篇工作要解决的是:现有 AV-LLM 和 benchmark 几乎没有认真覆盖动态 3D 场景中的空间推理,尤其缺少同步空间音频带来的定位信息。过去多数工作停留在静态图像或 2D 视频问答,因此模型即使会“看”和“听”,也未必能在时间连续、视角变化、目标移动的环境里做稳定的三维定位和关系判断。
这篇工作要解决的是:模拟存内计算硬件在功耗和吞吐上很有潜力,但对 LLM 来说噪声和低比特量化约束太强,现成模型直接部署会掉很多精度。过去相关恢复方法多停留在小模型或视觉模型,缺少一种能适配“trillions of tokens 预训练后的大模型”的通用方案。
这篇工作要解决的是:LoRA 虽然高效,但它的低秩分解并不唯一,导致每步更新可能方向不一致、尺度不平衡,训练会慢且效果打折。过去大家更多把 LoRA 当作一个工程近似,默认 rank 足够时问题不大;这篇工作指出,分解形式本身就会影响优化几何,而不是无关紧要的参数化细节。
现有多模态大模型的视觉 token 剪枝方法(基于 cross-attention 或 CLS attention 打分)在高剪枝率下性能急剧下降,原因是它们倾向于保留语义相似的 token,丢失了视觉场景的整体上下文信息。
Transformer 深度剪枝(移除整个 block)通常需要额外训练或微调来恢复精度,这在大模型上成本很高。如何在不训练的情况下有效替换被剪掉的 block?
深度神经网络难以可靠地习得组合性表示(compositionality)——即用简单概念组合表达复杂概念的能力。现有涌现通信(emergent communication)方法在诱导组合性语言方面效果有限。
大模型中线性层的内部结构是否可以用一组最小几何基元(geometric primitives)来分解和理解?标准的 dense 矩阵参数化用 O(d²) 参数,是否存在更紧凑的组合式表示?
边缘设备上 LLM 推理的 KV cache 内存消耗随任务复杂度增长而急剧膨胀,现有的序列长度压缩、动态驱逐等方法计算开销对资源受限的边缘节点仍然过高。
当前针对对齐后大模型的对抗攻击方法多 targeting 精确文本响应模式,存在收敛性差、prompt不自然、计算成本高的问题,无法同时兼顾攻击有效性和prompt自然度。
现有多模态大模型采用纯文本中心的推理范式,仅输入包含多模态信息,推理和答案生成完全依赖文本,在需要精确几何理解、连续空间追踪的空间推理任务上表现较差,而人类完成这类任务依赖心理可视化和操作。
大模型长文本生成的幻觉问题缺乏系统量化评测,现有任务没有要求模型严格控制生成内容的信息来源,无法清晰区分幻觉和有效生成。
扩散模型的噪声调度等核心合成步骤设计多依赖启发式规则,没有坚实的理论基础,无法系统性优化生成质量和采样效率。
现有多模态大模型的细粒度部件级视觉理解能力缺乏系统评测,现有基准仅要求识别通用部件,没有覆盖部件-整体关系、跨对象部件对比、像素级grounding等复杂任务。
现有无分类器引导(CFG)的各类变体基于不同的理论解释,设计空间受限,单步迭代的固有特性导致采样效率低,无法找到条件生成和无条件生成结果一致的最优路径。
现有LLM针对微调式越狱攻击的防御方法泛化性差,无法识别未见过的攻击模板伪装的有害查询,而LLM本身具备在嵌入空间区分这类伪装有害查询的能力但未被利用。
这篇论文要解决的是:RAG 里的检索器不该只学“静态相关性”,而应直接针对生成效果去自适应优化。现有 retriever 大多靠人工标注或合成标注做 SFT,默认“相关文档”可以先验定义清楚;但在 RAG 里,真正有用的上下文取决于生成器、任务形式和推理路径,同一查询下“最利于回答”的文档并不稳定,所以静态监督经常和最终 answer quality 脱节。
这篇论文要解决的是:代码生成模型在推理时几乎不用执行反馈,而执行结果恰好是代码任务里最直接、信息量最高的外部信号。现有 LLM 写代码通常是一次性续写,再在生成后做 rerank 或 self-debug;这样会错过“写到一半就知道方向错了”的纠错机会,尤其在长程序和强约束任务里代价很高。
这篇论文解决的是长上下文推理里的一个实际瓶颈:prefill 太贵,而且很多输入 token 对最终回答并不重要。现有 prompt compression 往往需要额外训练、启发式筛选,或者压缩后损失关键信息;作者认为 transformer 内部已经存在能识别“哪些 token 值得保留”的注意力头,可以直接拿来做无训练压缩。
这篇论文解决的是 SGD 理论和实际学习率策略之间的长期脱节。经典理论多依赖多项式衰减学习率,因为这样便于证明收敛和统计性质;但工业训练里更常用的是 cyclical LR、linear decay to zero 等经验上更快的 schedule,而这些策略长期缺少统一而细致的渐近理论支持。
这篇论文要解决的是:LoRA 模型合并常常在实现上退化回全量权重空间,既浪费低秩适配本来的效率优势,也影响合并精度。随着参数高效微调越来越常见,实际需求不只是训练单个 adapter,而是把多个任务或领域的 LoRA 结果合到一起;现有方法若先还原成 full matrix 再 merge,会在计算和表示上都不够干净。
这篇论文要解决的是 AR 文生图推理过慢的问题,而作者的判断是:单纯做并行 Jacobi 解码还不够,必须显式处理 token 预测的不稳定性。自回归图像生成常要逐 token 生成上千步,天然慢于 diffusion;已有并行化尝试往往在一次并行猜多个 token 时出现错误累积,导致质量掉得快。
这篇论文想解决的是:现有神经网络把单个神经元简化得过头,几乎所有表示都放在层与层之间的静态激活上,忽略了神经元内部时间动态和同步结构。作者认为,这种抽象虽然高效,但也限制了模型表达连续内部思维状态的方式,因此提出用更接近神经动力学的机制重建表示。
这篇论文要解决的是 VLM 处理可变复杂度图像时,视觉 token 长度被固定设计拖累,导致大量无效计算,同时简单裁剪 token 又会破坏下游 LLM 看到的序列结构。过去常见做法要么固定保留高分辨率视觉序列,算力浪费明显;要么做静态 token merging,但压缩后序列语义和注意力形态都变了,容易掉性能,尤其对细粒度理解更敏感。
这篇论文要解决的是多轮 VLM agent 在视觉环境里缺少稳定 world model,导致仅靠语言式 CoT 或短视反应策略很难在部分可观测场景中持续决策。相比纯文本 agent,视觉状态噪声更大、可见信息不完整,过去很多方法把视觉输入直接喂给策略模型,但没有显式训练“当前世界状态”和“下一步演化”的内部表示。
这篇论文要解决的是事实型 hallucination 尤其是不一致 hallucination,现有方法往往依赖特定任务、特定领域或数值推理场景,缺少一个更通用的训练信号去提升事实表达的一致性。过去常见做法是补领域数据、做检索增强或造特定格式 synthetic data,但这些方法容易局限在见过的任务模板里,泛化到开放 NLP 任务时效果不稳定。
这篇论文要解决的是 test-time scaling 中固定 rollout budget 应该怎样分配才最优,而现有搜索方法常把算力浪费在候选多但不更有希望的方向上。过去很多方法专注于生成更多样的 reasoning paths,却较少从资源分配角度问:在预算固定时,哪些分支应该多试,哪些应该尽早放弃,目标是最大化至少得到一个正确解的概率。
离散状态空间下,针对仅知道未归一化目标分布的神经采样器在大基数、多模态分布场景下效率低、扩展性差,现有方法难以同时满足采样效率和分布匹配精度。
长期以来无法有效追踪AI内部目标和价值系统的涌现,现有研究无法确认当前LLM是否存在有意义的价值偏好,限制了AI安全对齐的机制研究。
现有VLM的推测解码方法加速比不足1.5倍,原因是小draft模型无法像大VLM一样分层过滤冗余图像信息,现有方法直接复用LLM的推测解码逻辑未考虑模态差异。
现有得分匹配方法训练的能量模型无法得到归一化的对数概率,需要额外的归一化步骤,限制了能量模型在密度估计任务的应用。
这篇论文要解决的问题是:当智能体在资源耗尽即被强制终止的环境中行动时,标准效用最大化会自然诱导出“风险敏感”甚至与人类委托目标不一致的行为,而现有 agent 研究通常把这种约束当作实现细节处理,没有把它作为激励结构本身来分析。问题现在值得重视,是因为推理型、可执行任务的 agent 已经越来越像在做序列决策,预算、超时、失败上限这类硬约束会直接改变策略,而不是只影响吞吐。
这篇论文要解决的问题是:activation steering 的效果高度依赖干预层选择,但多层 steering 的层组合空间是指数级的,现有做法不是只试单层,就是靠经验挑层,导致控制强度和基础能力损伤之间很难平衡。这个问题值得研究,因为 activation steering 已经是低成本对齐和行为编辑里非常实用的一类方法,但真正的瓶颈不是算 steering vector,而是找对施加位置。
这篇论文要解决的问题是:MoE 模型的动态路由会形成专家专长偏置,而这种稀疏激活结构不仅影响效率,也会带来新的后门攻击面;现有后门研究大多基于 dense Transformer,忽略了 trigger 可能借由路由机制稳定绑定到特定专家。问题重要是因为 MoE 正在成为高性能大模型的主流路线之一,但安全分析明显滞后于架构采用速度。
大推理模型生成长思维链时延迟高,现有逐token验证的推测解码方法没有利用推理步骤的语义容错性,导致加速效果有限。
标准LoRA所有输入token共享投影权重,无法捕获不同token的语义差异,限制了LoRA的微调性能,仅能通过提升秩来提升效果但会大幅增加参数量。
现有机器遗忘方法难以平衡遗忘效果和效用保留的权衡,多目标优化得到的帕累托最优解缺乏精细控制,容易出现遗忘目标欠优化。
大模型微调内存开销远高于推理,普通用户无法负担,现有参数高效微调方法仍无法将内存占用压到推理级预算内。
现有基于扩散的摊销采样器无法处理分子系统规模的目标分布采样,科学计算场景下高维非归一化概率密度的高效采样仍是核心瓶颈。
现有大模型安全对齐方法会降低推理深度,在多步复杂推理任务上存在明显性能 trade-off,且对高级越狱攻击防御效果差。
现有VLM的视觉-语言连接器(如MLP)缺乏将视觉特征约束在LLM嵌入空间语言结构内的归纳偏置,数据需求高且易出现跨模态错位。
一阶优化器微调全参数LLM计算开销过高,PEFT方法性能不如全参数微调,零阶优化器全参数微调收敛极慢且对提示敏感,三者存在明显trade-off。
这篇工作要解决的是:怎样在不明显伤害推理正确率的前提下,压缩长链式推理的计算开销。以往高效推理方法大多把问题当成“过度思考”后的后压缩,只裁剪现成 CoT,但长推理里有用信息和冗余信息往往交织,简单截断或摘要容易把关键中间状态一起删掉,所以效率提升常常换来性能下滑。
这篇工作指出了一个更隐蔽的安全问题:LLM 甚至可以被 10 条良性 QA 微调样本越狱,而不需要显式有害数据。之前 finetune-based jailbreak 虽然有效,但通常依赖有害问答,因此更容易被数据审查和 moderation 拦截;作者关心的是,模型在极小数据上过拟合后,是否会被触发出与训练表面语义无关的安全退化。
这篇工作要解决的是:现有 speculative decoding 没有吃到 agentic workload 中“长序列、高重复、强可预测”的结构红利。传统推测解码假设请求彼此独立、分布多样,因此主要靠小 draft model 预猜;但多代理流水线、自反迭代和 refinement loop 里,后续请求常常复用前面生成过的大段 suffix,这时只靠 draft model 其实浪费了可缓存的确定性结构。
这篇工作要解决的是 one-step generative modeling 长期存在的质量瓶颈:一步生成很快,但通常需要蒸馏、多阶段 curriculum 或预训练 trick 才能接近多步 diffusion/flow。现有 Flow Matching 学的是瞬时速度场,这对单步近似并不友好,因为一步生成更关心从起点到终点的整体位移,而不是局部瞬时方向。
这篇工作聚焦一个 MLLM 的老问题:模型对细粒度视觉变化不敏感,因此容易幻觉,或者漏掉语义已发生改变的局部编辑。传统图文数据通常变化太大、描述太粗,训练目标也只要求全局对齐,结果模型学会了“看大意”,却没有被迫区分 attribute、count、position、object presence 这类局部差别。
这篇工作解决的是长上下文推理中的一个核心系统瓶颈:KV cache 不可能无限保留,资源受限时必须驱逐,但现有方法常依赖 attention score,而这既增加开销,也和 FlashAttention 等优化实现不兼容。作者关心的是,能否在完全训练无关、且不读 attention score 的前提下,仍然保留最重要的历史 token。
这篇工作要解决的是:现有 LLM 推理评测过于静态、过于单任务,因而很难测到模型在交互、多回合、跨模态环境中的通用推理能力。过去主流 benchmark 往往把推理压缩成一次性问答,结果更像在测知识覆盖或题库适配,而不是测策略形成、状态跟踪和在线纠错;KORGym 试图把评测对象从“答一道题”改成“在动态游戏里持续做决策”。
这篇工作回答的是一个基础问题:扩散模型在弱监督条件下到底能不能学到可辨识的 disentangled representation,而不是只在经验上看起来“分开了一些因素”。过去 disentanglement 理论多依赖可逆、确定性的生成假设,但真实任务里常见的是带噪声、不可逆、部分观测的混合过程;作者试图把扩散模型放进这个更现实的框架里分析。
这篇工作要解决的是 scalable oversight 自身如何随能力差距变化而失效或生效。过去大家常把“弱模型监督强模型”当作对齐路线图的一部分,但缺少一个可量化框架来回答:监督者弱多少还有效、强模型强到什么程度后会系统性逃逸、以及这种转折点是否具备可预测的 scaling 规律。
这篇工作要解决的是:能否用标准多模态 LLM 范式直接处理 3D 点云,并输出结构化室内建模结果,而不是继续依赖为单个 3D 任务定制的专用网络。过去 indoor modeling 往往把 layout estimation、object detection、scene parsing 分开做,系统复杂且迁移性差;SpatialLM 想验证统一的“tokenize 3D,再让 LLM 生成结构化场景描述”是否可行。
这篇工作要解决的是 LLM 安全对齐为什么常常只在输出开头几 token 生效,随后就被 jailbreak 或微调绕开。近期一些经验结果表明,如果拒答只对前几个 token 施加约束,模型后续仍可能滑向有害内容;作者把这个现象形式化成 safety depth,即模型在第几个输出位置开始稳定拒绝有害生成,并试图给出理论解释。
长序列推理时 KV cache 的淘汰策略通常对所有注意力头均匀分配压缩预算,忽略了不同头的注意力模式差异很大。这导致某些头被过度压缩、某些头浪费预算,整体生成质量下降。
RL 方法(DPO 和 GRPO)已被用于提升自回归图像生成的质量,但这个领域与 LLM CoT 推理有本质差异——需要处理文图一致性、美学质量和复杂 reward 设计。现有工作缺乏对 DPO vs. GRPO 在图像生成场景下的系统对比分析。
这篇论文要回答的核心问题是:多模态大模型能否不经过额外调参,直接从现成数学 LLM 吸收推理能力。过去常见做法是重新做高质量数学指令微调,或者依赖更重的推理时策略;作者认为这条路成本高,而且忽略了一个更直接的问题——MLLM 既然内部已经有 LLM,是否可以通过模型合并把数学能力“嫁接”进去。难点不在合并本身,而在 MLLM 的语言子空间和纯文本数学 LLM 的参数空间并不对齐,直接 merge 往往把已有视觉-语言对齐破坏掉。
这篇论文研究的不是如何让 CoT 更好用,而是一个更基础的问题:CoT 是否会提升 transformer 的记忆能力。已有理论已经分析了 transformer 在一般数据集和满足可分条件数据集上的最优 memorization capacity,但 CoT 会不会改变这个上界此前并不清楚。作者希望从表达能力理论出发,解释 CoT 为什么在某些任务上显得更强,以及这种增强到底来自推理还是来自更强的记忆承载。
这篇论文研究的是 score-based diffusion 模型在 inference-time reward alignment 中一个很具体但关键的问题:SMC 粒子初始化太差。现有方法通常从高斯先验初始化粒子,再在去噪过程中用奖励做重加权和传播;问题是高斯先验往往离高奖励区域很远,导致大量粒子从一开始就在无效区域打转,采样效率低。作者要解决的就是如何在高维空间里做 reward-aware 的初始粒子采样。
这篇论文要解释一个 diffusion 模型里很关键但此前理解不足的现象:图像扩散模型的 locality 为何会出现。已有工作发现,扩散模型在去噪某个像素时,通常只依赖输入图像的局部邻域,而这种 locality 与模型生成新颖样本的泛化能力有关。过去一个直觉是这主要来自卷积网络的局部归纳偏置;作者则想证明,locality 更深层的来源其实是数据统计,而不只是网络结构。
这篇论文要解决的是:把代码生成时的测试时搜索从“越搜越贵的构造式搜索”改成“可随时停止的局部修订式搜索”。已有 tree search 往往从头扩展程序树,token 开销和分支数一起爆炸,而且很难做到 anytime;另一类 improvement-based 方法虽然更省,但常被稀疏或失真的 reward 卡住,导致改不动或者乱改。
这篇论文要解决的是:如何系统性测出 LLM 在“语义连贯但与任务无关”的上下文干扰下到底有多脆弱。过去常用固定模板或检索式 distraction,但这类静态干扰已经很难真正压垮新模型,因此测出来的鲁棒性往往偏乐观。
这篇论文要解决的是:如何在不改 judge 模型参数的前提下,降低 LLM-as-a-Judge 的系统性偏见。现有 in-context debiasing 往往要求 judge 自己先识别自己的偏差,这对很多模型并不可靠;而 fine-tuning 虽然能改 judge,但闭源 API 或昂贵模型根本不可行。
这篇论文要解决的是:如何让多个 LLM 在推理时有效协作,而不是简单投票或串行复读。现有 ensemble 常见两个问题:一是首 token 延迟高,二是模型之间只能做浅层投票,难以在长程语义上真正配合;此外固定等权也忽略了模型在不同任务上的强弱差异。
这篇论文要解决的是:如何在模型已经被恶意 fine-tune 之后,把它从有害行为中拉回来。现有主流防御多是事前“打疫苗”,让后续 harmful fine-tuning 不容易成功,但作者指出这类防御很脆弱,攻击者只需少量 fine-tuning step 仍能把有害知识写进去。
这篇论文要解决的是:Transformer 在 in-context compositional learning 上结构偏置不足,导致它能记模式但不擅长从上下文中抽出可组合规则。很多组合泛化任务对标准 attention 仍然困难,因为 token-token 相似性并不天然对应“由基本成分稀疏组合成结构”的生成机制。
这篇论文要解决的是:如何在低精度 VLM 中同时压缩 Q/K/V 权重、降低 KV cache 和计算开销,而不把多模态性能打崩。单独压某一部分往往收益有限,且 query、key、value 分开处理会错过它们之间可共享的低秩结构。
LLM 解码阶段长期被忽视——传统解码策略(greedy/sampling)和 reward model reranking 要么信息利用不充分,要么计算开销过大。作者把解码过程类比为推荐系统的排序阶段,发现现有方法存在冗余和适用性受限的问题。
将图像分割集成到多模态大语言模型(MLLM)中时,现有方法要么用边界点离散表示,要么接专用分割头,都依赖任务特定解码器,限制了 MLLM 捕捉细粒度视觉细节的能力。
模型合并(model merging)现有方法假设所有模型同时可用,一次性做权重插值。但实际场景中模型往往是逐步到达的,且同时加载所有模型的内存开销很大,任务间干扰也难以控制。
扩散模型什么时候会复现训练数据(记忆),什么时候能生成训练集之外的样本(泛化)?这个问题对版权、隐私等实际部署问题至关重要,但此前缺乏严格的理论刻画。
现有 LLM benchmark 几乎都是并行评估——每道题独立作答,无法衡量模型是否能从前面的解题经验中学习并提升后续表现。这忽略了 LLM 的在线学习能力和效率。
推理型大语言模型(RLLMs)在长 CoT 推理中的幻觉问题比普通 LLM 更严重且更难消除——现有方法(外部知识、参数分析、自验证)无法揭示幻觉在推理链中如何产生和演化。
Superalignment 中的 weak-to-strong 泛化范式可以让弱模型的监督信号帮助强模型提升,但标准方法只在干净样本上有效,无法传递对抗鲁棒性——强 VLM 在对抗攻击下仍然脆弱。
这篇工作要解决的是:结构化剪枝虽然能带来真实硬件友好的加速,但现有方法往往在保性能和全局最优之间做不好平衡。逐层本地剪枝效率高却看不到全局拓扑依赖,两阶段全局剪枝看起来更全面,但 saliency 评估和真正组合优化是割裂的,最终得到的稀疏分配往往不是端到端最优。
这篇工作要解决的是:few-step 图像生成已经因为 diffusion distillation 变快了,但如何在快速生成下继续提升真实感、可控性和偏好对齐,仍然没有高效路径。过去主流看法是蒸馏损失不可少,reward 只是辅助;作者提出相反判断:当条件足够具体时,设计得当的 reward 本身就可以成为 few-step 生成模型训练的主要驱动力。
这篇论文要解决的核心问题是:多模态检索增强之后,MLLM 仍然经常用不好检索到的知识。已有方法通常把问题归因于检索质量或上下文窗口不足,但作者指出更直接的瓶颈在生成阶段:模型一方面对不同来源 token 的注意力分配有偏置,另一方面参数知识和外部上下文知识冲突时缺少有效仲裁机制,所以即使检索命中了,回答也未必跟着证据走。
这篇论文要解决的核心问题是:LVLM 的安全能力是否集中在极少数内部机制上,以及能否用极低代价放大这种已有安全能力。现有防御多靠微调、输入净化或输出后处理,成本高且容易被绕过;作者试图找到更内生的安全控制点,而不是再叠一层外部防线。
这篇论文要解决的核心问题是:现有基于优化的 LLM 剪枝方法在迭代过程中难以真正利用中间稀疏结构,因此梯度估计既算得慢又占显存。传统 DNN 剪枝里,实例化中间子网络来降低每步计算还勉强可行,但对大模型来说频繁构造和运行 pruned sub-model 往往不现实,这使很多“精细优化型”方法在 LLM 上理论上好、工程上重。
这篇论文要解决的核心问题是:在基于偏好比较的 RLHF/RL 场景里,怎样高效地选择最有信息量的 preference queries。传统方法要么过于依赖 optimistic exploration,计算上很重;要么查询策略较粗糙,导致需要大量人类偏好比较才能识别潜在奖励。
这篇论文要解决的核心问题是:为什么视频推理里 CoT 经常不升反降,甚至把原本正确的直觉答案带偏。文本任务中 CoT 常常有效,因此很多工作默认把这套做法直接移植到视频 reasoning;但作者发现视频场景里模型容易在思维链中编造视觉细节、被语言先验带着走,产生一种“thinking drift”。
现有10余种一步扩散蒸馏方法缺乏统一的理论框架,不同方法的设计选择零散,难以系统性优化一步扩散模型的性能。
一致性模型蒸馏得到的一步扩散生成器性能会随采样步数增加而下降,而原始扩散/流模型需要多步采样,二者存在固有trade-off。
现有基于知识图谱的RAG方法难以从富文本KG中为复杂真实查询检索准确多样的信息,过程奖励模型依赖昂贵的过程级监督信号难以落地。
如何在端侧推理时,根据动态变化的延迟和精度约束,实时调整 LLM 的量化位宽。以往的多尺度量化(multi-scale quantization)虽然支持不同位宽的模型叠加,但缺乏一种机制来决定在推理的每一步、每一层应该分配多少位宽。
这篇工作指出了 flow-based 生成模型,尤其是 Rectified Flow,一个比较底层但关键的失败模式:当训练是确定性的、梯度方差过低时,模型会记住训练时的样本配对,而不是学到真正稳健的分布间运输规律。很多工作强调 straight-path 带来的高效采样,却较少解释为什么它有时会在看起来合理的目标下学出错误的 transport。
这篇工作针对的是 shortcut models 长期没真正流行起来的原因:虽然它们理论上能用同一个网络支持一步、少步和多步采样,但训练上存在一组系统性缺陷,导致图像质量和稳定性始终不够。作者把这些障碍明确归纳为五类,包括 compounding guidance、固定 guidance、频率偏置、EMA 导致的自一致性发散,以及轨迹过弯。
这篇论文解决的是 vision-language encoder 相似度解释过于一阶化的问题。现有 saliency map 大多只能告诉你“哪个图像块或哪个词重要”,却解释不了图像区域与文本 token 之间如何联合作用决定相似度,而这恰恰是 CLIP 一类双编码器最关键的行为单元。
这篇论文研究的是:LLM 能不能作为研究人类联想学习的“模型生物体”,以及学习后表征如何变化。真实神经系统里要精确观察联想学习引发的表征重塑很难,而 LLM 的 in-context learning 提供了一个可控、可重复的实验平台,因此作者尝试把认知神经科学范式迁移到语言模型中检验。
如何将在线策略梯度强化学习(Online RL)应用于流匹配(Flow Matching)模型。流匹配模型通常基于确定性的常微分方程(ODE),缺乏用于 RL 探索的随机性,且训练时的去噪步数与推理步数不匹配导致效率低下。
如何解释神经网络(特别是 LLM)内部高维且复杂的群体活动(population activity)。以往的可解释性研究往往将网络视为黑盒,或试图寻找单一神经元与特定概念的对应关系,难以解释复杂的分布式表征。
大型视觉语言模型(VLM)在面对连续变化的视频数据流时,如何进行参数高效的持续学习(Continual Learning)。传统的参数高效微调(PEFT)在持续学习场景下容易遭遇灾难性遗忘和更新冲突。
如何高效且准确地评估 LLM。现有的“基准预测(benchmark prediction)”方法试图通过在小规模子集上评估来预测整体性能,但这些方法的实际有效性和必要性存疑。
这篇工作解决的是:标准 N:M 稀疏虽然能加速前向,但转置后模式不保留,训练阶段的反向和权重梯度计算拿不到同样的硬件收益。已有 transposable N:M 稀疏思路能补这个缺口,但求 mask 的算法要么扩展不到大模型,要么几乎只支持 M=4,导致压缩比与精度之间的选择空间太窄。
这篇工作解决的是:基于梯度的数据归因方法在大模型上太贵,瓶颈主要不是理论而是每样本梯度的存储和计算。影响函数、TracIn 一类方法都依赖 per-sample gradient,但在 billion-scale 模型上,这一步经常直接把方法挡在离线分析之外。
这篇工作解决的是:CoT、self-consistency、MCTS 这类 test-time reasoning 程序经常在答案已经稳定后还继续花 token,计算投入和正确率提升并不成正比。过去多数系统要么设固定 budget,要么靠启发式截断,但缺少一个跨算法通用、能实时判断“继续算还有没有意义”的稳定性指标。
这篇工作要解决的是:training-free guidance 大多依赖可微目标和梯度信息,一旦控制目标不可微、带离散约束,或者生成分布本身是离散的,传统 CFG/gradient guidance 就不再适用。过去这类需求通常要么靠训练专门 reward model,要么只能做粗糙后筛选,控制精度和通用性都有限。
这篇工作解决的是:用 LLM-as-a-judge 或其他自动评估器做模型选择时,合成评估信号虽然便宜、方差低,但有系统偏差;而已有 prediction-powered inference 虽然能做偏差校正,却可能在真实场景里反而降低样本效率。换句话说,问题不只是‘如何纠偏’,而是‘什么时候值得用自动评估,什么时候反而拖后腿’。
这篇工作要解决的是 diffusion distillation 里的一个关键瓶颈:VSD 虽然从 KL 最小化出发很优雅,但学生梯度依赖学生自身噪声边缘分布的 score,实际必须近似,近似误差会带来偏差、训练不稳,甚至只学到条件均值而不是完整分布。作者的目标是保留‘proper scoring rule’式的原则性,同时去掉这一步最难估的学生 score。
这篇工作要解决的是:现有 LLM guardrail 多数只能事后检测风险内容,缺少在生成过程中实时约束输出且带形式化安全保证的方法。作者提出的问题很具体——如何在流式解码中按 claim 级别监控和拦截潜在违规内容,并给出可校准的风险上界,而不是靠经验阈值拍脑袋。
这篇工作研究的是一个少见但有意思的问题:自注意力 next-token 预测在什么条件下会发生“自发换话题”,以及这种行为与人类 spontaneous thought 有何差异。作者的核心结论偏负面——在他们的简化单层自注意力模型下,模型默认会维持当前话题相关 token 的优先顺序,自发换题不是常态,而需要特定结构条件触发。
当前原生多模态大语言模型(如 GPT-4o)的多模态能力局限于图文,缺乏对 3D 内容的理解与生成能力。已有 3D 相关工作要么只做理解、要么只做生成,没有在统一 LLM 框架内同时支持 3D 资产的理解和生成。
自回归视频扩散模型存在 exposure bias 问题:训练时以 ground-truth 帧为条件,推理时却必须以自身生成的不完美帧为条件,导致误差累积和长视频质量退化。此前的方法要么忽略这个 train-test gap,要么用 scheduled sampling 等方案但效率低。
不同深度网络学到的表示何时以及为何相似?该工作从可辨识性(identifiability)理论出发,研究分布接近是否意味着表示相似。核心发现是否定的:KL 散度小不保证表示相似,这意味着接近最大似然的模型可能学到完全不同的内部表示。
基于偏好的强化学习(PbRL)中,现有理论工作几乎只考虑成对比较反馈。少数探索多选项排序反馈的工作,其性能保证反而随反馈长度增加而恶化,未能利用更丰富信息带来的优势。
LLM 在接收到外部反馈后能否充分整合并修正自己的回答?此前的研究表明 LLM 有一定的自我修正能力,但对反馈整合的彻底程度缺乏系统评估。理想情况下,如果反馈接近完美,模型应该能完全整合并达到正确答案。
VLM 在计数、关系推理等特定视觉任务上仍显著落后于人类。此前的评估多关注整体性能,缺乏对失败原因的系统性认知科学分析——到底是感知、注意力还是记忆环节出了问题?
这篇工作要解决的是:把 RL with verifiable reward 从软件代码和数学,真正扩展到 Verilog 生成,并补齐验证环境、数据和算力成本这三块短板。过去 Verilog 生成常被卡在 reward 不可靠和高质量 NL-code 对稀缺上,所以很多方法只能停留在 supervised finetuning 或弱验证设置,难以像代码推理模型那样从可验证信号里持续获益。
这篇工作要解决的是:让多模态大模型学会类似 o1 的逐步推理和反思,而不是只在最终答案上做一次性监督。以往 MLLM 常见做法是用 CoT 数据蒸馏或单模型 search,但多模态任务中的中间推理路径更难标注、错误定位也更难,所以模型往往会给出看似流畅但不可校正的答案。
这篇工作要解决的是:LoRA 做 LLM continual learning 时,给每个新任务加一条新分支虽然简单,但新旧分支对旧任务通常被一视同仁地混用,结果容易遗忘。过去很多 LoRA-based CL 方法把容量扩展问题解决了,却没有细致处理不同任务下旧知识该保留多少、新知识该注入多少。
这篇工作要解决的是:多轮对话里,不同会话间经常出现语义相近但表面不一样的问题,现有 prefix cache 复用不了,导致重复计算和 KV cache 冗余。传统 semantic cache 往往只看单轮 query,不管上下文,也没有和底层 KV 管理真正打通,所以在对话场景里命中率和节省都有限。
这篇论文要解决的问题是:DiT 的泛化能力很强,但现有针对 UNet 扩散模型的 Jacobian 特征分解分析不再适用,因而我们缺少对 transformer 型去噪器到底学到了什么归纳偏置的可解释描述。过去这类分析之所以多停留在 UNet,是因为局部线性结构更容易写成几何谐波基;而 DiT 里 attention、MLP、归一化带来强非线性,原有工具失效,所以现在需要新的分析视角来解释 DiT 为什么能泛化而不是只会记忆训练分布。
这篇论文要解决的是 activation steering 过于粗糙:现有方法通常对所有样本、所有生成阶段一视同仁地施加干预,或者只看输入问题决定是否干预,结果是该转向的时候不够准,不该转向的时候又破坏原模型能力。这个问题值得重视,因为 steering 的优势本来就在于低成本替代微调,如果控制粒度不够细,收益会被副作用抵消。
这篇论文解决的是 weight-only PTQ 里的 bit allocation 不够精细,尤其面对 LLM 权重重尾分布时,固定整数 bit 宽往往不是最优。过去旋转类方法把权重“高斯化”后,确实更容易量化,但接下来每层、每组到底该分多少 bit,通常还是启发式决策;作者试图给出更接近信息论最优的分配方案。
这篇论文要解决的是 speculative decoding 的一个现实限制:传统方法要求 draft 模型尽量逐 token 匹配 target 分布,但很多 token 的微小差异其实并不影响最终回答质量。也就是说,现有加速方法优化的是分布一致性,而不是任务质量一致性,因此经常为“不重要 token”付出过高的校正成本。
CLIP 模型在捕捉图像细节方面存在不足,导致其在密集预测(dense-prediction)和以视觉为中心的多模态任务上表现不佳。以往的方法通常试图通过修改对比学习目标或引入局部特征来解决,但效果有限。
如何降低 Diffusion Transformers (DiT) 的训练难度。现有的 REPA 方法通过将去噪网络的隐藏层与预训练模型的干净图像表征对齐来缓解训练困难,但这种外部对齐在推理阶段缺失,未能充分利用判别性表征的潜力。
在去中心化环境下训练大模型时,如何解决模型并行(Model Parallelism)带来的通信瓶颈。现有的压缩技术主要针对数据并行(压缩权重梯度),难以应用于模型并行,因为模型并行需要压缩前向激活和反向激活梯度,这会导致压缩误差在层间累积。
传统同伴预测机制仅保证说真话是期望得分最高的均衡策略,假设agent效用是得分的线性函数,无法适配实际中广泛存在的非线性支付规则或天然非线性的agent效用。
现有KV缓存压缩方法大多基于query-key注意力打分排序淘汰token,默认注意力强度与语义重要性正相关,忽略了直接影响注意力输出的value向量贡献,压缩后语义损失较大。
现有多模态大模型无法有效融合视觉、音频、语音三类模态信息,限制了视频时序理解任务的性能,无法处理需要同时识别画面、背景音、语音内容的复杂视频片段定位需求。
现有流匹配泛化性解释的主流假设之一是损失的条件随机噪声是驱动泛化的核心因素,该假设缺乏实证验证,阻碍了流匹配方法的进一步优化。
这篇工作要解决的是近似 unlearning 的老问题:现有方法往往在“忘得不够”和“保留集性能掉太多”之间二选一。常见做法如对 forget data 做负梯度、或在 retain data 上再微调,都只能局部修补参数;它们没有显式建模“朝哪个方向改参数才能既放大遗忘样本损失、又不伤保留样本”这个冲突。
这篇论文研究的是一个更基础的学习理论问题:在宽度很大的两层网络里,SGD 何时会出现可学习性的阶段变化,以及误差如何随宽度、维度和信号结构缩放。过去很多 scaling law 讨论集中在经验现象或核回归近似,难以解释神经网络在非核 regime 下为什么会突然学到更高阶结构;作者这里专门研究 extensive-width 条件下的 emergence。
这篇工作解决的是 world model 训练目标和真实任务指标不一致的问题。现有世界模型不管是语言环境还是视频环境,大多还是用 MLE 预测下一个 token;但下游真正关心的是状态转移是否正确、视频是否感知上合理,而不是 token likelihood 本身。这个错配在多步 rollout 时会累计成明显误差。
这篇工作要解决的是:CLIP 类对比学习虽然能做跨模态检索,但图文特征空间里仍存在显著 modality gap,导致检索对齐停留在粗粒度层面。过去统一架构的 MLLM-retriever 已经部分缓解这个问题,但多数做法仍靠配对监督或粗粒度对齐损失,难以把 MLLM 内部已有的细粒度跨模态先验真正蒸馏到双塔 embedding 里。
这篇工作要解决的是:LLM 很擅长在静态 benchmark 上解题,但在需要持续探索、试错和发现新状态的开放任务里,它们是否真的具备强探索能力。过去多数评测把推理、知识和指令跟随当成主要能力,较少测量 exploration 这种更接近 agent 行为层的能力,因此模型“会答题”并不等于“会探索”。
现有低秩适配(LoRA)方法的稳定秩远低于分配子空间的代数秩,导致子空间利用率不足,大幅降低了微调性能。
现有Transformer注意力机制无法无缝适配多尺度、多模态的输入场景,现有多尺度多模态Transformer的层级设计大多是基于任务的启发式方法,无法通用扩展到不同结构的问题。
大视觉语言模型(LVLM)的物体幻觉问题缺乏明确的可解释成因,现有缓解方法大多是启发式的,无法从根源上降低幻觉发生率。
这篇工作要解决的是:LLM agent 在多步推理和工具使用中会产生大量轨迹,但现有搜索方法没有充分利用轨迹之间的依赖关系,导致搜索重复、探索空间窄、算力花得不值。像 MCTS 这类方法能平衡探索与利用,但通常把不同轨迹看得过于独立,因此很难把“某条轨迹里学到的有效中间模式”迁移到别的候选解上。
这篇工作要解决的是:REPA 这类“把扩散模型中间表示对齐到强视觉编码器”的训练加速方法,之前主要在 DiT 上有效,但还没有在更经典、通常收敛更快的 diffusion U-Net 上被成功验证。问题不只是把 DiT 的做法搬过去,因为 U-Net 有多分辨率结构、不同 block 功能不一样,而且和 ViT 的 token 空间天然不对齐,直接做 token-wise alignment 很容易失效。
这篇工作要解决的是:如何给语言模型 agent 做有意义的 counterfactual 分析。现有方法多停留在 token 级 counterfactual,但对开放动作空间的 LM agent 来说,token 并不是稳定、可解释的行动单位;同样一句动作意图可以由完全不同的 token 序列表达,而单个 token 的语义又强依赖上下文,所以 token-level 干预很容易得到形式正确、语义空洞的反事实。
这篇工作要解决的是:共享跨模态表示通常依赖成对数据,但配对样本昂贵且稀缺,能否主要依靠非配对数据学出同一个共享空间。以往主流多模态表示学习默认“对齐必须靠 paired supervision”,因此 unpaired data 往往只能做辅助预训练,不能直接承担跨模态对齐的主任务。
这篇工作要解决的是:条件生成里的 diffusion / flow matching 通常从与条件无关的标准高斯出发,再学到条件数据分布,这迫使模型同时学习两件事——概率质量运输和条件注入。这个任务拆分并不理想,因为如果源分布一开始就完全不带条件信息,模型前期很多容量都花在“先把条件塞进去”,而不是学习更短、更简单的运输路径。
这篇工作要解决的是:现有 LVLM 仍然以视觉 token 为基本计算单位,导致高分辨率图像和长视频的冗余极高,推理和训练成本都不经济。过去的压缩方法多是静态下采样或固定 token pruning,但这类方法通常不知道当前任务真正需要什么视觉信息,因此容易在效率和性能之间做出粗糙折中。
这篇工作要解决的是:当前数学推理模型的强表现,究竟来自真正掌握了可迁移的原子能力,还是主要来自大规模题库和长推理链记忆,这个问题一直缺少细粒度评估框架。现有 benchmark 多看最终解题率,难以拆开模型在哪类数学概念、哪种局部操作上真的会、哪里只是数据覆盖得好。
这篇工作要解决的是:LoRA 及其变体虽然都在压缩可训练参数空间,但这些方法彼此割裂,且多数仍需要一组不小的低秩参数;作者想问的是,参数空间是否还能进一步压缩到极端,甚至只靠一个低维向量来控制更新。过去 Tied-LoRA、VeRA、VB-LoRA 等各自提出约束形式,但缺少统一视角来解释它们到底在压缩什么、差别在哪里。
这篇工作要解决的是:NL2SQL 在复杂场景下,尤其是多表连接和嵌套查询,单靠监督微调往往学到的是模式拟合而不是稳定推理,因此迁移到新环境时泛化不足。这个问题现在值得重做,是因为数据库交互正重新成为 agent 和企业场景中的高频能力,而 SFT-only 范式在复杂 schema reasoning 上已经暴露出上限。
现有无限宽度神经网络理论预测标准参数化(He初始化+全局学习率)下大学习率会导致训练不稳定,稳定学习率下特征学习会消失,与实际中大学习率可同时实现稳定训练和有效特征学习的现象存在明显偏差。
现有LLM上下文学习(ICL)劫持攻击未实现扰动预算约束下的隐蔽性与跨输入泛化的平衡,此前的攻击要么扰动幅度过大易被检测,要么仅能针对单一下游输入生效,无法批量劫持模型决策。
大推理模型(LRM)串行生成链式思考的推理延迟随推理步数线性增长,此前的推理并行方法依赖人工预设子任务拆分规则,无法动态适配不同推理场景。
多模态大模型(MLLM)的自我反思和纠错能力远弱于同参数纯文本大模型,现有反思方法生成的反馈质量低,无法突破预训练阶段固定的能力边界。
智能体RAG的结果型RL训练存在探索效率低、梯度冲突、奖励稀疏的问题,此前的方法要么仅用最终答案的结果奖励,要么没有细粒度的过程奖励标注。
这篇工作要解决的是:能否不改权重、只靠一个可解释的参数,就对预训练模型做可证明的任务 steering。过去主流微调几乎都落在权重更新上,但这类方法超参多、可解释性弱,而且很难分离“模型容量变化”和“决策边界调整”到底是谁在起作用。
这篇工作要解决的是:怎样在不明显伤害视觉理解的前提下,大幅降低 VLM 的视觉 token 开销。已有方法通常只在视觉编码端或 LLM 解码端做单点压缩,容易出现两种问题:压得早会丢语义,压得晚又省不了多少算力,因此效率和性能之间一直拉扯。
这篇工作要解决的是:多图像 MLLM 在跨图理解时容易出现 hallucination,而现有 DPO 只围绕单个图像参考做偏好学习,无法约束模型先理解全局上下文、再定位关键视觉证据。单图对齐方法迁移到多图场景时之所以失效,核心就在于监督粒度和错误类型不匹配。
这篇工作要解决的是:视觉 token 压缩虽然能省算力,但会给特征空间带来突变,导致 MLLM 难学,结果是压缩得越狠,训练越不稳定、性能掉得越多。很多已有方法只关注结构上怎么压,而忽略了模型参数空间需要时间去适应这种输入分布突变。
这篇工作要解决的是:传统 RAG 只做一次检索,遇到复杂问题时,初始检索不准就会把后续生成全带偏。作者想要的是一个 o1-like 的 RAG:模型先逐步检索、逐步改写查询、逐步推理,再给最终答案,而不是把检索当成一次性前置步骤。
这篇工作要解决的是:现有基于中间表征的幻觉检测器对“看哪几个 token”过于敏感,因此在自由生成、长答案、幻觉实体稀疏分布时稳定性很差。过去很多方法默认取固定位置或预定义 token 的 hidden states 来做分类,这在短答案或模板化场景还能工作,但一旦 hallucinated span 不落在这些位置上,检测信号就会被稀释。
这篇工作要回答的是:自动 factuality metric 真的在测事实一致性,还是主要在利用数据或表面形式伪线索。摘要式总结任务里,ROUGE 一类传统指标已基本失效,于是社区转向专门的 factuality metrics 和 LLM-as-a-judge;但如果这些指标本身不稳,整个训练、选择和评测闭环都会被误导。
这篇工作指出了一个新的安全问题:大型推理模型因为依赖多步 CoT 生成,其“何时结束推理”本身成了攻击面,可以被诱导进入持续循环而耗尽推理资源。过去对 LLM 的攻击更多是越狱、错误引导或提示注入,而这里攻击的是生成控制流本身,目标不是改答案而是让模型不肯收尾。
这篇工作要解决的是:大模型做多任务适配时,经常一边学新任务一边破坏旧任务,表现为 task conflict 和 oblivion,而常见参数高效方法并不能很好处理这种冲突。LoRA 一类方法虽然便宜,但多个任务共享低秩子空间时容易互相抢方向,尤其在任务差异较大时会出现明显遗忘或负迁移。
奥林匹克不等式自动证明难度高,纯符号求解器易陷入组合爆炸,纯LLM方法证明可靠性低,此前的方法未实现探索效率和可靠性的平衡。
扩散模型测试时缩放的现有方法仅靠增加去噪步数收益衰减快,噪声轨迹优化搜索空间大、评估成本高,无法落地。
LLM终身知识编辑的现有方法会积累误差,导致编辑准确率和泛化性逐渐下降,此前的方法要么修改的参数过多,要么无法区分不同类型的知识神经元。
这篇论文关注的核心问题是:扩散模型在训练中到底把多少关于数据分布的信息‘存进了网络’,以及这个量能否被定量描述。过去大家常用 loss、FID 或 likelihood 侧面评价模型,但这些指标不直接回答‘网络记住了多少结构信息’,尤其不区分数据分布本身和扩散过程设计带来的信息预算。
这篇论文要解决的是:在没有任务内监督、没有标注轨迹、也不做测试时训练的条件下,RL agent 能否直接从自然语言指令推断策略。过去语言条件 RL 往往需要任务特定示范、奖励标注,或者在测试时再根据指令做额外适配,这使‘自然语言即任务定义’在真实低监督环境里很难成立。
这篇论文解决的是大规模图生成如何摆脱复杂 diffusion 管线,转而用更简单且可扩展的 decoder-only Transformer。此前图生成常依赖专门图结构模型或 diffusion 方法,但这些方法往往需要额外节点特征、采样复杂度高,难以像语言模型那样直接扩展。
这篇论文要解决的是:LLM 的结构化层剪枝为什么一剪就伤能力,以及怎样在压缩参数的同时尽量保住被删层里的表征。以往做法大多直接删层,或者把多层线性加权合成一层,这样虽然模型变小了,但被剪掉部分的非线性变换和层间互补信息基本丢了,后续再靠少量恢复训练往往补不回来。
这篇论文要解决的是:LLM 推理延迟为什么长期被碎片化算子执行和片上通信能力没被用起来所限制。现有 decode 路线大量中间结果在 operator 之间往返 off-chip memory,fusion 范围又常常被限制在单个 block 或单 kernel 内,导致 memory traffic 和 launch overhead 居高不下。
这篇论文解决的是 AdamW 收敛理论长期偏弱的问题,尤其是在大模型训练里它几乎是默认优化器,但理论保证远落后于实践使用强度。过去很多分析要么结论松、要么假设重,难以解释 AdamW 为什么在高维训练中依然稳定有效。
这篇论文要解决的是:深网络越堆越深并不一定带来更好表征,很多残差层可能只是重复加工信息;那么能否通过架构设计,让网络在训练中自动把有用信息前移并压缩掉冗余深度。传统短残差连接让各层都保留了直接信息通路,但也使后层很容易继续携带前层已足够表达的内容。
现有图像生成和编辑方法直接把文本提示喂给生成模型,缺乏对视觉构图和操作步骤的显式推理,导致复杂场景(多物体、空间关系)的生成质量不佳。
LLM 推理成本高,级联推理(小模型处理简单查询、难题才交给大模型)是一条降本路线,但现有方法依赖有标签数据训练路由器,缺乏泛化保证,且对测试时计算成本控制有限。
CLIP 类模型在复杂组合场景(多物体、空间关系)上的理解能力不足。此前的改进方向多依赖精心设计的 hard-negative 数据增强,本文换了一条路:在预训练中引入归纳偏置。
训练 loss 梯度的低秩结构是 LoRA 等高效微调方法的理论基础,但现有分析依赖数据各向同性等强假设。本文在更现实的条件下(各向异性、病态数据、非独立权重)分析两层网络梯度的低秩性。
Reward model 训练受限于偏好数据的高获取成本。现有的文本级数据合成方法计算开销大(需要生成完整文本再标注),需要更高效的偏好数据扩增方式。
这篇论文要解决的是:LLM 自己生成 benchmark 来评测自己时,会系统性高估自身能力,而且这种偏差此前大多只被当成噪声,没有被拆开研究。作者把这种现象定义为 self-bias,并指出它不是单一来源,而是由题目领域偏好、语言风格相似性、以及错误标注三类子偏差共同造成。这个问题现在值得认真处理,因为 LLM-as-judge 和 LLM-as-benchmark-generator 正在变成低成本评测基础设施,如果评测集本身偏向生成者,后续模型选择、对齐和迭代都会被带偏。
这篇论文要解决的是:部署中的语言模型常常要同时满足两个互相冲突的目标,但现有做法很少能给出明确、有限样本的风险保证。典型例子是 helpfulness vs harmlessness、accuracy vs cost;很多系统靠经验阈值、规则或人工审核兜底,能用但不可校准,也很难说明“违规率到底能不能压在某个配额以下”。作者要补的是这块决策层空白,而不是再训练一个更强模型。
这篇论文要解决的是:扩散模型里的“概念”到底由哪些组件共同实现,现有解释方法只能粗略定位少数关键层,解释不了跨层协作。之前的 causal tracing 更像回答“哪里存着知识”,但对生成模型而言,更关键的问题是“哪些参数块、哪些模块在不同去噪阶段一起把对象或风格做出来”。作者试图把这个问题从局部定位提升到组件归因。
这篇论文要解决的是:语言模型的 scaling 不一定非要靠更多参数或更长推理链,是否还能通过增加并行计算来获得更高性能。现有主流 scaling 路径一个吃显存和训练成本,一个吃推理时延和 token 预算;作者提出第三条路,试图把额外算力主要投到并行分支上,而不是模型尺寸或输出长度上。
Transformer训练的正则化和归一化需要调整大量超参数,严格参数归一化会带来额外计算开销。
这篇论文要解决的是:Stepwise Preference Optimization 虽然在扩散模型对齐中有效,但为什么有效、又为什么有局限,此前并没有被讲清楚。SPO 已被当作比标准 DPO 更省算力的偏好优化手段,但如果训练信号本身在不同去噪步上有系统偏差,那么它学到的偏好可能并不对应真正重要的生成阶段。
这篇论文要解决的是:LoRA 的效果高度依赖 rank 选择和初始化,但现有方法通常只解决其中一个,或者代价太高、可用性太差。实际工程里,rank 过小会卡表达能力,过大又浪费显存与优化步;初始化不合适则会让训练前期梯度利用率很差。作者想把这两个关键自由度统一起来,并让它们根据训练过程自适应变化。
这篇论文要解决的是:RAG 的主要问题不只是检索不到,而是模型的推理轨迹常常偏离已检索证据。过去很多工作把重点放在 retrieval quality、chunking 或 reranking,上下文给够了就默认模型会按证据推理;作者指出这一步并不成立,并把它定义为 reasoning misalignment。
这篇论文要解决的是:在线低延迟请求和离线高吞吐请求通常分机部署,SLO 好管,但 GPU 利用率差。问题不在于大家不知道可以混部,而在于 LLM 服务对延迟抖动非常敏感,在线和离线相互干扰后,容易同时破坏 tail latency 和整体吞吐。
这篇论文要解决的是:在固定模型大小和训练预算下,怎样靠推理时结构而不是继续堆参数来获得更好的性能。现有 test-time scaling 多依赖采样更多候选、重复整段计算,或做 latent recurrent thinking,但这些方法在 compute-matched 条件下未必划算。作者提出递归式 inference depth 可能是更可扩展的方向。
现有具身场景下的视觉语言模型(VLM)仅依赖视觉输入,在遮挡、弱光、隐私受限场景鲁棒性差,且缺少激光雷达、红外、毫米波、WiFi等非视觉传感器与文本对齐的预训练方案。
现有扩散模型的表征引导方法多为经验性设计,没有统一的理论框架确定辅助表征的注入时机与方式,导致表征对齐效果不稳定。
现有剪枝大语言模型的性能恢复方法多用通用参数高效微调(PEFT)方案如LoRA,未考虑剪枝模型的结构特性,恢复效果次优,且容易损失剪枝带来的效率优势。
现有长视频理解视觉语言模型多采用启发式帧采样和压缩方法,会丢失时序信息,且单帧对应数十到数百个token,严重占用大语言模型上下文窗口,无法处理超长视频。
现有大语言模型的稀疏加低秩(S+LR)分解方法多会导致严重的性能下降,缺少高效的单步后训练分解方案,在保证压缩率的同时最小化性能损失。
这篇工作要解决的问题是:KV cache 的低比特向量量化通常依赖校准集,但推理时 token 分布和校准数据不一致时,量化误差会明显恶化。这个问题过去常被弱化,因为很多压缩方法默认离线 calibration 足够代表真实部署分布;但对长上下文、多任务和多语言场景,这个假设经常不成立,所以需要真正 calibration-free 的方案。
这篇工作要解决的问题是:多模态大模型在文档理解和 OCR 场景里,面对模糊、遮挡、低对比度等退化视觉输入时,往往意识不到自己看不清,从而用语言先验补全出看似合理但实际错误的文本。过去很多文档 benchmark 默认图像质量足够好,因此模型“看不清时是否会乱答”这个问题被低估了;但真实部署里,这恰恰是高频失败模式。
这篇工作要解决的问题是:经典 Glorot 初始化在长程线性递归里并不像大家默认的那样稳定,尤其当序列长度随宽度增长时,小的谱半径偏差会被时间维反复放大。过去 Glorot 被当作合理基线,部分原因是其信号传播分析建立在无限宽、固定深度或固定长度情形;但对真正处理长序列的 recurrence,这个前提并不对。
这篇工作要研究的问题是:在视觉-语言模型里,记忆不只发生在单模态内部,还可能跨模态传播,例如从图像记住文本化身份信息,或从文本记住可视觉识别属性,但这个现象以前缺少系统量化。过去关于 memorization 的研究大多分别看 LLM 的文本记忆或 diffusion 的图像记忆,而统一 VLM 会引入新的泄露路径,因此需要单独分析。
这篇工作要解决的问题是:classifier-free guidance(CFG)几乎是现代扩散生成的标准组件,但大家知道它有效,却不清楚它究竟通过哪些成分改善生成质量。过去关于 CFG 的理解多停留在经验描述,例如‘增大条件方向权重’,但这种说法不足以解释为什么它既能强化类别特征,又会在大 guidance 下带来失真。
这篇工作要解决的核心问题是:LVLM 的视觉 token 剪枝不该对所有样本共用同一层级日程,而应随样本复杂度和推理阶段自适应变化。以往方法大多默认“越往后层越该多剪”并把固定 schedule 套到所有输入上,这能省算力,但经常和真实推理轨迹错位:简单样本早剪没问题,复杂样本如果过早收缩视觉证据,后续就只能在残缺信息上做语言推理。
这篇论文解决的是:LLM-as-a-judge 和人类评审之间存在系统性偏差,不能只把 LLM 分数当作带噪声的人类标签直接使用。过去很多工作默认 judge 误差是随机的,因此用更多样本平均就能消掉;但实际偏差常常是结构性的,比如受题目属性、答案长度、风格和模型自身偏好影响。
这篇工作关注的是:扩散模型采样过程中,分布结构是如何逐步形成的,能否用可计算统计量识别出离散的相变节点。以往对 diffusion sampling dynamics 的理解更多停留在经验可视化或 score 轨迹分析层面,缺少一个既有物理解释、又可跨过程正反向分析的统计描述。
这篇工作要解决的是:In-Context Reinforcement Learning 想扩到大规模,首先卡在缺少可大规模生成、结构偏差又足够低的任务集合。现有 ICRL 往往在少量 handcrafted 环境里展示能力,很难判断模型学到的是一般性的 in-context 适应,还是对特定任务族的记忆。
现有大语言模型合并方法默认各层权重重要性一致,忽略了神经网络组件的功能异质性,导致合并后模型的多能力融合效果次优。
现有可解释性工具无法统一识别大语言模型和人脑中编码句法结构的计算单元,难以对比两者的句法处理机制是否一致。
现有大语言模型单步剪枝方法仅优化单一目标(如推理速度),忽略了大模型多场景应用的多能力需求,无法满足不同用户对能力权衡的差异化需求。
现有多模态推理VLM对推理错误敏感,依赖大量标注数据或外部精准校验器,跨域泛化能力差,此前的优化方案要么标注成本高,要么泛化性有限。
这篇工作要解决的是:现有基于激活探针的幻觉检测把每个 layer-token 位置当成独立样本,既丢掉了跨层与跨 token 的结构信息,也很难跨模型迁移。过去这类方法之所以常见,是因为实现简单、标注需求低,但它们默认幻觉信号局部可分;一旦检测目标依赖整段生成过程的演化轨迹,这种设定就会变成明显瓶颈。
多模态大模型的幻觉分为感知诱导和推理诱导两类,现有幻觉评估基准无法区分两类错误,难以定位推理环节的失效原因,此前的基准无法支撑针对性的推理幻觉优化。
这篇论文要解决的是:MLLM 服务瓶颈不只在 LLM 解码本身,而在多模态前端、投影层和异构请求混在一起后,现有紧耦合 serving 架构无法按阶段和请求类型灵活分配并行策略。结果就是 TTFT 高、资源利用率差,尤其在图像、视频、音频请求与纯文本请求混跑时更明显。
这篇论文的结论是:在一个可解析的随机游走任务上,一层 Transformer 不只是能学会预测,而且学到的机制是可解释的。过去关于 Transformer 为什么有效,很多理论结果集中在线性回归或 i.i.d. 输入;但对序列结构更强、状态相关性更明确的过程,理论理解明显不足。
这篇论文要解决的是:LVLM 的 object hallucination 检测不能只看全局或局部一个视角。已有方法往往只比较整图-整句的匹配,或只做对象级局部对齐;前者容易忽略细粒度错误对象,后者又容易丢掉整体语义约束,因此检测可靠性不足。
关系数据库(多表、有外键关联)的生成建模,现有方法要么只处理单表,要么用自回归方式逐表生成,引入表序依赖、限制并行性、累积误差。本文提出联合建模所有表、不依赖表序的方法。
条件扩散模型(文本生成图像、观测条件策略等)在条件采样时,实际生成过程系统性地偏离理想的去噪过程,导致 DDPM 和 DDIM 等不同采样算法产生不一致的结果。本文量化并分析了这种偏离。
基于规则的强化微调(RFT)在多模态 LLM 中是否真的需要显式的 thinking 过程?现有 Thinking-RFT 范式假设显式推理链是成功的关键,但本文质疑这一假设。
这篇工作要解决的是超长上下文下的 token 压缩,但目标不是简单丢 token,而是尽量保住远程上下文里的语义线索。现有做法大多仍在文本 token 空间里做选择、聚合或检索,压缩率一高就容易破坏局部顺序和稀有细节;作者改从视觉表征入手,把远处上下文先转成图像再压缩,试图用更低成本保留“全局轮廓”。
这篇工作要解决的是 VLM 外部记忆的表示形态:怎样把多模态、多语言知识存进可检索记忆里,同时不把上下文长度和推理成本推爆。现有做法常把图像 token 和文本 token 直接拼成长序列当 memory,用法简单,但序列一长就拖慢推理,还可能因为噪声 token 过多而伤害性能。
这篇工作研究的是 watermark detection 里一个被默认但少被系统检验的问题:既然很多 watermark 检测统计量在 human text 下近似 i.i.d.,通用 goodness-of-fit 检验是否能比现有专用检测器更强、更稳。过去水印工作更关注嵌入方法和少数固定检验统计量,对检测器本身的统计功效比较并不充分。
这篇工作要解决的是 factuality hallucination 和 faithfulness hallucination 经常被分开处理,结果一边修好另一边变差。前者是内容与事实世界不符,后者是回答不忠于输入或证据;现有方法通常各治各的,却忽略两类错误可能在模型表征里部分共享。
这篇论文要解决的是:LLM 作为 agent 执行任务时,是否能根据具体情境判断“什么信息该披露、什么不该披露”。这类 contextual integrity 问题过去常被简化成静态安全规则或单轮拒答,但真实场景需要模型结合任务目标、角色关系和披露规范做推理,因此单靠通用对齐数据往往不够。
这篇论文要解决的是:现有 deception benchmark 往往把欺骗简化成一句假话或一次二选一,测不到 agent 在长期目标驱动下的开放式欺骗。随着 LLM agent 更像自主决策体,这种长程、策略性、多人互动中的欺骗与识别能力更值得测,而传统静态评测很快饱和。
这篇论文要解决的是:微调大模型时,究竟该更新哪些参数才能省算力又尽量不掉效果。常见做法是 LoRA、随机子集或基于梯度选参数,但这些方法要么有额外结构约束,要么需要先算梯度;作者观察到一个更直接的现象:微调时大梯度往往落在小权重上,因此也许只更新小权重就够了。
从非归一化离散分布采样是多个领域的基础问题,传统MCMC方法存在混合慢、收敛差的问题,此前的神经采样器要么效率低,要么精度有限。
推理LLM生成的长思维链导致token开销大、推理延迟和显存占用高,现有长到短压缩方法会损失推理精度,此前的优化方案无法平衡精度和效率的tradeoff,难以落地。
这篇工作要解决的核心问题是:LLM agent 在序列决策任务上的提升,是否可以少依赖人工知识工程,转而直接复用自己过往成功轨迹作为 in-context 示例。现有做法通常要手工设计 prompt、示例和动作/观测接口,迁移性差且维护成本高;作者认为,如果成功轨迹本身已经编码了任务结构和局部策略,就应该能作为一种更通用的自举信号。
这篇工作要解决的是:prompt tuning 为了适配下游任务,通常需要大量 prompt token 和 prompt 长度搜索,但这些额外参数并不一定真正高效。作者的判断是,现有 prompt 设计过于“task-aware”而不够“instance-aware”,因此提示向量和输入之间会形成不稳定的注意力耦合,导致效率和效果都受限。
这篇工作解决的问题是:LLM 在多智能体语言博弈里,往往会说话但不一定会博弈,或者会做策略优化但语言互动学得不自然。传统流程常把决策和语言表达拆开处理,作者认为这会割裂真实社会交互中的策略—语言耦合,因此用 Werewolf 这类社交推理游戏重新定义训练目标。
这篇工作要解决的是:扩散模型在同时满足多个目标时,现有 alignment 和 model composition 方法通常只能做软折中,不能保证生成样本真正满足所有约束。过去常见做法是把多个 reward 或多个模型直接加权,但一旦属性冲突,就容易出现某个目标被牺牲却缺少明确控制。
这篇工作要解决的是 LVLM 解码阶段对语言先验依赖过强、对图像证据利用不足,从而产生看起来流畅但并不被图像支持的幻觉。已有方法多半只在文本 token 采样上做校准,默认视觉条件已经被前向网络充分编码,但真正的问题往往出在解码时文本概率主导了决策,因此值得直接在视觉—文本条件依赖上动手。
这篇论文的核心问题是:在有限词表 token 作为上下文的 in-context learning 设定里,Transformer 到底什么时候具备通用逼近能力,位置编码在这里是不是只是工程细节。很多 ICL 研究默认位置编码是标准组件,却很少从表达能力角度说明没有它会失去什么。
这篇工作要解决的是 ViT 中 artifact tokens 的问题,以及一个实际限制:register tokens 明明有效,但大规模 ViT 已经训练完成,无法承受从头重训来加入 registers。此前 register token 更多是预训练时架构设计选择,而不是可后加的能力修补手段。
这篇工作要解决的是 LLM 特定知识卸载里两个常见失败点:偏好优化式 unlearning 的 reward 设定过硬,导致卸载不彻底;同时卸载后鲁棒性不足,被变换 prompt 一绕又能把目标知识诱发出来。过去很多方法看上去在标准测试上忘掉了,但一到变体攻击就复发。
这篇论文想解决的不是直接训练一个更强 LM,而是能否用 LLM 自动化探索新的 LM 架构,把原本依赖人工研究员的‘提想法—查文献—写代码—预训练—评测’流程部分转成可扩展搜索。过去 NAS 或自动化研究多停留在局部搜索,难点在于真正的 LM 架构创新需要跨多个阶段决策,而且验证成本极高。
前沿大模型生成的长推理轨迹容易被用来蒸馏小模型,模型所有者希望在不损失自身性能的前提下降低推理轨迹的蒸馏有效性,此前的保护方案要么会损失模型输出质量,要么效果有限。
现有LLM前缀缓存常用的LRU淘汰算法和最优算法差距大,此前没有学习式的前缀缓存淘汰方案,缓存命中率低,推理成本高。
现有思维链推理仅局限于文本空间,在视觉密集任务上效果受限,此前VLM的推理没有直接在像素空间操作的能力,推理保真度低。
现有LLM在高风险领域容易出现过自信问题,现有校准方法要么靠提示工程,要么靠启发式生成的不确定性估计微调,效果和泛化性有限。
现有大模型表示引导方法效果普遍弱于提示词引导,尤其在特定概念的引入或抑制场景下表现更差,此前方法未实现同时兼顾概念引导和抑制的双向优化目标。
现有DPO等对齐方法仅用KL散度约束对齐模型与参考模型的偏差,在需要严格风险控制的场景下无法有效规避偏离参考模型预期行为带来的风险。
现有LLM微调API的逐点防御(检测单条有害训练/推理样本)无法应对隐蔽的微调滥用攻击,此前攻击方法生成的样本容易被标记为可疑,没有暴露逐点防御的本质缺陷。
传统N:M稀疏大模型的通道重排方法依赖手工设计的质量指标,无法准确捕捉剪枝对模型性能的真实影响,导致稀疏后精度损失过大。
这篇工作要解决的是:主动测试(active testing)能更省标注地评估模型,但对 LLM 来说,评估流程本身可能贵到不可接受,导致方法理论上好、实践上难用。过去 active testing 常假设 surrogate 要在回路里不断更新,甚至频繁查询目标模型,这在大模型时代把评估成本抬得很高。
这篇工作要解决的是:可穿戴传感器数据非常丰富,但缺少与自然语言对齐的高质量成对数据,导致很难像图文模型那样直接训练“传感器-语言”基础模型。过去相关工作往往局限于特定下游任务或小规模标注数据,因此学到的是任务头,不是通用表示。
这篇工作要解决的是:LLM 默认在欧式空间里做表示和微调,但 token 频率分布和嵌入几何可能并不适合纯欧式假设,尤其当频率呈幂律且表示带有层级/树状结构时。过去大家更多把 embedding 空间当工程默认项,很少认真问“几何选错了会不会限制微调效率和表示组织”。
Grokking 现象(网络在训练 loss 早已收敛后突然泛化)的机制解释仍不清楚。已有工作多从正则化、表示复杂度等角度切入,缺乏统一的物理图景来解释为什么泛化会延迟发生。
Dueling bandits 中评估者反馈存在偏差的问题。以往工作假设反馈无偏,但实际场景(如人类对 LLM 的偏好评估)中,评估者因背景差异会引入系统性偏差,导致标准算法的 regret 分析失效。
LLM 压缩(剪枝、量化)中 calibration data 对压缩后模型能力的影响缺乏系统研究。已有工作只从数据来源或样本数量等有限角度考察了语言建模或常识推理的退化,没有覆盖不同能力维度的组合属性和领域对应关系。
机器遗忘(machine unlearning)算法的评估不可靠。当前最常用的基于 MIA(成员推断攻击)的评估方法缺乏理论基础,评估指标的可靠性存疑,无法确信遗忘算法是否真正移除了目标数据的信息。
这篇论文要解决的问题是:当数据真实分布位于低维流形上时,直接在欧氏空间里用标准 diffusion 生成会遇到 score function 奇异性,导致采样精度受限。过去相关工作常绕开这个难点,显式利用特定流形结构或改用流形专用扩散;作者关注的是更普遍也更麻烦的情形——不预设特殊流形结构,直接在 ambient space 里生成。
这篇论文要解决的问题是:coarse-to-fine TTS 里,后段 flow matching 常常还在从纯噪声开始做完整生成,导致计算花在了前面其实已经由 weak generator 大致确定的部分上。过去做法通常把 coarse representation 当条件输入,但并没有把它直接转成 flow path 上更接近目标的中间态,因此 refinement 阶段的计算利用率不高。
这篇论文要解决的是:在参数高效微调里,如何不只找到一个 task-specific 解,而是得到多个几何上多样、又能协同提升泛化和适应性的解。现有 PEFT 方法通常把 fine-tune 看成单点优化,结果容易卡在狭窄局部解,对 few-shot、迁移和 domain shift 的鲁棒性不足。
这篇论文要解决的是:扩散模型训练过程中,生成分布是按什么节奏学会不同频率成分的,能否给出解析理论而不只靠经验观察。大家早就知道深网有 spectral bias,但对 diffusion model 来说,训练动态、权重收敛和生成分布演化之间的精确关系一直缺少闭式刻画。
这篇论文要解决的是:可证明安全的语言隐写在面对主动篡改攻击时很脆弱,而这种脆弱性很大程度来自 AR 语言模型的串行生成误差传播。已有 PSLS 方法虽然能把秘密信息伪装进自然文本,但一旦文本局部被修改,后续解码常会整体崩溃,因此安全性证明不等于实际鲁棒性。
零阶(ZO)大模型微调方法无需反向传播,内存开销远低于一阶(FO)微调,但收敛速度和精度远低于一阶方法,此前没有研究从层间差异角度解释两类优化方法的更新模式区别。
现有多模态大模型(MLLM)的空间推理能力弱,3D MLLM依赖额外的3D或2.5D数据输入,无法处理仅2D图像/视频输入的空间推理场景。
扩散/流模型的无分类器引导(CFG)存在质量、多样性、一致性的固有trade-off,现有改进方法要么需要额外训练弱模型,要么增加每步采样的前向传播次数,推理开销高。
现有多模态大模型(MLLM)无法灵活调节联想推理的强度,存在事实性任务需要低联想、创造性任务需要高联想的适配性问题,此前没有研究揭示MLLM联想推理的内部机制。
扩散生成模型迭代采样计算成本过高,现有离线蒸馏方法多依赖经验设计缺乏理论支撑,采样速度与生成质量的权衡优化空间有限。
这篇论文研究的是 MoE 是否也具有线性模态连通性,以及门控和 expert 置换会怎样改变这一性质。这个问题以前主要在 dense 网络里被讨论,而 MoE 有额外的离散路由和对称性,不能直接套用已有结论。
这篇论文要解决的是现有 jailbreak 攻击目标过于僵硬,通常只优化模型输出“Sure, here is ...”这类固定前缀,导致攻击成功后行为不自然、覆盖不完整,也限制了优化空间。也就是说,很多攻击不是卡在搜索算法不够强,而是目标函数把可行解限制得太死。
这篇工作要解决的是:在只有 student 权重和 teacher API 的现实条件下,能否检测一个开源模型是否由某个闭源模型蒸馏得到。过去关于模型来源追踪更多依赖水印、访问日志或训练过程信息,但实际争议里往往拿不到这些证据,因此需要一种只靠模型行为和有限接口访问的取证方法。
这篇工作要解决的是:LVLM 的知识编辑不能只改单一模态,也不能只做一次性编辑,因为真实世界知识更新往往是跨模态且持续发生的。以往方法常把视觉知识和文本知识分开处理,或者默认每次只修一条事实,这会忽略两种模态之间的耦合,导致新编辑互相冲突、旧知识被污染,连续更新后尤其明显。
这篇工作要解决的是:text-to-CAD 生成长期受限于表示形式和可验证性,直接生成网格或点云很难保证结构合法,也难和 LLM 的代码能力对接。作者改成生成 CadQuery 脚本,目的是把 CAD 任务转成程序生成,让模型输出既有几何语义又能被执行验证。
这篇工作要解决的是:异构专家架构里类似“大脑处理通路”的动态子网络是如何形成的,以及仅靠异构性本身是否足够。作者的结论先行:仅有 heterogeneous experts 不会自然形成稳定通路,还需要额外约束。这是在用可控模型回答一个机制问题,而不是单纯追求 benchmark 分数。
这篇工作要解决的是:扩散模型几乎都围绕 score,也就是 log-density 的梯度来建模和采样,但这未必是唯一也未必是最稳的离散化路线。作者提出从反向 SDE 的 backward discretization 出发,用 proximal map 代替 score,试图改善理论性质和实际采样行为。
大模型生成形式化规约时的概率性输出与形式验证要求的确定性保证存在本质冲突,现有不确定性量化(UQ)方法无法识别LLM生成形式化产物的错误。
现有大模型导向(steering)技术仅用单一固定导向向量,不随输入变化,无法满足多模态大模型场景下依赖输入的行为引导需求,如风险内容拒答、专业问题导流等。
Transformer模型的表达性已被证明可模拟布尔电路或图灵机,但线性注意力Transformer的高效可学习性一直是悬而未决的理论问题,现有研究缺乏多项式时间内的PAC学习保证。
现有稳定边缘(EoS)现象的研究仅关注神经切线核(NTK)最大特征值的振荡行为,对EoS训练过程中NTK特征向量的演化规律完全缺失,无法解释大学习率下特征学习的动态机制。
现有对比解码缓解大模型幻觉的方法仅引入易产生幻觉的模型作为对比,缺乏对生成内容事实准确性的置信度评估,幻觉缓解效果与生成流畅度的权衡较差。
现有大模型推理方法默认生成更多候选答案可提升准确率,缺乏对不同查询与推理方法匹配度的建模,聚合策略的准确率没有理论保证,计算成本与准确率的权衡较差。
这篇工作要解决的是 Vision Transformer 长期默认固定输入分辨率的设定,它在工程上简单,但会系统性损失原生尺度信息,并削弱多模态时代对真实视觉分布的建模能力。此前也有原生分辨率建模尝试,但大多停留在局部改结构或做任务适配,缺少从表示学习到训练 recipe 的完整方案。
这篇工作要解决的是多模态 LLM 中视觉编码器到 LLM 之间 projector 的角色长期被简化了:大家默认它只是接口层,用来把视觉特征送进语言模型,但它到底压缩了什么、对细粒度视觉理解是帮助还是伤害,并不清楚。过去常见训练方式以 caption 生成目标为主,因此 projector 很可能偏向“够生成就行”的信息保留,而不是“细粒度理解最优”。
这篇工作要解决的是 locate-then-edit 模型编辑方法中的一个核心但被默认正确的机制——residual distribution——其实会引入权重漂移误差,从而损害编辑精度。过去这类方法先定位关键层,再在最后关键层构造残差并分发到多层,经验上有效,所以大家更多关注如何 locate,而较少追问分发这一步是否本身就带偏了更新。
这篇工作要解决的是 MLLM 幻觉抑制的两难:训练式方法如 DPO 能压 hallucination,但可能因为 likelihood displacement 伤到通用推理;免训练式方法如 contrastive decoding 不改模型,却通常依赖手工构造的失真输入,未必真的刻画了模型生成幻觉时的偏差模式。过去两条路线各有明显短板,很难兼顾稳健性和零训练成本。
这篇工作要解决的是:现有模型编辑大多只评估“单条知识改写是否成功”,却没有回答多个编辑同时注入后模型能否组合使用。这个问题过去被回避,是因为单编辑设定更容易测,也更容易得到高分;但真实使用里,知识更新往往成组出现,如果编辑之间不能组合,编辑方法就很难真正替代再训练或持续预训练。
这篇工作要解决的是:VLM 过度依赖监督式视觉指令微调,导致高质量图文问答三元组成为能力提升的主要瓶颈。作者想验证并利用一个更激进的设想——模型是否可以不依赖外部人工指令,而通过自身的一致性约束生成训练信号并自我改进。
这篇工作要解决的是:多模态对齐训练把所有负样本一视同仁,导致模型学会“粗粒度分开”却学不会处理只差一个细节的边界样本。过去的 CLIP 类方法在大规模数据上有效,是因为容易样本足够多;但一旦需要细粒度对齐,最关键的往往不是更多随机负样本,而是那些几乎正确、只在局部不匹配的 hard negatives。
这篇工作要解决的是:多模态学习里强模态会压制弱模态,传统做法通常通过正向对齐让弱模态去模仿强模态的目标类分布,但这会牺牲弱模态自身的独特信息。这个问题长期存在,是因为“更好对齐”很自然,但在模态不平衡场景下,对齐常常等价于把弱模态训成强模态的影子。
动态稀疏训练(DST)在极高稀疏度(如 1% 连接率)下难以维持性能,现有方法在 Transformer/LLM 上的表现尤其不理想。
基于 codebook 的极低比特量化(如 2-bit)在 LLM 推理中精度不错,但现有 kernel 依赖反量化(dequantization),需要反复读取 centroid 并重建权重,带来显著延迟和缓存压力。
Diffusion bridge sampler 中,Log Variance (LV) loss 被认为优于 reverse KL (rKL) loss,但这个结论在 diffusion bridge(有可学习前向过程)的场景下不成立——LV loss 在 bridge 设定下缺乏像 rKL 那样基于 data processing inequality 的理论动机。
CLIP 预训练依赖未经筛选的网络数据,容易受到数据投毒和后门攻击。现有研究主要关注图像侧的攻击,文本侧的攻击被严重忽视。
这篇工作要解决的是:现有视频 VLM 评测大多只看“正常分布上的答对率”,很难判断模型是真的理解了视频里的物理与常识约束,还是只是在复用训练中学到的视觉—文本相关性。作者把问题重新定义为需要同时做 positive-control 和 negative-control 测试,尤其加入“物理上不可能或逻辑异常”的合成视频,去测模型会不会在视觉证据失真时仍然自信地产生幻觉。
这篇工作要解决的是 AR 文生图推理太慢,而现有 speculative decoding 在图像上不好用。问题不只是图像 token 更多、采样空间更大,还因为二维空间结构很强,如果还按文本那种一维近似去做 draft-target 对齐,草稿模型很难给出足够高接受率的提议。
这篇论文要解决的是 VAR(visual autoregressive,按尺度逐级生成图像)推理时 KV cache 随尺度爆炸的问题。VAR 的 coarse-to-fine 生成方式带来不错的效率和 zero-shot 泛化,但越到细尺度,历史 token 数越大,所有层都保留全量 KV 会造成显著显存浪费,而现有压缩方法大多是为标准 token-by-token AR 设计,并不利用 VAR 的跨尺度注意力结构。
这篇论文要解决的是 ICL(in-context learning)里的不确定性来源无法被可靠拆解的问题。虽然已有观点把 ICL 解释成某种贝叶斯预测,但真正把 epistemic uncertainty(样本不够导致的不确定)和 aleatoric uncertainty(任务本身噪声)分开很难,因为潜在参数后验通常不可 tractable 地求。
现有扩散模型训练依赖高度筛选的高质量curated数据集,大量低质量、合成、分布外的图像被丢弃,数据利用率极低,训练数据获取成本高。
LLM在NP类组合优化问题(如数独、TSP、可满足性问题)上表现差,现有方法要么用定制神经符号架构,要么依赖外部工具调用,没有原生Transformer端到端解决的高效方案。
将GRPO应用于多模态大模型推理时,无法适配不同难度任务的推理深度需求,要么推理长度不足解不出难题,要么生成冗余输出,准确率提升幅度很小。
这篇工作要解决的是:能否像分析 LLM 一样,用稀疏自编码器(SAE)把文本到图像扩散模型内部更新分解成可解释、可干预的稀疏特征。过去这类可解释性工具主要停留在语言模型上,扩散模型因为时间步、多层去噪和视觉表示混杂,通常只做 attention 可视化或局部探针,缺少能跨步数、跨模型复用的特征分解方法。
这篇论文要解决的是:平均意义上的高准确率并不能回答“某个具体输入这次是否可信”,而现有 LLM 评测大多只能给 average-case 保证。作者提出的方向是让模型不仅输出答案,还通过交互式证明向验证器证明答案正确,从而把“分布上大多数输入可证正确”和“任意输入都不能把错答案证明成对”区分开来。
这篇工作要解决的是 LVLM 中视觉 token 冗余太高,但现有剪枝方法常用单层 attention 分数做重要性判断,准则过于局部。作者认为冗余不是某一层静态显现出来的,而是信息在 token 与层之间流动后才暴露,因此需要从 information flow 而不是单层注意力重想 token 剪枝。
这篇工作要回答的是:prompt tuning 作为参数高效微调方法,到底有多强的数据记忆能力,以及它是否足以单独记住任意有限数据集。过去 prompt tuning 常被当作“轻量适配器”来用,但对它的 expressivity,尤其是记忆容量与生成步数之间的关系,理论上并不清楚。
这篇工作要解决的是:约束解码虽然能保证输出满足硬约束,但现有方法常严重扭曲原 LM 的条件分布,导致样本有效但不自然,尤其不利于需要多样性的场景。作者希望同时满足三件事:样本始终满足约束、采样过程单调逼近真实条件分布、而且前几步就能给出高质量样本。
这篇工作要解决的是:Transformer temporal point process 的采样很慢,而这类模型在连续时间事件生成里本质上也在做自回归决策。作者观察到,TPP 的 thinning 算法与语言模型中的 speculative decoding 在结构上相似,因此尝试把大模型验证、小模型起草这一加速思路迁移到点过程采样。
这篇论文要解决的是:参数高效微调里,LoRA 参数省但表达受限,MoE 容量大但参数多且利用率低,两者之间一直缺一个更平衡的设计。现有 PEFT 往往在‘便宜’和‘有条件容量’之间二选一,尤其在多任务或高异质输入上容易碰到瓶颈。
这篇论文要解决的是:短上下文 VLM 很难理解超长视频,而高质量长视频偏好数据又很稀缺,导致直接做 long-video preference optimization 既贵又难。现有方法通常依赖长视频标注或长上下文模型本身,门槛很高,也容易受到位置偏差和监督含糊的影响。
这篇论文要解决的是:用多个预训练视觉专家提升 VLM 的视觉理解很有效,但训练和推理时同时挂多个专家代价太高,而且不同教师之间知识常常冲突。现有多教师蒸馏如果只用固定适配器去吸收所有教师,往往会把互补性平均掉,既不够高效,也不够可控。
LVLM容易误判视觉输入,产生幻觉输出,现有缓解方法要么需要微调模型参数,要么依赖额外的幻觉检测模块,推理开销高,无法在无训练成本的情况下快速落地。
CLIP的多模态表征语义透明度低,现有可解释性方法都是针对特定下游任务设计,无法揭示CLIP预训练表征中编码的通用语义概念。
Transformer的损失landscape几何特性研究不足,现有线性模式连通性(LMC)方法仅能处理神经元排列这类简单对称性,无法适配Transformer中的更复杂对称性,导致独立训练的模型之间的连通性被低估。
共形预测(CP)是可靠的不确定性量化方法,但传统CP依赖结构化输出的几何距离或softmax得分,无法适配生成模型的黑盒、非结构化输出场景,无法为生成式AI的高风险落地提供UQ支撑。
这篇工作要解决的是:机器人 foundation model 现在大多停留在 behavioral cloning,能模仿但不太会持续自我提升,尤其缺少像 LLM post-training 那样可扩展的 RL 阶段。过去机器人里 reward 设计和成功判定通常依赖大量人工工程,导致新任务扩展成本高、在线自练不稳。作者试图回答的是:能不能从已有预训练模型里直接提取足够好的训练信号,让机器人像语言模型一样进入 self-improvement 闭环。
这篇工作要解决的是:现有 MLLM 做 3D 场景理解时大量依赖 2D 预训练迁移,能回答问题但视觉表征未必真正具备 3D awareness。过去这类能力缺口常被下游微调或多视角 prompting 掩盖,但作者指出,如果模型连跨视角 correspondence 都学不好,后面的 3D reasoning 往往只是语言补偿而不是表示层理解。问题因此变成:如何在不重做完整 3D 原生预训练的前提下,把 3D 结构知识注入到 MLLM 表征里。
这篇工作要解决的是:LLM 不确定性估计长期缺少统一的概率框架,很多方法只是看熵、温度或若干启发式扰动,能用但解释力和校准性都有限。作者试图回答的是:能否给'扰动为什么能揭示不确定性'一个更严谨的概率解释,并据此定义一个真正从条件输入空间出发的不确定性量,而不是只盯着输出 token 概率。
这篇工作要解决的是:VLM 接入视觉模态后,安全性往往比其文本 backbone 更差,而且更容易被有害图像或越狱提示绕过。作者给出的诊断结论是,问题不只是数据污染或对齐不足,而是多模态输入会把激活整体推向一个'更安全'的方向,导致模型系统性高估输入安全性,也就是 safety perception distortion。这个解释抓住了一个很具体的机制层漏洞。
这篇工作要解决的是:语言模型在做多项选择决策时,内部表征是如何一步步收缩到最终判定的,现有研究缺少一个跨模型、跨层可比较的几何指标。仅看 logits 或 attention pattern 很难解释“模型何时开始真正形成决策”,因此作者转向 intrinsic dimension 这个更贴近表示复杂度的量。
这篇工作要解决的是:现有模型合并方法大多只能在参数空间里合并同构模型,而一旦架构不同,层对齐和搜索空间就会立刻爆炸。结果是 model merging 虽然在无数据、低成本整合能力上很有吸引力,但真正能处理异构预训练模型的方案还很少。
这篇工作要解决的是:LLM unlearning 里常用的 Negative Preference Optimization 虽然比简单 gradient ascent 更稳,但它本身也有一个被忽略的问题——reference model bias。现有 unlearning 方法不是直接反向优化导致模型崩坏,就是依赖参考模型提供约束;而一旦参考模型本身带偏,优化目标就可能偏离真正的“只移除目标数据影响、保留其余能力”。
对比学习(如 CLIP)在图文对存在 misalignment(噪声配对)时的理论基础不清楚:misalignment 如何影响学到的表示质量和泛化能力?recaptioning/filtering 为什么有效?此前缺乏严格的理论分析。
视频生成中的 next-frame prediction 模型面临两个核心问题:(1) 输入帧上下文随视频变长而爆炸,无法在固定长度内编码足够多的历史帧;(2) 自回归生成时误差累积(drift),导致长视频质量快速退化。
Transformer 的训练和架构设计缺乏系统性的理论指导。最优控制理论提供了连续时间视角来分析 Transformer 的前向传播和训练动态,但此前未被有效转化为可落地的改进。
这篇工作要解决的是:即使有 PEFT,把十亿级语言模型适配到新任务仍然要付出训练成本,而很多任务变化其实主要体现在输出分布而不是参数本体。现有方法默认“适配必须改权重”,作者则尝试把问题改写成推理时的输出分布对齐。
这篇工作要解决的是:测试时 detoxification 常常干预不准,原因不是缺少一个负向方向,而是没有充分建模“从有毒到无毒”这条生成轨迹上的表征转移。现有 representation editing 方法常做静态或一步式调整,容易过度抑制正常表达,或在长生成中后续又漂回有毒区域。
这篇工作要解决的是:Transformer 在 in-context RL 里已知能学到某些策略,但在非平稳环境中能否接近最优一直不清楚。很多 ICL-RL 理论默认环境平稳,而现实中的任务分布、奖励和转移常随时间漂移,如果模型不能快速追踪变化,context 学到的只是过时策略。
这篇工作要解决的是扩散式多模态生成推理太慢,而把 LLM 里的 speculative decoding 直接搬过来又行不通。问题不在“先猜后验”这个思路本身,而在扩散输出是连续高维对象,逐步做精确验证的代价太高,错误猜测的回滚成本也远高于离散 token 生成。
这篇工作解决的是:在只能黑盒 API 访问前沿模型时,如何预测模型这次回答是否正确、是否被攻击或操纵。传统做法要么依赖白盒内部表征,要么只看单次输出的表面信号,但闭源模型场景下这两条路都不可靠或者不可用。
这篇工作解决的是 LLM 的 diverse decoding 往往只有词面多样性,没有语义多样性。现有温度采样、diverse beam search、n-gram penalty 往往只是在表面上避免重复,但生成出来的多个答案语义上仍然高度重合,这会限制 best-of-N、group-based RL 和数据合成的有效样本数。
REPA(用 DINO 等非生成式 teacher 的特征对齐来加速 DiT 训练)在早期有效但后期会 plateau 甚至退化。根本原因是 capacity mismatch:当生成模型开始建模完整的联合分布时,teacher 的低维嵌入和注意力模式反而成为约束。
在去中心化协作训练和推理场景中,如何确保完整的模型权重永远不会被任何单一参与者获取(unmaterializable weights),从而保护模型 IP?
这篇论文解决的是 VLM 的空间理解薄弱,尤其是经常产生 spatial hallucination,即把物体相对位置说错。过去这类问题通常靠更大模型、更强标注数据或专门的空间数据集缓解,但成本高且不通用。作者的判断是,问题部分来自图像与文本的非对称性:图像天然编码空间结构,文本监督却常常弱化或省略这种结构,因此模型学到的是物体共现,不是明确的相对布局。
这篇论文要解决的是:softmax self-attention 到底为什么比线性模型更强,尤其是在已有 toy problem 上能否给出严格、可计算的理论解释。此前 Marion et al. 2025 用 single-location regression 证明了简化 self-attention 的功能分离,但 softmax attention 的严格分析因为耦合性强而很难做。这个问题虽然偏理论,但对理解 Transformer 的表达能力边界很关键,因为很多直觉来自线性化近似,而真正部署的模型用的是 softmax。
这篇论文要解决的是:CLIP 类对比预训练高度依赖超大 batch 才能获得足够多的负样本,而这把训练成本推到几百上千卡的级别。过去常见缓解办法包括 memory bank、queue、蒸馏或替代 loss,但往往会牺牲下游 zero-shot 性能、拉长训练时间,或者在超大数据集上扩展性不好。这个问题现在依然重要,因为语言-图像预训练越来越基础设施化,算力效率已经不是附属指标,而是决定谁能复现实验、谁能做大规模迭代的前提。
这篇论文要解决的是:CLIP 对细粒度视觉差异不敏感,能对齐粗语义,却常常分不清只差一两个属性或局部编辑的图文对。过去常用的 CLIP 数据和 loss 更适合学习 broad alignment,因为负样本通常是随机配对,难度不够,文本也偏短,无法稳定描述细节。这个问题现在重要,是因为越来越多 VLM 任务不再满足于“看懂大类”,而要求模型能处理细粒度检索、编辑指令、属性识别和局部差异对齐。
这篇论文要解决的是:我们对 self-attention 推理动力学的理论理解过度依赖 energy-based formulation,而标准 self-attention 并不总满足那些理想化约束。已有一条理论路线把 attention 看成沿某个能量函数下降的动力系统,这有助于分析收敛和偏置,但通常依赖对称性、单头或其他额外条件。作者想做的是把这些限制放松,改用 Jacobian 视角研究更一般的 recurrent self-attention dynamics。
这篇 paper 解决的是 web agent 缺少便宜、可部署、能看中间步骤的 reward model。过去 web 导航多用 MLLM 充当评审器,虽然能力强,但推理慢、成本高,而且通常只给 trajectory 级别信号,不利于长链决策中的 credit assignment。
这篇 paper 想解决 ICL 在 distribution shift 下容易失效的问题。传统 demonstration selection 多按表面相似度挑例子,这在 IID 条件下常常够用,但 query 与候选示例来自不同分布时,模型容易学到 spuriously correlated pattern,而不是可迁移的因果特征。
这篇 paper 要解决的是:LLM 做无损图像压缩看起来很诱人,但直接套用并不行。作者明确指出 naive LLM-based lossless image compression 与现有最强 codec 之间仍有明显差距,说明“把图像 token 当语言建模”这件事在压缩场景里还缺少正确的表示和预测空间。
这篇 paper 解决的是 contextual dueling bandits 在一般连续动作空间下缺少既高效又有理论保证的方法。现有方法通常要么依赖强偏好模型假设,要么只适用于有限动作集,还常要求 online optimization oracle,这对 RLHF 里复杂函数类和大模型 reward learning 都不现实。
现有LVLM的交互式编辑能力将感知(分割目标对象)和生成(编辑内容)拆分为独立模块,依赖多个disjoint模型,流程复杂,编辑精度低,无法端到端优化。
扩散模型的噪声到图像映射的结构机制不清晰,现有研究无法解释初始噪声种子如何决定生成图像的高层组合结构,难以实现对生成内容的结构层面可控。
这篇工作要解决的是:扩散模型的采样时间步到底该怎么选,才能把有限步数真正用在“信息变化最大”的位置,而不是机械地均匀切时间。过去的 scheduler 大多在预设时间轴上做经验设计,或者依赖启发式离散化;这样做的问题是,不同区间的信息密度并不均匀,结果就是有些步几乎没贡献,有些关键区间又采样不够,少步采样时尤其吃亏。
这篇工作要解决的是:多模态 diffusion transformer 里,文本语义是如何在层间传播并最终落到图像 token 上的,目前缺少系统理解,也缺少把这种内部结构直接转成开放词汇分割能力的方法。过去很多工作只看 cross-attention 热力图,但 MM-DiT 用的是图文拼接后的 joint self-attention,语义流动路径更复杂,简单看某一层某一头很容易误判。
这篇工作要解决的是:activation steering 很便宜,但通常只是在局部做线性修补,没有考虑下游层会怎样放大或扭曲这个干预,因此控制效果常常粗糙、不稳,且容易伤质量。过去很多 steering 方法用 source/target prompts 的激活差做一个方向,然后推理时硬加进去;它快,但没有端到端优化“最终生成分布是否真的朝目标移动”。
这篇论文解决的是 preference-based RL 在反馈稀缺时效率低且很容易学偏的问题。已有 PbRL 常靠少量偏好数据同时训练 reward model 和 policy,但这样会出现两个连锁问题:reward model 对标注集过拟合,随后 policy 又去 exploit 这个有偏奖励,TD 学习里的值函数高估进一步放大误差。
这篇论文研究的是一种很贴近实际的 fine-tuning 场景:在已有大模型旁边接一个新 prompt / contamination expert,相当于形成 softmax-contaminated MoE,但这种做法的统计可辨识性此前并不清楚。问题在于,当新专家学到的东西和原预训练专家高度重叠时,门控和 prompt 参数可能变得难以估计,训练会出现“看起来能拟合,实际上参数不稳定”的现象。
这篇论文解决的是 LLM 输入归因里一个被长期低估的问题:saliency 方法看起来能解释模型,但在长上下文下往往把大量无关 token 也打成重要。过去这个方向缺少足够严格的压力测试,很多方法在普通可视化里似乎合理,但一到 needle-in-a-haystack 式场景就暴露出 attribution 不稳、长度一长误报更严重的问题。
流生成模型样本质量优异,但推理阶段需要求解微分方程导致速度慢。现有一致性模型(流映射模型)可提升推理效率,但缺乏统一的高效训练框架,此前实现多为零散经验性方案,无系统性理论指导。
测试时缩放范式可提升LLM和生成式视觉模型的性能,但会带来显著的推理开销,难以落地到实际应用,现有方案无法在保留测试时缩放收益的同时降低推理延迟。
稀疏自编码器(SAE)在LLM上可提升神经元单语义性,增强可解释性与可控性,但在VLM上的应用缺乏系统性评估框架,此前方法仅验证了SAE在文本表征上的效果,无针对VLM视觉表征的单语义性评估方案。
现有LLM推理评估仅关注推理正确性,忽略推理效率。真实场景下推理存在大量无关信息,LLM识别并忽略无关信息的能力缺乏系统性评估框架。
现有LLM路由通常为单轮一对一映射,仅能将用户查询分配到单个模型,无法处理需要多模型互补能力的复杂任务,此前方案不支持动态调用多个模型并聚合结果。
思维链推理在LLM上取得显著成功,但适配到VLM推理时缺乏成熟方案,现有VLM推理链为粗粒度设计,无法支持细粒度结构化推理,也难以评估中间推理步骤的奖励与质量。
这篇工作要解决的是:开放互联网问答需要边搜边想、按不确定性动态加大检索强度,但现有 LLM agent 往往搜索策略固定,对真实网页环境适应差。过去很多方法只在 wiki 或静态语料上评测,搜索轮数和深度主要靠 prompt 规则设定,因此很难学到遇难题就主动多搜、遇简单题就少搜的行为。
这篇工作要解决的是:文本到图像扩散模型上的 DPO 很有效,但依赖先生成大量候选图像、再做人类两两偏好标注,成本高且更新慢。过去的对齐流程把 preference 数据收集当成独立前处理步骤,这使训练信号既贵又容易过时,也限制了迭代速度。
这篇工作要解决的是:DiT 架构设计空间很大,但每改一个 operator、深宽配比或局部结构,通常都要重新预训练,导致真正的架构研究成本过高。过去这类问题常靠小模型 proxy 或局部 ablation 近似,但 proxy 往往改变量太大,不能可靠反映在成熟大模型上的架构效应。
这篇工作要解决的是:代码推理模型是否真正依赖程序语义,还是在很大程度上被自然语言描述牵着走。过去代码 benchmark 往往默认注释和题意是帮助信号,很少系统测试误导性自然语言会不会让模型放弃结构化推理,因而高分并不等于鲁棒代码理解。
这篇工作要解决的是:大模型非结构化剪枝里,真正困难的不只是怎么剪,而是全局 sparsity 应该如何跨层分配。过去为了避开十亿级模型上的全局优化复杂度,很多方法用 layer-wise pruning,再手工或启发式设每层稀疏率;这通常在工程上可行,但对整体模型最优性是次优的。
这篇论文要解决的是:在不改模型、不做微调的前提下,把 LLM 推理阶段最占显存和带宽的 KV cache 压到足够小,同时尽量不伤精度。此前很多方法主要做结构化裁剪,因为硬件友好,但这类方法通常要么精度掉得更早,要么裁剪粒度过粗,没把 KV cache 内部真正可删的冗余吃干净。
这篇论文要解决的是:扩散模型内部到底学到了哪些可解释概念,以及这些概念在多步去噪过程中如何出现和演化。过去扩散模型可解释性更多停留在 attention map、特征可视化或少量 probe,难以像 LLM 一样在中间表征层面系统分解出稳定且可操控的语义单元,因此一直很难真正回答“生成过程每一步在做什么”。
这篇论文要解决的是:LLM 在多步推理中是否真的在做接近贝叶斯式的理性信念更新,还是越来越固执地强化已有判断。过去这类问题大多依赖有监督 benchmark 或人工构造真值场景,但那很难分离“最后答对了”与“更新过程是否理性”这两件事;作者想要一个无监督、过程导向的度量。
多模态大语言模型(MLLM)中视觉 token 数量远超文本 token,推理开销大。现有剪枝方法要么基于 attention(保留大量重复 token),要么基于相似度(忽略指令相关性),都不够好。
LLM-as-a-Judge 的评分与人类偏好对齐不够好,现有方法主要优化浅层输出,忽略了模型内部丰富的跨层表示信息。
Diffusion Transformer(DiT)的 attention 机制是二次复杂度,生成高分辨率图像时延迟很高。如何将预训练好的 DiT 的 attention 线性化,同时不显著损失生成质量?
LLM 生成的代码功能正确但效率低下,这是实际部署的瓶颈。如何让 LLM 在测试时迭代优化代码效率?
这篇工作要解决的是:LLM 的“学习能力”长期被能力评测替代了,但会做题不等于会学习,尤其不等于能在新环境中通过指导、概念抽象和经验反馈持续适应。过去相关工作多看静态 benchmark 分数,很少把 learning-from-instruction、learning-from-concept、learning-from-experience 作为独立维度系统拆开。
这篇工作要解决的是:MLLM 只靠语言监督训练时,LLM 端会越来越偏向语言对齐,视觉细粒度感知能力反而被稀释,尤其在空间理解和 embodied 场景里会吃亏。过去常见做法是换更强视觉编码器或加更多图文数据,但没有直接约束 LLM 内部保留视觉表征。
这篇工作要解决的是:视觉 token pruning 里“对齐文本提示”和“保留视觉信息”这两个目标并不总能同时最优,简单叠加常常出现 1+1<1。过去方法多用静态启发式或单目标打分,把两种需求混在一起,因此不同任务上表现不稳定。
这篇工作要解决的是:在图任务上,Transformer 到底需要多深、多宽才能实现某类算法能力,现有结论主要覆盖“宽度受限时需要对数深度”,但对“如果允许线性宽度,深度还能不能保持常数”缺少答案。过去这个问题常被默认成深度不可少,但理论上并不充分。
这篇论文要解决的问题是:当前用 RL 提升 VLM 推理时,策略探索主要围绕语言侧展开,但视觉感知误差本身会连锁污染后续推理,导致 test-time compute 扩展效果有限。以往很多方法默认输入图像是干净且感知稳定的,于是模型学到的是脆弱的“单一视觉轨迹”,而不是能在感知扰动下保持推理一致性的策略。
这篇论文要解决的是量化模型做微调时的一个结构性矛盾:底座权重是低比特,适配器权重通常是高精度,两者类型不匹配,导致部署效率和合并精度都受损。现有 QLoRA 一类方法虽然能训练,但推理时要么保留高精适配器增加开销,要么合并时引入近似误差,而且很难在不损失信息的前提下调整全部量化权重。
这篇论文要解决的是生成模型通常一任务一训练目标、跨任务迁移差的问题。现有 flow 和 diffusion 虽然都能建模分布间映射,但时间变量通常是单标量,适合单一路径生成,不适合把条件生成、修复、微调甚至 RL 这类不同任务统一进一个可复用的传输框架。
这篇论文要解决的是 LLM 剪枝尤其是半结构化剪枝中性能掉点大的问题。现有方法大多把重点放在“哪些权重重要”,但默认重要性分布是给定的,于是当重要权重在局部稀疏约束下被迫删掉时,模型能力就会明显受损。
这篇论文要解决的是参数重要性评估过于局部、难以反映参数协同作用的问题。现有工作常在神经元或特征层面做 pruning/probing,但大模型很多能力来自参数间的配合,仅看单参数或单通道的边际影响会系统性低估真正关键的“合作型参数”。
这篇论文要解决的是 LoRA 低秩更新对全参数梯度逼近不够好、且很难与 momentum / adaptive optimizer 自然结合的问题。已有 LoRA-Pro 尝试通过构造等价梯度逼近全梯度,但解不唯一,效果波动大;同时为了接入动量类优化器还要先显式恢复等价梯度,内存成本接近全参微调。
这篇论文要解决的是 value-based 深度 RL 在固定算力预算下应如何在模型容量和 UTD 比率之间分配计算,才能达到 compute-optimal scaling。语言模型里这类 scaling law 已较成熟,但在线 RL 的数据分布会随策略变化,更新和采样之间强耦合,所以不能直接照搬 LLM 的“更大模型 + 更多数据”逻辑。
Many-shot ICL(50+ demonstrations)中,demonstration 的排列顺序对性能影响很大(ICL-DOI 问题),而现有排序优化方法因搜索空间爆炸无法扩展到 many-shot 场景。以前的方法要么穷举评估所有排列,要么只针对 few-shot 设计,面对几十上百个 demo 时计算不可行。
传统 RL 只依赖标量 reward 信号,无法利用任务中丰富的语义知识。这项工作尝试让 LLM 直接站在策略优化循环的中心,同时处理数值反馈和自然语言输入来提出策略更新。
Classifier-Free Guidance (CFG) 在条件扩散模型中用固定系数做引导,不区分样本是否需要校正,导致多样性下降和记忆化。需要一种自适应引导机制。
LoRA 在 rank 超过 32-64 后性能停滞甚至下降,无法通过增大 rank 逼近全参数微调。根因是 LoRA 的低秩瓶颈结构导致梯度纠缠(gradient entanglement)——不相关的输入通道被耦合在一起,扭曲了梯度传播。
用 RL 微调基础模型时,现实场景往往有多个评价标准(如文本生成中的流畅性、事实性、安全性),单一 reward 信号不够。如何在多个 reward 信号下高效微调?
Speculative decoding 中现有的 token tree 验证机制有两个关键缺陷:(1) token 级验证的概率分布与序列级不一致,导致接受长度次优;(2) 自顶向下逐层验证,一旦某层 token 被拒绝,其下所有子树都被浪费。
这篇工作要解决的是:如何低成本监控 LLM 的高风险交互,而不是每次都再调用一个额外的监控模型。过去安全监控通常依赖 prompted monitor 或单独微调的中等模型,这样做有效但推理成本高,也难覆盖所有在线流量;作者转而问一个更直接的问题:被监控模型自己的激活里,是否已经包含“这是高风险场景”的可读信号。
这篇工作要解决的是:极低比特量化,尤其 2-4 bit 的向量量化,在 LLM 上往往不是“码本不够大”这么简单,而是量化误差方向不受控、以及不同权重块的 bit 分配不合理。过去很多方法主要盯着误差大小,但对 Transformer 而言,误差打到模型最敏感的参数方向上,比均方误差略大更致命。
这篇工作要解决的是:推理型模型的长 reasoning path 提升了准确率,却把解码吞吐和显存占用拖得很差,实际部署成本很高。问题不只是输出长,而是这些中间 token 对后续推理的重要性非常不均匀,若仍完整保留所有 KV cache,就在为大量语义冗余付费。
长时视频-音频推理需要大量低分辨率帧覆盖时间线,而精细像素级理解又需要高分辨率输入,两者在全模态模型中存在根本性的资源冲突。以往方法要么牺牲时间覆盖,要么牺牲空间精度,没有好的统一方案。
领域微调常受限于数据稀缺,用 LLM 生成合成数据是常见做法,但当种子样本极少时,合成数据的多样性和质量都有根本性瓶颈。本文提出利用大规模通用数据(与目标领域无关)来增强领域适配。
图像自回归(AR)模型生成质量好但采样步数多、速度慢。前作 Distilled Decoding 1(DD1)实现了少步采样但在单步设定下性能显著下降,且依赖预定义映射限制了灵活性。本文要实现真正可用的单步采样。
Chain-of-Thought 推理面临两个基本挑战:充分性(中间步骤是否完整覆盖了结论所需的推理)和必要性(哪些步骤是真正不可或缺的)。现有 CoT 方法缺乏形式化框架来量化和优化这两个属性。
这篇论文要解决的是:如何在不依赖可微 reward proxy、也不重新微调 diffusion 模型的情况下,把采样过程引向高 reward 区域。现有 guidance 方法通常要求 reward 对中间状态可求梯度,或者要额外训 classifier / policy,这在分子、DNA、RNA、蛋白等离散或黑盒评估场景里成本高且适用面窄。
这篇论文要解决的是:flow matching 模型如何在对齐到人类偏好的同时,既高效适配,又不过度破坏预训练先验。已有对齐方法通常二选一:要么更新便宜但缺少概率上的 prior preservation 约束,要么理论更完整但代价高、适配慢,因此作者想找到一个更稳的微调接口。
这篇工作要解决的是:如何让 LLM 给出的置信度更可校准,而不是继续停留在“答案对错还行、但自信程度不可信”的状态。过去常见做法要么直接读模型 token 概率、但和自然语言回答脱节,要么事后做黑盒校准、但很难利用模型自身对不确定性的表达;作者改为主动“操纵”模型报出不同方向的置信度,再用这些响应间的一致性反推更可靠的最终分数。
这篇工作要解决的是:为什么端到端学推理经常只能记住训练分布里的启发式,而一旦题目结构变复杂或组合方式变了就泛化失败。已有方法通常直接把输入映射到答案,训练时虽然方便,但把“解题过程中的可组合结构”压扁进一个黑盒函数里;作者改为学习小子问题上的能量函数,再在测试时把这些局部约束组合成全局推理。
这篇论文的核心问题是:我们对 diffusion / flow 生成模型的很多经验现象有观察,但缺少能把训练样本数、数据流形结构和失败模式连起来的可解理论模型。尤其是 mode collapse 和在合成数据上反复再训练导致的 model collapse,工程上很重要,但通常只能靠经验解释。
传统矩阵量化(均匀量化、二值编码量化)都是一阶方法——用二值基的线性组合逼近实值矩阵,表达能力受限。问题是能否在保持极紧凑格式的同时,用更高阶的表达提升压缩精度。
LoRA 微调虽然参数高效,但性能仍落后于全参数微调,部分原因是没有充分利用低秩流形的几何结构。问题是如何在 LoRA 框架内引入几何约束来缩小这个差距。
统一多模态大语言模型(U-MLLM,如能同时理解和生成图像的模型)相比纯生成模型(如 Stable Diffusion),其统一架构会引入新的人口统计偏见传播路径。问题是这些偏见从哪里来,以及如何修复。
这篇工作要回答的核心问题是:LLM 与人脑的相似性,是否不仅体现在最终表征相近,还体现在处理序列时经过了相似的分层计算路径。过去多数工作只做静态表征对齐,证明“像不像”;这篇论文进一步追问“怎么一步步变得像”,因为如果层间时间顺序也一致,那对理解语言模型学到了什么会更有约束力。
这篇工作要解释扩散模型为什么会表现出强泛化,特别是它们是否真的利用了数据位于低维流形上的几何结构。过去“manifold hypothesis 能解释 diffusion”更多是直觉性的说法,缺少直接说明 score matching 目标为什么会自然地产生几何自适应平滑。
这篇工作想解决的是:能否把语言模型式的生成预训练扩展到“用户行为序列”这一非文本模态,从海量无标注交互日志中学到可迁移的行为表征。过去推荐和用户建模多依赖判别式目标,在监督有限、行为稀疏且高基数时往往学不到稳定的通用表示。
这篇工作解决的是 speculative decoding 在系统层面的一个关键矛盾:草稿树是动态依赖上下文变化的,但运行时和编译器通常偏好静态、规则的执行图,二者不匹配会吞掉理论加速。很多方法在算法上能生成好树,但在真实硬件上达不到应有 latency。
这篇论文要解决的问题是:LoRA 微调和 LoRA 推理仍然被当成两套系统来做,导致同一个基座模型上多适配器训练、切换和服务的开销都偏高。过去很多工作分别优化训练或 serving,但没有把“共享 base model + 多 LoRA adapter + 训练/推理统一执行路径”真正打通,因此在高并发、多任务场景下会出现内存重复、kernel 路径分裂和批处理效率差的问题。
这篇论文要解决的问题是:RFT 已经在文本推理和部分多模态任务上展现效果,但视频推理仍明显落后,因为视频天然包含时间顺序、跨帧因果和长程依赖,单靠图像式监督或静态 QA 很难学到。过去视频 MLLM 更多依赖 SFT 或检索增强,缺少像文本 reasoning 那样成体系的“先 CoT、再 RL”训练路线。
这篇论文要解决的问题是:现有 diffusion score matching 的样本复杂度理论通常随维度 d 多项式变差,和高维实际应用严重脱节。实践里扩散模型恰恰依赖高维表示和一个跨所有噪声时刻共享的 score network,但之前的理论对这两个关键事实都处理得不够好,因此很难解释为什么实际方法在高维下还能工作。
这篇论文要解决的问题是:只看准确率无法判断 LLM 是靠真正的创造性洞察解题,还是靠更长、更机械的穷举路径碰巧做对。过去大多数 reasoning benchmark 只给 final answer,对“模型用了什么策略、策略质量如何、是否能在 creative shortcut 与 brute-force 之间做选择”刻画不足,因此很难分析模型能力边界。
这篇论文要解决的问题是:对 VLM 训练数据做样本级审查并不一定安全,因为有害图像可以被切成很多单独无害的小 patch,分散到不同样本里,再通过共享文本描述让模型在训练中重新“拼起来”。过去数据过滤大多默认风险样本是单样本可识别的,而这篇工作指出 VLM 可能具备跨样本聚合视觉碎片的能力,这会绕开现有 moderation 流程。
Transformer Autoregressive Flow(TARFlow)结合归一化流与自注意力架构,在图像建模上效果较好,但可扩展性差,无法适配高分辨率图像合成场景。
基于扰动的最大似然生成模型存在收敛慢、理论理解不足的问题,经典KL散度-费舍尔信息关系仅适用于高斯噪声假设,无法适配结构化噪声分布。
当前多模态对齐普遍采用余弦相似度作为度量,缺乏可量化的多模态完全对齐判定指标,未对齐的模态会导致下游任务无法有效利用跨模态信息。
大语言模型多偏好微调服务面向多用户时,用户可能谎报偏好以获取更符合自身需求的模型,导致偏好聚合性能下降,现有微调框架未考虑这类激励兼容问题。
预训练扩散模型推理时适配新目标的现有引导方法,存在高噪声水平下值估计不准导致引导有偏、无法复用历史计算资源导致效率低下的问题。
视频大模型推理成本高,现有剪枝方法无法有效利用视频的时空冗余,容易丢失时序结构信息导致理解性能下降。
这篇论文要解决的核心问题是:长视频 Video-LMM 缺的不是模型结构,而是足够长、足够密、足够可训练的指令数据。过去视频指令数据大多停留在短片段或分钟级,模型即使号称支持长上下文,也主要学会了局部识别和摘要,真正涉及跨几十分钟的时序追踪、事件串联和长程依赖时训练信号明显不够。
这篇论文要解决的是 Video-LLM 的时序推理短板,而且它认为问题不只是训练不够,而是解码时被语言先验和单帧图像先验带偏。现有模型常能答出静态内容,却在连续动作、状态变化和跨帧因果上失真,因为生成时更容易回落到语言上常见但时间上不一致的答案。
这篇论文要解决的是 reasoning model 在长 CoT 推理时 KV cache 爆炸,而且现有压缩方法会把真正关键的推理 token 一起删掉。普通生成里的冗余 token 和推理链里的冗余 token不是一回事,前者删错了多半只是轻微退化,后者删错可能直接让中间推理断链。
这篇论文要解决的是多领域微调中的负迁移:把异质 domain 一锅炖常常不是最优,尤其当领域差异大、模型容量有限时。过去常见做法是混合训练或简单 curriculum,但它们通常没有显式建模‘哪些领域该一起学、哪些领域该分阶段隔离’。
这篇论文要解决的是 retrieval-enabled agent 的一个反直觉风险:接入更多外部信息不一定更安全,反而可能削弱拒答、放大偏见并增加有害输出。过去很多工作默认把检索看成能力增强模块,但较少系统研究检索本身如何改变安全边界,尤其是从无检索到 Wikipedia 再到开放网页这个逐步放开过程。
这篇论文要解决的是:怎样把非形式化数学推理稳定地落到形式定理证明里,同时不被粒度错配、回溯开销和形式数据稀缺卡死。此前做法通常把“先想思路”和“写出可机验细节”混在一条生成链里,结果是上层策略和底层证明步骤互相干扰,一旦局部出错就容易级联失败;而且高质量 formal problem-solution 对极少,单靠现成数据很难把模型训起来。
这篇论文要解决的是:在没有额外标注、没有专门训练 detector 的情况下,如何零样本识别 LLM 生成文本。已有方法要么依赖专门的监督 detector,要么需要构造偏好对和任务特定微调,成本高且迁移性差;而真实场景里更需要一种直接利用现成模型、跨域可用的检测信号。
这篇论文要解决的是:在小数据适配 LLM 时,如何同时提高数据效率并减轻灾难性遗忘。传统 full FT 成本高,LoRA 虽然便宜,但在连续适配和数据稀缺场景下仍可能漂移过快,导致旧知识丢失、新任务也学得不稳。
这篇论文要解决的是:如何可靠评估 LLM agent 的安全与安全性,而不是只评最终答案或用一套脆弱规则扫步骤日志。现有 evaluator 常漏掉多步行动中的复合风险、语义细节和规则歧义,因此在 agent 场景下经常“看起来能评,实际上评不准”。
这篇论文要解决的是:为什么很多 Video-LLM 读得懂帧内容,却读不懂动作顺序和时间推进,以及应当把时序建模放在视觉编码器的哪一层做。常见做法往往先用逐帧或弱时序视觉特征,再把问题丢给 LLM 侧处理,但这样进入语言模型前,很多关键时间关系已经被丢失了。
这篇论文要解决的是:Best-of-N 在提升推理表现上很有效,但现有选择器常依赖昂贵 reward model,如何用模型自身分布信息做一个更便宜、可扩展、还能覆盖开放式生成的选择准则。现有 reward-free 方法如 self-consistency 在封闭答案任务上还行,但遇到开放式输出或大规模采样时往往不够稳。
现有LLM毒性缓解方法通过操纵单个神经元激活实现,存在不稳定、依赖上下文、易损失模型核心语言能力的问题。
现有时间序列基础模型的预训练数据规模小,针对可观测性多变量时序数据的优化不足,泛化性能差。
现有扩散模型的条件依赖连续嵌入,缺乏组合性,无法泛化到训练分布外的生成场景,生成效率低。
现有S-LoRA的张量并行切分策略在多设备服务多LoRA适配器时存在通信开销,实际部署中会显著降低吞吐量。
这篇工作要解决的是:偏好对齐极度依赖高质量人工标注,但真实场景里标注既贵又有噪声,自标注更是会把模型自身偏差放大。以往自举式 preference optimization 往往默认标签可信,最多做启发式过滤,却缺少对“最坏情况标注偏移”下鲁棒性的明确建模,因此数据效率和稳定性都受限。
这篇工作要解决的是:大型推理模型的 thinking draft 看起来像中间推理,但它到底在多大程度上真正驱动了后续步骤和最终答案,目前缺少严格测量。过去关于 CoT faithful 或不 faithful 的讨论很多,但大多停留在相关性分析、表面一致性或简单删句实验,难以回答“如果改掉某一步,后面的推理和答案会不会因果性变化”。
这篇工作要解决的是:VLM 里视觉和语言表示之所以能对齐,但这种对齐到底对应了哪些共享概念、哪些神经元在承担跨模态语义,目前缺乏可解释工具。现有 sparse autoencoder 多用于纯语言或纯视觉表征,很难直接把多模态表示映射到统一概念集合,因此对 alignment 机制的分析一直比较粗。
这篇工作要解决的是:标准 DPO 假设 pairwise preference 总能分出胜负,但真实标注里经常存在 tie;如果硬把 tie 当成某一边胜出,或者直接丢弃,会引入错误监督和数据浪费。这个问题以前通常被回避,因为 DPO 建立在 Bradley-Terry 二元偏好模型上,而 tie 不在原始建模里。
这篇论文要解决的是表格图像到 LaTeX 代码生成里最难的一段:复杂表格的高保真重建。以往方法在大表、嵌套结构、非规则单元格内容上经常失败,而且评测往往只看表面字符串或局部匹配,不能真实反映最终渲染质量,所以方法改进和评测标准都存在错位。
这篇论文要解决的是隐私决策中的一个关键缺口:模型在上下文含糊、信息不全时,是否能正确判断该不该披露信息。以往很多隐私评测默认场景描述足够清晰,主要测模型是否贴近人工标签;但真实 agent 场景里,错误往往不是因为价值观没学会,而是因为前提不明确、条件缺失,模型在模糊语境下做了过度披露或过度保守。
解决 LLM 生成代码时只顾功能正确而忽视执行效率的问题。现有的 next-token 训练和推理目标(perplexity)天然偏向功能实现,导致生成的代码在真实场景中往往不够高效。
解决标准 LoRA 因低秩约束导致的模型表征能力下降问题。LoRA 虽然节省显存,但在复杂任务上往往无法达到全参数微调(Full-Rank)的性能上限。
解决多任务模型合并(Model Merging)中的性能退化问题。现有的参数级合并方法性能上限低,而基于 task-loss 的方法又需要昂贵的二次训练。
这篇论文要解决的是:现有 LLM/LRM 评测几乎没有系统覆盖时空推理,导致大家知道模型会做数学和代码,却不知道它们在 CPS 场景里能否处理连续世界中的状态、关系和上下文知识。过去这类能力通常被拆成若干窄任务单独评,或者依赖专用感知模型,难以看清通用语言模型在时空表征、跨模态整合和高层决策上的真实短板,因此现在需要一个分层、成体系的基准。
这篇论文要解决的是:当前数学 benchmark 污染严重,而且大多只看最终答案,不看证明过程,导致我们很难区分模型是真会推理,还是见过题或学会了答案模式。随着 AIME 这类题目在网络上高度传播,传统静态 benchmark 对 frontier model 的诊断价值快速下降,因此需要一种近实时、低污染且覆盖证明能力的评测方案。
这篇论文要解决的是:现有 text-to-video 数据集和用户真实创作需求错位,导致模型在 benchmark 上能生成常见主题视频,但面对用户真正想要的长尾内容时覆盖不足。过去数据集通常按易采集、易标注或公开视频来源组织,而不是按用户需求分布组织,所以模型学到的是“互联网视频分布”,不一定是“创作请求分布”。
这篇论文要解决的是:大家一直担心语言模型输出越来越同质化,但缺少能在开放式真实查询上大规模测量“多样性收缩”的方法。过去常见评测只看单模型重复采样、随机数或名字生成这类窄任务,这些设置既不能代表真实使用场景,也无法比较不同模型和跨模型的趋同程度。
这篇论文要解决的是:模型合并已经被当作多任务部署的低成本替代方案,但现有评测规模小、任务窄,无法告诉我们它在真正的 domain-specialized LLM 上是否稳定可用。过去很多 merge 方法在小模型、少任务上看起来有效,可一旦进入数学、多语、代码、安全并存的真实场景,参数算术带来的冲突与退化就可能被低估。
这篇工作要解决的是:如何在几乎没有真实高质量多轮 agent-human 交互数据的情况下,构造出可验证、可扩展、且足够接近真实使用过程的训练数据。过去这类数据要么靠人工昂贵标注,要么靠单轮函数调用数据替代,结果是模型会调工具,但不擅长持续澄清、追问、纠错和跨轮规划;随着 agent 型系统开始进入真实产品,这个缺口已经直接限制模型能力上限。
这篇工作要解决的是:我们在评测 LLM 时,很多 benchmark 并没有真正测到它声称要测的东西。过去社区更关注题量、排行榜和相关性,却较少系统检查“construct validity”——也就是一个 benchmark 的任务设计、打分方式和结论,是否真的代表安全性、鲁棒性这类抽象能力;这导致很多评测结论看起来精确,实际却可能测偏了。
这篇工作要解决的是:化学基础模型一直缺少一个像通用互联网语料那样大、杂而有序、且经过认真整理的数据底座。过去化学模型往往只吃某一种分子表示、某一类论文文本或单一任务数据,结果是模型学到的是窄技能,而不是跨表示、跨知识层级的通用化学先验。
这篇工作要解决的是:公开 text-to-image 数据很多,但真正适合做高质量 SFT 的通用数据很少,导致开源 T2I 模型常常预训练后知识够广、成图却不够美观也不够对齐。过去常见做法要么依赖闭源内部精选数据,要么用狭窄风格数据集微调,结果泛化能力和审美稳定性都有限。
这篇工作要解决的是:样本规模学习曲线并没有大家想象得那么平滑、单调和凸,而很多 scaling law、早停和超参选择方法都默认了这些性质。过去相关研究常在较小范围内观察到“更多数据通常更好”,于是把单调性当成近似公理;但如果这个假设经常失效,很多基于曲线外推的决策都会变得不可靠。
这篇工作要解决的是:现有音频语言模型评测大多只覆盖语音、环境声或音乐中的某一个子域,而且更偏识别或浅层理解,缺少对混合真实音频场景中深层推理能力的系统测试。随着 Audio-Language Models 开始走向统一建模,这个缺口会越来越明显,因为真实世界音频往往同时含有 speech、audio event 和 music,并且问题需要跨层次推理。
这篇工作要解决的是:现有 LLM knowledge editing 数据集过于狭窄,导致编辑方法常在小而单一的知识域里看起来有效,却无法反映开放域知识编辑真正复杂的 ripple effects。过去很多编辑评测只看“目标事实有没有改对”,较少系统评估对相关事实、无关事实和跨领域知识的一致性影响。
这篇工作要解决的是:很多大模型已经能处理很长输入和复杂推理,但在一个更基础的能力上仍然经常失败——遵守明确的输出长度指令。过去评测更关注内容质量,较少系统检查模型是否真的写够 10,000 字、是否中途截断、是否过早结束甚至直接拒答;结果是长度服从这个实际产品中很关键的能力一直被低估。
现有 LLM 编程评测(如 SWE-Bench)都是让模型复现人类已有的解法,缺少对模型自主设计高效算法能力的开放式评估。AlgoTune 提出让 LM 为计算密集的科学/数学/CS 问题编写高效求解代码,并与成熟开源库的参考实现做运行时间对比。
LLM benchmark 数量激增,但缺乏标准化的文档框架来描述其目标、方法、数据来源和局限性,导致 benchmark 被误用或误解。BenchmarkCards 提出一个结构化文档标准来解决这个问题。
视频生成模型正被定位为 'world model',用于机器人和自动驾驶等决策场景,但现有 benchmark 只评估通用视频质量,忽略了物理一致性等 world model 的关键属性。WorldModelBench 填补这一空白。
不等式证明是数学推理中的高难度子领域,需要发现紧界和策略性定理应用等高级推理能力。现有数据集要么稀缺、要么合成、要么过于形式化,阻碍了 LLM 在此方向的进展。本文提出一种非形式化但可自动验证的任务形式化方案。
LLM 主要在标准美式英语上评测,忽略了全球英语变体的多样性,可能导致非标准英语用户体验显著下降。Trans-EnV 提供一个自动将标准美式英语数据集转换为多种英语变体的框架,用于评估 LLM 的语言鲁棒性。
音频是多模态感知的关键组成部分,但缺乏一个统一的 benchmark 来评估音频 embedding 在转录、分类、检索、推理、分割、聚类、重排序和重建等多种任务上的表现。MSEB 填补这一空白。
LLM 在代码生成、修复、漏洞检测等任务上被广泛使用,但这些任务需要深层程序语义理解(值传播、控制流、程序元素间依赖)。现有 benchmark 只评估端到端结果,未直接测试模型的程序语义推理能力。CoRe 通过静态分析任务来填补这一空白。
这篇工作要解决的是:现有 OCR 向多模态大模型评测过度偏向“读出来了没有”,却没有系统测到“在图里找不找得到、手写能不能抽取、跨区域关系会不会推理”。过去这类能力常被零散子任务或小规模数据集分别评估,导致模型在 OCRBench 一类基准上看起来很强,但一到定位、复杂场景文本和逻辑题就暴露短板。现在值得重做,是因为 LMM 已经把普通文本识别做得相对饱和,真正拉开差距的是视觉文本 grounding 和基于文本的推理链条。
这篇工作解决的是 agent benchmark 长期存在的一个矛盾:真实网站最有代表性,但不可控、不可复现、也不安全;模拟环境可控,却往往太玩具化。过去很多网页 agent 评测因此要么在真实网页上跑,结果每次环境都变;要么在简化 sandbox 上跑,测不到真实多轮交互和状态改变能力。
这篇工作想纠正一个被过度乐观叙事掩盖的问题:LLM 在竞赛编程上是否真的已经超过顶尖人类。过去很多结论建立在静态题库、可能污染的数据和粗粒度 pass rate 上,不能区分模型是会写代码,还是只是记住题型;也不能解释它和真正 Olympiad/IOI 级选手的差距到底在哪里。
这篇工作解决的是 benchmark 里大量无效题目难以系统发现的问题。过去大家通常靠人工 spot check 或用户事后反馈修 bug,但当题目规模上千上万时,这种流程既慢又不稳定,结果是很多模型比较建立在有瑕疵的问题集上,排行榜差距可能掺杂了 benchmark 自身噪声。
这篇工作要解决的是一个经常被默认但很少被系统检验的问题:偏好数据清洗到底能不能稳定提升 LLM 对齐。过去很多论文提出自动清洗方法来处理 noisy / inconsistent human feedback,但评估通常只在单一数据集、单一模型或单一对齐算法上做,导致我们知道“在这个 setting 有用”,却不知道它是不是普适规律。
这篇工作解决的是 verified code generation 评测长期不够“真验证”的问题。过去不少代码 benchmark 虽然声称测形式化代码能力,但依赖测试用例监督、LLM 自动标注或会泄漏实现逻辑的 specification,模型即使通过也不一定真的掌握了形式化规范与证明式实现的闭环。
这篇工作解决的是代码 reasoning benchmark 缺少“语义上可证明”的评测锚点。过去很多代码推理评测容易被表层 token 相关性、自然语言-代码共现模式或数据污染影响,难以判断模型到底是在做程序语义推理,还是在做模式匹配。作者用 System F 的类型推断来刻意构造一个形式化、可验证、且更接近程序语义的评测任务。
这篇工作要解决的核心问题是:现有多模态幻觉研究大多停留在图文二模态,无法解释当语言、视觉、音频同时进入模型后,幻觉为何更复杂、也更难定位。过去很多评测把错误归结为“模型不够强”或“视觉 grounding 不足”,但三模态场景下,单模态先验和模态间伪相关会共同放大错误。
这篇工作要解决的核心问题是:现有 LLM reasoning benchmark 很难区分“会背题”与“真会构造算法”,尤其在数学与代码交叉地带。作者用 OEIS 整数序列生成来逼模型显式写 Python 程序,而不是直接报答案,从而测试模型是否具备把规律归纳转成可执行算法的能力。
这篇工作要解决的核心问题是:早期多模态大模型评测过于零散,缺少能同时衡量感知能力和认知能力的统一 benchmark。很多工作只展示少量案例或依赖公开数据集直接改 prompt,这样既容易数据泄漏,也会把 prompt engineering 的差异误当作模型差异。
这篇工作要解决的核心问题是:当前数学推理模型的进展大多在英语语境下衡量,导致我们并不知道所谓 reasoning 提升有多少能跨语言保持。PolyMath 试图回答的是,多语环境下的数学推理到底卡在数学本身,还是卡在语言切换、表述一致性和跨语种训练不均衡。
解决现有表格数据集缺乏复杂公式逻辑和真实电子表格语义的问题。以前的预训练数据(如 Web tables)多为纯文本或关系型数据,导致 LLM 难以理解电子表格的计算图和结构。
解决现有信息检索(IR)基准测试在技术文档领域不够真实和具有挑战性的问题。现有的评测往往无法反映快速迭代、长尾技术领域的真实检索难度。
解决现有音视频多模态基准测试存在严重“视觉偏见(visual bias)”的问题。以前的评测中,模型往往仅靠视觉信息就能猜出答案,且综合评分掩盖了模型在音频理解或音视频对齐上的具体缺陷。
解决硬件描述语言(Verilog)自动生成中缺乏严格正确性保证的问题。现有的代码生成模型多依赖功能测试,难以满足硬件设计对形式化验证(formal verification)的严苛要求。
评估 LLM 是否真能实现预训练数据中未见过的、真正新颖的机器学习研究想法。现有的代码评测多基于已知算法,无法衡量模型在科研创新场景下的代码实现能力。
现有多模态大模型(LMM)评测数据集缺乏覆盖中英双语、多学科、带推理路径标注的大学难度推理样本,多数数据集存在学科单一、无推理标注、仅支持单语言等缺陷,无法全面衡量LMM的跨领域跨模态推理能力。
现有代码大模型评测基准大多仅关注单轮孤立代码生成任务,近期的InfiBench、StackEval等基准虽基于Stack Overflow数据构建,但仍局限于单轮交互、无完整项目上下文、需要大量人工标注,无法模拟真实开发场景下基于现有代码库的多轮代码助手交互。
大语言模型在数学、编程等推理任务上进展显著,但物理推理领域因缺乏高质量、覆盖全难度层级和全学科的数据集,相关研究进展远慢于其他推理方向,无法有效衡量LLM对真实世界物理规律的理解能力。
这篇工作要解决的问题很直接:很多真实用户 prompt 内部其实包含可并行的子任务,但现有 LLM serving 基本把整条请求当成一段不可分输入来处理,因此只能做 query-level batching 或 decoding 优化,吃不到 intra-query parallelism 的收益。过去这件事之所以被回避,是因为自然语言里的并行结构不显式、难标准化、也缺少真实世界 benchmark;作者想先把“哪些 prompt 可拆、拆完值不值”这件事测清楚。
这篇文章的核心主张是:prompting 不该被当成临时技巧,而应被视为研究 LLM 的正式科学方法。过去社区常把 prompting 看成“黑魔法”,默认只有参数、架构和机制分析才算严肃研究;作者认为这混淆了对象类型——LLM 是训练出来的复杂系统,不是人工编写的程序,因此通过语言接口做系统性探针,本来就是合理的一线研究方法。
这篇工作解决的是 LLM watermarking 缺少统一统计分析框架的问题。此前很多水印方法都能“检出”,但常常把设计、检测规则和错误率控制绑死在具体方案里,导致我们很难比较不同水印谁更高效、在固定 false positive 约束下谁更优,也难以系统设计检测器。