International Conference on Machine Learning
LLM 预训练的数据选择(选哪些样本、怎么配比)直接影响模型质量,但传统方法要么是静态配比,要么需要昂贵的代理实验。本文提出用动态双层优化(bi-level optimization)来在训练过程中自适应地选择和利用数据。
MoE 模型通过增加参数量而不等比增加计算量来提升容量,但参数量和 FLOPs 之间的最优权衡关系(即最优稀疏度)此前缺乏系统的 scaling law 研究。本文回答:给定总计算预算,MoE 应该设多稀疏?
这篇论文要解决的是:tokenizer 的词表规模到底该不该随模型一起 scale,以及如何在不显著增加训练/推理成本的情况下吃到“大词表”的收益。以往很多工作默认词表大小是工程常数,更多靠更大模型或更多数据来降 loss。
这篇论文的核心结论是:Transformer 里的归一化层位置并不是 Pre-LN 和 Post-LN 二选一,Peri-LN 代表了一种在大规模训练中更稳、更快收敛的第三条路线,而且其有效性此前缺少机制解释。这个问题值得重看,是因为很多开源大模型已经悄悄采用类似设计,但社区对它为什么好、好在哪个训练阶段并不清楚,导致实践在跟、理论没跟上。
这篇论文要回答的核心问题是:masked diffusion language model 到底输在训练、赢在推理,还是两者都被高估了。过去这类模型常被宣传为“可任意顺序生成、可自我修正”,但训练端需要覆盖大量不同 mask pattern 的填空子问题,复杂度远高于自回归 next-token 预测,这个代价此前缺少系统刻画;同时,推理端“任意顺序都行”也往往被当作默认成立,而不是一个需要策略设计的问题。
这篇论文要解决的是:把已有 dense LLM upcycle 成 MoE 时,性能到底如何随数据量和模型配置缩放,以及这种做法什么时候开始不划算。过去 upcycling 和 MoE 都被当作降预训练成本的手段,但两者叠加后的 scaling behavior 缺少经验规律,尤其没人清楚 dense 阶段学到的东西和后续 MoE 阶段新增数据之间会不会互相替代、互相干扰。
这篇论文要解决的是预训练里最现实也最昂贵的问题之一:如何在不做完整大规模训练的前提下,预测哪种预训练数据最好。过去数据选择常靠经验、启发式过滤或昂贵的大实验回路,问题在于数据效果高度依赖模型规模、配比和训练阶段,小试验和大训练经常不一致;作者试图让小实验真正变成可用的决策工具。
这篇论文要解决的是:现有 masked discrete diffusion 虽然简单有效,但它和 AR 一样很难在生成过程中真正修改已生成 token,因此没有兑现“可反复修正”的承诺。过去离散 diffusion 常通过 mask-noise 获得稳定训练,但这种噪声过程会把生成限制成逐步填空,导致模型虽然不是左到右,却仍然缺少 revisability;作者因此重新设计离散 diffusion 的噪声家族,而不是继续在 masked diffusion 框架里做小修小补。
这篇论文要解决的是:uniform-state discrete diffusion 在文本生成里有自纠错和并行采样潜力,但实际效果通常落后于 AR 和 masked diffusion,原因是训练和采样方法还停留在离散扩散自身的小圈子里。作者的切入点是,这类离散过程并不是孤立对象,而可以看成某种底层 Gaussian diffusion 的离散投影;如果这个对应关系成立,就能把图像 diffusion 里成熟的训练和蒸馏技巧迁移过来。
现有预训练数据选择依赖人工规则或事后下游效果回溯,成本高且无法在预训练前直接估计单条数据的训练贡献。
多源预训练数据的最优配比过往依赖手动调参或网格搜索,效率极低且无理论支撑,原双层优化目标被认为不可直接求解。
现有语音语言模型(SLM)未利用双通道对话数据天然的说话人交互结构,仅支持单通道建模,无法端到端学习流畅的对话式语音生成。
这篇论文的核心问题是:持续预训练里,loss 曲线看起来在变,但我们缺少一个能分解其来源、能跨训练步和学习率计划做预测的统一描述。过去大家通常把 CPT 当成经验工程,知道会有 domain adaptation、遗忘和学习率退火效应,但很少把这些因素拆开建模,因此很难提前判断训练会收敛到哪里、什么时候该停、不同 LRS 有什么代价。
Web数据是LLM预训练的主要来源,但其组织方式(如何划分domain)直接影响数据筛选和配比的效果。现有做法通常用URL等粗粒度信号划分domain,本文研究如何更好地构建domain来提升预训练数据筛选质量。
过往预训练数据筛选默认过滤有毒等低质量数据,忽略预训练与后训练的协同设计,导致后训练对齐时对有毒内容的控制难度高。
现有奖励模型(RM)为判别式训练,仅依赖有限的人工偏好标注数据,泛化性差,无法覆盖长尾对齐场景。
现有对齐后的LLM没有显式思考过程,复杂推理任务表现差,过往给模型加思考能力的方法需要额外的人工标注思维链数据,成本高。
现有Chinchilla缩放定律仅优化训练效率,未考虑推理成本,同参数量的不同架构模型推理延迟最高差3.5倍,导致按传统缩放定律设计的模型推理效率低。
这篇论文的核心问题是:Transformer 各个模块的优化难度并不一样,但预训练时通常对所有 block 用同一个学习率,这可能白白浪费收敛速度。过去大家会分析全局 sharpness 或调统一 LR schedule,却较少系统讨论 embedding、attention、FFN、norm 这些部件之间持续存在的 sharpness disparity,以及能否据此改写优化器。
多领域数据混合训练 LLM 时,不同的领域配比会导致截然不同的下游表现,但为每种配比单独训练一个模型成本极高。本文提出 Soup-of-Experts (SoE):训练一组专家参数,在推理时根据目标领域权重线性组合出一个定制模型,无需重新训练。
现有离线RLHF方法(如DPO、IPO、SLiC等)的设计选择没有统一理论支撑,不同损失函数、归一化策略、数据采样策略的效果差异没有明确解释。
现有预训练自回归LLM的推理算力固定,无法根据任务难度动态调整,之前的自适应算力方法要么需要重构模型结构,要么需从头训练扩散LM,无法复用成熟的预训练LLM资产。
这篇工作要解决的是:长上下文语言建模里,并非所有历史 token 都同等重要,模型真正需要稳定访问的是一小部分“核心上下文”。传统 full attention 计算代价高,而很多长上下文近似方法只按位置或局部窗口保留信息,容易把真正关键的远程依赖也一起丢掉。
这篇论文要解决的是:LLM 为什么在训练没见过的更长序列上会“长度泛化”失败,以及如何用一个更可控的目标来修复它,而不是继续只在位置编码/结构上打补丁。作者认为关键不在输入侧怎么编码位置,而在输出分布是否在“短上下文”和“长上下文”下保持一致。
这篇工作解决的是:LLM 对重复序列的记忆往往与一般语言能力纠缠在一起,导致事后删忆很难干净生效。现有 post-hoc neuron editing 常希望找到“负责记住某条序列”的局部神经元并删除它们,但自然语言序列如果本身语言上合理,其记忆会渗入通用建模回路,删掉就容易伤及正常能力。
ICL 何时能泛化到预训练任务分布之外?之前的工作主要关注预训练数据中需要多少不同任务才能涌现 ICL,但对 OOD 泛化的条件缺乏系统研究。本文用线性函数族作为受控环境,研究任务多样性如何决定 ICL 的泛化边界。
现有自监督预训练LLM仅能实现人工有用智能(AUI),推理能力过拟合训练数据,无法在新场景下迁移算法理解,核心原因是知识与推理耦合,之前的方法都在AR预训练框架下优化,没有解耦两者的可行路径。
这篇论文要解决的是视觉 tokenizer 长期被“够用就行”处理的问题:生成模型在扩 scale,但上游 auto-encoder/tokenizer 本身很少系统地扩规模、换架构、换数据,因此我们并不清楚 tokenizer 的容量、训练数据和设计选择到底如何影响重建质量以及下游生成质量。这个问题现在值得重做,因为统一多模态 LM 和 image/video token-based generation 都越来越依赖离散或压缩视觉表示,tokenizer 不再只是前处理模块。
这篇论文关注的核心问题是:如何通过强化学习和 inference scaling 真正提升语言模型的推理能力,而不是只靠更长 CoT 或更大的 SFT 数据堆出表面增益。这个问题现在重要,是因为后训练领域正在从“静态监督模仿答案”转向“通过搜索、验证和奖励塑造推理过程”,但很多方法要么训练不稳,要么推理时成本过高。
这篇论文要解决的是 transformer 长上下文建模里的两个老问题同时存在:一是自注意力二次复杂度太高,二是预训练时学到的注意模式很难长度外推,通常需要再做更大窗口的 post-training,成本高且不稳。作者的目标是找到一种既能保留远距离信息访问能力,又能用常数窗口运行、还能泛化到远超训练长度的注意力机制。
这篇论文要解决的是:在不使用离散语音 token 的前提下做连续语音表征的自回归生成,如何避免计算量过大或效果不稳。已有 AR+diffusion 混合方案常在连续空间里采样成本高,或 AR 直接建连续值时质量受限。
现有Chain-of-Thought推理的性能优化缺乏统一理论框架,搜索、RL、蒸馏等工程方法的生效机制不明确,之前的研究多为经验性,无法预测不同方法的适用边界。
现有AR LLM的 scaling 维度仅依赖参数、数据、训练算力,无法通过推理时算力的增加持续提升性能,之前的隐变量LM方法要么推理成本过高,要么没有统一的训练框架。
现有统一多模态AR模型要么用离散视觉token损失图像信息,要么需要混合AR+diffusion的非统一框架,无法同时实现低视觉信息损失和简单的跨模态相关性建模,之前的方法都在离散化和统一范式之间做强制取舍。
现有同声传译模型的延迟和准确率的 trade-off 缺乏端到端优化方法,之前的方法要么依赖人工设定延迟阈值,要么生成质量低,无法同时实现低延迟和高保真翻译。
现有线性循环Transformer从头预训练成本高风险大,现有LLM线性化方法需要大量微调且忽略门控机制,无法同时保留原模型性能和实现高效部署,之前的方法在性能和部署效率之间的trade-off较差。
现有scaling law预测都是点估计,没有量化不确定性,无法支撑算力投资的风险决策,之前的方法只能给出预期性能,不能给出结果的置信区间。
缺少摘要信息,无法确定其具体要解决的“语言模型做图像生成”的设计空间里哪一类核心矛盾(tokenizer、训练目标、AR vs diffusion、对齐损失等)。
这篇论文要解决的是:很多 NAR(非自回归)生成模型在无条件生成上很强,但一旦做“任意条件变量集合”的条件生成/补全查询就明显掉点,因为训练时见过的条件形态有限,模型难以泛化到未见过的条件概率查询。
缺少摘要信息,无法确定论文在 MoE 并行训练与推理中具体优化的是哪类“专家间协同通信”瓶颈(all-to-all、路由聚合、跨节点带宽、重计算等)。
缺少摘要信息,无法确定论文提出的“激活稀疏 scaling law(Sparsing Law)”具体回答什么问题(稀疏度-性能-算力的规律、训练动态、还是架构/门控设计)。
缺少摘要信息,无法确定 MERIT 具体要解决的大 batch 训练问题是哪一种(梯度爆炸/不稳定、学习率缩放失效、不同层梯度尺度不均、还是自适应优化器在大 batch 下退化)。
这篇论文要解决的是:QAT 训练 LLM 到底能压到多低比特而不彻底失稳。此前较新的结论认为,想在训练期保持接近 FP16/BF16 的精度,8-bit 权重和激活已经接近“最优”下限;这篇工作直接挑战这个边界。
这篇论文解决的是:textless spoken language model 很难稳定生成超过几十秒的长语音,原因不是单一的,而是语音 token 时间分辨率太高、长序列训练和外推不稳、推理时内存成本也过高。这个问题现在值得重点做,因为语音助手和多媒体生成都开始要求分钟级连续语音,而不是短句 TTS。
现有多模态扩散建模需要依赖外部预训练的tokenizer或VAE将不同模态统一为单模态表示,对编解码精度要求高,小数据场景下性能受限。
大模型知识蒸馏中师生模型词表不匹配会导致token序列和输出分布对齐困难,现有蒸馏方案默认师生词表一致,无法直接适用词表不同的场景。
现有基于BPE的LLM会给非规范BPE编码(可解码为有效字符串但不会出现在训练数据中的token序列)分配概率质量,既不符合数据分布,也浪费概率容量。
现有语音到语音对话模型需要微调LLM参数,成本高,且容易破坏LLM原有文本能力。
用一个已训练好的参考模型来指导目标模型训练(通过数据选择或加权)这一范式已在大模型预训练中被广泛使用(如DoReMi、DSIR等),但缺乏统一的理论理解,导致实践中方法选择和调参缺少原则性指导。本文要为这类'model steering'范式建立理论框架。
机器人基础模型需要同时处理高层语言指令理解和低层连续动作生成,现有方法要么用纯AR建模动作(离散化损失信息),要么用纯diffusion(缺乏语言理解能力)。本文提出统一diffusion和autoregression来构建可扩展的机器人基础模型。
这篇论文想解决的是:标准 decode-only Transformer 的 induction 能力通常需要至少两层注意力配合,导致模型要用更深或更宽的结构才能学到有效的 in-context pattern copying。作者认为这不是语言建模目标本身要求的,而是注意力实现 induction 的方式不够直接,因此值得从算子层改。
音频生成中,将连续信号强行离散化为 token 会丢失信息,但现有 audio LM 几乎都依赖离散 codec token。本文探索不使用离散 token、直接在连续值 token 上做自回归语言建模的音频生成方案。
现有音频 codec tokenizer(如 Encodec)逐帧独立编码,不利用帧间上下文,导致在低比特率下语义信息丢失严重,限制了 audio language model 的建模效率。
Transformer LLM 的参数初始化尺度如何影响模型的学习偏好——是倾向推理还是记忆?这个问题此前缺乏系统研究。
这篇论文要解决的是:能不能不真正训练语言模型,就先判断一组候选数据源该怎么配比。过去数据混合通常靠经验、少量试训、或 expensive 的 scaling sweep 来找,成本高且迁移性差;作者试图把“数据集”本身向量化,从分布匹配角度直接预测更优 mixture。
这篇论文要解决的是:离散 diffusion 模型缺少一个统一、可扩展到预训练和后训练的目标函数。过去 D3PM、SEDD、MDLM 一类方法各自有自己的训练目标,彼此关系不够统一;更麻烦的是,离散 diffusion 在 reward fine-tuning、preference optimization、AR teacher distillation 这些 post-train 场景下工具箱还很弱。
现有序列并行方案只能沿单个序列维度切分,多维Transformer(多模态、视频、长文本场景)下通信开销大,无法充分利用多维独立计算的特性。
合成上下文扩展(后训练阶段用合成长数据微调短上下文LLM得到长上下文能力)的生效机制不明确,现有方案没有明确的合成数据设计指导原则。
纯next-token预测(NTP)训练的LLM上下文检索能力不足,现有结合MLM的方案需要双向注意力或编解码架构,额外增加训练和推理开销。
LLM生成的推理过程可靠性不足,现有推理增强方案要么依赖高质量标注推理数据,要么对齐信号单一。
Transformer多头注意力默认对所有头执行全量计算,存在严重算力冗余,现有剪枝类优化方法要么损失精度,要么需要新增参数量或重训成本。
现有LLM批评模型训练依赖人工标注反馈,成本高且泛化性差,无法为生成模型提供可落地的迭代修正信号。
自回归解码逐token生成的机制没有内置修正能力,生成的序列往往偏离同等长度下的全局最优解,现有修正方法要么计算成本极高,要么破坏生成流畅性。
领域SFT会导致LLM遗忘预训练通用知识,甚至在微调域本身也存在过适配导致性能下降,现有缓解方法缺乏理论支撑,效果不稳定。
Transformer存在的位置偏差(如中间信息丢失、注意力sink)仅被观测到现象,缺乏统一的理论解释,无法明确注意力掩码和位置编码对偏差的作用机制,导致长上下文优化只能依赖试错。
自我进化训练(模型用自己的输出迭代训练自己)是解决高质量 CoT 数据稀缺的关键方法,但在多模态推理场景下效果不明,且普遍面临性能饱和问题。本文系统研究了多模态推理中自我进化训练的关键因素,并提出缓解饱和的方案。
将记忆压缩到 LLM 隐状态空间(latent-space memory)可以扩展上下文窗口,但现有方法(如 MemoryLLM)在超过 ~20k token 后就无法有效保留信息。本文要解决的是如何让这类记忆机制支持真正的长期信息保留。
LLM在分布外的少样本任务上性能较差,仅靠上下文学习无法适配结构新颖的任务,现有微调方法泛化性差、成本高。
这篇论文想回答的是:Chain-of-Thought 为什么有效,能否用更基础的表达能力刻画来解释,而不是只把它当经验技巧。更具体地说,作者似乎把 CoT 的作用与 Ehrenfeucht-Haussler rank 这类容量/可表示性量联系起来,试图说明哪些问题需要中间推理链,哪些不需要。
这篇论文解决的是:在 hard-attention Transformer 中,完成某些算法任务究竟至少需要多长的 Chain-of-Thought/scratchpad,而不是只知道‘有 scratchpad 会更强’。过去理论工作更多给上界,说明多项式长度 scratchpad 可以把表达能力从较弱电路类扩展到 PTIME,但这并没有回答实际中为什么连一些看上去不难的问题也需要显式中间步骤。
现有缩放定律的两种解释(线性分解幂律单元、层次化组合结构)没有统一,无法解释分类和 next-token 预测任务的学习曲线差异。
生成式口语语言模型采用自监督语义离散token训练时,丢失韵律等副语言信息,生成语音自然度低;现有补全音高特征的方案依赖人工特征工程,且音高无法覆盖全部副语言属性,优化空间有限。
这篇工作要解决的是:稀疏 MoE 虽然推理时激活参数少,但部署时仍要把大量 experts 常驻显存,内存开销并不“稀疏”。过去常见压缩办法依赖蒸馏、再训练或基于路由统计的裁剪,但这些方法成本高,且容易受路由不稳定影响,因此作者聚焦于一个更实际的问题:能否在不重训的前提下直接合并 experts。
这篇工作关注的是:Transformer 的 hidden dimension 通常被当作必须统一密集计算的整体,但不同维度的重要性并不相同,继续一刀切地全算会带来冗余。这个问题过去多通过 token pruning、layer dropping 或 MoE 在 token/expert 维度上处理,而对 hidden-state 维度本身的条件化利用研究较少。
这篇工作要解决的是:长上下文推理的成本主要被 attention 的二次复杂度拖住,而许多 token 对语义贡献并不均匀。作者观察到某些 separator token(如标点)获得了异常高的注意力权重,这意味着模型已经在把段落级信息聚合到这些边界 token 上;如果这种现象稳定存在,就有机会把一整个 segment 压缩成一个 separator 来减少长度。
这篇工作要解决的是:语音模型的 scaling law 远不如文本和视觉清楚,导致大规模语音预训练/多语语音建模缺少可操作的设计规则。过去语音工作往往在特定数据集和模型族上做经验扩展,但很难回答“参数、数据、算力各自怎么影响最终性能”,尤其在 multilingual ASR/ST 场景中更明显。
这篇工作要解决的是:多模态模型的优化长期被拆成“改模型”和“改数据”两条线,导致迭代慢、结论不闭环。现实里很多性能问题并不单纯来自模型或数据一侧,而是两者耦合出的失配;如果没有一个低成本的反馈回路,就很难知道该改数据配比、数据过滤、模型结构还是训练 recipe。
这篇工作要解决的是:长推理模型在极简单问题上也倾向生成冗长 reasoning,出现 overthinking,既浪费算力也可能拉低正确率。过去社区更多关注“怎么让模型多想一步”,但当长链推理成为默认行为后,另一个同样重要的问题变成了“什么时候不该想那么多”。
这篇工作要解决的是:安全对齐后的 LLM 常出现 over-refusal,对无害请求也过度拒绝,导致模型可用性明显下降。过去常见缓解方法要么继续做全参数对齐微调,要么依赖额外偏好数据和复杂 reward 设计,但这些方法往往会连带削弱安全边界,因此作者聚焦于更细粒度的问题:能否只改动触发拒答的内部表示,而不是整体重写模型行为。
这篇工作要解决的是:SFT 的算力预算往往由训练样本数决定,但大多数样本并不等价,有些样本对参数更新的信息增益明显更高。过去常见做法是随机采样或基于启发式质量分数筛数据,这些方法简单但和模型当前参数状态脱节,因此数据效率并不理想。
现有语言模型可学习干预(表示微调)仅对概念子空间做点级控制,无法覆盖子空间周边区域,干预泛化性不足,无法适配复杂行为调控需求。
大语言模型形式化定理证明的核心瓶颈是高质量训练数据不足,现有强化学习或专家迭代方案因正确证明稀疏(奖励稀疏),性能很快进入平台期无法持续提升。
现有认知普遍认为仅训练预测下一个token的大语言模型不会对完整回复做提前规划,缺少明确实验证据验证LLM隐层是否编码了未来多步输出的全局信息。
这篇论文要解决的是:MoE 模型部署时“参数巨大但每次只激活少数专家”的结构性矛盾,导致常规量化/内核优化要么掉精度要么吃不到吞吐。以往把 MoE 当成均匀结构做统一 bit-width 量化,会忽略不同线性层的敏感度差异与专家负载不均。
这篇论文要解决的是:标准 softmax 点积注意力在反向传播时可能产生过小的梯度,导致注意力前的参数学习效率低,从而拖慢训练或影响收敛质量。以往更多从数值稳定或注意力近似(线性注意力)角度改注意力,而不是直接针对梯度信号强度。
摘要缺失:无法从给定信息判断作者具体要解决的 4-bit 数值表示在 LLM 量化中针对的是精度、吞吐、还是可训练性问题。
这篇论文要解决的是:传统 SAE 只能让“激活”稀疏,难以让“计算过程”稀疏,因此对理解 LLM 的电路/算法帮助有限。以前我们用 SAE 找到可解释特征,但这些特征之间的映射仍是稠密的黑箱。
这篇工作要解决的是:代码 LLM 在多轮编程中拿到执行反馈后,仍然不擅长真正利用反馈来迭代修正。现有模型常能一次性采样出还不错的程序,但在 agent 式多步场景里,面对编译错误、测试失败或运行结果,改进幅度反而有限,说明模型没有学会把环境反馈纳入策略。
这篇工作要解决的是:LLM 在超长对话或长响应生成时,KV cache 会随上下文线性膨胀,最终受显存和带宽限制而无法持续扩展。现有办法通常在保留历史质量和控制缓存大小之间做折中,要么压缩上下文损失信息,要么只在特定任务上成立。
Softmax 注意力在长上下文场景下计算开销大,而自适应稀疏注意力(如 α-entmax)虽然理论上能利用稀疏性加速,但现有实现无法真正将稀疏性转化为运行时和内存的收益。AdaSplash 要解决的就是让自适应稀疏注意力在 GPU 上真正快起来。
现有 LLM 对齐方法依赖显式或隐式的奖励函数,但人类偏好本质上是多因素、多维度的,不同任务和人群之间可能存在冲突。单一奖励函数难以捕捉这种复杂性。本文要解决的是:如何建模偏好背后的隐含因素及其组合。
Test-Time Training (TTT) 能否可证明地提升 Transformer 作为 in-context learner 的能力?TTT 在推理时对模型参数进行临时更新,直觉上应该帮助 ICL,但之前缺乏理论保证。本文提供了形式化的证明。
小语言模型的数学推理能力远弱于大模型,现有提升方案依赖强模型蒸馏,无蒸馏场景下无法达到OpenAI o1级别的推理性能。
这篇论文要回答的核心问题是:ICL 里被反复观察到的 task vector 到底是在预训练/训练中怎样形成的,以及它和最终任务表现之间是不是有可预测的对应关系。过去很多工作只是在训练后做表征分析,证明“模型里有 task vector”,但没有把 task encoding 的形成过程、conditional decoding 的形成过程和 ICL 成功联系成一个动态机制;这篇工作试图把这三件事放到同一个 encoder-decoder 视角里解释。
这篇论文要解决的是 DPO 一类方法的一个核心隐含假设:它们通过重参数化技巧引入一个 implicit reward,从而跳过单独训练 reward model,但这种做法虽然简洁,优化行为并不总是透明,也未必总和我们真正想要的偏好目标一致。作者的主张从标题看很直接——做 preference optimization 不一定需要 implicit reward,可以显式地写出来并直接优化。
LLM 在面对分布偏移(专业领域、语言变体等)时泛化能力不足,而传统做法要么靠 domain-specific fine-tuning(需要标注数据),要么靠 prompt engineering(效果有限)。本文提出在推理阶段仅用无标注测试数据动态适配 LLM。
Best-of-N 采样是推理时对齐(inference-time alignment)最常用的方法,但朴素地增加 N 会因 reward hacking 导致性能先升后降。本文从理论角度分析推理时对齐算法的最优性和 compute scaling 行为。
在线 RLHF 的样本效率是瓶颈。现有工作关注探索策略,但忽略了一个实际场景:我们通常有不完美但相关的 reward model(比如旧版本或不同领域的),如何利用它们来加速学习?
这篇论文要解决的是:LLM 权重的低秩性到底从何而来、在训练中何时出现、以及为什么不同模块的可低秩程度不一样,从而指导“该压哪里、压多少”。以往低秩压缩多从分解技巧出发,缺少与训练动态/梯度结构的因果联系。
这篇论文的核心结论是:在标准覆盖假设下,结果监督(outcome supervision)在统计难度上并不比过程监督(process supervision)更差。这个问题之所以重要,是因为当前很多复杂推理训练都默认“逐步监督更容易学”,于是投入大量成本采集 step-level 标注,但这一共识此前更多来自直觉和经验,而不是清晰的理论刻画。
这篇论文要解决的是 MoE 在部署时一个很现实的痛点:虽然每次只激活少数专家,但所有专家参数通常都得放进显存,导致 VRAM 占用仍然很大。已有 offloading 方案能减少常驻显存,却会把延迟拉高,因为专家是动态选择的,按需加载很容易卡住推理路径。
这篇论文的核心问题是:当大模型训练必须跨地域使用异构加速器时,跨区域通信慢、硬件速度不一、straggler 严重,传统同步训练会把整体效率拖得很低。随着算力供给越来越碎片化,这已经不是边缘场景,而是越来越常见的现实约束。
现有大语言模型对齐的偏好学习奖励模型泛化性差,存在因果误识别、偏好异质性、用户因子混淆等问题,此前没有从因果视角对这些问题做系统性拆解。
现有softmax注意力用低维QK投影会丢失高维输入的信息,且对所有输入对用相同打分函数,没有引入距离相关的归纳偏置,高维输入、长序列任务性能受限。
大语言模型普遍存在长度泛化差、无法解决训练分布外复杂问题的缺陷,现有优化方案要么需要修改模型架构,要么依赖额外的大规模分布外标注数据,落地成本高。
这篇工作要解决的是:偏好数据里的噪声会显著破坏 preference alignment,而现有方法不是只能被动抗噪,就是依赖外部教师模型做样本过滤,成本高且容易引入 reward misgeneralization。作者的目标是不用额外教师,也能在训练过程中识别并压低噪声样本的影响。
现有LLM训练集成员推断的补全测试依赖n-gram重叠作为成员判定的金标准,该假设存在漏洞,会将非训练集文本误判为训练集成员。
现有文本生成歌曲方案多采用多阶段生成流程,存在训练推理链路复杂、阶段间误差累积导致生成质量差的问题,同时缺乏细粒度音乐属性控制能力。
缺少摘要信息,无法确定论文对“数学推理的 ICL 为什么有效”究竟是在分解哪些因素(示例选择、格式、隐式 scratchpad、检索、长度/难度匹配等)。
这篇论文要解决的是:传统 RM 训练把人类偏好压成二元胜负(Bradley–Terry),会丢掉“平局/接近/略好”等细粒度信息,导致样本利用率低、噪声更大,尤其在多人标注时更浪费。
这篇论文要解决的是多模态训练中的一个老问题:不同模态和不同样本类型在训练中贡献不均,导致模型既学不平衡,也学不充分。很多 VLM 训练默认用静态数据配比,但这常让强模态压制弱模态,或者让容易样本过度主导优化过程,所以作者尝试通过 data remixing 重新分配训练信号。
这篇论文解决的是数学训练数据和评测数据越来越容易污染的问题,尤其是高水平竞赛数学。许多现有数学 benchmark 已被广泛收录、讨论和蒸馏,导致模型分数很难解释;作者选择在线奥赛题,试图同时获得更难的新鲜训练信号和更抗污染的评测集。
这篇论文研究的是 Transformer 里一个很少被单独系统扩展的部位:residual stream 的维度大小。现有 scaling 通常同时放大隐藏维度、FFN 和注意力头数,但 residual stream 既是信息汇总通道也是层间通信瓶颈,作者想知道能否通过矩阵化 residual stream 获得更好的扩展规律。
这篇论文要解决的是:mechanistic interpretability 里“什么算一个有效解释”一直缺少统一标准,导致很多解释看起来合理,但其实难验证、难比较、也难复用。过去这类工作常靠案例说服和人工直觉支撑,现在模型越来越大,这种做法的上限已经很明显。
这篇论文要回答的是:decoder-only Transformer 到底能不能做严格意义上的逻辑推理,而不只是看起来会“模仿推理文本”。这个问题过去常被经验结果模糊带过,但 SAT 是一个足够干净的测试床,因为它有清晰的算法、正确性定义和推理轨迹。
这篇论文要解决的是:SFT 数据清洗为什么几乎都停留在样本级,而忽略了 token 级噪声。现实里即便一条样本整体高质量,其中仍可能混有和任务无关、无信息量、甚至有害的片段;继续对这些 token 做监督,会稀释真正有效的训练信号。
这篇论文要解决的是:我们缺少一个统一、可量化的指标来比较不同序列模型到底把多少历史信息真正用进了未来预测。过去很多分析要么看原始算子图,要么看特定架构下的经验 probing,解释性和可比性都不够。
SAE(稀疏自编码器)可以把 LLM 的激活分解为数百万个潜在特征,但人工逐一解释这些特征不可行。之前的自动化解释方法(如 Anthropic 的 neuron explanation)成本高且评估指标有限,需要一个更便宜、更可靠的自动化解释与评估流水线。
Transformer 在 next-token prediction 训练后,内部表示中涌现出什么样的计算结构?之前的 mechanistic interpretability 工作多聚焦于特定电路,缺乏对 Transformer 整体计算原理的统一刻画。这篇工作提出 Transformer 实现的是一种受架构约束的贝叶斯信念更新。
这篇论文要解决的是:在拿不到预训练数据和原始训练配方的情况下,如何缓解微调导致的灾难性遗忘。过去很多抗遗忘方法依赖 replay、额外正则、参数约束或梯度控制,但这些方法往往默认你还能访问旧数据、旧梯度统计,或者至少能保存较重的训练状态,这在闭源大模型微调里经常不成立。
这篇论文要解决的是:为什么预训练 loss 的 scaling 常常相当可预测,但 frontier model 的下游能力,尤其多选题 benchmark 表现,却一直很难随规模稳定预测。过去大家常把这种“不好预测”归因于涌现或任务复杂性,但作者指出,问题很大一部分来自评测指标本身对 token-level likelihood 做了多层非线性变换,导致尺度关系被扭曲了。
这篇论文要解决的是:如何把 RoPE 这类高效、平移不变的位置编码自然扩展到 2D/3D token,而不丢掉计算效率和几何一致性。过去很多视觉或机器人场景的位置编码要么在高维坐标上不够自然,要么会牺牲平移不变性,导致模型难以同时兼顾泛化和效率。
这篇论文要解决的是:语言建模里并行化和表达能力之间是否存在更细致的中间地带,而不只是“Transformer/SSM 易并行但受限”与“RNN 更强表达但训练慢”二选一。过去 SSM 和 Transformer 之所以主流,一个核心原因就是并行训练友好;但这也意味着它们通常限制在比经典非线性 RNN 更低的计算复杂度类别里。
这篇论文讨论的是:仅靠增加 test-time compute,而不引入 verification 或 RL 信号,效果是次优的。也就是说,更多采样或更长思维链本身并不保证推理质量持续提升;如果缺少外部校验或训练出的搜索偏好,模型很容易把额外算力浪费在低质量轨迹上。
现有LLM推理优化的token选择方法仅基于注意力权重判断,未考虑深层sink token(注意力占比极高但语义作用有限的token)与其他token的隐状态相似性,导致优化效率受限。
现有KV缓存量化方案为了追求高压缩率会明显损失生成质量,未利用层间KV的依赖关系与网络内部状态的高压缩潜力,压缩效率与质量的trade-off较差。
这篇论文关注长上下文模型的一个现实短板:检索和定位能力已经很强,但生成仍然容易失真、幻觉或不贴合长上下文约束。过去改进多依赖加长预训练或更好的指令数据,这有效但成本高、反馈信号稀疏,因此作者尝试用更高效的偏好优化专门做 long-context alignment。
这篇论文要解决的是一个经常被忽略的问题:训练目标通常优化单样本 next-token likelihood,但实际使用时我们常靠多次采样、pass@k 或多数投票拿最终结果,导致 train-test objective 不一致。过去大家更多在 inference 端调采样策略,这篇工作则反过来问:能不能把 inference-time 目标直接写进训练里。
现有LLM知识蒸馏流程默认模仿教师模型输出就能对齐真实目标分布,但未考虑教师模型本身是真实分布的有偏近似,可能存在类似RLHF中奖励黑客的教师黑客问题,即学生模型过度拟合教师的缺陷,偏离真实目标。
现有提升LLM生成多样性的主流方法是调高解码温度,但该方法往往无法有效提升召回率(coverage),仅调整温度的多样性优化存在天花板,根源是预训练损失的设计偏向精度(precision)而非覆盖率。
现有提升LLM推理理性的方法多依赖人类或更强模型的监督,成本高且泛化性有限,无法在无外部监督的情况下提升模型对推理过程的判别能力。
这篇论文的核心判断是:安全对齐失败不一定是模型不会,而是现有 refusal training 没有稳定调出模型内部已有的安全知识。作者针对的是 RT 在 OOD jailbreak 下泛化差的问题,并进一步追问:这些攻击真的是能力缺口,还是训练把模型带到了依赖表面捷径的表示上。
RoPE及其变体在1D文本上表现优异,但扩展到视频的3D时空结构时,如何分配频率资源给空间和时间维度仍是开放问题。已有视频RoPE变体在时间维度分配不足,容易被周期性干扰帧误导。本文系统分析了视频RoPE的设计要素,并提出VideoRoPE。
现有多目标RLHF(MORLHF)方法多采用线性聚合多个目标的策略,无法覆盖偏好特定目标(如最差群体目标)的策略,仅有的非线性聚合方案计算复杂度极高,无法落地。
RLHF全量人工标注成本过高,AI反馈(AIF)对齐泛化性不足,现有混合对齐方案未针对性筛选高价值标注样本,存在严重的标注资源浪费。
这篇论文的核心结论是:LLM 的抽象推理并不只是模糊统计拟合,内部会自发形成一套近似符号式的机制,用来把表面 token 映射成抽象变量、在变量上做归纳,再把结果检索回具体 token。它要解决的是围绕“LLM 是否真的依赖结构化机制推理”的争论,并试图给出更细的层级化机制证据。
长 Chain-of-Thought 推理的根本瓶颈是上下文中累积了大量不再需要的中间计算结果,导致内存浪费和计算开销随问题难度线性增长,无法 scale 到更难的问题。
长 Chain-of-Thought 推理近期在 LLM 中展现出强大能力,但其内部机制——为什么长思维链有效、什么条件下有效、边界在哪——尚不清楚。本文旨在系统性地揭示长 CoT 推理的关键因素。
ICL的底层机制存在两种对立假说:归纳头负责复制相关token,函数向量(FV)头负责编码ICL任务的隐表示,此前没有跨模型规模的定量对比验证哪类是核心驱动。
LLM无法按要求重复单个token的故障模式此前没有明确的机制解释,该故障可被用户利用引导模型偏离预期行为,存在安全隐患。
RLHF中奖励模型的打分存在不可靠的噪声样本,尤其是复杂推理任务中噪声占比更高,直接用所有样本做PPO训练会降低对齐信号的信噪比,导致对齐效果下降。
现有直接偏好对齐算法(DPO、IPO等)仅利用成对偏好的相对顺序,忽略了偏好数据中的绝对奖励分数,容易过度拟合微小的奖励差距,甚至学习到低质量的chosen回复,同时丢失rejected回复中的高质量信息。
偏好学习领域缺乏统一的概念框架,不同对齐方法(RLHF、DPO、NLHF等)的优化目标没有统一度量,导致方法对比和改进方向混乱。
这篇论文要回答的是:线性注意力模型的 in-context learning 能力是如何在梯度下降中长出来的。过去大家知道 Transformer 能做 ICL,也有少量理论工作分析简化设定,但对“训练过程中为何会突然学会”“参数化形式会不会改变动力学”理解很不完整,尤其是理论里常用的 merged key-query 参数化和实际模型更接近的 separate key/query 之间差异没有讲清。
这篇论文要解决的是:能不能做一种真正通用、无需重训的 sparse attention,在不同模型上都稳定加速且几乎不掉效果。过去稀疏注意力大多依赖特定模型的注意力图模式、要么需要训练适配、要么泛化差,所以很难作为“任何模型都能插”的推理层优化。
这篇论文关注 Transformer 在长上下文建模中的高维诅咒问题,但当前提供的信息不足,无法准确概括作者具体要打掉的是表示退化、注意力失效、还是统计估计效率问题。仅从标题判断,它是在质疑随着上下文和特征维度增大,Transformer 的某些核心机制会遭遇维度带来的结构性瓶颈,而不是单纯工程实现慢。
这篇论文要解决的是:低比特量化虽然能省显存,但现有方案往往和 GPU 硬件不匹配,导致实际推理并不高效,而且 uniform quantization 对 LLM 权重分布拟合不够好。换句话说,问题不只是量化误差,还包括量化格式是否真的适合 GPU 上的矩阵乘实现。
从标题看,这篇论文关注的是 token 级异质性:不是每个 token 都需要同样的计算路径,因此统一的逐 token 处理存在浪费。但当前没有摘要,无法确认作者具体是在做 token skipping、动态深度、早退,还是别的条件计算机制。
大模型预训练和微调中,优化器状态占用大量GPU内存,现有低秩优化方法(LoRA、GaLore、BAdam)的权重更新有效秩偏低,会丢失梯度信息,尤其在预训练阶段会影响最终模型性能。
现有多draft头的推测解码方法假设draft序列中所有token同等重要,使用相同的头结构和生成范式,导致初始draft token的准确率偏低,而初始token错误会导致后续所有token被拒,拉低整体解码加速比。
现有推测解码方案要么采用不随前缀上下文变化的固定超参数配置,要么需要离线/在线额外训练草稿模型适配上下文,存在生成效率不稳定或训练成本高的问题。
多示例上下文学习(many-shot ICL)效果优于少示例ICL,但获取数百个标注示例的成本过高,限制了其在低标注场景下的落地。
VLM在多步视觉推理任务上表现弱于仅文本LLM,现有研究缺乏系统性评估VLM简单到难泛化能力的框架,模态不平衡问题的缓解路径不明确。
大视觉语言模型(LVLM)容易生成语法通顺但无视觉依据的幻觉内容,现有研究对幻觉产生的内部动态机制理解不足,多数缓解方案需要额外训练,成本较高。
这篇论文要回答的核心问题是:最朴素的 test-time search——多采样再自验证——到底能不能靠规模本身变强,而不是依赖复杂搜索策略。过去大家往往把 inference-time scaling 做成树搜索、过程打分或多代理协作,默认简单 sampling + self-verification 很快会遇到瓶颈;这篇工作指出,瓶颈没有想象中来得那么早,而且验证器本身会随着候选池变大而“隐式变强”,因此这个问题值得重新审视。
这篇论文要解决的问题是:SFT 虽然用了监督数据,但目标函数仍是生成式的 token likelihood,因此它不擅长直接学“区分好坏答案”。现有主流做法通常是在 SFT 之后再接 preference optimization,用人类偏好数据或 reward model 补上这一步;作者想证明,不借助这两类额外基础设施,也可以把判别式学习直接塞进 finetuning。
这篇论文要解决的问题是:视觉 tokenizer 里的 decoder 仍停留在传统单步重建范式,这会限制 latent 表示的压缩效率和生成质量。过去视觉 tokenization 大多用 autoencoder:encoder 压缩,decoder 一次性还原;作者认为对高维图像来说,这种解码器过于刚性,而 diffusion 的逐步去噪更适合作为“解码”过程本身。
这篇论文的核心问题是:多模态大模型已经很强,但对“人类偏好”的系统对齐明显落后于文本 LLM,现有工作大多只修补局部问题,比如幻觉或拒答。作者关注的是更 general 的问题——RLHF 式偏好对齐,能不能像在文本模型中那样,系统性提升 MLLM 的整体能力与可用性。
这篇论文要解决的问题是:低秩剪枝虽然对 GPU 友好,但在相同稀疏度下常常明显逊于半结构化剪枝,尤其 perplexity 代价偏大。作者认为问题不一定只在“低秩不够表达”,而在于现有低秩表示本身还冗余,没有把可压缩的线性相关结构继续挖干净。
这篇论文要解决的问题是:LoRA 在预训练这类重负载场景下容量和结构都受限,ReLoRA 虽然尝试周期性回归全参数训练,但会遇到 saddle point 等优化问题,因此内存高效训练还缺一个更稳的方案。作者从谱分解角度切入,试图在保留全参数更新覆盖面的同时,减少需要显式训练的参数量。
这篇论文关注的核心问题是:视觉 patchification 的 token 数该怎么定,是否存在像语言模型 scaling law 那样的可预测规律。过去图像 patch size 往往是经验拍脑袋设定,例如 14×14 或 16×16,再围绕算力做权衡;作者显然想把这个问题从经验超参选择提升为可缩放规律分析。
标准 Transformer 中 FFN 层占了大量参数和计算,本文探索能否用纯注意力(attention-only)架构替代,同时保持表达能力。核心动机是从子空间去噪(subspace denoising)的展开迭代角度推导出 attention-only 架构的理论基础。
Latent diffusion model 的生成质量高度依赖 tokenizer(autoencoder)产出的潜空间结构,但什么样的潜空间对 diffusion 学习最友好,此前缺乏系统研究。本文发现:潜空间的高斯混合模态数越少、特征判别性越强,diffusion 生成质量越好。
高质量软件工程训练数据稀缺,本文提出以测试驱动的方式合成软件工程数据——先有测试用例,再生成满足测试的代码,从而保证合成数据的正确性和质量。
LLM 展现出惊人的任务泛化能力——只需少量示例就能解决从未见过的任务。本文从理论上回答:当任务具有自回归组合结构(每个任务是 T 个操作的组合,每个操作有 D 种选择,共 D^T 种任务)时,训练 O(D) 个任务是否足以泛化到全部 D^T 个任务?
Transformer 中 attention 机制的计算本质是什么?本文从共识(consensus)动力学的角度给出一个新的理论解释:attention 层本质上在驱动 token 表示趋向某种共识状态。
Transformer自注意力的二次复杂度导致长序列LLM推理成本高、速度慢,现有块稀疏注意力方案要么多主机通信开销大,要么准确率损失高,且多数需要重新预训练。
蛋白语言模型(pLM)的特征表示缺乏可解释性,无法明确其学习到的序列模式与蛋白生物学功能的对应关系,限制了pLM在生物学研究中的应用。
LLM生成的代码无法保证正确性,现有生成形式化验证代码的方案受训练数据稀缺和形式证明复杂度高的限制,效果不佳。
自然语言在信息论复杂度上存在分形结构(跨尺度自相似、长程依赖),现有研究未明确LLM生成的文本是否复现了该特征,也未明确分形参数的应用价值。
这篇论文要回答的是:训练随机性到底只是让参数表面上不同,还是会把模型推到真正不同的函数与表示上。这个问题以前常被经验性地承认——大家知道 seed 很重要——但缺少对“何时分叉、分叉多深、后来是否收敛到等价解”的系统刻画。
这篇论文解决的是:如何从用户的写作样本里更准确地恢复个体偏好,从而做真正个性化的 LLM 对齐。以往方法往往只能生成很泛的偏好描述,能反映“平均用户喜欢什么”,却抓不住某个具体用户稳定而细微的写作偏好,因此条件化后的代理仍然显得模板化。
这篇论文试图回答一个很强的命题:LLM 是否在完全不做多模态训练的前提下,也能直接“看见”和“听见”。如果成立,它挑战的不是某个视觉/语音模块,而是我们对模态对齐必要性的默认假设——过去一般认为没有跨模态配对训练,就不会有稳定的感知能力。
这篇论文要解决的是:后训练量化在极低比特和非标准比特宽下仍然很难稳定保精度,导致部署通常只能停在少数几个“安全档位”。现有 PTQ 方法往往围绕 2/4/8 bit 设计,对任意 bit 设置、尤其是混合硬件约束下的细粒度量化,鲁棒性和通用性都不够。
这篇论文要解决的是:现有语言模型对齐大多只优化训练时定义的偏好目标,却没有把推理阶段的实际行为约束显式纳入目标,因此训练好的策略在 test-time 推理策略变化后可能失真。换句话说,模型是按一种生成过程被对齐的,但用户真正使用的是另一种生成过程,这中间存在不小的分布落差。
这篇论文要解释的是:ICL 中被广泛讨论的“任务向量”现象,特别是为何模型能像做向量算术那样通过示例检索并组合任务概念。此前已有经验工作观察到 factual recall 场景里存在类似 Word2Vec 的向量结构,也看到 QA 数据会增强这种能力,但缺少一个成体系的理论框架说明这些现象为何出现。
RL训练本身存在移动目标、高梯度方差导致的固有不稳定性,RLHF/RLAIF还会引入偏好不一致、奖励模型在 unseen 输出上预测误差放大的额外问题,此前仅从监督学习迁移集成、层归一化等通用技术,没有针对噪声反馈场景做损失层面的针对性优化。
多模态预训练依赖的大规模图文数据集存在噪声、对齐错误、长尾分布问题,此前的合成数据增强方法仅支持单模态生成,且缺乏细粒度语义控制导致数据多样性不足,无法适配通用多模态预训练的增强需求。
现有LLM推理评测集未覆盖形式逻辑规则与人类常识冲突的场景,此前的推理评测要么仅测形式逻辑正确性,要么仅测常识一致性,无法衡量LLM在两类规则交叉场景下的类人推理能力。
多模态大模型的交叉注意力层在处理长视觉输入(如视频)时,大量视觉token导致内存占用过高,现有分布式注意力机制通信开销大,成为训练和推理的核心性能瓶颈,此前的分布式方案没有针对长视觉输入下query块远小于视觉token块的特性做优化。
多模态融合训练中普遍存在模态坍缩现象,即模型仅依赖部分模态的特征,忽略其他模态的贡献,此前的研究仅观测到该现象,未明确其发生的底层机制,也没有有效的可落地方案。
长度泛化(即模型在短输入上训练后可泛化到更长输入的能力)此前没有可证明的非渐近保障,此前的研究要么仅做经验观测,要么只有渐近性质分析,无法给出保证长度泛化所需的最小训练输入长度的可计算上界。
现有token级奖励模型将奖励建模和语言生成耦合训练,存在生成建模和奖励建模的目标冲突,导致训练不稳定、信用分配不准确,此前的方法没有解耦这两个目标,无法充分发挥token级奖励的细粒度监督优势。
长度泛化的本质可归因为隐空间中的低维到高维(LDHD)泛化问题,此前没有研究从LDHD泛化的角度分析长度泛化的理论边界,默认认为长度泛化可通过架构优化或数据增强无限制提升,未明确其不可实现的边界条件。
通用训练后量化(PTQ)直接应用于MoE大模型时会出现严重精度下降,现有方法未适配MoE的稀疏动态特性,忽略了专家间样本分布不均衡、样本-专家亲和度差异带来的校准偏差问题,限制了MoE模型的低成本部署。
现有稀疏自编码器(SAE)训练方法依赖大模型反向传播,计算开销高,且SAE重构结果插入原模型后会导致交叉熵损失显著上升,之前的方案仅优化SAE本身,未考虑调整大模型适配SAE的路径。
这篇工作要解决的是:CLIP 的图文对齐主要停留在整图-整句层面,导致它作为 MLLM 视觉骨干时,细粒度区域理解和定位能力不够。过去这类问题通常靠下游检测器、region proposal 或额外密集标注去补,但这会破坏 CLIP 预训练的简洁性,也不适合大规模弱监督场景,因此重新从预训练目标上增强 localization 是值得做的。
长上下文推理中注意力计算开销过高,现有稀疏注意力方法要么精度下降明显,要么额外资源开销大,之前的方案将关键token识别视为最大内积搜索(MIPS)问题,不适配GPU并行且因查询-键分布分离导致效果差。
弱到强(W2S)微调中强学生模型用弱教师的伪标签训练后性能超过弱教师的现象缺乏明确理论解释,之前的分析仅归因于模型容量差异,未考虑微调过程的本征低维特性。
这篇论文要回答的是:LLM 能理解“人类不可读”的字符串(越狱提示、乱码式 prompt)到底是对齐漏洞还是一种可利用的表示能力,以及这种能力能否跨模型、跨任务泛化。以往社区多把它当 bug 去压制,但作者把它当成一种“非自然语言通道”。
摘要缺失:无法确认论文如何把 ICL(in-context learning)与 Occam’s Razor(偏好更简单假设)联系起来,是解释 ICL 的归纳偏置、还是给出可检验的预测。
这篇工作要解决的是:如何让模型在数学推理中学会“探索后再收敛”,而不是只依赖单一路径的答案监督。现有数学推理方法常把探索当作采样时的技巧,或把过程监督限制在少量标注轨迹上,因此模型容易会做“模板化推理”,却不会在中间步骤主动试错、修正和利用反馈。
这篇工作要回答的是:Transformer 在结构化数据上到底学到了什么计算过程,尤其是在存在多层级长程相关性时。很多关于 Transformer 机制的结论来自自然数据,变量难控;这篇论文转向树结构上的可控序列生成模型,用手工调节层级相关范围,来观察网络如何逐步发现并实现对应推断算法。
这篇工作解决的是持续式多模态指令微调中的容量僵化问题。现有方法通常固定 LoRA 或适配器结构去接收新任务,但连续到来的任务对层级改造需求不同、对模态依赖也不同,结果要么容量不够,要么更新失衡,最终表现为灾难遗忘和预算浪费。
这篇工作要解决的是:现有音频语言模型在非语音声音、音乐以及长音频理解上能力不足,而且小模型通常缺少细粒度推理。过去很多 ALM 更偏语音问答或短音频事件理解,对 30 秒到数分钟的长时程音频建模、跨片段整合和专家级推理支持不够。
研究稀疏性在 LLM 长度泛化中的作用。长度泛化是指模型在短序列上训练后能否正确处理更长序列的能力,这是 Transformer 的已知弱点。本文探索稀疏性(可能指注意力模式或参数的稀疏性)是否以及如何帮助改善这一问题。
视觉生成模型(如 masked generative models)在推理时需要多次过 Transformer,且每次都用相同大小的模型,计算效率低。核心洞察是:生成过程的不同阶段需要的计算量不同,早期粗略阶段不需要大模型。
MoE 架构的 LLM 性能优异但参数量巨大,存储和内存需求极高。现有压缩方法没有充分利用 MoE 专家之间的结构相似性。本文的核心思路是:将专家权重分解为共享基础权重 + 独特的 delta 权重,然后分别压缩。
现有大模型知识编辑与遗忘方法精度低、鲁棒性差,容易破坏通用语言建模性能,之前的方案仅基于输出匹配定位编辑组件,未定位到真实的模型机制电路。
自玩对齐中多偏好优化需要处理每个查询的大量候选响应,全量计算开销过高,之前的方案随机选子集或仅选极端得分样本,丢失语义多样性导致对齐效果下降。
这篇论文想解决的问题是:LLM 是否已经在参数里具备执行某些任务的能力,只是默认注意力路由把这种能力压住了,因此即便不给明确指令,也可能通过干预少数 attention heads 把任务能力显露出来。传统 instruction following 研究默认“能力触发”主要靠 prompt,本工作把焦点移到模型内部电路选择上。
这篇论文要解决的是 length generalization 的通用性问题:模型在短序列上训练,却希望在长得多的序列上稳定执行算法任务。过去常见办法要么依赖特定架构改造,要么只对少数任务和特定 scratchpad 格式有效,缺少一个能覆盖广泛算法任务、又足够简单可学的统一推理模板。
这篇论文要解决的是一个经常被忽视的问题:随着模型变大,鲁棒性会不会自然变好,尤其是在 jailbreak、prompt injection 和对抗攻击场景下。很多讨论默认能力 scaling 会顺带带来更强防御,但系统性证据并不充分,特别是在安全训练、攻击预算和模型规模同时变化时,很难分清哪些趋势是真的。
Transformer 在处理超出训练长度的序列时泛化能力差(length generalization),根源之一是现有位置编码(如 RoPE)在外推时注意力模式的周期性扩展不理想。本文提出 Fourier Position Embedding 来改善这一问题。
Transformer 如何学会识别正则语言(regular language)?具体研究 even pairs 和 parity check 两个任务,分析单层 Transformer 在梯度下降训练过程中的动态行为和隐式偏置。
Mamba 引入了 input selectivity(S6 层的输入依赖参数化)、卷积和门控,但这些组件各自的贡献和交互机制不清楚。特别是 input selectivity 到底在逼近能力、长期记忆和关联召回中起什么作用?
这篇论文要解决的是:把自动驾驶的“行为/规划”做成可规模化的自回归序列建模,并系统回答“模型/数据/算力放大后是否像语言模型一样稳定变好”。以往驾驶行为模型常被当作小模型的 imitation learning 或特定规划器问题做,缺少可复用的 scaling 规律与统一 token 化表述。
这篇论文要解决的是:在 text-to-audio 里同时拿到“扩散模型级别的音质”和“mask 并行解码级别的低延迟”。现状是扩散(Tango/AudioLDM)音质好但采样慢,离散 token 的 mask 并行(如 MAGNET)快但音质落后。
这篇论文要解决的是:在单 GPU、多租户场景下同时服务多个微调后的 MoE LLM 时,如何把显存占用压到可用并维持 QoS。传统做法要么每个模型各自常驻导致显存爆炸,要么频繁换模型导致延迟不可控。
这篇论文要解决的是:语言模型缺乏“可互换 token”的归纳偏置,导致对更大词表泛化差、也难以识别形式系统里的 alpha-equivalence(仅重命名绑定变量但语义不变)。以往常用 alpha-renaming 做数据增强,但这更像补丁,不能保证模型学到结构性不变性。
这篇论文要解决的是:多轮执行反馈下的代码生成如何训练得足够简单且可扩展,而不依赖复杂的分层 RL 或长回合 credit assignment。以往方法要么忽略反馈一次性生成,要么用多步奖励优化导致训练不稳定、工程成本高。
这篇论文的核心问题与结论无法从当前信息确认,因为未提供摘要与关键实验信息。
这篇论文要解决的是:如何用一个可学习的潜变量动作空间去更稳地控制大语言模型,而不是每次都直接在离散 token 序列上做高维、脆弱且难归因的控制。现有做法通常依赖 prompt、拒答模板、RL 或 token 级编辑来施加控制,但这些方法往往控制信号稀疏、局部扰动大、泛化差,尤其在多步生成和风格/行为约束上不够稳定。
从标题看,这篇论文聚焦于长上下文推理加速中的一个关键矛盾:为了提速而重排或近似 KV 访问时,如何保持 sequential consistency,也就是不破坏自回归解码应有的时序一致性。现有长上下文加速方法常在缓存复用、分页、近似检索或分块调度上做优化,但一旦打乱了 token 依赖的顺序语义,速度收益会以质量回退为代价。
这篇论文解决的是长序列生成里的一个老问题:KV cache 随上下文线性增长,GPU 显存先耗尽,而现有压缩方法虽然省显存,却会不可逆地丢信息。也就是说,eviction、merging、quantization 这几条主流路线都在拿质量换容量,长上下文一旦依赖被删掉,后续解码无法补救。
这篇论文的核心结论是:不同大语言模型的错误并没有大家想的那么独立,反而存在显著相关性,而且模型越大、越准,这种相关错误越明显。这个问题重要,是因为很多应用默认“多模型投票能去偏”“换供应商能分散风险”,但如果错误高度共振,这些策略的收益会被高估。
现有KV缓存压缩方法(量化、token驱逐)在高压缩比下精度下降明显,且依赖输入提示或模型结构适配,通用性差,之前的方案未利用KV缓存的全局稀疏编码特性。
现有大模型蒸馏方法对教师和学生生成的数据用相同损失函数,忽略了损失和数据类型的协同作用,导致学生模型性能提升不足,之前的方案未区分不同数据源的适配损失。
解决稀疏自编码器(SAE)提取的特征在 LLM 不同层之间如何演化的问题。以往的 SAE 研究多局限于单层特征解释,缺乏跨层特征流动和因果关系的系统性追踪。
这篇工作要解决的是:偏好对齐不该只被当成一个经验风险最小化问题,而应该显式利用先验,把有限且带噪的偏好数据当作统计估计问题来做。现有 DPO、IPO 一类方法大多默认样本独立同分布、标签可信,结果是在数据少、偏好分布偏、或奖励信号不稳定时容易过拟合观测偏好,缺少对“先验上什么样的策略更合理”的建模。
这篇工作要解决的是:分子生成里的 tokenization 过于依赖 1D 字符串表示,忽略了 3D 几何,而几何信息恰恰决定了很多化学性质和可行构象。过去常见做法是用 SMILES/SELFIES 训练 LM,再把几何留给下游预测或后处理,这会让生成模型在结构合法但空间构型不合理时没有足够约束。
这篇工作要解决的是:多模态奖励模型常常学到单模态伪相关,而不是跨模态一致性的真实偏好,所以一旦分布变化就会失效。过去很多 reward model 看似在图文偏好数据上训练,但其实可能主要靠文字长度、图像风格、水印、模板化拒答等捷径做判断,这会让对齐信号在训练内有效、在泛化时崩掉。
这篇工作要解决的是:空间推理任务里,纯文本链式思维经常不够,因为中间状态本来就更适合被“画出来”而不是“说出来”。过去多模态推理通常让模型看图答题,但很少让模型在推理过程中主动生成视觉化中间表示;这样会把空间关系、几何变换和多步跟踪都硬塞进 token 序列里,推理负担过高。
这篇工作要解决的是:测试时推理扩展常靠更长 CoT 或更多采样,但这些额外 token 并不总是有效,很多只是冗长重述。作者想把推理拆成更稳定、可对齐的“逻辑单元”,从而让 test-time scaling 增加的是有效推理步骤,而不是无约束的长度。
这篇工作要解决的是:RAG 和长上下文并不存在一个稳定的一刀切路由规则,不同任务、证据形态和噪声条件下,两者各有失效模式。过去很多讨论喜欢问“LC 能否替代 RAG”或“什么时候该走 RAG”,但多数结论来自局部 benchmark,缺少系统性对比和真实路由代价分析。
这篇工作要解决的是:推测解码能提速,但标准方法要求无偏接受规则,难以针对 reasoning 任务把算力集中到高价值路径上。作者认为在复杂推理里,完全无偏未必是最优目标,适度引入偏置、优先探索高 reward 的中间步骤,可能能在几乎不牺牲质量的前提下显著降低目标模型调用成本。
解决多目标测试时对齐(test-time alignment)中,多个独立自回归奖励模型(ARM)导致的推理成本高和引导生成与偏好不一致的问题。此前 GenARM 需为每个偏好维度独立训练 ARM,既慢又容易产生冲突。
解决 LLM 对齐中 RLHF 训练不稳定、难以扩展,而替代方法又过度依赖大规模高质量静态数据集的问题。现有数据合成方法通常将模型训练和数据生成割裂,忽略了模型能力在训练过程中的动态变化。
解决大型视觉语言模型(LVLM)在处理高分辨率图像和长上下文时,由于继承 LLM 架构导致的视觉信息丢失问题(注意力呈双峰分布,忽略中间视觉内容;传统位置编码破坏 2D 结构)。
解决 LLM 推理中首 token 延迟(TTFT)过高的问题。以往优化多集中在自注意力机制,但对于长/中等上下文,计算瓶颈已转移到 MLP 层,导致 TTFT 难以进一步降低。
这篇论文要解决的是:PRM(过程奖励模型)训练时常用的“按规则切分推理步骤”并不对应真实决策点,导致每步监督信号含糊、学习效率低,进而限制 PRM 对数学推理等任务的收益。
缺少摘要信息,无法确定论文对“代码生成是否需要先学 CoT 推理”的具体问题设定(哪类代码任务、哪种 CoT 形式、训练还是推理时提示)。
缺少摘要信息,无法确定论文具体在“VLM 的视觉-语言先验”上探测什么(数据偏置、组合泛化、对象共现、语义对齐还是生成先验)。
缺少摘要信息,无法确定论文对“VLM 形成跨模态任务表征”的具体定义与验证方式(任务向量、表征可迁移性、跨模态对齐后的任务分解等)。
这篇论文关注的问题是:MoE 里“专家”通常只是被动路由的子网络,缺乏真正的功能自治,导致专家分工不稳定、协同低效。现有 MoE 往往通过更复杂的 router 或 load balancing 来缓解,但没有真正回答专家怎样形成持续、可迁移的独立能力。
这篇论文解决的是多模态长上下文场景下的一个实用瓶颈:训练好的模型很难无训练地适配更长、更复杂的跨模态输入。现有长上下文扩展常依赖再训练、位置插值或昂贵缓存机制,但对多模态输入尤其麻烦,因为不同模态 token 密度和冗余度差异很大。
这篇论文要解决的是:现有语言模型评测很少真正考查组合式因果推理,导致模型在会“讲因果语言”和会“做因果组合推断”之间被混淆。以前很多测试只看常识问答或单步因果判断,模型可以靠语料统计过关,但这不足以测出其在多变量、组合规则下的真实因果能力。
这篇论文关注的问题是:LLM 往往表现出一种“看起来懂、其实没懂”的假理解,作者称之为 Potemkin Understanding。很多现有评测把流畅解释、术语匹配或局部正确当作理解证据,但模型可能只是拼出了高可信表象,没有形成可迁移、可干预、可一致化的内部能力。
解决大规模神经网络训练中自适应优化器(如 AdaGrad/Adam)显存占用过高的问题。现有方法要么牺牲收敛保证,要么内存缩减幅度有限。
解决难以定量分析微调(Fine-Tuning)对 LLM 具体单次输出影响的问题。以往研究多关注微调对整体任务指标的提升,缺乏细粒度、case-by-case 的归因手段。
解决不同 LLM 之间激活空间干预(如 steering vectors)难以迁移的问题。虽然已知不同模型存在表示通用性,但如何利用这种通用性在模型间直接迁移安全对齐能力仍未被充分探索。
这篇论文关注的位置编码问题:标准 RoPE 一类方法在表达几何关系时有很强工程实用性,但其旋转结构基本固定,难以更系统地利用更一般的群结构或连续对称性。这个问题值得重看,因为长上下文、跨模态和非欧几里得结构建模都在逼迫位置编码从“工程技巧”走向“几何建模部件”。
这篇论文要解决的是:安全对齐是否真的可以被单一线性方向解释。此前很多工作用一个 safety direction 来描述拒答行为,这很方便,但把多种安全相关行为压成一根向量,解释力和可操作性都有限。
在具身智能领域(机器人、游戏等),增大模型参数、数据和算力能提升性能,但具体的 scaling law 形式和系数如何受 tokenizer、任务、架构影响,之前缺乏系统刻画。这篇工作要回答:language modeling 中发现的幂律关系是否也适用于 world modeling 和 imitation learning,以及系数差异意味着什么。
线性循环神经网络(linear RNN,如 Mamba/S4 等)在推理时具有常数内存和恒定 time-per-token 的优势,适合边缘端流式部署,但在资源受限环境下仍需进一步优化延迟和能耗。这篇工作探索非结构化稀疏性能否在 linear RNN 上实现更好的效率-性能 Pareto 前沿。
自对齐(self-alignment)方法在复杂推理任务上效果有限,核心瓶颈是难以给出正确的奖励信号。Self-consistency(多次采样取最一致答案)在推理时有效但只用于 inference,没有被用来改进训练。这篇工作把 self-consistency 的信号引入训练阶段。
验证仅做下一词预测训练的GPT是否隐式学习了因果世界模型,此前该问题缺乏严谨的因果框架支撑,多依赖定性观察。
解决现有LLM成员推理攻击假设过强的问题,此前攻击要求攻击者掌握完整样本或长有序前缀,无法评估攻击者仅持有部分无序片段时的隐私泄露风险。
解决现有多模态决策基准缺乏长上下文场景测试的问题,此前基准上下文长度通常不超过10k token,无法验证前沿模型利用百万级token上下文内的大量专家演示做模仿学习的能力。
解决现有自动越狱方法攻击成功率低、无法应对用推理计算换鲁棒性的对齐LLM的问题,此前越狱方法多依赖固定模板或随机生成,没有利用测试时的计算优化引导攻击。
这篇论文要解决的是:如何在极低成本下把 LLM-as-a-judge 的设计空间系统地调清楚。过去这类工作常常同时更换 judge 模型、提示词、采样设置和打分规则,结果是结论混杂了多个变量,既难复现,也很难知道到底什么因素真正决定 judge 的准确率、偏差和成本。
这篇文章要解决的不是“怎么过滤 AI 数据”这么窄的问题,而是:当数据采集平台的激励机制失真时,人类数据本身会退化,进而让 AI 训练所依赖的高质量人类信号越来越难获得。过去大家更多把问题视为检测 AI 生成内容,但作者认为更深层的问题在于数据系统为了规模和效率,长期压低了人的内在参与动机。
这篇论文要解决的是:self-attention 矩阵在训练中到底学出什么结构,以及不同训练目标为什么会导向不同结构。过去大家对注意力的分析往往停留在可视化或经验观察,能看到“有头在看前文/后文”,但很少把权重更新的结构性约束推到数学层面,因而也难把训练目标与最终 attention 形态直接联系起来。
无法根据当前提供信息可靠总结。标题看起来与 scaling laws 或能力来源有关,但没有摘要,无法判断论文究竟是在做理论解释、经验缩放分析,还是对既有 scaling law 的批评与修正。
解决现有LLM训练后量化方法对权重激活的异常值抑制不足的问题,此前的量化前变换(如逐通道缩放、Hadamard变换)处理后的数据分布仍有陡峭离散特征,会导致量化误差升高。
解决是否可通过输出文本区分不同LLM的问题,此前对LLM输出的独特模式缺乏系统性研究,多假设不同模型的输出分布无显著可区分特征。
这篇工作要解决的是 LLM 域扩展时常见的两难:想学新域知识,就容易伤到原域能力;而 LoRA 这类方法虽然便宜,但本质上没有真正增加可控容量。过去 adapter 被认为效果不如 LoRA,因此较少被作为主流扩展方案,这篇论文是在重新设计 adapter,使其更适合做‘加容量但少遗忘’的模型扩展。
这篇论文要解决的是治疗性肽分子生成里的多目标优化难题:既要生成合法的离散序列,又要同时优化多个药物属性,而传统生成或单目标引导往往顾此失彼。作者选择重新利用离散 diffusion,而不是只靠自回归或简单采样后筛选,因为后者在组合空间里效率和 Pareto 质量都有限。
这篇论文研究一个很适合做机制分析的问题:Transformer 能否学会预测伪随机数序列,尤其是在模数和参数未见过时还能 in-context 泛化。这个问题重要,是因为 LCG 序列表面上近似随机,但底层有明确算法结构,所以它能测试模型到底是在记模式、拟合统计,还是学到了某种可组合的算法。
从标题判断,这篇论文要解决的是 sparse autoencoder 学到的可解释特征如何在不同模型之间对齐,从而得到跨模型共享的概念空间。现有 SAE 往往在单模型内部做解释,导致概念粒度和坐标系都依赖具体模型,难以比较不同架构、不同规模或不同训练阶段的内部表征。
解决现有推测解码要求草稿模型和目标模型共享词汇表的限制,此前方法若要使用异构词汇表的草稿模型需要重新训练,无法直接利用开源的异构词汇表模型作为草稿。
解决独立训练的单模态大模型隐式对齐的机制和效果问题,此前研究仅观察到隐式对齐现象,但未明确其涌现条件以及对齐程度与下游性能的关联。
现有CoT评估方法要么需要标注的CoT数据,要么无法准确评估中间推理步骤,假阳性率高,缺乏无监督的CoT失效模式识别手段。
现有方法无法验证基础模型是否在序列预测训练中真正学到了底层世界结构,仅能验证其训练任务性能,无法判断泛化背后的机制是否匹配真实世界模型。
现有推测解码普遍采用二元draft-verify框架,缺乏严格的理论支撑,无法扩展到多模型的通用推测解码架构,最优推理延迟没有理论边界。
从标题看,这篇论文要解决的是 LLM unlearning 中最核心的矛盾:删得干净往往留不住通用能力,保留得多又删不彻底。现有遗忘方法经常在 unlearning efficacy 和 retention 之间做硬交换,因此很难在真实部署里兼顾合规删除与模型可用性。
从标题判断,这篇论文试图解决 soft prompt transfer 中两个经常冲突的目标:一是迁移要高效,二是不能泄露源任务或源用户的信息。过去软提示迁移通常默认 prompt embedding 可以直接共享,但这在跨组织或隐私敏感场景里并不安全,而且迁移成本也不低。
从标题看,这篇论文要解决的是模型对齐成本高、闭源教师稀缺的问题,尝试利用多个开源模型的集体智能来改进目标模型 alignment。过去常见做法依赖单一强教师或人工偏好数据,但单教师容易带偏见,人工数据又贵且覆盖有限。
这篇论文的核心结论是:LLM 的层重要性强烈依赖任务,因此静态 depth pruning 很容易在某些任务上删错层。过去深度裁剪通常寻找一组全局可删层,但作者发现,同一层对一个任务至关重要,对另一个任务却可以移除而几乎不掉点,这说明固定剪枝方案天然受限。
自回归LLM解码的逐token串行特性严重限制了长内容生成(如长CoT推理)的效率,现有加速方法要么需要额外drafter模型增加显存开销(投机解码),要么因跳层导致KV cache不一致而影响输出质量(层跳过)。本文要在不引入辅助模型的前提下,利用层间并行来加速解码。
LLM剪枝(pruning)在实践中缺乏理论保证,现有方法多为启发式设计。本文旨在提出一种有理论保证的高效LLM剪枝方法。
LLM的拒绝行为(refusal)在表示空间中是如何编码的?已有工作发现存在'拒绝方向',但对其几何结构缺乏深入理解。本文研究拒绝行为的几何结构,提出concept cones和表示独立性的概念。
DPO(Direct Preference Optimization)使用固定的reward margin来区分偏好对,但不同样本对的难度差异很大,固定margin导致简单样本过拟合、困难样本欠拟合。本文提出自适应reward margin来改进DPO。
Sparse Autoencoders(SAE)近来被广泛用于LLM的可解释性和模型steering(通过激活特定特征来控制模型行为),但其实际steering效果是否真的优于简单baseline缺乏系统评估。本文构建AxBench来系统评测,发现简单baseline就能超过SAE。
现有上下文学习(ICL)的应用默认单推理调用只能执行单个ICL任务,未探索单调用下并行执行多个不同ICL任务的可行性,限制了ICL的推理效率。
现有免训练的LLM长上下文外推方法受内存瓶颈和注意力sink问题限制,无法支持超过128K的上下文长度,实际部署的可扩展性差。
现有基于LLM pairwise比较的自动评估方法默认偏好具有传递性,该假设未被验证,导致模型排名受基线模型选择的影响大,评估结果不可靠。
这篇论文要解决的是:代码 LLM 会稳定地产生带漏洞的代码,但现有安全对齐主要依赖真实漏洞数据做指令微调,数据稀缺、覆盖窄,而且很难适配多阶段 post-training 流水线。问题现在值得重做,是因为代码模型已经进入真实开发链路,安全错误不是回答风格问题,而是会直接变成可执行缺陷。
这篇论文解决的是长上下文 Transformer 推理里 attention 二次复杂度过高,而现有 block sparse 方法又常常把“哪些块重要”这一步做得太贵,最后省下的算力被打回去。作者抓的不是稀疏注意力这个老问题本身,而是稀疏化判分机制的成本和精度失衡。
这篇论文从标题看要解决的是:在 meta-RL 里利用人类反馈做快速适应,但又不希望任务嵌入破坏偏好顺序信息。传统做法往往把反馈当奖励回归或偏好学习问题单独处理,难点在于跨任务泛化时,学到的任务表示未必保留人类偏好结构。
这篇论文解决的是工具调用型 LLM 中的 tool hallucination,也就是模型要么选错工具,要么工具用法出错,而现有评测和对齐通常只看最终任务成功率,没把这类失败系统化拆开。这个问题值得单独处理,因为工具调用一旦出错,不只是回答质量下降,还会带来外部 API 成本、执行错误和系统不可靠。
这篇论文要解释 weak-to-strong generalization 为什么可能发生,而且不是停留在“强模型比弱模型容量大”这种粗解释上,而是试图刻画两者表征之间的结构关系。过去对 W2SG 的理解多半停在经验现象或粗粒度理论,现在值得深入,是因为它直接关系到用弱监督训练更强模型、以及对齐未来更强系统的可行性。
RLHF/DPO 等对齐方法存在计算开销大和训练不稳定的问题。本文提出利用预训练好的 Sparse Autoencoder (SAE) 在特征层面施加约束来简化对齐过程。
现有线性层量化已经广泛应用,但注意力层的量化受outliers影响精度下降严重,无法采用低比特量化提升速度,SageAttention的效率仍有提升空间。
这篇论文的核心结论是:偏好标注中的分歧大多不是简单噪声,而是系统性差异。过去 reward modeling 往往默认同一对回答只存在一个潜在“正确偏好”,不同标注者的冲突只是 noisy observation;作者说明这个假设经常不成立,尤其在任务规范不充分、风格偏好不同、价值取向不同的场景下。
这篇论文要解决的是:Bradley-Terry 这类标量奖励模型表达力不够,无法刻画语言模型对齐中常见的非传递偏好。过去很多 RLHF/偏好优化都默认存在一个单维 reward,使 A 胜 B、B 胜 C、就意味着 A 胜 C;但真实人类偏好常有循环和情境依赖,这让 BT 模型在训练和评测上都受限。
现有DPO等训练时安全对齐方法容易被越狱攻击,DPO的损失函数对于拒绝学习是次优的,无法同时实现鲁棒拒绝和有害知识遗忘。
KL正则化强化学习在RLHF中已被验证有实际效果,但现有理论分析要么退化为传统RL设定,要么依赖强覆盖假设,尚未给出在线上下文老虎机场景下的紧 regret 界。
基于似然的视觉生成模型(扩散、自回归)使用最小化前向KL的MLE目标,固有模式覆盖倾向会在模型容量有限时限制生成质量,此前两类生成范式(似然、GAN)无法有效融合。
现有基于Plackett-Luce (PL)、Bradley-Terry (BT)模型的偏好优化方法处理有害内容效果差、对不偏好回复的利用效率低,PL模型还存在排序计算成本高的问题。
大模型持续学习需要同时适配新任务和保留旧知识,现有方法计算开销大,任务相似度估计成本高,易发生灾难性遗忘。
传统「先全精度SFT再后训练量化(PTQ)」的流程无法利用微调与量化的协同效应,得到的低比特量化模型性能损失大,无法同时对权重、激活和KV缓存做低比特量化。
基于密码学原语的私有GPT安全推理延迟极高,现有逐token自回归解码的方案开销随生成长度线性增长,无法满足实际部署需求。
VLM中视觉感知和LLM推理能力的融合机制不清晰,现有方法需要额外训练数据和微调才能将LLM的推理能力迁移到VLM。
VLM智能体在线RL调优时,开放文本动作空间、动作生成非端到端的特性导致探索空间爆炸,现有方法对所有token均匀分配不确定性,探索效率极低。
现有分子-语言对齐方法用GNN将分子表示为平铺的节点token,忽略了分子固有的层级结构(如官能团的高阶生化语义),导致对齐效果差、幻觉严重。
现有VLM在极简单的双物体空间关系识别(如“在下方”“在后方”)任务上表现很差,现有研究未从机制层面解释这一缺陷的根源。
这篇论文要解决的问题是:现有 locate-then-edit 知识编辑方法在单跳事实修改上有效,但一到 multi-hop factual recall 就明显失效。过去这类方法默认要改的知识主要存放在浅层并可由单跳编辑提示激活;作者通过机制分析指出,多跳查询会调用更深 MLP 层里带隐式主语信息的知识,因此只改浅层会导致新知识在组合推理时用不起来。
这篇论文要解决的问题是:现有 Process Reward Model 大多只在数学推理上训练和评估,跨到法律等非数学领域后效果很差。过去社区默认 PRM 是一种通用 test-time verifier,但这个假设缺乏系统验证;作者先证明它并不通用,再尝试用合成 reasoning data 把 PRM 做成多领域版本。
这篇论文要解决的问题是:diffusion guidance 在经验上很有效,但理论理解长期停留在极简分布案例,无法解释一般数据分布下何时有效、有效到什么程度。过去的理论通常假设条件分布是各向同性高斯或一维区间支撑,这离真实生成任务太远;作者试图把 guidance 的分析推进到更一般的数据分布。
这篇论文要解决的问题是:面向用户开放的 fine-tuning API 带来了新的安全风险,用户上传的任意数据——无论恶意还是无意——都可能破坏原模型的安全对齐。现有防御方法往往对数据规模、任务类型和域差异不够稳,要么安全保住了但实用性大幅下降,要么保住性能却挡不住 alignment drift。
自回归模型在序列数据(如分子图)上的生成顺序通常是人为指定的(如 SMILES 字符串顺序),但最优生成顺序往往未知且依赖数据分布。本文要解决的是:如何让模型自己学出最佳的自回归分解顺序,而非依赖固定或随机排列。
当前 LLM 在多轮交互中缺乏目标导向行为——不会主动提问、收集信息或做出有利于长期目标的决策。现有 benchmark 也缺乏对多轮 RL 与 LLM 结合的系统评估。本文提出 LMRL Gym,一个专门用于评估多轮 RL 语言智能体的 benchmark 套件。
现有Transformer在真实世界多跳事实推理上表现差,以往grokking(从记忆到泛化的相变)研究都仅在小型合成任务上开展,无法迁移到真实稀疏知识场景。
现有测试生成工作都依赖现有代码生成用例,不支持补丁尚未存在的场景下从Issue直接生成测试用例,无法支撑TDD开发流程和SWE智能体的验证需求。
现有对比学习损失无法学习到对齐的多模态表示空间,因为表示中保留了大量模态独有信息,以往研究未从理论层面解释这一现象的根源。
这篇论文要解决的是:标准 Transformer 能高效传递对象自身的“感知信息”,但缺少一个显式处理“对象间关系信息”的计算通路,因此在关系推理任务上经常学得慢、泛化差。过去这类问题通常靠更多数据、位置编码技巧或专门的关系网络补救,但这些办法没有真正把“属性”和“关系”分开建模,所以一旦任务要求组合泛化,模型还是容易失效。
这篇论文关注的是:VLM 的安全对齐到底主要发生在图像编码器的哪几层,而不是把整个视觉塔当成一个黑盒。过去安全研究更常看整体输入输出行为,或者只讨论语言侧拒答,但这会掩盖一个关键问题:有害视觉语义是在视觉前端就被过滤、被放大,还是一直保留到跨模态融合后才被语言模型处理。
这篇论文要解决的是:数据剪枝在高剪枝率下往往显著掉点,因为被保留下来的子集无法完整承载原始数据分布的信息。过去的数据剪枝方法主要只优化‘选哪些样本’,训练时仍然只看硬标签,因此一旦子集太小,许多被删掉数据中的类间结构和暗知识就一起丢失了。
这篇论文解决的是:如何在世界模型里同时兼顾预测精度和训练效率。Dreamer 一类方法训练高效,但其紧凑 latent space 可能丢失对控制关键的细节;而更精确的像素级世界模型虽然补回了信息,却通常训练更慢,也难以让 agent 直接复用世界模型学到的内部表示。
现有机器遗忘方法需要更新大量模型参数,计算成本高,且会严重损害模型在相关和不相关任务上的性能。
现有越狱攻击研究都需要专业技术知识,未探索普通用户常用的简单多步、多语言交互场景下的安全漏洞,也未建立衡量越狱响应对有害行为支撑程度的量化指标。
现有分子生成扩散模型受限于分子的离散性,难以和自然语言这类复杂条件对齐,性能普遍弱于自回归(AR)模型。
现有LLM任务适配依赖人工整理数据集和耗时的LoRA微调,对超参敏感,无法仅通过任务的自然语言描述即时生成适配权重。
现有LLM对齐方法将多目标偏好优化视为加权求和问题,未匹配人类决策的满意即可逻辑,容易出现次要目标过度牺牲或主要目标不达标的问题。
现有LLM安全方法要么修改模型权重损害通用能力,要么依赖输入/输出层面的检测误报率高,无法在不损失模型能力的前提下高效执行多重安全约束。
Classifier-Free Guidance(CFG)是当前视觉生成模型的默认采样技术,采样时需要同时调用条件和无条件模型,推理延迟翻倍;现有无指导采样的蒸馏方法依赖预训练CFG模型,无法从头训练无指导生成模型。
这篇工作关注的是:在 MXFP4 这类超低精度训练下,Vision Transformer 容易出现训练震荡,导致收敛变差甚至失稳。过去低比特训练常靠损失缩放、量化校准或局部高精度回退来缓解,但这些办法未必能直接解决训练动态中的 oscillation 问题。
这篇工作要解决的是:静态 benchmark 很快过时,越来越难反映 LLM 在真实时间流中的泛化能力,尤其无法测“知识过期后性能如何衰减”。过去大多数评测默认问题集固定不变,因此更像一次性考试,而不是持续监控模型是否还能跟上世界变化。
基于Transformer的世界模型(TWM)在模型强化学习中存在训练不稳定、tokenizer动态变化导致学习目标漂移、长序列生成误差累积的问题,数据效率低。
LLaMA-Adapter使用的零初始化注意力在实验上效果优异,但缺乏理论支撑,prompt和门控因子的最优设计没有明确指导。
现有LLM在复杂决策场景中依赖短期自回归生成动作,无法准确模拟长期轨迹和评估结果,决策效果次优。
现有上下文强化学习(ICRL)方法在离线训练数据包含次优轨迹时,采用自回归模仿学习的训练方式会复制次优策略,无法泛化到新任务得到最优策略。
现有大模型压缩后的评测仅关注困惑度、GLUE等通用NLP指标,完全忽略了工具调用、长上下文、工作流生成等智能体能力,导致压缩后的模型实际部署到Agent场景时性能不可控。
现有文本遗忘方法的评估仅依赖下游任务精度、遗忘数据的困惑度升高等表层指标,无法验证是否真的删除了模型对目标文本的记忆,存在隐私泄露风险。
这篇论文要解决的是:多目标优化并不总是“目标冲突、找 Pareto 前沿”,在很多 ML 训练里目标是相关且可同时提升的,但缺少能在“大量相关目标”下可扩展的通用梯度方法。以往方法往往要求手动权衡或假设冲突结构,难以解释多任务/LLM 训练里常见的“互相促进”。
摘要缺失:无法确认论文对“表征可组合性(representational compositionality)”要形式化的具体对象,是针对神经表示的可加性/可分解性,还是针对组合泛化与机制解释。
摘要缺失:无法确认论文在“可抵抗再学习攻击的 LLM unlearning”中,具体把问题建模为 sharpness(损失曲率/尖锐度)相关的哪一类脆弱性,以及攻击/威胁模型是什么。
摘要缺失:无法确认论文要解决的 LoRA 痛点是容量不足、训练不稳定、还是与 MoE/对齐目标不兼容导致的性能上限。
摘要缺失:无法确认论文在“端侧协同语言建模”里要解决的核心约束是带宽、隐私、算力异构,还是多设备协作下的模型一致性与收敛。
这篇工作解决的是自回归视频扩散模型在长视频生成时的重复计算问题。现有方法把视频按 clip 自回归生成,后一段依赖前一段的末帧或条件帧,但相邻 clip 的重叠条件每一步都要重新编码,导致算力随自回归步数近似二次增长,长上下文时尤其不实用。
这篇工作要解决的是:扩散模型里广泛使用的 guidance 在理论目标和实际实现之间存在错位。现有做法通常把引导理解为对边缘分布做缩放,但作者指出这个目标在理论上并不成立,结果是很多经验上有效的 guidance 其实是在用一个不严格、但凑巧有用的近似。
这篇工作要解决的是:如何描述 LLM 内部表示沿层演化时的全局结构变化,而不是只做逐层静态快照。现有可解释性分析常在每一层单独测局部几何或聚类结构,再把结果拼起来,但这种做法看不到某种结构是在什么时候出现、持续多久、又在何处消失。
这篇工作指出,很多针对 LLM 的优化式越狱攻击其实优化错了目标。现有方法常把“让模型高概率接某句肯定式有害开头”当作攻击目标,但模型即便对这句前缀打高分,也未必会继续生成真正有害内容,所以如果用这类目标的失败率来衡量鲁棒性,往往会高估模型安全性。
这篇工作要解决的是:score matching 在数据缺失时几乎没有成熟通用方案,而现实数据常常在任意坐标子集上部分缺失。由于 diffusion、energy-based modeling 和图模型估计都依赖 score matching,缺失值问题如果处理不好,这些方法要么只能先做插补,要么只能在很受限的缺失模式下工作。
挑战当前以 scaling law 为主导的 LLM 发展路线,主张将研究重心转向 downscaling——在大幅降低资源消耗的同时尽量保持性能。问题背景是:持续扩大模型和数据规模带来的计算成本、环境影响和部署限制已经越来越难以忽视。
检测 LLM 中的策略性欺骗行为——模型在表面上配合但实际上隐藏真实意图的情况。这是对齐安全领域的核心问题之一:如果模型学会了欺骗,传统的行为评估可能失效,需要从内部表示层面进行检测。
CLIP 的视觉表示在细粒度感知上存在明显不足,导致下游多模态 LLM(如 LLaVA)在细节理解上失败。DINOv2 等视觉中心模型在细节捕捉上更强,但其表示与文本不对齐。本文要解决的是:如何在保持文本兼容性的前提下,将 CLIP 的视觉表示与 DINOv2 对齐以增强细粒度感知。
现有推理和检索评估 benchmark 存在数据污染风险——模型可能在预训练阶段就见过测试数据。PhantomWiki 提供按需生成的合成数据集,确保评估时模型面对的是全新内容,从而更可靠地衡量推理和检索能力。
持续学习(continual learning)的 scaling 极限在哪里?标题中的'lazy'暗示与 lazy training regime(NTK regime)的联系——模型参数变化小、接近线性化的训练状态。本文可能研究的是:在持续学习场景下,模型的 scaling 行为是否存在根本性限制,以及这些限制与训练动态的关系。
大模型API的prompt缓存机制会产生响应时间差异,共享缓存会导致侧信道攻击风险,攻击者可通过响应时间推断其他用户的缓存prompt,而现有API厂商未公开缓存策略,用户无法感知隐私风险。
现有研究认为LLM的注意力机制处理图结构数据的性能远低于GNN等专用模型,但缺乏对注意力行为的实证分析,无法明确性能瓶颈的具体成因。
经典整流流匹配用MSE损失学习速度场,相同位置的多模态真实速度会被平均为单模态速度,导致生成样本的多样性不足,多模态分布拟合效果差。
现有基于知识图谱的结构化RAG方法虽然提升了关联推理能力,但在基础事实记忆任务上的性能比标准向量RAG下降15%以上,无法兼顾事实记忆与关联推理能力。
现有扩散模型的生成效果评估仅关注视觉质量、FID等指标,忽略了对图像特征间隐藏逻辑规则(如光照与阴影的对应关系、物体与镜像的对称关系)的建模能力评估,导致生成样本存在逻辑不一致问题。
这篇论文要解决的是结构化剪枝的静态性问题:传统 pruning 训练出一个固定子网络,默认所有输入共用同一套激活参数,但 instruction-following LLM 的任务分布高度异质,不同指令真正需要的子电路并不相同。固定 mask 的结果通常是平均意义上可接受,但对具体任务既不够高效,也牺牲性能。
这篇论文要回答的是:现有 VLM/LVLM 真的理解 diagram 这类 visual language,还是只是借助表面模式和语言先验做近似匹配。过去很多多模态基准把自然图像理解和图文问答混在一起,难以隔离“视觉符号系统理解”这一更结构化、更接近推理的问题;作者因此专门把 diagram comprehension 拿出来做系统测量。
这篇论文试图解决 diffusion 采样串行性的问题:标准 DDPM 需要一步步去噪,天然延迟高,很难像 AR speculative decoding 那样并行加速。作者从标题给出的判断是,扩散模型里存在某种“secretly exchangeable”的结构,因此可以借助 auto speculation 做并行化,而不需要完全改写模型范式。
这篇论文解决的是 context caching 的一个现实瓶颈:现有 KV cache 复用通常要求请求之间有完全相同的前缀,因此在 few-shot learning、RAG 等场景里,即便核心文档内容相同,只要前面拼的指令、示例或检索顺序不同,就没法复用。问题不是模型不会算,而是 serving 系统把‘相同内容处在不同位置’当成了完全不同的上下文。
DPO 用于对齐 diffusion model 时,正负样本之间视觉差异过大(visual inconsistency),导致模型难以学到真正影响对齐的因素——它分不清哪些视觉变化是因为对齐好坏,哪些只是随机噪声带来的无关差异。
LLM 剪枝(sparsification)时,各层稀疏率的分配缺乏理论指导。现有方法忽略了一个关键问题:前层的重建误差会在后续层中传播和放大(reconstruction error explosion),导致整体性能严重下降。
LLM 经过 fine-tuning 后安全对齐可能被破坏(harmful fine-tuning attack),即用少量有害数据微调就能让已对齐的模型重新产生有害输出。本文提出一种 post-fine-tuning 的安全恢复方法 Antidote。
大型视频模型(LVM)在视频理解中存在与人类直觉不对齐和视频幻觉问题,现有 DPO 方法只做整体偏好对齐,缺乏对视频时空层次结构的细粒度对齐。
LLM 经过 instruction tuning 后,置信度校准(calibration)显著退化——模型变得过度自信,输出概率不再准确反映正确率。现有 SFT 流程普遍忽略了这个问题。
在 DPO 等偏好对齐方法中,选择偏好数据对时应该用大 reward margin 还是小 reward margin?这个看似简单的数据选择问题缺乏系统研究。
这篇论文的核心问题与结论无法从当前信息确认,因为未提供摘要与关键设定。
这篇论文要解决的是:扩散生成模型的 memorization 如何被可解释、可度量地刻画,并能在生成早期就预警与缓解。以往 memorization 指标多是经验性的相似度或后验检测,难以连接到模型概率几何与可干预的训练/采样变量。
这篇论文解决的是:现有模型编辑方法很难稳定修改长形式知识,尤其是诗歌、代码、数学推导这类不能靠改单个 token 就完成更新的内容。过去很多方法默认“知识集中在某个关键 token 的隐藏状态里”,这对短事实编辑还凑合,但一旦目标知识跨多个位置展开,就会碰到作者说的 efficacy barrier:单点编辑无法保证全局生成一致。
这篇论文回答的是一个很实际但常被粗糙处理的问题:在异构 GPU 环境下,LLM serving 怎样才能真正做到成本效率最优。过去很多系统默认用同构 GPU 部署,因为调度和容量规划更简单,但请求的计算/显存需求差异很大,结果就是要么高端卡被低负载请求浪费,要么便宜卡扛不住长上下文和大 batch,整体成本效率被拉低。
这篇论文的核心问题是:链式思维(CoT)在大多模态模型里到底有没有稳定提升,以及它提升了什么、牺牲了什么。过去 CoT 在纯文本 LLM 里效果显著,但在 LMM 中一直缺少系统评测,很多结论停留在零散 case study,因为多模态推理同时掺杂了视觉感知误差、OCR 噪声、步骤冗余和解码成本,不能直接照搬文本结论。
这篇论文解决的是 PTQ 里的一个关键缺口:现有量化方法要么没利用最终 loss 对隐藏特征重要性的指导,要么即使用了 end loss,也常把权重当成彼此独立处理,忽略同一输出通道内的交互。结果就是量化误差可能在局部看小,但沿网络传播后对真实任务损失并不友好。
残差向量量化(RVQ)的深度越深,生成模型的推理步数越多,生成速度越慢,无法兼顾高保真度与高推理速度。
标准PEFT方法(如LoRA)在仅数百样本的低资源微调场景下效果受限;此前的激活编辑方法参数极少适合小数据集,但严重依赖正确定位待编辑模块,跨数据集稳定性差。
现有文本生成音频(TTA)模型的研究零散,数据、架构、训练目标、采样策略对最终效果的影响没有系统性结论,业界缺乏统一的设计参考框架。
这篇工作要解决的是:现有 LLM 评测大多只看答案对不对,却很少测模型是否会主动识别自己不知道、信息不够或推理前提不稳,这就是所谓 epistemic agency。这个问题以前常被“校准”“拒答率”局部替代,但那只能测结果,不够测模型是否会反思证据缺口、主动修正假设或请求更多信息。
这篇工作要解决的是:多领域微调时,不同样本之间并不是独立的,样本间关系会随训练动态变化,但现有方法通常只在 batch 或 loss 权重层面静态处理。结果是模型容易被高资源域主导,或者在领域冲突时学到对谁都不太好的折中解。
这篇工作要解决的是:LoRA 虽然高效,但它的低秩参数化是否让模型在训练时更容易被数据投毒或后门攻击成功。过去大家主要关注 LoRA 的效率、容量和可迁移性,很少系统分析低秩结构对安全鲁棒性的影响;这在实际部署里是个空白,因为很多组织默认参数更少就更安全,但这个结论并不成立。
这篇工作要解决的是:很多状态空间模型沿用 HiPPO 初始化,但 HiPPO 默认观测无噪声,这在真实序列数据里往往不成立。结果是初始化的动态系统对噪声过于乐观,模型在含测量噪声的场景里可能学得慢、收敛差,或者对长序列记忆形成不稳。
现有大模型逻辑推理能力的评估缺乏复杂度可控的标准化基准,无法系统性衡量模型在复杂非单调推理任务上的缩放边界,过往评估大多依赖人工构造的固定难度数据集。
现有医疗视觉语言大模型(Med-LVLM)大多只能做单方向的视觉理解或内容生成,无法在统一范式下同时支持两类任务,且在医疗领域知识适配的效率较低。
这篇论文要解决的是:LLM 在“偏好/判断”类问题上经常自相矛盾,导致同一模型在等价改写、否定或交换顺序后给出不一致结论,而现有评测往往只看准确率、很少系统量化这种逻辑一致性。
这篇论文要解决的问题是:扩散生成里是否真的需要大模型和多步采样,还是可以把能力更多地放到后训练的打分器上。过去很多工作默认生成器越大、采样步数越多越强,但这条路线推理成本高,而且常把“生成能力”和“选择能力”混在一起评估;作者试图把两者拆开,检验小型一步模型配合 score post-training 是否能更高效地取代大型 diffusion。
这篇论文要解决的问题是:当前对“抽象能力”和“推理能力”的评测定义含混,容易把表面模式匹配误判为真正推理。现有 benchmark 往往靠题目集合来代表能力,但缺少理论视角去拆分任务结构、控制捷径线索和定义泛化边界,所以作者试图从更形式化的角度重做评测。
这篇论文要回答的是:多模态大模型在真正需要视觉抽象与规则归纳的任务上,推理到底有多强。作者选 Bongard Problems 作为案例,是因为这类任务很难靠表面统计或语言先验蒙对,能比较干净地测模型是否学到“哪种视觉关系构成同一概念”。
这篇论文要解决的是一个更基础的问题:grokking 和 emergent behavior 是否真是神经网络特有现象。过去关于 modular arithmetic 上的 grokking 大多在神经模型里讨论,作者现在把问题放到 non-neural models,并用 average gradient outer product 这类分析量来解释涌现行为的形成。
现有多模态Transformer的自注意力动态融合机制会出现退化,模型会固化偏向某一模态,形成自强化的模态偏见,导致注意力的动态适配能力失效,在模态质量波动的场景下效果下降。
现有扩散模型的泛化行为缺乏可解释的机制性解释,过往研究大多从经验层面调优,没有从底层机制层面说明扩散模型为什么能泛化到训练分布外的样本。
现有越狱攻击的评估仅关注是否能绕过模型护栏,没有评估越狱后输出内容的实际有用性,业界普遍默认越狱后的输出是高质量可用的。
现有知识编辑方法会导致模型的全局事实召回和推理能力下降,但背后的机制没有被解释,过往研究仅从效果层面观察到负面影响,没有深入底层表示变化的原因。
机器人领域预训练无法复刻NLP/CV领域的大规模无标注预训练效果,现有方案要么依赖成本极高的机器人交互标注,要么使用的2D/手工状态表示无法有效建模物理世界的时空约束。
现有稀疏自编码器(SAE)的线性-非线性编码机制限制了稀疏推理的准确性,此前相关工作默认SAE自带编码器可完成准确稀疏特征提取,未从理论层面验证该结构的能力上限。
多模态大模型(MLLM)在输入分布偏离指令微调分布时性能下降严重,此前相关工作仅开展实证评估,没有可量化最坏风险的正式理论框架,无法支撑真实场景的安全落地。
这篇论文要解决的是:在低资源条件下,能否不用大规模 Transformer 也学到有语义性的语言表示。现有做法基本靠规模和数据量兜底,结构化模型虽然样本效率更高、也更可解释,但通常性能不够强,所以一直没有成为主流替代方案。
这篇论文解决的是 diffusion guidance 太碎片化的问题:现有引导方法往往为特定任务手工设计,或者需要额外训练模型,缺少一个能统一解释并直接作用于预训练 diffusion 轨迹的框架。这个问题重要,因为在生成模型越来越通用后,真正稀缺的不是先验模型本身,而是如何低成本地把它拉向新约束和新目标。
这篇论文要解决的是:现有基于隐藏状态的幻觉检测,受限于原始表示空间并不是为“真实性分离”而训练的,所以 truthful 和 hallucinated 输出常常混在一起,导致检测边界不清。也就是说,问题不只是分类器不够强,而是输入表征本身不好分。
这篇论文要解决的是:grammar-constrained decoding 在理论上能保证结构化输出合法,但实际部署时预处理太慢,尤其当 CFG 和子词 tokenizer 对齐复杂时,离线成本高到影响可用性。过去方法能保证 soundness,却常常要为常见语法花几十分钟做预处理,这使它很难进入高频生产场景。
离散扩散模型(如 D3PM、SEDD、MDLM 等)的理论收敛保证此前要么依赖较强假设,要么 bound 不够紧。这篇工作要在最小假设下给出离散马尔可夫概率模型的尖锐收敛界。
In-Context Reinforcement Learning(ICRL)让智能体在推理时通过试错学习,类似 LLM 的 in-context learning 但目标是最大化奖励。之前 ICRL 只在玩具任务和单一领域验证过,能否扩展到跨领域的通用动作模型是开放问题。
很多程序合成任务对 SOTA LLM 来说一次生成就解决太难了,而基于搜索的进化方法受限于底层生成模型的固定能力。如何让 LLM 在进化搜索中自我改进,形成正反馈循环?
线性循环神经网络(linear RNN)的训练动态尚未被充分理解。这篇工作分析 linear RNN 在训练过程中的学习动力学特性。
RLHF 的输入数据集中,问题和答案的分布往往不均匀,添加近似重复的选项(approximate clones)可能会扭曲学到的奖励函数。之前的 RLHF 算法没有考虑这种鲁棒性问题。
ICL(in-context learning)中 few-shot 示例的选择对性能影响很大,但候选组合数指数级增长,如何高效找到最优的 top-m 示例集合是一个开放问题。之前的方法要么穷举评估,要么启发式选择。
持续指令微调(Continual Instruction Tuning, CIT)中,标准梯度更新会严重破坏模型在之前数据集上的性能(灾难性遗忘)。EMA(指数移动平均)能缓解遗忘但其固定的平衡权重无法适应不断变化的数据分布,导致可塑性和稳定性失衡。
文本到图像扩散模型经常无法生成prompt指定的概念,此前工作仅关注prompt工程或推理时激活引导,没有系统研究概念在隐空间的可达性规律与数据集约束的边界。
这篇论文要解决的是:如何把 LLM 的权重、激活和 KV-cache 都压到 4 bit,同时尽量不把困惑度和下游质量打坏。过去很多 PTQ 方法在单一张量类型上能做得不错,但一旦对全链路统一低比特量化,误差会在矩阵乘里叠加,尤其激活和 KV-cache 往往成为真正的瓶颈。
这篇论文要解决的是:在 W/A/KV 全 4-bit PTQ 场景下,如何处理激活中的强异常值,否则泛化能力会明显掉。过去很多低比特方案的问题不在平均量化误差,而在少数高方差方向把误差放大,导致模型在长链矩阵乘和缓存复用中快速失真。
无法根据当前信息可靠总结。标题暗示论文讨论让 LLM 以更低 test-time compute 完成推理,可能涉及推理路径压缩、并行思维或解码控制,但没有摘要就无法判断它是在做训练方法、推理策略还是评测论证。
现有LLM联邦微调方案普遍采用参数高效微调(PEFT)降低通信开销,但会显著损失模型精度,没有可扩展的方案能同时兼顾全参数微调的精度和低通信成本。
领域默认噪声条件是去噪扩散模型正常工作的必要组件,该假设从未被系统验证,限制了扩散模型的架构简化和效率优化方向。
现有无训练多任务模型合并方案通过累加任务向量集成能力,容易出现知识冲突导致合并后性能下降,没有无训练的冲突解决机制。
现有低秩专家混合(MoE-LoRA)微调方法的鲁棒性差,训练和推理阶段都不稳定,此前工作未从优化层面解决LoRA专家的训练问题。
上下文无关文法约束的LLM解码每步需要检查全词表token合法性,开销极高,现有约束解码引擎未解决该性能瓶颈,而函数调用、DSL生成等场景对输出结构合规性有强制要求,该问题无法回避。
现有LLM推理优化仅集中在数学题、单一视觉图形输入场景,未覆盖通用视频理解的推理需求,当前没有开源的面向通用视频理解的推理增强音视频大模型。
这篇论文要解决的问题很明确:现有 LLM 安全评测把单条 query 当作孤立样本,忽略上下文,结果既测不准真实风险,也会把安全场景里的正常请求错判成该拒绝。过去很多 benchmark 默认“有害问题=应拒绝”,这种设定适合做粗粒度红队,但不适合评估模型是否真正理解语境中的许可边界,因此现在需要一个把上下文显式纳入的安全基准。
这篇论文要解决的是:语言模型在需要主动探索和基于反馈调整策略的任务上,通常只会局部模仿,不会形成可迁移的‘信息采集能力’。以前这类能力多靠特定环境里的 RL 学出来,迁移性差、成本高,因此作者想用更便宜的合成交互数据,把通用决策和探索习惯直接蒸进模型。
这篇论文想解决的是 foundation agent 跨软件/跨虚拟环境泛化差的问题,核心症结在于每个环境都手工定义了不同 observation 和 action space,模型学到的是接口适配而不是通用计算机控制。过去很多 agent 在单平台上表现不错,但难迁移,所以作者把问题重新表述为统一的人机接口:看屏幕、用鼠标键盘。
这篇论文要解决的是 diffusion model 如何在不重新训练模型的情况下,按连续 reward 在采样时对齐生成分布。过去常见做法要么训练额外 guidance / reward model,要么做模型级微调,成本高且目标切换不灵活;作者的目标是把对齐动作下沉到 inference-time。
这篇论文解决的是边缘设备上的语言模型如何兼顾可部署性和能效,尤其是在 neuromorphic hardware 上,Transformer 里的 softmax 和 LayerNorm 很难直接实现。以往一些 spiking Transformer 为了适配硬件会绕开这些操作,但代价是语言建模能力受损,因此作者尝试做一个更‘硬件友好’但仍保留 Transformer 主体的 SNN 语言模型。
这篇论文要解决的是知识编辑研究长期存在的外部效度问题:很多方法只在小规模、合成、一次性编辑基准上看起来有效,但面对真实世界持续到来的大量事实更新时,效果和稳定性都不清楚。模型部署需要的是 lifelong knowledge editing,而不是实验室里的少量单点修改,因此作者先做了一个足够大的真实编辑基准来测上限和失效模式。
代码生成任务中,LLM生成的代码token越多,对用户prompt的注意力越低,导致生成代码不符合用户意图,现有方法未针对性解决该注意力稀释问题。
边缘设备长上下文推理中KV缓存是内存和延迟核心瓶颈,现有投机解码方法KV缓存优化效率低、草稿token接受率低,无法获得明显加速效果。
LoRA作为主流参数高效微调方法,理论理解不足,现有LoRA的低秩矩阵估计需要指数级数据才能达到指定误差,收敛速度慢。
大模型全基准评估成本极高,无法频繁开展,现有子集采样评估方法的得分受基准难度混淆,结果不可靠。
自注意力作为Transformer的核心组件,理论基础不清晰,现有理论分析无法解释自注意力在多领域的泛化和涌现能力。
Transformer的因果推理能力弱,主动干预训练成本过高,现有因果推理训练方法要么加入归纳偏置要么从数据值推断,泛化性差。
这篇论文要解决的问题,是让 LLM 获得文本里很难学到的“物理感知”,尤其是通过声音体现出来的基础物理现象。过去多模态 LLM 更擅长语义对齐和描述性理解,但对多普勒效应、混响/多径、空间方位这类依赖真实物理传播机制的现象理解很弱,主要因为可控、成体系的训练数据非常稀缺。
这篇论文要解决的问题是:现有 LLM 公平性评测只看离散正确率,忽略了模型对不同群体“不一样确定”的偏差,因此会漏掉真实的不公平。过去很多 fairness benchmark 在任务上等价地比较 accuracy,但如果模型对 A 群体总是更自信、对 B 群体总是更犹豫,即使表面准确率接近,这种内在偏置仍然会影响实际部署决策。
这篇论文要解决的问题是:ICL 依赖高质量 demonstration,但这些样例往往分散在各个客户端且不能直接共享,导致隐私约束下的 ICL 很难真正利用分布式数据。现有方案要么传模型参数、通信太重,要么只做很弱的示例聚合,没把本地数据价值用出来。
从标题看,这篇论文关注 ICL 中一个很实际的问题:示例选得对不对,往往比 prompt 模板本身更决定效果,而现有 demonstration selection 多依赖启发式相似度或贪心策略。作者想解决的是如何直接以最终任务收益为目标,学习一个更有效的示例选择策略。
这篇论文要解决的问题很明确:VLM 推理太贵,而现有 token pruning 和 neuron pruning 各做各的,没有利用两者之间的耦合结构。过去主流假设是 token 稀疏和 neuron 稀疏彼此独立,因此分别优化;作者质疑这个前提,认为如果关键 token 和关键 neuron 存在匹配关系,就能做更彻底的联合加速。
从标题看,这篇论文关注一个比标准 unlearning 更难的问题:即便后续还有意料之外的下游微调,已经做过的遗忘能否保持有效。许多遗忘方法只在静态模型上成立,一旦再 fine-tune,被删掉的知识可能通过表示迁移或参数回填重新冒出来。
当前大型视觉语言模型(LVLM)在视觉感知上经常出错且缺乏自我纠正能力。本文提出一种'反思式感知'范式,让模型通过迭代反思来逐步修正视觉感知结果,而非依赖一次性推理。
Matryoshka Representation Learning(MRL)是当前实现自适应嵌入长度的主流方案,但需要完整重训模型,且在短嵌入长度时性能下降明显。本文提出用稀疏编码作为替代方案,在不重训原模型的前提下实现自适应表示。
可控文本生成(满足特定约束的生成)在自回归LM中通常需要在解码时施加约束,但现有方法要么需要微调,要么在推理时引入高计算开销。本文提出基于概率推理的方法来实现可控生成。
解决多语言文生图(T2I)模型训练成本高、依赖高质量多语言标注数据的问题。以往方法通常需要收集大规模、高质量的多语言图文对进行微调,成本高昂且难以扩展到长尾语言。
评估 LLM 的推理能力是否源于真正的逻辑推理,而非对训练集数据的统计记忆。现有基准测试难以区分这两者,导致对 LLM 真实推理能力的评估存在偏差。
分析并提升 Looped Transformers 在函数逼近方面的表达能力。虽然 Looped Transformers 在参数效率和推理任务泛化上具有优势,但其表达能力的理论边界尚不清晰。
这篇论文解决的是 RWKV 在资源受限设备上的部署问题,具体是 Transformer 上常用的 PTQ 方案迁到 RWKV 时精度掉得明显、还带来额外算子开销。以前很多量化工作默认不同架构共享同一套经验,但 RWKV 的非线性和权重分布特性让这个假设失效了。
从标题看,这篇论文解决的是差分隐私约束下的 in-context learning 精度下降问题,并尝试用 plausible token amplification 改善隐式贝叶斯推断的效果。传统 DP 机制会扰动示例或统计量来保护隐私,但这通常直接削弱 ICL 依赖的上下文证据质量。
这篇论文解决的是多任务模型合并中的老问题:全局方法容易参数互相干扰,局部方法虽然更细,但常常保不住真正有用的任务特征。过去 task arithmetic 一类方法默认不同任务增量可以线性叠加,但任务冲突和局部细节丢失使这个假设很脆弱。
这篇论文解决的是:现有 jailbreak 研究很多依赖人工技巧或暴力搜索,未必能覆盖真实世界里更自然、更隐蔽的攻击方式。作者关注的不是再堆一个 prompt attack,而是利用人类启发式与认知偏差来系统诱导 LLM 做出不理性选择,暴露安全防护中的认知型脆弱点。
从标题看,这篇论文要解决的是在强化学习里实现可控偏好,也就是在多个目标之间根据用户或系统指定偏好做可调节优化。传统多目标 RL 常常要么固定标量化权重,要么在偏好变化时重新训练,灵活性和样本效率都不理想。
基于 task vector 的模型合并(model merging)面临参数冲突问题,现有稀疏化方法存在高参数重叠和权重分布不均衡两个瓶颈,导致多任务合并后性能下降。
MoE 模型虽然高效但缺乏可解释性——每个 expert 学到了什么、路由决策的依据是什么,目前基本是黑箱。本文探索让 MoE 具备内在可解释性。
LLM unlearning 中 loss reweighting 被广泛使用但其机制不清楚——到底应该强调哪些数据、为什么有效、最优策略是什么,都是开放问题。
偏好学习(preference learning)的样本效率受限于特征空间维度——经典理论要求样本数线性于维度 d。在高维特征空间和标注成本高昂的场景下,这个线性依赖是瓶颈。
LLM 的强化学习训练中,prompt 的质量和多样性直接影响 RL 的效果,但如何系统性地演化和优化 prompt 缺乏研究。本文提出用 reward 信号引导 prompt 的进化。
数据中心的 AI 对齐(data-centric AI alignment)面临哪些挑战和未来方向?这是一篇 position paper,系统梳理从数据角度改进对齐的问题空间。
探索如何用理论指导和改进 LLM 的 LoRA 微调算法。现有的 LoRA 初始化和优化过程往往缺乏严格的理论保证,导致收敛速度和泛化性能可能次优。
解决大语言模型分布式推理中,模型并行带来的跨 GPU 通信瓶颈问题。现有的系统级优化难以完全掩盖通信延迟,限制了多设备扩展的收益。
这篇论文要解决的是:Transformer 的参数空间等价性不应只由 permutation symmetry 来刻画,连续的 rotation symmetry 也很关键,尤其对模型融合有帮助。过去模型融合常借助 MLP/神经元置换对齐,但 Transformer 的自注意力层结构更复杂,离散置换能利用的等价空间有限,所以融合效果常受限。
这篇论文要解决的是:现有安全对齐过度依赖直接拒答,导致能力损失和 jailbreak 脆弱性并存。作者认为问题不只是安全数据不够,而是模型没有学会先分析风险、再决定如何回应;缺少这个中间推理层,就容易出现表面守规矩、实际可绕过的安全行为。
从标题看,这篇论文要解决的是:如何用强化学习来微调 diffusion 生成模型,并且把连续时间 diffusion 中的 score 视作 action 来处理。这个问题值得做,因为 diffusion 模型的后训练一直弱于 AR 模型:AR 很容易接 RLHF / DPO 一类框架,而 diffusion 的生成是多步连续过程,信用分配和策略定义都更麻烦。
解决数据集推断(DI)方法在实际应用中缺乏与受损数据集分布紧密匹配的私有保留集(held-out data)的问题。现有 DI 方法依赖这种难以获取的数据来判断模型是否使用了特定数据集进行训练。
解决 LoRA 微调中适配器容易陷入初始化附近次优极小值的问题。这会阻碍模型泛化,并限制适配器合并和剪枝等下游操作的效果。