International Conference on Machine Learning
这篇论文要解决的是:语言模型做 lifelong pretraining 时,数据分布持续变化会导致旧知识遗忘和新领域适应相互冲突,能否用专家分化来同时兼顾。传统 continual pretrain 常用重放、采样配比或参数高效更新,但当分布漂移足够大时,共享参数会在迁移和干扰之间反复拉扯。作者的思路是让专家对不同分布专门化。
这篇工作要解决的是:人类偏好通常只在 post-train 阶段通过 RLHF 或 reward model 使用,能不能更早地进入语言模型预训练。过去做法默认先学“下一个 token 分布”,再用偏好数据做后处理;这篇论文在问,偏好信号如果前移到 pretraining,会不会学到更符合人类偏好的表示和生成分布。
这篇论文的核心问题是:音频预训练到底该学连续波形上的局部声学模式,还是先建立一套足够好的离散声学 token,再像语言模型一样做序列建模。此前自监督语音/音频方法多在连续特征上做 masked prediction 或对比学习,能学到鲁棒表征,但对统一生成式建模和跨任务迁移的接口并不理想。BEATs 重新把焦点放到 acoustic tokenizer 上。
这篇工作想解决的是:推理精度到底需要多高,尤其 4-bit 是否已经进入“足够好”的区间,而不是继续把带宽和显存浪费在更高位宽上。过去量化常被当成工程补丁,很多结论依赖单模型单任务,缺少类似 scaling law 的整体视角来回答‘随着模型变大,k-bit 误差会怎样变’。
这篇工作针对的是 ELECTRA-style 预训练里一个长期被低估的问题:generator 的优化到底在帮什么忙,为什么 generator 训练不好会直接拖累 discriminator 学到的替换检测信号。过去很多工作把 ELECTRA 看成‘小生成器 + 判别器’的工程组合,generator 常被当附属模块处理,但它其实决定了负样本质量,也决定了预训练信号是容易还是有信息量。
这篇工作的核心问题是:大语言模型能否直接作为 embodied agent 的统一中枢,同时处理视觉感知、语言理解和机器人控制,而不是把感知、规划、控制拆成多个模块串联。过去机器人系统往往在每个环节单独训练,导致跨任务泛化和任务描述灵活性都受限,也很难利用大规模语言预训练形成的世界知识。
这篇论文研究的核心问题是:reward model 被过度优化时,性能会何时、以多快速度偏离真实目标。RLHF 流程里大家早就知道“把奖励刷太高会 reward hack”,但此前多是经验现象,缺少可量化的尺度规律。作者试图给出一个 scaling law 视角,回答 overoptimization 与模型大小、优化强度、奖励模型误差之间的关系。
这篇论文想回答一个很实用的问题:在极其受限的硬件条件下,能否把语言模型训练压缩到“单卡一天”这个量级,并且仍然保持可研究的质量。过去大多数 LLM 研究默认依赖多卡、大 batch 和成熟分布式栈,导致很多训练配方难以复现,也难以做快速方法迭代。作者试图证明,经过系统级与配方级重构,小规模资源也能完成有意义的 LM 预训练。
LLM 对长尾知识(训练数据中出现频次低的事实)的记忆和回答能力很差,但之前缺乏系统性的量化分析。本文要回答:模型对某个事实的掌握程度与该事实在预训练数据中的出现频次之间到底是什么关系?
这篇工作要解决的是:如何让语言模型原生处理图像输入并生成多模态输出,而不是把视觉编码器和文本解码器松散拼接。过去很多 VLM 更像“图像特征接一个语言头”,输入输出接口不统一,难以自然扩展到图像生成、编辑和更细粒度的 grounded generation。
这篇论文解决的是:Transformer 自回归解码严格串行,推理延迟高,而大模型的大部分时间都耗在逐 token 前向上。过去常见加速手段要么改模型、牺牲分布一致性,要么只优化内核和并行,无法改变串行瓶颈。
这篇论文解决的是:离散文本生成很难直接套用扩散模型,因为文本 token 不像图像像素那样天然连续,简单在词嵌入空间做扩散往往训练-生成不一致、生成质量也不稳定。过去很多 diffusion LM 工作停留在从零做离散扩散或 masked denoising,难以扩到预训练规模。
这篇论文的结论很明确:RNN 并没有被长序列任务彻底淘汰,关键问题不是“递归一定不行”,而是过去训练和参数化方式不对。Transformer 在长序列上效果强,但计算和缓存成本随上下文增长很重;如果能把 RNN 的稳定性和并行训练问题处理好,它在长上下文场景仍有竞争力。
这篇论文的核心结论是:Transformer 的 in-context learning 不只是模仿表面模式,它在某些设定下学会了类似梯度下降的内部更新规则。过去大家知道 ICL 像是“隐式从 prompt 中学”,但这种学习到底对应什么机制并不清楚;作者试图把它和优化过程建立更明确的对应关系。
这篇论文的核心结论很明确:LLM 做后训练量化时,真正难的不是权重量化,而是 activation outlier 导致的量化困难;SmoothQuant 通过把激活中的极端幅值平滑迁移到权重里,解决了 W8A8 PTQ 的主要障碍。过去很多工作只能做 weight-only 量化,原因不是大家不知道低比特有价值,而是 activation 分布太尖,直接量化会让精度迅速崩掉。
这篇论文的核心结论很明确:Transformer 训练中的一类不稳定现象可以归因于注意力熵塌缩,控制这个量能显著提升训练稳定性。过去大家常从学习率、归一化、初始化或梯度爆炸角度解释 loss spike,但注意力分布过早变尖锐这一机制没有被充分当成一等公民处理。
这篇论文的核心问题是:现有指令微调让模型学会了模仿答案格式,但不一定真正理解用户意图,能否用 hindsight 信号把失败案例转成更有效的监督。传统 instruction tuning 依赖静态指令-回复对,错误答案常常只是被丢弃,没有被转化成额外学习信号。
这篇工作的核心问题从题目就很明确:在大模型里,一味追求架构简洁并不总是高效,Brainformers 试图用更复杂但更省算/省内存的设计来换取实际效率。这个问题值得关注,因为很多 Transformer 变体在理论上更优,但训练和推理系统上的真实收益常被简单性假设掩盖。
这篇论文要解决的是:文本生成中的 RL 如何利用离线数据提升优化效率,同时避免纯 offline RL 常见的分布外动作偏移。传统 RLHF 或在线策略优化样本代价高、训练不稳;而纯离线方法虽然便宜,但策略一旦偏离行为分布,价值估计就容易失真。作者提出 semi-offline RL,试图在二者之间找到可训练的折中。
这篇工作要解决的是:能不能用一个统一模型同时做多语言语音理解与文本语言任务,而不是把 ASR、ST、文本任务分别建模再靠任务特定微调去拼。过去这类系统通常在任务边界和模态边界上切得很开,导致参数复用差、跨语言迁移弱,也很难回答“语音 LM 和文本 LM 能否共享表示”这个更基础的问题。
这篇工作研究的不是提升性能,而是回答机制解释里一个更基础的问题:不同网络在学同一任务时,是否真的会学到相似的特征和电路。过去“universality”常被当作解释工作可迁移的前提,但证据多来自经验类比;作者选了群运算这个可完全控制的玩具任务,试图把“网络到底学了什么”反推到足够具体。
这篇工作研究的是:大语言模型能否在 RL 预训练阶段充当外部先验,帮助 agent 更快学到有用行为,而不是等到后期再做人类反馈或文本辅助。传统 RL 预训练尤其在稀疏奖励和开放任务里很低效,原因不是模型不会优化,而是早期探索缺少结构化引导;LLM 恰好携带常识、任务分解和语言先验,因此值得前移到 pretraining 阶段使用。
这篇论文讨论的核心问题是:为什么做差分隐私或私有数据训练时,公开预训练几乎成了必要条件。以往很多工作把“先公共数据预训练,再私有数据微调”当经验技巧使用,但缺少对其必要性的明确解释。作者想说明这不是工程习惯,而是隐私约束下样本效率和泛化能力共同决定的结果。
这篇论文解决的问题很明确:让语言模型在数学和符号推理任务上少靠“在 token 空间里硬算”,多把可执行计算交给程序。此前 chain-of-thought 已经证明显式中间步骤有帮助,但纯自然语言推理在算术、变量绑定和组合泛化上仍然容易出错。作者因此把焦点放在一个更工程化也更稳的方向:LM 负责把问题翻译成程序,解释器负责执行。
这篇论文研究的核心问题是:Transformer 在结构上能否实现类似程序执行的迭代计算,而不只是做固定深度的模式匹配。标准 Transformer 每层只过一遍,表达力强但计算轨迹长度固定,因此很多算法性任务需要靠加深网络硬塞。作者提出 looped transformer 这一设定,想验证参数共享下的循环迭代是否能让模型更像可编程计算机。
这篇论文关注的核心问题是:如何把基于偏好的语言模型对齐写成一个更统一、更可分析的优化问题,而不局限于现有 RLHF 的特定形式。过去从 preference data 学 policy,多数工作落在 Bradley-Terry + PPO / KL regularization 这套组合上,方法有效但解释分散。作者尝试用 f-divergence minimization 给出一个统一视角,说明不同对齐目标其实是同一家族的特例。
Pipeline parallelism 训练大模型时,各 stage 之间的内存占用严重不均衡——前面的 stage 需要缓存大量 activation 等待反向传播,后面的 stage 则相对空闲。这种不均衡导致整体内存利用率低,限制了可训练的模型规模或 batch size。
离散生成模型(如语言模型、离散 diffusion 模型)的训练损失函数选择缺乏系统性的理论指导。交叉熵是默认选择,但它是否是最优的?本文从 proper scoring rule 的理论框架出发,系统分析适用于离散生成模型的损失函数。
这篇工作要解决的是:很多视觉语言任务并不只是“看图说话”,而是要理解截图、界面、文档和图表里的复杂布局与文本-视觉混合结构。传统图文预训练常偏自然图像,OCR 和布局理解被拆成独立模块,导致模型对屏幕截图这类高密度信息输入适应较差。
这篇论文要解决的是:Transformer 的 in-context learning 看起来像是在 prompt 内临时学会了一个算法,但这种能力何时能泛化、何时会稳定,还缺少清晰理论。过去很多工作只做现象描述或构造性例子,没有把 ICL 明确建模成“推理时从上下文构造假设函数”的统计学习问题。
这篇论文要回答的是:Transformer 在无显式主题变量的情况下,究竟如何从语言数据中学出 topic structure,以及这种结构在参数和计算中如何体现。过去关于 Transformer 学到什么的讨论多停留在行为层或 probing 层,对“主题”这种中观统计结构缺少机制级解释。
这篇工作要解决的是:大语言模型微调到底在做“学新特征”,还是主要在利用预训练表示上的核回归结构做轻量适配。这个问题以前常被 LoRA、prefix tuning、full fine-tuning 的经验比较间接讨论,但缺少统一视角。现在值得重看,是因为 parameter-efficient tuning 已成为主流,大家需要知道微调的有效性到底来自模型非线性重塑,还是来自预训练表征本身已经足够强。
这篇工作要解决的是:大模型分布式训练中的通信瓶颈能否通过激进量化显著降低,同时还能给出严格收敛保证。过去大家知道梯度压缩和低比特通信在系统上有潜力,但一到大模型、多机异步或复杂优化器环境,理论与实践经常脱节。这个问题之所以关键,是因为当模型和并行规模继续增长时,带宽而不是算力越来越成为训练吞吐的主限制。
这篇工作要解决的是:在拿不到生成模型参数和训练数据的情况下,能否零样本检测一段文本是不是由语言模型生成。过去的检测器通常依赖监督训练、特定生成器的伪造样本或水印,泛化到新模型时很脆弱。这个问题现在重要,是因为生成模型快速迭代,检测方法如果依赖已知生成器,很快就会过时。
这篇论文关注代码预训练里一个很实际但经常被忽略的问题:训练语料中的编程语言分布会怎样影响模型能力。过去很多 code LM 默认“数据越多越好”,但不同语言在语法、生态、测试可得性和重复度上差异很大,语言配比未必是中性的,因此作者系统测量这种分布效应。
这篇论文要解决的核心问题是:大模型训练并不一定要依赖高带宽、低时延互联,作者试图证明在弱网络条件下也能把训练做起来且效率没有直觉上那么差。过去主流做法默认数据并行或张量并行需要频繁全量同步,因此训练系统设计被高端集群网络强绑定;这在扩大可用算力来源、利用异构或地理分散设备时是明显约束。
这篇论文要解决的核心问题是:高质量 Chain-of-Thought 示范稀缺且昂贵时,能否自动合成足够好的推理示范来提升大模型。过去 CoT 往往依赖人工编写 few-shot exemplars,或者依赖更强教师模型生成数据;这使方法很有效,但可扩展性和迁移性都有限。
这篇论文要解决的核心问题是:大语言模型在长上下文和检索增强场景中,为什么会被无关信息明显干扰。过去大家默认‘给更多上下文通常更好’,但实践里常见现象是只要把无关段落混进去,模型推理质量就会下降,这说明模型并没有稳健地学会相关性筛选。
这篇工作要解决的是:代码大模型在仓库级任务上拿不到足够上下文,导致补全或生成结果只看局部文件而忽略跨文件依赖。过去常见做法是简单截断、检索相似片段或把更多文件硬塞进 prompt,但仓库上下文长、结构复杂,直接拼接既贵又噪声大。
这篇工作要解决的是:标准 Transformer 的自注意力层初始化并不匹配其早期训练动力学,导致优化前期信号利用差、训练更慢且更不稳定。以往大家主要靠更长 warmup、学习率技巧或归一化结构去缓解,但很少直接从“注意力层在初始化时应当模仿什么计算”这个角度设计初始化。
这篇工作聚焦一个很实际的问题:指令微调阶段是否会引入新的投毒攻击面,而且这种攻击是否足以显著改变语言模型行为。相比预训练投毒,instruction tuning 数据量更小、监督更集中,因此少量恶意样本可能更容易重写模型在特定指令分布下的响应模式。
这篇工作研究的是:在数据有限时,神经网络 scaling law 是否还能成立,以及如何通过模型复用降低对新数据的需求。传统 scaling law 默认每个规模点都从头训练,这在数据和算力上都很昂贵,也不符合很多实际训练流程。
这篇论文要解决的问题是:LLM 的 Int4 量化已经被广泛宣传为“省显存又加速”,但真实系统里 latency 提升、算子可组合性和失效场景并不透明。过去很多工作只报离线 perplexity 或单 kernel speedup,回避了端到端 serving 的复杂性,因此作者专门分析 Int4 在语言模型中的真实收益和边界。
这篇论文要解决的是 Transformer 在 CPU 上推理太重,尤其 FFN 层占大量算力和延迟。过去大多数加速工作偏向 GPU 或注意力优化,但在实际部署里,CPU 侧常常是成本敏感场景,FFN 的矩阵乘法会成为更直接的瓶颈。
这篇论文解决的是自回归文本生成中的可控生成难题:怎样在不把搜索空间炸掉的情况下,对生成内容施加可 tractable 的约束。过去可控生成常依赖启发式 decoding、后验重打分或拒绝采样,但约束一复杂就会变慢、失真,甚至根本不可解。
这篇论文的结论很直接:仅用代码生成模型自身的 likelihood 做 reranking 会偏向退化解,而引入一个反向的 Reviewer 模型能显著改善代码生成质量。过去 sample-and-rerank 是代码生成的常用套路,但同一个模型既负责生成又负责评分时,容易偏爱表面高概率、却不满足指令或语义错误的程序。
大语言模型存储了大量事实知识,但如何精确度量和定向修改这些知识仍是开放问题。本文研究 LLM 中事实知识的测量与编辑方法。
这篇论文的核心结论是:Transformer encoder 的表达能力并没有一些经验性印象里那么“无限制”,其可表示函数类可以被更紧的理论边界刻画。过去关于 Transformer 表达性的工作往往证明“能做很多事”,但上界偏松、不能区分哪些能力来自自注意力、哪些来自位置编码或宽度深度扩展,因此这篇工作试图把“到底强到哪里、弱在哪里”说得更精确。
这篇论文要回答的问题很直接:Vision Transformer 能不能像语言模型那样继续靠规模化获得收益,并在超大参数区间保持可训练和有效。过去 ViT 的扩展更多停留在数亿到十亿级,工程上受限于训练稳定性、算力效率和数据配比,因此 22B 级别的实证本身就是问题核心。
这篇论文关注的核心问题是:代码补全系统不应该只追求最可能的建议,而应该在用户意图不确定时最大化实际效用。传统 code suggestion 往往把任务写成 top-1 或 top-k 准确率优化,但真实用户可能想写的代码有多种合理 continuation,因此“概率最高”不等于“对用户最有帮助”。
这篇论文解决的是稀疏训练里的一个很实际问题:N:M 结构化稀疏虽然硬件友好,但训练时掩码更新受限,容易损失精度或引入高额搜索成本。过去很多 sparse training 方法要么依赖非结构化稀疏、部署不友好,要么在 N:M 约束下可训练性较差,因此需要一种兼顾训练效率和最终可部署性的掩码机制。
这篇论文要解决的是:不用自回归像素/离散 token 解码,也能把文本到图像生成做得又快又好。此前主流路线要么是扩散模型,质量高但采样步数多、延迟高;要么是自回归图像 token 模型,解码串行、吞吐受限。作者重新启用 masked generative transformer 这条路,核心动机是把图像 token 的生成从“一个一个写”改成“并行填空”。
这篇论文研究的是:动量优化器能否同时更快适应训练动态、又不过度追随短期噪声。传统 EMA 动量只朝一个时间方向累积历史梯度,稳定但响应慢;而训练分布、曲率和梯度尺度在长程训练中会持续漂移,单一时间尺度的动量往往在稳定性和适应性之间两头不讨好。
这篇工作要回答的核心问题是:patch-level MoE 为什么能在卷积网络里显著省算力,还不明显掉精度,甚至在样本效率上更好。过去 pMoE 主要靠经验结果站得住,但缺少理论解释,所以大家知道它“能用”,却不清楚它到底减少了什么统计难度、适用于什么结构、边界在哪里。
这篇论文要解决的问题是:大语言模型做机器翻译时,few-shot prompting 到底能强到什么程度,以及它为什么之前被低估。传统机器翻译长期依赖专门的双语监督和专用架构,因此 LLM 常被视为通用但不够强的替代品。作者重新评估这一判断,重点看大模型在高质量 few-shot 示例下是否已经足以逼近甚至挑战专用 MT 系统。
这篇论文解决的是代码补全里的一个老问题:标准预训练代码模型上下文窗口太短,无法有效利用跨函数、跨文件的长程依赖。过去很多 code LM 主要在几百到几千 token 内做补全,因此在真实工程代码中,经常看不到关键定义、调用关系和项目级约束。作者提出 LongCoder,目标是让代码模型更适合长上下文补全。
检索增强生成(RAG)有两种极端:预先计算并缓存所有文档的表示(省推理时计算但表示质量受限),或推理时对检索到的文档做完整编码(质量高但计算开销大)。本文要在这两个极端之间找到最优的计算分配策略。
这篇工作要解决的是:如何在不显著伤害文本质量的前提下,为大语言模型输出加入可检测的来源标记。此前常见做法要么依赖事后分类器、对改写和截断较脆弱,要么需要修改部署链路较多;而生成式 AI 开始大规模外放后,低成本、可在线部署的水印变得现实且紧迫。
这篇工作要解决的是:梯度裁剪虽然在大模型训练里几乎是默认配置,但它引入的随机偏差究竟有多大、何时有害、理论上能否严格分析。过去工程上大家知道 clipping 能抑制 spike、稳训练,但理论结论通常较松,且常忽略随机裁剪带来的偏置。
这篇工作要解决的是:现有代码生成 benchmark 对数据科学场景覆盖不足,且很多题目存在训练集污染、模板化过强或自动评测不可靠的问题。数据科学代码生成和普通算法题不同,它更依赖库 API 使用、数据操作链、真实报错修复和多步语义对齐,因此需要更自然也更可信的评测集。
这篇论文解决的是:大语言模型压缩不能只靠低秩或只靠稀疏,因为前者对局部大权重保留不够,后者又难以捕捉全局相关结构,单一路线往往在压缩率和精度之间卡住。以前很多方法在结构化部署友好性上也不足,压完不一定真快。
这篇论文解决的是:text-to-audio 生成很难同时兼顾语义对齐、音质和训练成本,直接在波形或高维谱图上扩散代价很大,而且通常需要成对文本-音频数据。过去很多系统要么依赖复杂声码器管线,要么训练成本高、泛化弱。
这篇工作要回答的核心问题是:神经网络的记忆到底是局部存放在少量参数里,还是以分布式方式散落在整个网络中。过去大家通常通过 membership inference、canary 插入或整体剪枝来讨论“是否记住了”,但很少能精确回答“记忆在网络里哪里”。这个问题现在重要,是因为模型越大,数据泄漏、可删性和定向遗忘都越来越依赖对记忆载体的定位能力。
这篇工作关注的核心问题是:生成式预训练能否迁移到黑盒优化,让模型先从历史优化轨迹中学会结构,再在新任务上更快搜索。传统黑盒优化通常依赖手工设计的 acquisition function、局部启发式或任务特定先验,泛化能力有限。这个问题现在值得研究,是因为 foundation model 的经验表明,大规模预训练可以把“搜索经验”变成可迁移能力,而优化本身也可以被当作序列建模问题。
这篇工作解决的是:few-shot 学习里标注太少时,能否把语言模型直接调成“训练数据生成器”,用它合成更有用的增强样本,而不只是拿来做预测。过去常见做法是 prompt LLM 生成伪样本,但样本质量、类别覆盖和任务适配性都不稳定。这个问题现在重要,是因为小样本任务越来越依赖合成数据,而真正的瓶颈往往不是模型容量,而是能否生成对监督器有增益的数据。
这篇工作要解决的是:语言模型能否仅通过基于形式逻辑构造的合成语料,学会可泛化的演绎推理,而不是只记模板。过去很多 reasoning 研究依赖自然语言 benchmark,但这些数据经常混有语义捷径、模式泄漏和表面统计偏差,导致很难判断模型到底学会了推理还是学会了题型。这个问题现在值得做,是因为大家越来越关心推理能力是否可以在预训练阶段被系统性塑造。
这篇论文的核心问题是:代码生成模型会写出“看起来像对的”程序,但真正能执行通过测试的比例并不高,能否训练一个 verifier 用执行信号来判断候选程序是否可信。过去常见做法是只靠生成模型打分或表面匹配,这对语义正确性不敏感;而代码任务天然有 execution 这个强监督信号,所以值得单独建模验证器。
这篇论文要解决的是持续学习场景下的视觉语言表征退化:模型在接收新任务或新数据分布后,会遗忘旧的图文对齐能力。过去常见做法多是蒸馏、回放或参数正则,但它们通常只保主对角的匹配信息,也就是正样本对齐,忽略了非匹配对之间的结构关系。
这篇论文解决的是边缘设备训练的一个现实瓶颈:前向可以稀疏化,但反向传播通常仍然是稠密的,导致时间、内存和能耗都下不来。过去很多稀疏训练方法把重点放在权重或激活稀疏上,却没有系统地让反向链路同样受益,所以端侧训练仍然昂贵。
这篇论文处理的是训练内存里一个常被忽视的部分:即使权重和激活已经量化,反向传播中激活函数的梯度或相关中间量仍可能占据不小内存。过去低比特训练更多关注权重、激活、优化器状态,而对 activation backward 的量化研究较少,作者专门补这个缺口。
这篇论文要回答的是:prompt tuning 为什么能工作,尤其注意力在其中到底扮演了什么角色。过去 prompt tuning 常被当成一个经验有效的参数高效微调技巧,但关于它何时能逼近全量微调、何时会失败,理论上并不清楚;作者聚焦 attention 来解释这一点。
这篇论文要解决的核心问题是:扩散模型如何自然地建模离散状态空间,而不是只在连续高斯噪声空间里工作。过去离散生成常靠自回归、VQ-VAE 后接连续扩散,或者用不完全匹配离散结构的近似噪声过程,因此在文本、符号序列或分类状态上,扩散范式一直缺少足够干净的原生形式。
这篇论文要解决的核心问题是:语言模型在价值判断、意见表达和社会立场上到底反映了谁的观点,而不是笼统地说“模型有偏见”。以前很多工作只测有害性或政治倾向,但没有把模型输出系统地映射到可解释的人群、平台或人口统计分布,因此很难判断偏差来自训练数据、对齐过程还是评测方式本身。
这篇论文要解决的核心问题是:SGD 噪声在深度学习不同训练阶段和不同 regime 下到底起什么作用,而不是把所有现象都归结为‘噪声有正则化效果’。过去关于 SGD 噪声的讨论常把优化、泛化和逃离尖锐极小值混在一起,但这些机制未必在小数据、过参数化、插值附近和后期收敛阶段都一样。
这篇论文要解决的核心问题是:Rao-Blackwellized Straight-Through Gumbel-Softmax 这个常用离散梯度估计器到底在什么条件下有效、偏差来自哪里。过去离散 latent、token 选择和神经架构搜索里大量使用 straight-through 技巧,但大家常把它当工程黑箱,缺少足够冷静的偏差—方差分析。
这篇论文要解决的核心问题是:GFlowNet 为什么难训,以及有哪些训练目标或优化细节是真正影响稳定性和样本质量的。过去 GFlowNet 因为能按奖励比例采样组合对象而受到关注,但实际训练常不稳定、目标选择很多、理论与工程实现之间有落差。
这篇工作要解决的是:如何把视觉-语言 Transformer 压缩到更小而不明显破坏跨模态能力。以往做法通常只剪某一部分,例如只剪视觉编码器、只做结构化通道剪枝,或一次性静态剪枝;这会忽略图像端、文本端和跨模态融合层之间的耦合,结果往往是参数省了,但对齐能力和下游迁移掉得很快。
这篇工作要解决的是:怎样在长序列建模里同时保住局部细节和远程依赖,而不承担标准注意力的二次复杂度。传统 RNN 容量不够、长依赖难保;纯卷积能并行但感受野扩展慢;全注意力表达强但成本高,所以需要一种能在不同时间尺度上读写记忆的替代路径。
这篇工作要解决的是:分布外数据到底有没有价值,以及在什么条件下会帮助而不是伤害模型。很多训练流程默认只追求与测试分布匹配的数据,但大规模预训练现实中不可避免会混入大量 OOD 数据;问题不是能不能完全去掉,而是如何理解它何时提供额外信号、何时引入偏差。
这篇工作要解决的是:自监督学习的表征形成是否是连续平滑的,还是会呈现明显的阶段性跃迁。过去大家常看最终线性探针分数或收敛曲线,把 SSL 当成缓慢积累表示质量的过程,但这可能掩盖了内部特征在训练中按步骤重组的现象。
这篇工作要解决的是:离线强化学习是否真的适合对话回复生成,以及它比标准监督微调多带来什么。很多对话生成系统想借 RL 优化长期质量或人类偏好,但在线交互成本高、奖励噪声大,于是离线 RL 看起来很诱人;问题是语言生成的动作空间极大,离线分布偏移又特别严重,未必像连续控制那样好用。
这篇工作解决的是:目标环境里大量序列数据没有动作标注时,如何仍然做出可迁移的决策预训练。过去强化学习很难像 NLP 或 CV 那样直接吃大规模弱标注数据,因为缺少动作会让行为建模断掉;这篇文章试图用跨环境的已标注数据补上这个缺口。
这篇工作要解决的是:生成模型训练中包含受版权保护样本后,怎样从形式上约束模型不要生成与这些样本过于相似的内容。过去关于 memorization 和版权风险的讨论多停留在经验观察或成员推断层面,缺少一个能直接约束“即使训练看过,也近似等价于没看过”的生成定义。
这篇工作解决的是训练显存开销过高的问题,尤其是激活缓存占用大、限制大模型和长序列训练。已有激活压缩方法往往需要边训练边搜索量化 bit-width,流程复杂且不透明,工程上也不够稳。
这篇工作解决的是:在只有约 500 Mbps 这类相对低带宽网络条件下,如何仍然高效微调 foundation models。大模型分布式训练通常默认高速互联,但很多真实部署环境只有普通数据中心或跨地域网络,通信会迅速成为瓶颈。
这篇论文要解决的问题是:参数高效微调虽然便宜,但常见方法如 LoRA、Adapter 往往在表达能力和训练稳定性上受限,尤其当下游任务与预训练分布偏差较大时。过去大家通常接受“便宜就要损一点效果”,作者则试图用一个能逼近 NTK 行为的 MLP fusion 模块,在不全量更新的前提下拿到更强的函数调整能力。
这篇论文要解决的问题是:CLIP 在开放词汇图像识别上很强,但直接迁到视频时往往缺少时序建模,导致 open-vocabulary video understanding 效果不稳定。过去常见路线要么重训视频-文本大模型,要么在 CLIP 上简单加时序模块,这两种都不理想:前者成本高,后者容易破坏原有对齐能力。因此作者尝试把图像 CLIP 变成视频模型,同时尽量保住其开放词汇泛化。
这篇论文要解决的问题是:强化学习和控制里的 trajectory modeling 往往分成三摊——预测未来、学表示、做控制,各自训练目标不同,数据利用率也不统一。过去常见做法是行为克隆、动力学模型、value/policy 学习分开做,或者用 Decision Transformer 一类 AR 建模,但这些方法对局部缺失、双向上下文利用和泛化表示学习都有限,因此作者提出 masked trajectory models。
这篇论文要解决的问题是:多模态基础模型迁移到下游任务时,通常面临两个冲突目标——既要保留原始跨模态对齐和通用知识,又要适配具体任务。过去做法要么单任务微调导致遗忘,要么简单 multi-task 训练但任务权重难设,所以作者提出 π-Tuning,用最优多任务插值来迁移 multimodal foundation model。
这篇论文要回答的是:foundation model 到底强在哪里,哪些能力来自规模、预训练和通用表示,哪些只是任务设定下的表面优势。这个问题过去常被经验结论替代,缺少统一而可检验的分析框架,因此值得单独拿出来澄清。
这篇论文解决的是 Transformer 推理和训练中的注意力开销过大问题,目标是在不彻底改写模型结构的前提下加速注意力。长序列建模里,标准 softmax attention 的二次复杂度一直是瓶颈,已有线性化方法要么近似误差大,要么工程实现并不友好。
这篇论文要解决的是长序列建模领域缺少统一、公平、细粒度的 attention benchmark,导致不同方法的优劣很难真实比较。过去很多长序列工作各自选数据集、实现和硬件设定,结果常常是论文之间不能横向对齐,速度和精度结论都不稳。
这篇论文要回答的是多模态对比学习的泛化问题:图文对比预训练为什么能泛化,什么时候会失效。CLIP 类方法已经很成功,但其泛化来源长期更多靠经验归纳,缺少能指导数据和目标函数设计的系统解释。
这篇工作要解决的是:视觉预训练里的对比学习通常只在全局图像级别对齐,难以稳定学到可迁移的局部 patch 表示,而直接做 patch-to-patch 对比又容易受错位、裁剪和语义不一致影响。这个问题之所以值得重做,是因为 ViT 时代很多下游能力依赖局部 token 质量,但现有自监督目标往往默认全局 pooling 足够。
这篇工作要解决的是:视觉-语言表示学习通常依赖判别式对齐或对比学习,但这类方法对一对多语义、细粒度多样性和跨模态不确定性的建模偏弱。作者尝试用 diffusion-based embedding generation 来学习图文表示,说明他们关心的不是简单匹配,而是生成一个更有分布感的共享嵌入。
这篇工作直指一个很具体的短板:diffusion ODE 虽然具备确定性采样和精确似然评估能力,但其最大似然估计结果长期落后于最强 likelihood-based 生成模型。过去很多 diffusion 工作更关心采样质量而非 likelihood,因此训练目标、参数化方式和数值评估细节都没有被为 MLE 充分打磨。
这篇工作要解决的是:RLHF 常把人类偏好数据简化成成对比较再训练 reward model,但从 pairwise 或更一般的 k-wise comparisons 到策略优化,现有流程往往缺少统一且严格的原理刻画。这个问题重要,因为 RLHF 的效果和稳定性高度依赖偏好建模是否正确,错误的统计假设会直接传导到 reward hacking 和策略偏置。
传统 MoE 的路由门控通常基于简单线性层或 top-k 选择,缺乏对输入 token 间关系的建模能力,导致专家分配不够精细。本文探索用注意力机制替代传统路由门控来改进 MoE 的专家选择。
Transformer 模型在推理时是完全确定性的(给定输入和参数),这可能限制了模型的鲁棒性和泛化能力。本文研究在 Transformer 中引入受控随机性(controlled randomness)能否提升性能。
文本去毒化(detoxification)通常需要专门训练的模型或大量标注数据。本文探索利用 GPT 的 in-context learning 能力,通过精心设计的 prompt 实现零/少样本文本去毒化改写。
将量化后的 Transformer 语言模型部署到边缘设备上面临精度损失和硬件适配的双重挑战。本文研究量化 Transformer LM 在边缘设备上的实际部署实现。
语言学中的词类(如名词、动词)是否会在以 next-word prediction 为目标训练的深度网络中自发涌现?这是一个关于语言模型内部表示与语言学结构对齐程度的机制分析问题。
这篇论文要回答的是:大规模神经网络是否真的必须依赖大数据和显式正则化,才能从随机初始化稳定学到可泛化的解。过去这类问题通常被经验性地回避——实践里默认用更大数据、数据增强、权重衰减、dropout 等手段兜底,而不是直接研究“少数据、无显式正则”条件下网络为何还能学会。
这篇论文要解决的是 RPA 机器人代码生成里的知识缺口问题:通用 ChatGLM 有语言能力,但对企业自动化流程、平台 API 和业务规则的覆盖不够,直接生成代码容易语法对、语义错。过去这类任务通常靠模板、规则库或人工补充上下文,泛化和维护都比较差。
这篇论文的核心问题是:retrieval-based model 到底在统计上学到了什么,以及检索为何有时显著提升、有时却几乎无效。以往很多工作把检索视为工程插件,主要报告经验增益,但缺少统一统计视角来解释其偏差-方差权衡、样本复杂度变化和对分布外输入的影响。
这篇论文的核心结论是:在 visuo-motor control 里,预训练不一定天然胜过从零学习,很多已有结论可能被偏弱的 scratch baseline 放大了。过去机器人和视觉控制领域常把预训练视为默认更优,但训练预算、数据增强、网络结构和评测协议不统一,导致“预训练收益”里混入了大量 baseline 不公平因素。
这篇论文要解决的问题是:多模态 encoder,尤其图文对比学习模型,会如何受到数据投毒攻击,以及攻击者能否在不显著破坏整体性能的情况下植入后门或定向偏差。过去数据投毒研究更多集中在单模态分类器,而 CLIP 一类多模态 encoder 的训练高度依赖大规模弱清洗网络数据,使这一问题在预训练阶段尤其现实。
这篇论文的核心问题是:神经塌缩(neural collapse)在深线性网络中如何从平衡数据推广到类别不平衡数据。已有 neural collapse 理论大多建立在类别均衡、训练趋近零误差的理想设定上,但真实预训练和微调数据很少完全平衡,因此需要知道这一现象在更现实分布下是否还成立、形态如何变化。
这篇论文的核心结论是:dropout 的一个被低估作用,不是防止过拟合,而是减少欠拟合。传统叙事里 dropout 被视为正则化手段,主要在大模型小数据场景中抑制记忆;但随着数据增强、归一化和大规模训练普及,很多现代网络更常见的问题反而是优化受限或表示不足导致的 underfitting,因此作者重新审视 dropout 的实际作用。
这篇论文试图解决 diffusion 图像生成中的一个关键低效点:标准扩散过程使用预设噪声链,采样路径长、很多步骤对最终生成贡献不均衡,因此可能不是从数据分布到噪声分布之间最有效的路径。随着 diffusion 成为生成建模主流,如何缩短路径、减少冗余步数并保持质量,已经是方法层面的核心问题。
这篇论文要解决的问题是:贝叶斯优化能否像大型语言模型做 in-context learning 那样,把“从历史试验点推断下一步决策”直接交给一个预训练序列模型,而不在每个新任务上重新拟合代理模型。传统 BO 通常在线拟合 GP 或 surrogate,数据效率高但计算和建模假设受限,因此作者尝试用 prior-data fitted networks 把 BO 的推断前移到预训练阶段。
这篇论文解决的是多模态模型在微调阶段容易放大伪相关的问题。预训练得到的图文或多模态表征常带有数据集偏差,微调时如果目标数据较小或标签相关性单一,模型会进一步依赖虚假线索而不是真正的跨模态语义,这在部署中会直接损害鲁棒性。
这篇论文研究的是:score-based generative model 学到的向量场到底有多“保守”,也就是它是否真对应某个标量势函数的梯度。这个问题以前常被默认成立,因为理想 score 就是 log density 的梯度;但实际模型是有限容量、有限数据、有限噪声层级下拟合出来的,未必满足 curl-free 结构,而这会直接影响采样轨迹和理论解释。
这篇论文要解决的是:DDIM 一类确定性采样器为什么能在实践中快很多,以及这种快是否有可证明的误差边界。此前不少分析主要围绕线性高斯扩散和渐近结论展开,但真实采样器常工作在有限步数、非渐近区间,而且 restoration-degradation 过程未必适合用过于理想化的线性扩散解释。
这篇论文要解决的是:如何把离散扩散模型有效用到图生成上,同时减少图结构空间过大带来的采样低效。此前图生成常用自回归或 VAE/GAN 路线,但图的节点排列不唯一、边组合爆炸,导致建模和采样都不轻松;直接照搬离散 diffusion 又容易在大图上代价过高。
这篇论文关注的是:当数据实际上落在低维流形附近时,扩散模型的 score 估计、密度恢复和理论误差该怎么理解。传统扩散理论多默认数据分布有良好的满维密度,但真实高维数据往往内在维度远低于观测维度;这会让 score 定义、估计难度和采样行为都发生变化。
这篇论文要解决的是:score-based generative modeling 的现有理论界往往条件太强、符号太重,和实践脱节,能否在更弱平滑性假设下给出更好用的误差边界。过去很多结果依赖高阶光滑、强尾部条件或不太自然的技术假设,导致理论上可证但难以指导真实模型设计。
这篇论文要解决的是:Shapley value 很有解释力,但计算代价通常指数级,能否在一次前向传播内得到足够准确的近似。以往要么靠采样估计,代价高且方差大;要么靠结构化近似,速度快但精度有限。作者试图把“可解释性”从事后昂贵分析,改成模型结构内生的可计算对象。
这篇论文研究的是:如何为计数型潜变量构造更灵活的生成过程,使模型既能做局部细粒度调整,也能跨尺度跳跃。很多离散/计数生成模型一次只做小步变化,表达上稳但混合慢;而直接做大跨度跳跃又容易失去可控性。作者试图用 thinning 和 thickening 操作建立一种可学习的 latent count dynamics。
这篇工作要解决的是:分子表示和自然语言表示长期割裂,导致化学领域每个任务都要单独做模型或微调,任务之间也难共享知识。过去虽然已经有分子生成、性质预测、合成规划等神经方法,但分子字符串和文本描述没有被当作一个统一语言空间来建模,人机交互和跨任务迁移因此受限。
这篇工作要解释的是:SAM 为什么经常比普通 SGD 泛化更好,以及它到底通过什么动力学偏向平坦极小值。过去大家知道 SAM 在经验上有效,也常用“flat minima”做口头解释,但离散优化步骤和随机噪声共同作用下的机制并不清楚,尤其缺少能分析 full-batch 与 mini-batch 情况的连续时间模型。
这篇工作要解决的是:reward-conditioned RL 在生成高回报行为时,如何同时处理多模态行为分布、不确定性和可组合性。传统 reward-conditioned policy 往往用回归式或条件生成式策略直接拟合动作分布,但当高回报轨迹本身是多峰的,或者奖励条件带来分布偏移时,这类方法容易塌缩到单一模式,泛化也差。
这篇工作研究的是:带 guidance 的 diffusion sampling 到底在优化什么,以及像 classifier guidance、classifier-free guidance 这类技巧为什么有效、又为什么会失真。过去很多 guidance 方法在经验上能显著提升样本质量,但机制解释常停留在 score 修正的公式层面,缺少一个更直接的优化视角来看采样轨迹。
这篇工作要解决的是:扩散模型虽然生成质量高,但对组合式生成不友好——你很难把多个已有生成器或约束直接拼起来,生成同时满足多条件的新样本。过去常见做法是重新训练条件模型,或者用启发式 guidance 临时叠加约束,但前者代价大,后者常不稳定、也不保证采样正确。
这篇论文要回答的核心问题是:稀疏网络训练到底需不需要精心设计的初始化剪枝,还是随机剪枝就足够作为起点。过去主流做法通常依赖 magnitude pruning、SNIP、GraSP 这类带分数的剪枝准则,因为大家默认稀疏训练成败高度依赖“保留哪些连接”。作者重新检验这个假设,关注的是 sparse-from-the-start 训练里最早的结构选择是否真的重要。
这篇论文关注的问题是:在线学习中引入 demonstrations 是否总能带来收益,还是示例质量才是决定因素。过去“用 demonstrations 加速学习”常被当作默认正向信号,但现实中演示数据质量参差不齐,甚至可能误导策略。作者要回答的不是 demonstrations 有没有用,而是什么样的 demonstrations 才值得用。
这篇论文要解决的问题是:面对离线交互数据时,监督学习为什么常常学不好,以及怎样利用“离目标动作有多远”这个信息改进学习。纯行为克隆把所有示例一视同仁,但离线数据往往混有好坏参差的行为,尤其在机器人和交互任务里,不同状态下动作偏差对结果影响很不一样。作者提出 distance weighted supervised learning,试图把动作距离纳入监督目标。
这篇论文要解决的问题是:高分辨率图像生成能否用更简单、真正端到端的 diffusion pipeline 来做,而不依赖级联超分、多阶段 latent 设计或复杂采样堆叠。过去高分辨率扩散模型往往通过多阶段系统把问题拆开,效果好但训练和部署都复杂。作者提出 simple diffusion,目标是证明在足够合适的设计下,单一端到端扩散模型也能直接生成高分辨率图像。
机器人操作任务的指令通常只用纯文本描述,但实际场景中任务规范往往包含图像、视频、物体示例等多模态信息。本文要解决的是如何让机器人策略模型接受多模态 prompt(文本+图像交错)来指定操作任务,而不是局限于单一模态。
非归一化统计模型(如 energy-based models)的训练需要估计配分函数的梯度,传统方法如 score matching 或 contrastive divergence 各有局限(计算开销大或方差高)。本文提出用 compositional optimization 框架来统一和改进这类模型的学习。
LLM 可能在特定输入下产生有害、不准确或违反策略的输出,但人工审计成本极高且覆盖不全。本文要解决的是如何自动化地发现能触发 LLM 不良行为的输入(即 adversarial auditing),而且要求发现的输入是自然语言可读的,不是乱码。
信息瓶颈(Information Bottleneck, IB)理论被广泛用来解释深度学习的泛化能力,但其理论基础存在争议——IB 到底是通过什么机制帮助泛化的?之前的分析要么依赖不现实的假设,要么无法给出严格的泛化界。本文试图给出一个更严谨的理论框架来回答 IB 如何帮助深度学习。
代码生成 LLM 的输出不可靠——可能生成语法正确但语义错误的代码。如何为 LLM 的代码生成提供统计意义上的正确性保证?本文用 PAC(Probably Approximately Correct)预测集的框架来构造代码 LLM 的可信输出集合。
Score-based diffusion 模型的采样质量受限于 score 估计的误差,尤其在低密度区域。本文提出用一个判别器(discriminator)来引导 diffusion 模型的采样过程,修正 score 估计的偏差,从而提升生成质量。
Diffusion 模型的采样速度慢,因为需要大量去噪步骤。本文提出将 MCMC 采样与 diffusion 去噪过程结合,用 MCMC 的校正步骤来减少所需的去噪步数,从而加速采样。
VAE 的 posterior collapse 问题——decoder 过于强大时会忽略 latent variable,导致 latent space 退化为无信息的先验分布。之前的缓解方法(如 KL annealing、free bits)都是启发式的,缺乏理论保证。本文提出通过约束 decoder 网络的 inverse Lipschitz 常数来从根本上防止 posterior collapse。
这篇工作要解决的是:图生成既有离散结构约束,又有复杂高阶依赖,单纯自回归或单纯扩散都各有短板。传统自回归容易受节点排序影响,扩散在图这种组合对象上又不容易兼顾全局一致性和采样效率,因此作者尝试把两者结合起来。
这篇工作要解决的是:黑盒优化常见于材料、分子、程序配置等场景,目标函数昂贵且不可导,传统贝叶斯优化在高维或复杂约束下常变得吃力。作者想探索扩散模型能否直接学习高价值解的分布,从而把优化问题转成生成问题。
这篇工作要解决的是:如何低成本评估单个训练样本的价值。以往 data valuation 往往依赖 Shapley value、influence function 或重复重训,计算代价高,很难用于真实规模的数据清洗和配比。
这篇工作要解决的是:连续空间上的 GFlowNet 缺少足够完整的理论基础,导致方法设计和训练目标常停留在离散情形的直觉推广。随着生成模型开始面向连续对象和高维设计空间,必须回答连续 GFlowNet 到底在优化什么、流守恒如何定义、与已有生成框架是什么关系。
这篇工作要解决的是:score-based diffusion 虽然训练时拟合 score function,但学到的 score 未必满足其对应概率演化方程的一致性约束。过去常见训练只最小化 denoising/score matching 误差,却不显式约束这个 score 是否真的对应一个物理上自洽的 Fokker-Planck 演化,因此可能损害采样质量和稳定性。
这篇工作要解决的是:后训练量化里,rounding 决策往往决定最终误差上限,但传统做法对舍入方向的控制能力有限。很多 PTQ 方法主要优化 scale 或做简单启发式 rounding,遇到激活分布尖锐、权重异常值多或低比特场景时,量化误差会明显放大。
这篇论文要解决的是:ODE 型生成模型在采样时轨迹弯曲过大,导致需要很多函数评估步数,推理慢且数值误差容易累积。以往工作主要靠设计更高阶求解器或更好的时间离散来补救,但如果生成轨迹本身不平直,求解器再强也只能缓解、不能从源头消除误差来源。
这篇论文要解决的是:静态大规模预训练数据集更新慢、覆盖有限,导致通用视觉模型对新任务常常缺少最新且足够贴近目标分布的视觉知识。以往做法通常是在固定预训练后再 fine-tune,但如果目标任务分布在互联网里能被快速检索到,先做一次面向任务的数据发现可能更高效。
这篇论文要解决的是:语言模型蒸馏通常把所有层一视同仁,但不同任务真正依赖的教师层信息并不相同,平均蒸馏会把预算浪费在对当前任务不重要的层上。过去层对齐蒸馏常用固定映射或均匀约束,简单但不够高效。
这篇论文要解决的是:通用 Transformer 通常缺少持续交互环境中的 agentic 行为,不会自然形成“试错—总结—改进”的闭环。过去常见做法是靠 RL 或人工演示来教 agent,但这两条路要么训练不稳定、信用分配难,要么人力成本高且覆盖有限。
这篇论文解决的是:定制化扩散生成通常依赖 DreamBooth、Textual Inversion 或 LoRA 这类微调,但它们要么改动整模型、成本高,要么学到的概念表示不够可解释、可组合。过去缺少一种足够轻量、又能直接定位模型内部“概念单元”的方法。
这篇论文要解决的是:扩散模型通常默认使用固定噪声/模型时间表,但不同时间步的学习难度和对最终采样质量的贡献并不均匀,固定 schedule 往往训练效率不高。以往工作更多优化采样时间表,较少直接优化训练时模型该如何分配时间步学习资源。
这篇工作研究的核心问题是:扩散过程是否可以被理解为一种“串行复制”机制,以及这种视角能否解释扩散模型的统计行为。过去对 diffusion 的分析多从 score matching、去噪和逆过程采样出发,较少把它与文化传播或迭代重述这类 serial reproduction 框架联系起来。现在重看这个问题有意义,因为扩散式生成已经扩展到文本、图像和多模态,理解它在多步变换中保留与扭曲信息的规律,对新型语言建模范式也有启发。
这篇工作要解决的是:多模态模型在训练和测试时可用模态不一致时,鲁棒性为什么会明显下降,以及怎样更稳地处理这种 modality mismatch。过去很多多模态方法默认训练和部署时都能拿到同样的图像、文本、音频等输入,但真实系统里经常会缺模态、模态质量退化或只有单模态可用。这个问题现在重要,是因为统一多模态预训练越来越常见,部署条件却往往比训练条件更脏、更不完整。
这篇工作关注的核心问题是:扩散模型除了做生成,能否直接学到高质量表示用于下游任务。过去 diffusion 主要被视为强生成器,而表示学习通常由对比学习、掩码建模或自编码器承担。现在重新研究这个问题很有意义,因为如果 diffusion 的逐步去噪过程天然蕴含层次化语义,那么它可能提供一种不同于 AR 或 contrastive 的表示学习路径。
这篇工作要解决的是:能否在不同模型之间对齐“文本”和“概念”空间,从而实现从文本到概念、再从概念回到文本的双向映射。过去跨模型对齐常停留在 embedding 相似度或零样本分类层面,很少真正讨论可逆的概念级接口。这个问题现在值得做,是因为 foundation model 生态越来越异构,解释性、可控编辑和跨模型知识迁移都需要更稳定的中间语义表示。
这篇工作研究的核心问题是:大步长梯度下降为什么有时不仅不发散,反而会表现出特殊甚至更好的优化性质。传统优化分析通常强调小学习率保证稳定,而实践里大模型训练常依赖 warmup 之后的相对激进步长,且很多现象难用经典局部光滑假设解释。这个问题现在重要,是因为训练稳定性、sharpness、implicit bias 都和学习率直接相关。
这篇论文要解决的问题是:能否像做通用基础模型那样,把来源异构、变量不齐、分辨率不同的气象与气候数据统一建模,而不是继续为天气预报、气候下采样、变量重建等任务分别训练专用模型。过去这类问题通常靠任务定制架构或物理模拟器处理,泛化范围窄,换变量、换区域、换分辨率都要重来,因此作者尝试做一个面向地球系统数据的 foundation model。
这篇论文关注 diffusion model 训练中的 exposure bias:训练时模型总是在干净数据加噪后的标准轨迹上学习,但采样时输入来自模型自己前一步的预测分布,二者不一致会造成误差累积。这个问题过去在自回归模型里讨论很多,在 diffusion 里常被弱化处理,因此作者重新把它拿出来系统分析。
这篇论文解决的是结构化剪枝在缺少标注和梯度信息时怎么做:很多剪枝方法依赖训练数据标签、反向梯度或完整微调,这在部署后压缩、隐私受限场景和低成本模型适配里都不方便。作者想证明,只用无标签数据,甚至避免标准梯度,也能做有效的 structured pruning。
这篇论文的核心问题是理论上的:diffusion model 作为分布估计器到底有多好,是否只是经验上强,还是在统计最优性上也站得住。过去 diffusion 的成功主要来自生成质量与优化稳定性,但关于其统计收敛率和 minimax optimality 的严格结果较少,作者试图补上这一理论基础。
这篇论文要解决的核心问题是:差分隐私训练 DP-SGD 的缩放规律到底是什么,尤其是隐私噪声、模型规模、数据规模和性能之间是否存在可预测关系。过去 DP 训练常被视为“加噪后性能必然大幅掉队”,因此更多停留在小模型或经验调参层面,缺少像常规预训练那样可操作的 scaling law。
这篇论文要解决的核心问题是:机器人操作中的世界模型如何更有效地利用多视角视觉输入,并在遮挡和部分可观测条件下学到对控制有用的状态表示。传统单视角建模容易在操作任务里丢失关键信息,而直接把多相机帧全部喂给策略又样本低效、泛化差。
这篇论文要解决的核心问题是:生成模型中的概率路径应该如何选择,尤其是在带有动力学或运动学约束时,什么样的最优概率路径更合理。以往很多生成建模把从噪声到数据的路径当成算法设定,但路径本身会决定训练难度、采样稳定性和几何性质,因此并不是一个无关紧要的实现细节。
这篇论文要解决的核心问题是:跨模态微调时,直接 end-to-end 调整个模型往往既不稳也不高效,如何先把模态对齐,再在任务上细化。过去很多 VLM 或多模态模型在下游任务上直接联合微调,但如果视觉和语言表征空间还没对齐好,后续优化很容易把容量浪费在纠正接口错位上。
这篇工作要解决的是:对比学习为什么有效,以及怎样把现有对比目标统一到更一般的理论框架下。过去很多方法把 InfoNCE 一类损失当经验配方来调,负样本、温度、batch 大小各有经验规则,但缺少一个能解释这些设计如何共同决定表示结构的统一视角。
这篇工作要解决的是:CLIP 在分布外场景下泛化不稳,零样本分类往往对风格变化、背景偏移和新域干扰很敏感。CLIP 通过大规模图文对学到了强语义对齐,但它的判别边界仍受训练分布偏置影响,导致一旦视觉统计特征变了,文本对齐优势不能完全转化成 OOD 鲁棒性。
这篇工作要解决的是:正则化流通常依赖精确似然训练,但精确计算或优化 log-likelihood 会限制架构设计,尤其在自回归结构和高维建模里很不灵活。作者想探索一种不依赖显式似然的训练方式,同时保留流模型可采样、可逆或可控密度变换的优点。
这篇工作要解决的是:从 Hessian,也就是损失曲率的角度,重新理解 CNN 为什么会表现出某些独特性质。以往关于 CNN 的讨论常集中在结构归纳偏置、平移等变性和频谱特性,但这些解释和实际优化行为之间的联系不总是清楚;Hessian 视角试图把架构性质和训练景观联系起来。
这篇工作要解决的是:策略优化里的不变性会让 reward learning 出现部分不可辨识,也就是不同 reward 可能诱导同样策略,从而让“学到的奖励”并不唯一。过去很多 RLHF/IRL 讨论默认只要行为匹配就能反推出偏好,但策略层面的等价类会让这个逆问题天然不适定。
这篇工作要解决的是:深度强化学习里存在大量 dormant neurons,即长期几乎不激活、也不更新的神经元,而这会浪费容量并伤害学习。过去大家更常把 RL 不稳定归因于探索、bootstrap 误差或非平稳目标,但网络内部表示利用不足同样可能是重要原因,只是被系统性低估了。
这篇工作解决的是:大语言模型解码里,多样性和并行性通常二选一。beam search 一类方法能保证候选不同,但难并行且偏向高概率模式;独立采样很容易并行,但经常抽到重复样本,浪费算力和候选位。
这篇工作研究的是:在既有离线数据、又允许少量在线交互的中间设定下,怎样系统地利用离线数据减少在线探索成本。过去在线 RL 和离线 RL 常被分开研究,但真实场景往往两者兼有,核心难点是离线数据既可能加速学习,也可能因分布偏差误导探索。
这篇工作要回答的是:超人围棋 AI 是否真的稳健,还是只是在标准对局分布上强,而在对抗性策略面前存在系统性漏洞。过去围棋 AI 的评估主要看 Elo 和人机对弈成绩,但这些指标不揭示策略空间中的脆弱区域。
这篇工作想解决的是:标准 Transformer 作为 foundation model 主干时,层归一化、残差路径和训练稳定性之间仍存在一系列未完全理顺的设计取舍。过去很多变体各自改善一部分问题,但缺少一个足够通用、可作为基础骨干的统一 Transformer 配方。
这篇工作解决的是:扩散模型虽然生成质量强,但通常不擅长直接学到适合下游任务的表示,因此“生成好”和“表征好”经常分离。过去做法往往把扩散模型用于生成,把对比学习或掩码建模用于表征学习,这篇文章尝试把两者合到同一训练框架里。
这篇论文要解决的核心问题是:大规模强化学习训练里的 experience replay 已经成为系统瓶颈,而传统设计默认 replay 放在 CPU 侧,导致 GPU 计算快、数据流转慢。过去这类问题通常靠工程性缓存、压缩或分布式队列缓解,但当模型和环境吞吐继续上升时,PCIe/NVLink 传输、样本组织和随机采样都会把训练效率拖住,所以作者把 replay 本身重构成 GPU-centric 系统。
这篇论文要解决的问题是:标准 diffusion model 很擅长在欧式空间上生成高维数据,但很难直接表达变量之间带有图结构约束的联合分布。过去常见做法是要么把结构信息塞进条件输入里,要么单独做图模型推断,两者都没有把 diffusion 的生成过程和图依赖真正统一起来,所以作者提出 graphically structured diffusion models。
这篇论文要解决的问题很直接:很多训练目标很贵,但又存在一个更便宜、相关但不完全等价的 proxy loss;问题是怎样同时利用两者来加速优化而不牺牲最终目标。过去常见做法是只优化真目标,或者先 pretrain 在 proxy 上再切换,这两种都没有系统回答“如何在同一优化过程中联合利用便宜信号和昂贵信号”。
这篇论文要解决的问题是:SGD 为什么会偏向更稳定、泛化更好的解,尤其是在深度网络这种强非凸系统里,这种“隐式正则化”一直缺乏动力系统层面的解释。过去很多分析聚焦平坦极小值、噪声注入或局部几何,但作者更具体地讨论 dynamical stability,也就是训练轨迹对扰动的敏感性。
这篇论文要解决的问题是:带 Batch Normalization 的网络在使用 shuffling SGD 时会出现训练不稳定,而这种现象在经典优化理论里解释得不充分。过去大家通常把不稳定归因于学习率过大或 BN 的统计噪声,但作者更具体地研究“shuffle + BN”这个组合为什么会触发异常行为。
这篇论文要解决的问题是:序列转导通常逐 token 自回归生成,导致推理延迟高;非自回归方法虽然快,但容易因为长度和对齐建模不足而掉精度。作者的核心思路是同时预测 token 和 duration,用更结构化的方式处理“输出什么”和“每个输出持续多久”,从而在效率和质量之间找到更好的平衡。
这篇论文要解决的是:如何系统评估代码大模型在知识产权侵权上的风险,而不是只看功能相似或训练集记忆。代码模型过去更常被从准确率、pass@k、泄露率角度评估,但真实法律风险取决于生成代码是否在受保护表达层面与已有代码过度接近,这个问题一直缺少成体系的评测设定。
这篇论文关注的是:当模型性能变化时,如何把下降或提升归因到具体的数据分布偏移,而不是笼统地说‘domain shift 了’。过去 distribution shift 研究更常检测是否发生偏移,但对‘哪个因素导致性能变化、贡献多大’这个更可操作的问题回答不足。
这篇论文解决的是 diffusion 模型采样太慢的问题,核心思路不是重新训练加速器,而是利用已有轨迹做 learning-free 的推理加速。传统 diffusion 需要很多步迭代,已有加速方法常常要额外蒸馏或改训练目标,成本高且对基础模型有侵入性。
这篇工作要回答的是:持续学习中的遗忘并不是均匀发生在所有参数上,哪些参数更容易忘、哪些参数更稳定,现有方法大多没有直接刻画。过去很多 continual learning 方法把参数重要性当成静态或全局量处理,但如果遗忘在参数层面高度异质,这种处理会天然粗糙。
这篇工作解决的是:PyTorch 中重计算(re-materialization,也常叫 activation checkpointing)虽然能省显存,但现有方案往往需要手工切图、工程侵入强,而且不够通用。这个问题对大模型训练很实际,因为很多训练瓶颈不是算力而是显存和带宽,重计算策略做不好就会直接影响可训练模型规模。
这篇工作要解决的是:语言生成模型输出的文本很容易被复制和再分发,但现有水印方案要么可见、要么鲁棒性差、要么显著伤害生成质量,因此难以真正用于模型保护。这个问题在大模型时代变得紧迫,因为文本生成服务的归属证明、滥用追踪和平台治理都需要低感知、高可检的标记机制。
这篇工作要解决的是:代码生成模型通常单次从左到右直接产出完整程序,但复杂程序更适合先搭控制流和语法骨架,再逐步补细节;现有 LLM 缺的不是局部补全能力,而是把程序结构显式分阶段生成的机制。这个问题重要,是因为代码比自然语言更受语法层级和变量作用域约束,单次生成很容易在全局规划上出错。
这篇工作要解决的是:受控文本生成过去通常依赖属性标签、模板或专门训练的控制 token,但这些接口不自然、泛化差,也不利于真实用户表达复杂约束。作者尝试用 natural language instructions 来做控制,核心是在生成模型里把‘控制条件’从结构化标签换成开放文本指令。
这篇工作要解决的是:标签噪声下的鲁棒学习常通过重加权、样本筛选或噪声转移矩阵来处理,但这些方法对噪声模式假设较强,且容易在高损失样本上做出不稳定决策。作者选择直接优化 loss distribution 的 tails,说明他们认为关键不在平均损失,而在损失分布尾部如何被异常样本主导。
这篇工作要解决的是:标准 PPO 针对的是标量 reward 的策略优化,但当反馈来自偏好或排序信息时,直接套 PPO 往往不自然,信息利用也不充分。题目中的 Preferential PPO 表明作者想把 preference-based feedback 更直接地并入 PPO 框架。
Transformer 中的残差连接(skip connections)虽然有效缓解了梯度消失,但其组织方式一直沿用最简单的逐层加法。本文提出一种新的 skip connection 组织方式,试图改善 Transformer 的信息流动。
文本数据增强速度慢且质量不稳定。本文提出用回译(round-trip translation)作为监督信号来加速改写模型的数据增强过程。
从头训练大模型成本高昂,而现有的预训练模型碎片(fragments)能否像拼积木一样组合成新模型?本文提出 StitchNet,研究如何将不同预训练模型的片段拼接组合。
汽车电子可靠性预测是一个回归任务,传统方法缺乏有效的预训练策略。本文将对比预训练引入回归任务,用于汽车电子的可靠性预测。
分布式词/句表示中编码了哪些语义信息(如上下位关系、情感偏见)?本文通过 probing 方法分析预训练表示中的上位词信息和情感偏见。
病理图像分析中标注数据稀缺,需要有效的自监督预训练方法。本文结合生成式和对比式自监督学习来改进病理图像的表示学习。
这篇论文关注的是:分布式学习里的收敛界到底能不能对真实系统设计有用,而不只是停留在理论上。过去很多收敛分析依赖过强假设,结论对真实网络异构、通信抖动和系统约束指导有限,因此理论和工程之间长期脱节。
这篇论文解决的是分布式机器学习中的一个老问题:节点异构和通信代价会让统一同步策略很低效。传统框架往往把所有工作节点一视同仁,结果是快节点等慢节点、通信被最差链路拖住,训练效率和资源利用率都偏低。
这篇论文要解决的是零样本文本分类里的 prompt learning 过于依赖表面词匹配,缺少常识支撑,所以在类别语义不显式、标签描述不充分时容易失效。过去很多方法把标签词或模板写好就直接做匹配,但这种做法默认模型会自动补齐常识关联,现实里并不稳。
这篇论文解决的是二进制函数命名准确率低、且伪代码 AST 难以稳定提取的问题。现有方法常依赖反编译后的结构化表示,但二进制代码噪声大、编译优化强,导致 AST 质量不稳,进一步拖累名称预测。
这篇论文研究的是 lexical simplification 在预训练模型时代该怎么做得更稳。传统词汇简化往往把候选生成、复杂词识别和上下文适配拆开做,流程长且误差会逐步传递;预训练模型看起来能统一处理,但是否真的改善可控性和语境匹配,是这个方向的核心问题。
这篇论文关注的是多模态表格问答:当问题需要同时理解表格结构、文本内容,甚至可能还包含视觉线索时,传统 text-only table QA 很容易丢掉布局和跨模态对齐信息。过去不少方法要么把表格线性化成纯文本,要么只做结构编码,结果在复杂表格和真实场景里表现受限。
这篇论文研究的是文本数据增强对 DistilBERT 文本分类到底有多大帮助,以及哪些增强可能只是制造表面多样性。这个问题一直存在争议:传统小模型时代数据增强常常有效,但到了预训练编码器时代,模型已经带有较强语言先验,额外增强不一定继续带来净收益,甚至可能破坏标签语义。