Conference on Neural Information Processing Systems
这篇论文的核心结论很明确:预训练数据混合比大家通常处理得更重要,而且可以被系统优化,而不是靠经验拍配比。过去大模型常用固定数据比例训练,最多做少量启发式调参;问题在于不同数据域对损失下降和最终泛化的边际贡献差异很大,错误配比会让训练 token 被浪费在低价值数据上。
这篇论文要解决的是:离散扩散语言模型过去最大的短板之一,是很难像 AR LM 那样给出 tractable likelihood,因此训练目标、评估方式和与主流语言建模的可比性都受限。大家知道 diffusion 可能带来更强的全局建模和非左到右生成能力,但如果不能做似然建模,它就很难真正成为语言预训练的一等公民。
这篇论文的核心问题是:当高质量训练数据受限时,语言模型应该如何扩展,才能比盲目增参或重复训练数据更有效。经典 Chinchilla 类结论默认数据和参数可以共同扩展,但很多真实场景——多语种、专业领域、许可受限语料——首先撞到的是数据瓶颈;这篇工作正面研究 data-constrained regime 下的 scaling。
这篇论文要解决的是大模型预训练数据是否必须依赖重度人工策展。过去高质量 LLM 语料常强调 curated corpora,例如精筛网页、书籍和百科组合,但这条路成本高、扩展慢,也容易把数据工程变成难以复现的黑箱;作者要证明,纯 web 数据只要清洗和去重足够好,也能支撑强模型。
这篇工作解决的核心问题是:RLHF 虽然有效,但流程过长、训练不稳定,而且 reward model 与 policy optimization 的误差会层层放大。过去主流做法是先拟合奖励模型,再用 PPO 等 RL 方法优化语言模型,并用 KL 约束防止漂移;这条链路在大模型上可行,但实现复杂、调参脆弱、算力成本高。
这篇工作解决的是 LLM 预训练数据里的重复与同质化问题:大规模网页语料看似很多,但常含大量近重复文档和主题过度集中,导致模型把算力浪费在重复 token 上。过去业界更多关注去重是否提升 benchmark,而对"去重 + 多样化采样"如何共同影响训练效率和泛化,讨论还不够系统。
预训练数据筛选此前依赖人工设计的启发式规则或人工标注,无法高效从大规模无标注原始语料中提取匹配目标分布的子集,通用、领域预训练均存在该痛点。
这篇工作要解决的是:标准 Transformer 按 token 逐步建模长字节序列时,计算和上下文长度都很快失控,导致原生字节级建模难以扩展到百万级序列。以往做法通常退回到子词 tokenizer,或者用局部注意力牺牲全局建模能力。
自回归文本生成存在曝光偏差,错误累积导致重复低质量输出,此前的文本扩散模型计算开销大,长文本生成流畅度远低于自回归模型,段落级文本的流畅度与全局可控性无法兼得。
这篇工作解决的是:能不能直接用偏好数据优化策略,而跳过显式奖励模型这一步。过去 RLHF/DPO 一类流程里,奖励建模常是信息瓶颈和失真来源,因为偏好标注先被压成一个奖励函数,再被策略优化二次利用。
这篇工作研究的核心问题是:大语言模型的记忆不是偶发现象,而是会随着规模和训练条件呈现可预测规律。过去关于 memorization 的讨论常常停留在个案层面,比如模型是否复现训练语料中的敏感文本;作者更进一步,想回答什么时候会出现明显记忆、它是否像涌现一样在某个规模后变得突然,以及这种现象能否被提前预测。
这篇工作试图回答一个更基础的问题:Transformer 在训练早期是如何长出来的,尤其是注意力和记忆能力是怎样形成的。过去很多 Transformer 理论要么分析已经训练好的模型,要么在非常静态的函数近似框架下解释注意力;作者则从 memory viewpoint 切入,研究模型在出生阶段为何会偏向形成某种记忆机制。
这篇工作解决的是 Transformer 量化里的一个具体痛点:激活 outlier 会严重破坏低比特量化,而很多 outlier 实际上来自注意力头被迫在‘无事可做’时也输出非零结果。传统量化方法多在事后校准、裁剪或更复杂的量化器上补救;作者想从结构上减少 outlier 的生成源头。
这篇论文要解决的是:优化算法能否被自动发现,而不是主要依赖人工推导与经验调参。过去学习优化器常受限于参数化形式太强、可解释性差或泛化差;而纯符号搜索又难以在大空间里找到真正有用的更新规则。
这篇论文讨论的核心问题是:语言模型在持续预训练或多语种/多域学习中,如何保持 plasticity,也就是继续学新东西的能力,而不是越来越僵化。传统预训练通常默认“记住越多越好”,但模型一旦过度固化已有统计规律,后续学习新语言或新分布时会明显变慢,甚至出现顽固的干扰。
这篇论文要解决的是:语言模型训练数据里的“技能”到底是什么,能否用数据驱动方式刻画,并据此指导训练配比。过去数据混合大多按来源、领域或启发式标签来分桶,但这和模型真正学到的能力并不一一对应,所以很难解释为什么某些 mixture 有效、某些无效。
多语言/多任务学习存在严重数据不均衡时,标准静态权重混合训练的高低资源任务性能tradeoff差,此前的方法仅调整损失权重,没有考虑训练顺序的影响,无法同时提升高低资源任务性能。
此前Transformer机制可解释性的电路发现完全依赖人工直觉和手动操作,效率极低,无法规模化推广到大模型的复杂行为分析。
这篇论文解决的核心问题是:如何在单卡或低资源条件下高质量微调大语言模型,而不显著牺牲效果。此前 LoRA 已经降低了可训练参数量,但全精度权重仍然占据主要显存,因此 33B、65B 级模型对大多数研究者仍然不可达。
这篇论文要解决的核心问题是:RLHF 方法迭代太慢、太贵,导致很多算法改进停留在小规模离线比较,难以做系统研究。过去做法通常依赖封闭的人类标注流程或昂贵 API,研究者很难反复试错;作者因此提出一个可控的模拟环境,把 instruction tuning、reward modeling 和 preference-based fine-tuning 放到同一套可复现实验框架里。
Transformer在序列长度和模型维度两个维度上均为二次复杂度,无法同时扩展长上下文和大模型维度,此前的次二次架构要么硬件效率低,要么只能优化单一维度的复杂度。
这篇工作要解决的是:语音语言模型通常受限于语音数据稀缺,而纯文本数据极其丰富,如何把文本预训练的规模优势迁移到 speech LM 上。过去常见做法是分别训练文本 LM 和语音模型,再靠蒸馏或级联系统连接;作者关注的是更直接的统一语言建模视角。
大语言模型自回归推理延迟高,此前的推测解码依赖小模型草稿和大模型验证,需要两个模型同构且草稿模型与目标模型分布对齐要求高,对齐不好时加速比低。
这篇工作讨论的核心问题是:多模态语言模型能不能直接承担图像生成,而不依赖单独训练的扩散解码器。过去图像生成主流是扩散模型,语言模型更多负责理解或离散 token 生成;作者想验证,把图像离散化并统一进自回归多模态 LM,是否能得到一个更统一的“理解+生成”体系。
这篇论文解决的是多模态预训练里一个很现实的瓶颈:公开可用、质量可控、规模足够大的交错图文文档数据太少。过去很多视觉语言模型依赖网页 alt-text 式图文对,或者依赖闭源爬取集;这类数据要么上下文弱,要么难复现,无法很好支持“在一篇文档中多图多段联合建模”的训练。
这篇论文的核心问题是:能否用统一的大规模生成模型,把语音编辑、条件生成、跨语言说话人泛化等任务合并起来做,而不是为 TTS、语音修复、风格迁移分别训练专用系统。过去语音生成通常是任务专用、语言专用或说话人专用,泛化能力和灵活性都有限。
这篇论文要解决的是:标准 Transformer 在长上下文下训练和推理都太慢,因为自注意力在序列维度上是严格串行依赖且二次复杂度。过去要么靠稀疏/近似注意力牺牲精度,要么只在推理端做工程优化;作者关注的是另一条路——能否把长序列拆成块,在尽量不损失建模能力的前提下并行化更多计算。
这篇工作要解决的是:扩散语言模型如何摆脱离散 token 空间上的采样困难与长序列低效问题,从而在文本生成上成为更现实的替代范式。离散扩散 LM 虽然能提供非自回归生成和不同的训练信号,但直接在 token 上做扩散通常训练难、采样慢、质量也不稳。
大模型微调依赖反向传播,显存开销大,单卡可训练的模型参数上限低,此前的零阶优化方法被认为在大模型上收敛太慢无法落地。
基础模型训练数据集不透明,无法快速查询给定样本是否被用于训练,此前的方法要么存储开销大,要么查询速度慢,无法规模化应用于TB级训练数据集的审计。
这篇论文要解决的问题是:能不能用一个统一的 masked modeling 框架同时处理多种模态和多种任务,而不是为图像、文本、语义分割、深度等分别训练专门模型。过去多模态预训练常见两条路:要么只做图文对齐,统一性有限;要么做统一 token 建模,但任务接口不够自然。4M 试图把“多模态输入 + 多模态输出”都收进一个掩码建模范式里。
这篇论文解决的是 Transformer 上下文长度受限且推理成本随序列增长恶化的问题,尤其是如何在不把全部历史重新塞进窗口的情况下,对超长上下文进行随机访问。以前的长上下文方法多在局部注意力、线性注意力或检索增强之间做折中,但要么失去精确访问能力,要么系统复杂;这篇工作试图保留 Transformer 的表达力,同时突破固定窗口。
这篇论文的核心问题是:masked pre-training 到底在优化什么,它与真正关心的边缘似然(marginal likelihood)之间是什么关系。过去 masked LM 很成功,但目标函数更多被当作实用 surrogate;作者试图从概率建模角度澄清它何时是在近似最大化边缘似然,何时则会产生系统偏差。
这篇论文的核心问题是:标准自回归预训练只从左到右预测下一个 token,训练信号局部、路径单一,导致对双向约束、全局一致性和中间位置建模都不够直接。过去 masked LM 虽然提供双向上下文,但训练-推理不一致;作者试图重新设计一种预训练范式,让模型从序列两端向中间汇合,从而同时利用前后文而不过度偏离生成式使用方式。
这篇论文的结论很直接:语言模型 tokenizer 会系统性地制造跨语言不公平。过去多语 LLM 常把 tokenizer 当成中性预处理步骤,但不同语言被切成多少 token、词形是否被破碎、常见词是否落入长子词链,会直接影响训练成本、上下文占用和模型学习难度。
这篇工作要解决的是:BERT 类双向编码器在预训练效率上长期落后于同规模解码器和更现代的工程实现,导致很多人默认“BERT 已经没有系统优化空间”。过去对此的处理多是换目标函数或直接转向 encoder-decoder / decoder-only,而不是把 BERT 的训练配方、架构细节和系统栈重新按吞吐量与收敛速度一起优化。
这篇工作要解决的是:近年线性 RNN 重新受到关注,但很多方法只在递推输出端加 gate,没有把“忘记多少历史”直接纳入状态更新,因此长短期依赖的分工仍然粗糙。Transformer 用注意力显式处理长程依赖,RNN 若想重新具备竞争力,必须在递推层面把记忆时间尺度设计清楚,而不是只做轻量线性化。
这篇论文解决的是:如何让语言模型在没有大规模人工标注 tool-use 数据的情况下,学会何时调用外部工具以及如何把结果并回生成过程。过去要么靠人工构造 API 训练集,要么完全依赖 prompting,前者成本高、覆盖窄,后者稳定性差且不会自动学会调用策略。
这篇论文要解释的问题是:大语言模型在处理长距离上下文时,实际整合信息的“窗口”是如何随规模和训练变化的。过去大家常用固定上下文长度或 attention map 可视化讨论上下文利用,但很少精确刻画模型到底在多大范围、按什么衰减规律整合证据。
当前LLM对齐依赖SFT和RLHF,人力标注成本高,存在标注质量不稳定、一致性差、偏见引入等问题,现有方法均无法脱离大规模人工监督实现低成本高质量对齐。
开源指令微调的效果宣称缺乏统一系统评测,不同模型、数据集的效果对比混乱,现有工作仅在小范围测试集上评测,无法客观判断开源与闭源模型的真实差距,也无法明确哪些指令微调资源有效。
这篇论文的核心问题是:如何解释 in-context learning 为何依赖示例选择,以及怎样系统地找到更好的 demonstrations。过去很多工作把 ICL 当作黑箱现象来做启发式 prompt 选择,但缺少一个能解释‘为什么某些 few-shot 例子有效、另一些会明显拖后腿’的统一视角。
这篇论文研究的是一个很关键但常被模糊处理的问题:in-context learning 到底在什么条件下是可学习的。ICL 现象已经被大量观察到,但‘模型什么时候能通过预训练学会在上下文里执行学习算法’并不清楚;如果没有可学习性分析,我们很难判断哪些训练分布、模型族和任务结构真正支持 ICL。
这篇论文要解决的是:文本生成如何同时利用自回归模型的强条件建模能力和 diffusion 模型对全局生成过程的灵活性。过去文本 diffusion 经常因为离散 token 难处理、生成步数多、条件依赖弱而落后于 AR;而纯 AR 虽然强,但生成顺序被固定在左到右,难以获得 diffusion 式的逐步修正能力。
这篇论文要解决的核心问题是:Transformer 能否直接用 4-bit 整数稳定训练,而不只是做后训练量化或低比特推理。过去低比特训练的主要障碍不是算术上不能做,而是训练期激活、梯度和优化器状态的动态范围变化太大,4-bit 很容易把有用信号压扁,最终导致 loss 爆炸、精度显著下降或根本不收敛。
这篇工作要解决的是:RLHF 很有效,但训练成本高、实现复杂,而且 reward model 和 PPO 带来的不稳定性会让对齐过程难以复现。过去大家默认‘有人类偏好就要上强化学习’,作者想证明其实只用排序信号做监督式优化,也能把语言模型往人类偏好方向推得很远。
这篇工作想解决的核心问题是:Transformer 上下文长度扩到 128K 甚至更长时,标准全注意力的计算和显存成本会爆炸,而许多稀疏或线性注意力方法又会明显损伤质量。过去的方法要么牺牲精度换复杂度,要么只在训练时可行、生成时不好用,因此需要一种更贴近实际推理需求的长上下文方案。
这篇工作解决的是 LLM 生成推理时的 KV cache 瓶颈:上下文一长,注意力需要读取全部历史 key/value,显存和带宽压力都很高,而大多数 token 对后续生成的贡献其实并不均匀。过去常见方案是窗口截断或统一压缩,但这些方法容易把真正重要的远距离信息一起丢掉。
这篇论文给出的核心判断很直接:对齐一个强基座模型,不一定需要海量指令数据,少量高质量样本也能把聊天能力拉起来。此前社区常把 instruction tuning 视为“数据越多越好”,但很多数据其实冗余、风格杂、监督信号并不干净。作者想验证的是,若只保留极高质量、风格一致、以回答示范为主的小数据集,能否获得出乎意料的对齐效果。
这篇工作要解决的是:公开可用的多模态预训练数据长期缺少真正大规模、图文交错且接近网页原生结构的语料,导致很多多模态 LLM/VLM 只能依赖封闭数据或退回到图文对配对数据。过去常见的数据要么规模不足,要么只有 caption 级配对,难以支持 interleaved 文档建模和原生多模态上下文学习。
这篇工作的结论很直接:LLM 的安全训练失败,不只是因为攻击者会写奇怪提示,而是因为能力目标和安全目标之间存在结构性冲突,加上安全泛化范围落后于能力泛化。过去很多讨论把 jailbreak 当成红队技巧集合,但这篇工作试图把它拆成可分析的失效模式。
这篇工作的核心问题是:GPT-2 这类预训练语言模型到底是怎么实现“greater-than”这种看似简单、其实涉及数值与序列模式结合的能力的。过去我们知道模型能做一些算术或比较,但往往停留在行为层评测,缺少电路级解释。
这篇工作要解决的是:音频和视频能否像文本中的 masked modeling 一样,用统一的掩码式预训练来学到强表示,而不是把两种模态分开做对比学习或重建。以前音视频学习常在对齐、检索或单模态重建之间做折中,导致联合表示学得不够统一。
现有扩散模型在语言引导图像编辑时无法准确渲染文字内容和文字风格,现有方法均回避文字编辑需求,仅支持非文字区域的编辑。
Transformer 在训练过程中是如何逐步学习特征的?具体来说,权重矩阵的秩(rank)在训练中如何演化?此前对深度网络学习动态的理论分析大多局限于线性模型或浅层网络,对 Transformer 的理解很少。
Transformer 在做 in-context learning(ICL)时,内部到底在执行什么算法?此前的理论工作(如 Akyürek et al., von Oswald et al.)表明 Transformer 可以实现梯度下降,但这些分析局限于普通 GD,没有解释 Transformer 是否能实现更高效的优化算法。
这篇工作解决的是 ViT 在给定算力预算下应该如何选宽度、深度、patch 大小等结构超参,而不是继续沿用 NLP 或 CNN 时代的经验比例。过去很多 ViT 设计是经验驱动或面向固定训练 recipe 调出来的,导致同样 FLOPs 下经常不是 compute-optimal。
这篇工作关注 autoregressive Transformer 的上下文效率问题:不是所有历史 token 都同等重要,但标准自注意力在每一步都为全部上下文付费。过去常见的压缩或稀疏注意力多是固定规则,效率上有帮助,但难以随输入动态调整,也不容易解释模型到底保留了什么。
这篇工作的核心问题是:Transformer 的 in-context learning 到底是不是在“临时学算法”,以及这种能力能否被严格证明,而不是只靠现象学解释。过去 ICL 常被描述为像做贝叶斯推断、梯度下降或元学习,但缺少一个同时覆盖多类经典学习算法、并给出统计最优性保证的统一理论。
LLM 推理的显存和带宽瓶颈要求极致量化,但将权重压缩到 2-bit 时精度通常崩溃。现有 PTQ(训练后量化)方法在 3-4 bit 效果尚可,到 2-bit 则缺乏理论保证和实用方案。
传统检索增强生成依赖固定外部语料库,语料质量限制生成效果,现有工作仅优化检索匹配策略,未对语料库本身做迭代优化。
现有工作普遍认为上下文学习策略是模型预训练时固定的,无法通过上下文调整,现有工作仅优化上下文示例,未优化上下文学习本身的能力。
这篇论文要解决的问题是:能不能像文本大模型一样,把音频任务统一成“给定指令或文本,预测音频相关输出”的语言建模问题,而不是每个任务单独训练一个专用头。过去音频领域常见做法是任务特定模型或音频编码器加分类/检索头,迁移性和任务统一性都有限,所以值得重新用 LM 范式做一遍。
这篇论文的核心结论是:Transformer 在组合泛化上的失败不是边角问题,而是当前自回归语言建模范式在结构性推理上的稳定短板。过去很多工作通过扩大数据、prompt engineering 或任务特化来回避这个问题,但作者直接问一个更尖锐的问题:即使模型在表面分布上表现很好,它是否真正学会了可组合的规则,而不是记住高频模板。
这篇论文要解决的是:文本到图像 diffusion 模型通常靠 likelihood 或 reconstruction 类目标训练,但这些目标和人类偏好并不完全一致,因此生成结果常常在‘可采样’和‘真正好看/符合指令’之间有差距。过去做法多是依赖更大数据或人工筛选,作者则尝试把 RL 直接用于 diffusion fine-tuning,让优化目标更贴近可评价的最终图像质量。
单个多头注意力层的表达能力和泛化边界缺乏严谨的理论证明,现有工作多为经验性的架构迭代,未从随机特征视角解释注意力层的学习机制。
多模态预训练数据集设计的研究投入远少于模型架构和训练算法研究,现有工作仅优化模型和训练方法,没有标准化的数据集设计测试平台,无法客观对比不同数据过滤和筛选策略的效果。
这篇工作要解决的是:Chain-of-Thought 训练通常把推理过程当成显式监督文本来学,但真实场景里高质量 CoT 标注稀缺,而且把思维链硬当唯一正确序列会引入很强的表面形式偏置。作者试图把 CoT 视为潜变量,通过潜变量推断来训练模型,而不是要求每个样本都给出唯一可见的推理轨迹。
这篇工作要解决的是 RLHF 中偏好数据采集和利用效率低的问题:传统做法通常独立地比较成对回答,再训练 reward model,但这种静态 pairwise 标注信息密度不高,标注成本也大。随着大模型对齐越来越依赖人工偏好,如何在同等标注预算下学到更强偏好信号变得很关键。
这篇工作要解决的是优化器和训练规则高度手工设计的问题:Transformer 训练通常依赖人写的 optimizer、lr schedule 和若干经验技巧,而这些规则跨模型和任务迁移性有限。作者想问的是,能不能让一个 Transformer 学会如何训练另一个 Transformer,从而自动发现更好的更新策略。
这篇工作的核心结论是:大规模预训练模型里会自然出现“essential sparsity”,只有一部分权重真正对性能关键。过去稀疏化常被当成后处理压缩手段,但这篇工作更关心一个前置问题——在大模型里,重要权重是否天然集中,以及这种结构能否被识别出来。
这篇工作要解决的是:现有 LLM 安全对齐数据把 helpfulness 和 harmlessness 混在一起,导致模型很难学到“既有用又安全”的边界。过去很多 RLHF 或偏好数据只给一个总偏好分,模型分不清回答差是因为没帮助,还是因为有害;这会直接污染奖励建模和拒答策略,因此作者专门构造了把两者拆开的数据集。
这篇工作要解决的是:Pre-LN Transformer 里到底该用 LayerNorm 还是 RMSNorm,以及两者能否在不改模型行为的前提下互相转换。过去社区对 LN 和 RMSNorm 的使用很分裂:RMSNorm 更省算,但缺少去均值,大家担心表达能力下降;LN 更标准,但开销更高,且已经有大量大模型转向 RMSNorm。作者试图给出一个更干净的等价性分析,而不是继续停留在经验争论。
这篇工作要解决的是:很多号称“高效训练”的 Transformer/LM 优化算法,在真正语言建模训练里是否还成立。过去大量高效训练方法在 vision 或小规模 setting 上有效,但一到实际 LM 训练就因为优化噪声、并行开销、实现细节或超参数敏感性而失效;作者重新审视这些算法,意图把“看起来省”与“实际可用”区分开。
Transformer的长度泛化能力(从小训练上下文推广到更长上下文的能力)受限,已有研究指出位置编码是核心影响因素,但不同位置编码方案在下游推理任务上的外推效果差异没有系统性的明确结论,现有对比存在覆盖任务少、PE类型不全的问题。
大模型微调的内存瓶颈不仅来自优化器状态,预训练权原本身体积也占很高比例,现有量化方法大多针对推理部署阶段设计,没有适配参数高效微调(PEFT)的低比特量化训练方案,导致量化后模型很难直接用于微调。
生成式大模型的三值权重量化感知训练(QAT)会带来明显的精度损失,现有知识蒸馏方法没有针对生成任务的token级分布差异优化,容易出现过拟合或拟合教师模型噪声的问题。
这篇工作要解决的核心问题是:开源社区缺少高质量、可复现、可持续扩展的人类偏好与助手对话数据,导致 LLM alignment 长期依赖封闭数据和不可审计流程。过去很多对齐结果只能复现模型外形,复现不了数据分布和标注决策;作者想补的是这一层基础设施。
这篇工作要解决的是 Transformer 训练对乘法器的重度依赖,这在低功耗硬件、边缘设备和新型数字/模拟加速器上代价很高。以往大家更多讨论推理期低比特量化或乘法近似,但训练期几乎默认需要标准乘加,这限制了更激进的硬件-算法协同设计。
这篇工作要解决的是:现有多语言预训练数据要么语言覆盖不够,要么文档级结构被打散,要么审计和清洗不透明,导致 multilingual LM 在长文档、低资源语言和跨语种迁移上受限。过去很多语料更像网页片段堆积,而不是可控的文档级训练基座。
这篇工作解决的是高保真音频压缩中的一个核心短板:离散 codec token 质量不够高时,后续 AudioLM/VALL-E 一类音频语言模型的上限会被前端表示直接卡住。过去不少 neural audio codec 在码率、失真和感知质量之间取舍明显,尤其在音乐和复杂环境声上更难兼顾。
这篇论文解决的是端到端语音到文本翻译里一个长期难题:如何同时利用语音建模能力和文本语言建模能力,而不是让 ASR 与 MT 两段流水线各自为战。传统串联方案容易误差传递,端到端方案又常常在数据稀缺时学不到足够强的语言先验,因此需要一种更自然的语音—语言复合预训练形式。
这篇论文解决的是注意力网络训练中的一个很实际的系统瓶颈:softmax 输出需要保留用于反向传播,会占用大量 activation memory。过去常见做法是 activation checkpointing 或近似注意力,但前者增加重算,后者改动模型行为;作者瞄准的是一个更细粒度的问题——只近似 softmax 输出本身,来节省显存而尽量不改训练动力学。
优化器状态是大模型训练的主要内存消耗来源之一,现有优化器状态压缩最低支持到8比特,进一步压缩到4比特时,传统块量化无法处理一二阶矩的复杂离群点模式,会导致明显的训练不稳定和精度损失。
现有文本转语音(TTS)模型的自然度和风格多样性不足,要么需要参考语音才能生成指定风格,要么风格生成一致性差,传统对抗训练的判别器没有利用预训练语音大模型的语义信息。
神经文本退化(生成重复、冗余的循环内容)的成因存在多种矛盾假设,现有工作大多从模型结构、解码策略角度解释,没有从数据根源给出明确的实证结论。
思维链(CoT)提升大模型复杂推理能力的底层机制不明确,现有研究大多在真实任务上测试,变量控制难度大,无法分离CoT的具体作用。
这篇论文的核心结论是:标准 Transformer 在看似简单的长程依赖任务上会出现系统性的 attention glitch,而不是单纯容量不够。作者用 flip-flop language modeling 这种结构化任务暴露问题,说明模型即使训练 loss 不差,也可能在需要稳定状态跟踪时发生脆弱错误;这类失败以前常被更自然的数据分布掩盖了。
这篇论文的核心问题是:LLM 长上下文推理时,KV cache 占用会迅速成为推理显存瓶颈,而现有压缩方法往往需要复杂重算或会明显伤害质量。作者抓住一个经验规律:token 的重要性具有持续性,早期判断为不重要的 KV 往往之后也不重要,因此可以做更激进的测试时压缩。
这篇论文的核心问题是:视觉-语言模型在预训练后通常能看图说话,但并不会真正遵循复杂用户指令。过去 VLP 更强调图文对齐和 caption learning,离多轮、细粒度、开放式视觉助手还有距离;作者要解决的是如何把 LLM 的 instruction-following 能力迁移到视觉输入上。
这篇工作要解决的是:能否不依赖大量成对图文数据,仅通过离散语言式表示把图像和文本拉到同一个无监督对齐空间。传统 CLIP 路线高度依赖图文对,而这类监督在很多场景昂贵且带偏置,因此无监督文本-图像对齐是统一多模态预训练里一个很硬的问题。
这篇工作要解决的是:大语言模型如何做结构化剪枝,而不是只靠非结构化稀疏或简单层裁剪来压缩。LLM 部署和二次训练成本很高,但很多剪枝方法要么不够硬件友好,要么破坏模型能力过大,因此需要更适合 Transformer 结构的压缩方案。
GPT类预训练模型在连续时间复杂事件序列(如电子病历)场景的落地缺乏端到端工具链,现有工具要么只支持文本数据,要么没有针对事件序列的预处理、建模、评估流程,导致跨域应用门槛高。
自监督学习(SSL)图像模型被普遍认为仅学习通用语义关联,实际存在非预期的样本特定信息记忆,过往研究未系统量化这类记忆的存在和风险。
这篇论文要解决的问题是:为什么神经网络的 scaling law 会呈现分段式、带有能力台阶的形态,而不是简单平滑地随参数量增长。以往工作多用连续幂律去拟合损失随规模下降的趋势,但这类拟合很难解释为什么一些能力会在特定规模突然出现、随后又进入平台期;作者试图用“量化”视角给出一个更结构化的解释。
这篇论文要解决的问题是:长 prompt 在推理时既昂贵又重复,能不能把一段提示压缩成少量可复用的表示,而不明显损失下游行为。以前常见做法要么直接截断上下文,要么依赖 KV cache 复用,但前者丢信息,后者仍受 token 长度线性成本约束;gist tokens 试图学习一种更主动的 prompt 压缩方式。
这篇论文要解决的核心问题是:自回归 Transformer 的真实推理效率指标——延迟、吞吐、成本——很难便宜地估计,导致模型设计和 serving 优化常常依赖昂贵的端到端跑数。过去大家用 FLOPs、参数量或理论复杂度当代理,但这些指标对 KV cache、并行度、内存带宽和 batch 形态都不敏感,因此经常预测不准,尤其在长上下文和在线解码场景下偏差很大。
这篇论文解决的问题很直接:现有图文多模态数据集的文本侧往往过短、过噪、语义覆盖不足,限制了视觉-语言预训练的上限,而重新大规模人工标注又太贵。过去很多工作默认网页 alt-text 勉强够用,或者只把 captioning 当下游任务;这篇工作反过来把图像描述模型当成数据清洗和数据增强工具,用来系统提升预训练语料质量。
这篇论文的核心问题是:Gaussian Mixture of Experts 中常用的 softmax gating 到底在做什么,为什么它经常有效,以及它带来的归纳偏置和限制是什么。过去很多 MoE / mixture 模型直接把 softmax gate 当默认组件使用,但对其几何解释和专家分配行为理解并不充分,这限制了我们判断何时该继续用 softmax、何时该换别的 gating 机制。
RLHF 对齐训练中,模型容易偏离预训练分布(alignment tax),常用的 KL 惩罚虽然能缓解但会限制优化空间。本文提出一种更灵活的方式来平衡对齐优化与保持预训练能力。
LLM 的参数化知识会过时,直接编辑参数(如 ROME/MEMIT)虽能修改单个事实但难以处理知识的连锁更新(如修改了某人的职位,相关的组织信息也应联动更新)。本文研究如何将知识更新可靠地传播到模型中。
长序列上的注意力计算是 Transformer 的核心瓶颈。Flash Attention 解决了 IO 效率问题但仍是精确全注意力,而稀疏注意力方法虽然降低了计算量但通常需要固定的稀疏模式(如 local + global),无法根据输入动态调整。本文提出动态稀疏注意力与 Flash Attention 的结合。
这篇论文要解决的是标准 Transformer 在长序列上的状态管理效率问题。传统 Transformer 每层都依赖完整 token-level 激活,推理时要缓存大量 KV,训练时显存和时延都很高;很多替代方案虽然更省,但往往牺牲表达能力或难以兼容现有架构。
这篇工作要回答的核心问题是:为什么 step-by-step reasoning 会在语言模型或序列学习系统里自然出现,而不是把链式推理当成纯粹由监督模板灌输出来的行为。过去很多解释停留在“CoT 提供了更多中间监督”或“更像人类解题过程”,但对其出现条件和归纳偏置缺少更机制化的说明。
这篇工作要解决的是:对齐通常不是单目标优化,而是多个互相冲突的奖励之间的折中,但常规 RLHF 或单 reward fine-tuning 往往只把模型推向某一个点,难以得到 Pareto 更优的解。过去要兼顾 helpfulness、harmlessness、brevity、truthfulness 等目标,通常需要重新训练多次或手调 reward 权重,效率低且结果不稳定。
这篇工作研究的核心问题是:回归任务中的 in-context learning 为什么会表现出非贝叶斯行为,以及这种行为是否由预训练任务多样性诱发。过去很多 ICL 理论把 transformer 解释成某种近似贝叶斯推断器,但经验上模型经常偏离贝叶斯最优,尤其当预训练任务分布复杂、多峰或结构混杂时。
这篇工作要解决的是:高效序列建模里,模型既需要足够的表达能力,又需要控制计算和激活成本,但 dense activation 往往让每个 token 都经过同样昂贵的路径。过去 MoE 主要在 FFN 级别做稀疏化,而序列模型内部不同位置、不同时间尺度其实也可能需要不同模块参与。
现有基于离散token的音频生成方法在条件信息有瑕疵时易产生可闻 artifacts,此前扩散模型仅用于语音声码器或低采样率音频生成,无法覆盖全模态高保真音频生成需求。
这篇论文的核心结论是:很多所谓 LLM“涌现能力”可能是评测刻度造成的海市蜃楼,而不是能力在某个模型规模点突然出现。以往工作常在离散指标上观察到从 0 到非 0 的跳变,但如果底层能力其实是平滑增长,阈值化或非线性度量就会把连续改进放大成“突现”。
这篇论文想解决的是:文本生成训练为什么几乎被 MLE(最大似然)垄断,以及是否存在更稳健、具有更好优化或泛化性质的替代目标。MLE 的问题并不新鲜,包括 exposure bias、训练目标与生成质量不完全对齐,以及对长尾或多样性控制的局限,但大家通常缺少可训练、可证明、还能在文本任务上落地的替代方案。
这篇工作要解决的问题是:当语言模型作为 agent 在多步任务中失败时,如何不用参数更新也能从失败中积累可复用经验。过去常见做法要么依赖监督微调或 RLHF 改参数,要么只做短期 trial-and-error 而不形成稳定记忆,这使得样本效率低、部署成本高,也不利于在线适应。
这篇工作要解决的问题是:如何在不破坏现有语言模型能力的前提下,给它加入更细粒度的音频理解能力。过去多模态音频-文本系统常用全局音频 embedding 或 encoder-decoder 对接,这对粗粒度分类够用,但对事件级、时序级音频语义建模不够细。
这篇工作的核心问题是:Transformer 中常被称为 emergent in-context learning 的现象,究竟是稳定形成的能力,还是训练过程中会短暂出现又消失的过渡态。过去很多分析默认 ICL 会随着训练和规模单调增强,但这个假设未必成立。
这篇工作解决的是一个越来越实际的问题:当多个 LLM 以 stack 方式串联协作时,prompt 不再是单模型局部超参,而是整个系统的耦合变量,怎么才能联合优化。过去常见做法是逐个模块手调 prompt 或独立搜索,但这通常得到局部最优,前一个模型的 prompt 改动会改变后一个模型的输入分布。
现有指令跟随模型的训练依赖固定标注数据集,无法在部署后利用用户实时反馈持续提升性能,过往持续学习方法易出现灾难性遗忘。
现有推测解码方法的接受率优化缺乏统一理论框架,大部分方案依赖启发式设计,小模型draft的接受率上限较低,导致加速比不足。
Transformer大模型的上下文学习(ICL)机制缺乏可解释的理论解释,过往研究无法明确ICL背后的具体计算流程。
这篇工作要解决的是:Chain-of-Thought 给出的解释并不总是忠实反映模型真实的决策过程。过去大家常把 CoT 同时当成性能增强手段和可解释性窗口,但这两个角色并不天然一致;模型可能先得到答案,再生成一段看起来合理的推理文本。
这篇工作要解决的是:Transformer 在上下文长度扩大后,如何仍然有效利用远距离信息,而不是只把长上下文当作更大的噪声池。过去扩 context 常靠位置编码改造、稀疏注意力或继续训练,但模型即便能“看见”更长序列,也未必学会把相关上下文聚焦出来。
这篇工作要解决的是:标准语言模型的上下文窗口有限,导致它难以利用跨会话、跨文档的长期信息,而把窗口一味拉长又会带来显著的训练和推理成本。过去常见方案是检索增强或外部 memory,但如何把长期记忆稳定接入 LM、并在需要时高效调用,一直没有统一而实用的方案。
现有大模型训练框架要么单独优化内存,要么单独优化并行策略,两者的联合优化很少被系统研究,导致训练吞吐量无法达到最优。
这篇论文要解决的是:在人类偏好本身存在分歧时,怎样训练对齐模型而不把这些分歧粗暴压平成单一标签。现有 RLHF 流程通常先把多位标注者的偏好做多数投票或平均,再训练 reward model;这种做法实现简单,但会丢掉“分歧有多大、分歧发生在哪类样本上”这些对齐里很关键的信息,进而把奖励信号变得更噪。
这篇论文要解决的核心问题是:大规模视觉-语言模型训练很容易在低精度下失稳,而现有做法通常只能在训练稳定性、吞吐和最终精度之间做保守取舍。过去很多 VLM 仍依赖 FP16/BF16 加上一堆经验性保护,原因不是方法不会训,而是对比学习、logit scale、归一化和大 batch 的组合会把数值范围推到低比特格式难以承受的区域。
这篇论文的核心问题是:能否在真实规模的指令微调模型里定位到可干预、可复用的因果机制,而不是停留在相关性层面的解释。过去机制可解释性很多结果都来自小模型或人工构造任务,一旦进入 Alpaca 这类实际 LLM,电路太分散、表征太冗余,常规 probing 很难告诉你模型到底靠什么机制完成任务。
这篇论文解决的问题很直接:用于训练语言模型奖励模型的人类反馈太粗,导致 reward 学到的信号噪声大、可迁移性差。传统 RLHF 常用整句或整回答级别的偏好标注,这种标注便宜但信息瓶颈明显——一个回答里好坏点可能同时存在,单一总体偏好无法告诉模型到底哪一段好、哪一段坏。
这篇论文要解决的核心问题是:纯文本语言模型缺少与世界状态和行动后果对齐的经验,导致它对具身任务、物理因果和交互规划的理解较弱。以往做法通常是把世界知识继续堆进文本语料,或者单独训练世界模型;但如果语言模型从未接触过状态-动作-结果这种闭环数据,它很难学到真正可执行的环境动态。
现有主动学习的数据选择流程需要反复迭代模型训练和批量数据选择,计算成本高,无法快速适配不同数据集。
现有大语言模型的推理仅支持token级左到右的决策流程,在需要探索、前瞻规划或初始决策影响大的任务上表现不佳,CoT等方法也无法解决单一路径的局限性。
这篇工作要解决的是:在冻结 LLM 的前提下,如何把多模态生成做好,而不是只把视觉信息粗暴投到文本 token 空间。过去很多“frozen LLM + adapter”方案在理解任务上够用,但一到高质量生成就暴露出表示瓶颈:视觉语义太密、层次太浅,LLM 接口不匹配。
这篇工作要解决的是:把 LLM 当作带属性标签的数据生成器时,生成数据到底能否真正替代人工或真实采样数据,尤其在 diversity 和 bias 上会发生什么。过去很多工作只看少量下游分数提升,较少系统分析合成数据的覆盖面、偏差放大和属性控制失真。
同步序列生成(流式ASR、同传、同步语音翻译等)的现有方法依赖任务特定启发式规则判断生成时机,无法自适应学习源-目标序列映射,也无法支撑多任务统一建模。此前这类任务都采用分任务定制方案,开发成本高、泛化性差。
现有LLM记忆性度量方法优先捕捉高频重复内容的记忆(公共知识、模板文本等),无法过滤这类通用记忆,精准识别对单份敏感训练文档的记忆。此前的度量标准与训练数据出现频次强相关,无法支撑单文档级的隐私风险评估。
连续扩散模型存在确定的概率流,而离散扩散模型此前没有统一的概率流理论框架,采样结果不确定性高、生成质量不稳定。此前离散扩散的采样依赖随机噪声注入,没有可解释的确定性转移机制。
这篇论文的核心结论是:用 LLM 充当评审是可行的,但必须先搞清它在哪些设定下可信、在哪些设定下会系统性偏。过去社区常用人工评测聊天模型,成本高且复现差;而直接让 GPT-4 之类模型打分虽然便宜,却缺少系统验证。作者想回答的不是“能不能用”,而是“什么任务上能用到什么程度”。
这篇工作要回答的是:神经网络在现实训练尺度下学到的特征,是否会随着宽度变化而改变,还是存在跨宽度的一致性。这个问题重要是因为很多宽度极限理论依赖无限宽近似,但工程上真正训练的是有限宽网络,理论与实践之间一直隔着一层不确定性。
这篇工作研究的是:在 Dynamic Sparse Training 里,究竟该怎么剪枝。过去大家更关注生长规则,因为网络会不断补边;而剪枝常被当成次要实现细节处理,但如果剪错位置,DST 会一直在坏拓扑附近震荡,稀疏训练的优势就出不来。
这篇工作要回答的是:RLHF 在理论上是否比标准强化学习更难。这个问题值得做,因为工程上大家普遍觉得 RLHF 更脆弱、更吃数据、更依赖奖励模型误差,但这些困难究竟来自 RL 本身,还是来自偏好学习和离线反馈的新统计瓶颈,并不清楚。
这篇工作的核心结论是:Vision Transformer 不必把所有图像都强行缩放到固定分辨率和宽高比,模型可以原生支持任意分辨率与长宽比,并且这样做更高效。传统 ViT 预处理把输入统一成方形,工程上简单,但会浪费 token 预算、破坏细粒度信息,尤其在文档、移动端照片和多分辨率混合训练中代价明显。
现有生成式检索的docid分配采用规则式tokenization,定制性强、泛化性差,无法将文档语义编码到docid中,导致检索准确率低。此前的id设计不携带语义信息,解码时需要完全匹配id序列,容错率极低。
现有研究缺乏预训练损失和下游任务性能关联的理论解释,无法明确预训练效果向下游迁移的边界条件。此前的默认假设是预训练损失越低,下游任务性能越好,没有明确该结论成立的约束。
现有提升LLM真实性的方法如RLHF需要大量标注数据,训练成本高,且是训练端修改,无法灵活调整真实性和有用性的权衡。此前的对齐方法都需要在训练阶段修改模型参数,无法推理端动态调整。
LLM 能否直接用于纠正 ASR 系统的输出错误(即生成式语音识别纠错)?此前 LLM 与 ASR 的结合缺乏标准化的开放基线和系统性评估。
代码 LLM 在生成代码时经常产生语法错误、类型错误或违反 API 约束的代码,现有的约束解码方法要么太慢,要么无法利用仓库级别的上下文信息。如何在解码阶段用静态分析来引导代码 LM 生成合法代码?
大规模语言模型在量化时表现出哪些反直觉的性质?此前对量化的研究大多在中小模型上进行,缺乏对大规模(数十亿到千亿参数)模型量化行为的系统性分析。
自回归模型在生成时如何满足逻辑约束(如数独规则、语法规则等)?标准的交叉熵损失只关注 token 级别的似然,不感知输出序列的全局逻辑一致性,导致生成结果频繁违反约束。
这篇工作的结论很直接:如果不对注意力矩阵中的数值做有界约束,很多快速注意力算法在理论上就无法普适地近似标准注意力。过去大量 fast attention 方法默认某种低秩、核近似或采样结构有效,但往往没有说清楚这些近似成立到底依赖什么输入条件。
这篇工作的核心结论是:SAM 不只是让 loss landscape 更平,还会系统性地诱导低秩特征表示。过去很多人把 SAM 的收益归因于更好的泛化或更平坦的极小值,但对它到底怎样改变表示结构、为什么有时会损伤容量,理解并不充分。
这篇工作要解决的是安全评测数据缺少人群与对话情境多样性,导致聊天模型在 benchmark 上看起来安全,但对不同用户群体和表达方式并不稳健。过去很多安全评测集覆盖的是有限模板和单一价值视角,容易高估模型真实部署表现。
这篇工作解决的是开放式问答基础模型评测里的两个老问题:测试泄漏和人工评测难以规模化。传统 benchmark 依赖固定题库,久而久之会被模型或数据污染,而且开放式答案的自动评分常常依赖参考答案,覆盖不了真正开放的生成质量。
这篇工作聚焦一个很实际的问题:Transformer 的训练与推理成本高,尤其是每层都完整更新会带来很重的算力和内存负担。传统做法通常是在注意力近似、稀疏化或低秩化上做文章,但这些方法往往要改架构或牺牲精度;作者想探索的是,是否能仅通过更新策略的改变,在尽量不动模型主体的情况下提升效率。
这篇工作解决的是 encoder-decoder Transformer 的长输入瓶颈,而且结论很明确:可以在不重训主模型的情况下,把 cross-attention 改写成基于 kNN 检索的稀疏访问,从而处理几乎无限长的输入。传统 Transformer 受限于对所有输入 token 做全量注意力,长文档场景不是被截断,就是要换成长上下文专用架构;作者想做的是给现成预训练模型套一个外壳,直接扩上下文。
这篇工作要解决的是大模型的一个现实限制:推理和微调通常要求集中式高性能集群,但全球大量零散算力和消费级设备无法被有效利用。过去分布式训练主要假设数据中心内的高速网络,而互联网环境延迟高、带宽低、节点不稳定;作者关注的是能否在这种条件下仍然完成 LLM 的推理和 fine-tuning。
LLM 能否在上下文中实现策略迭代(policy iteration)来解决强化学习问题,而不需要额外训练或微调。此前 LLM 在决策任务上的应用多依赖 prompt engineering 或外部工具,缺乏对 LLM 内在推理能力能否直接实现 RL 经典算法的系统性研究。
现有文本向量化方法(如基于词表的 embedding)对对抗性文本扰动(typo、homoglyph 替换、不可见字符插入等)非常脆弱,导致垃圾邮件过滤、内容审核等安全场景下模型容易被绕过。需要一个既鲁棒又高效的字符级文本编码器。
EMA(指数移动平均)模型在深度学习训练中广泛使用(如 self-supervised learning、扩散模型),但 EMA 的衰减率(decay rate)如何随训练步数和 batch size 等超参数缩放,缺乏系统性的理论指导。实践中调 EMA decay 往往靠经验。
经典 Hopfield 网络的存储容量随模式维度多项式增长,现代 Hopfield 网络(如 Ramsauer et al. 2021)虽然将容量提升到指数级,但对长序列的存储和检索仍然受限。如何设计一个能高效存储和检索长序列的 Hopfield 记忆模型?
这篇论文关注一个很实际但常被经验化处理的问题:为什么 SGD 的梯度噪声会把训练动态推向更简单的子网络,而不仅仅是在局部极小值附近抖动。过去大家知道 SGD 有隐式正则化,但“噪声如何改变网络有效结构、为什么会出现 collapse 到 simpler subnetworks”的机制并不清楚。
这篇论文要解决的是:如何把 vision、audio、subtitle、text 四种模态统一进一个 foundation model 和配套数据集,而不是只做图文或音文的双模态拼接。过去 omni-modality 研究的主要瓶颈不是单个编码器不够强,而是跨模态配对数据稀缺、训练目标不统一、模态间语义对齐粒度不一致。
这篇论文解决的是:能否在不显式构造标准 softmax attention 的情况下,用 primal representation 中的核分解来近似 self-attention,同时兼顾效率与精度。过去线性注意力方法常靠 kernel trick 或低秩近似,但要么数值不稳,要么丢掉太多表达能力,尤其在长序列上精度退化明显。
这篇论文关注的是:在 self-supervised Transformers 中,separate normalization 是否比共享或标准归一化方式更合适,以及它具体改善了什么。这个问题过去常被当成实现细节,但在自监督训练里,表示坍塌、梯度尺度失衡和不同分支统计不匹配都和归一化设计高度相关。
这篇论文要解决的是:点云能否像文本一样做 auto-regressive generative pre-training,而不是只做判别式编码或局部重建。过去点云预训练多数围绕分类、分割或 masked reconstruction,生成式建模较少,一方面因为点云无序、稀疏,另一方面因为缺少像语言 token 那样自然的离散序列化方式。
现有研究缺乏对SAM(锐度感知最小化)在非线性网络、分类任务上泛化性更好的理论解释,无法指导SAM在大规模预训练中的优化应用。此前的SAM解释仅适用于线性模型,无法解释非线性网络下的效果。
现有LLM事实性评估基准主要关注世界知识类事实,缺乏细粒度、多场景的事实标注,无法全面评估事实性评估工具的性能。此前的基准无法覆盖推理、代码、多模态等场景的事实错误评估。
EBM的最大似然训练依赖MCMC采样,传统噪声初始化的朗之万动力学难收敛、混合慢;用生成器绕过MCMC的方法会导致EBM学习有偏,生成器作为MCMC初始化的方案也因生成器仅匹配EBM看不到真实数据而存在偏差。
通用多模态大模型的指令调优研究不足,视觉输入带来的输入分布和任务多样性远高于纯文本,现有预训练多模态模型直接做指令调优无法有效对齐不同任务的视觉特征和指令要求。
现有生成式Transformer的预测可解释方法依赖反向传播,显存占用是前向传播的2倍,大模型/多模态模型下无法在生产环境部署。
真实训练数据存在标注错误、重复、偏移问题,会延长训练时间甚至影响收敛;传统按样本难易度选择的方法无法同时处理多种数据问题,最近基于泛化损失影响的选择方法需要额外的验证集和粗糙的近似,落地性差。
这篇论文要解决的问题是:我们该如何评估大语言模型掌握的“统计知识”,而不是只看事实记忆或单题 QA 准确率。过去知识评测大多把答案当成离散事实,但很多现实知识本来就是分布性的,例如某事件发生概率、条件频率或群体统计特征,传统问答评测对此覆盖很差。
这篇论文要解决的问题是:为什么很多视觉语言模型在组合推理上表现差,以及训练数据的 caption 形式是否是主要瓶颈之一。传统图文预训练大量依赖简短、整体化的描述句,它们对对象、属性、关系和局部区域的对齐不够密,因此模型很难学到可组合的视觉语义结构。
这篇论文要解决的是:深度表征学习里常见的单维最优比较会掩盖真实 trade-off,数据量、算力、网络宽度和随机种子运气并不是可忽略的次要因素。过去很多结论默认固定其余变量只看一个轴,比如“更大模型更好”或“更多数据更好”;作者则试图给出一个 Pareto 视角,分析多种资源与偶然性共同决定的可达性能前沿。
这篇论文的核心问题是:RNN 训练中常见的 loss jumps 和不稳定现象,究竟是噪声、实现问题,还是优化动力学里的真实分岔现象。过去这类问题通常被经验性地归因于学习率过大或梯度爆炸,但缺少一个把参数轨迹、稳定性和突然性能退化联系起来的动力系统解释。
这篇论文要解决的核心问题是:经典 K-FAC 在现代网络架构上适配不够好,导致二阶近似虽然理论吸引人,但在 Transformer、归一化层、参数共享等现实组件上落地困难。过去很多工作要么停留在卷积/MLP,要么为了适配现代架构做很多特化近似;作者希望给出更统一、现代化的 K-FAC 处理方式。
这篇论文要解决的是:NLP 中大量 neuron interpretation 方法在讲“某个神经元代表某种语言现象”,但这些解释本身缺乏统一、严格的验证。过去常见做法是展示若干看起来合理的 case study,但很少系统回答:解释是否稳定、是否可复现、是否真正对应因果功能,而不是统计相关。
这篇论文的核心问题是:CLIP 这类图文对比学习高度依赖原始 caption 质量,而互联网文本常常过短、过噪、缺少判别性,导致视觉监督信号被浪费。过去常见路径是收集更大数据或做过滤,但作者关注一个更便宜的杠杆:能否先把 caption 重写得更清楚、更细粒度,再拿去训练 CLIP。
CoT提示可大幅提升LLM的推理性能,但背后的理论机制不明确,无法指导模型架构和训练目标的优化。
现有Transformer的机制可解释方法需要大量人工检查权重和激活,无法得到完整、忠实的模型算法描述,可解释性差。
Transformer自注意力的训练动态缺乏理论解释,Vaswani等人2017年实证观察到的token中会出现"领导者"(对其他token影响大的token)的现象没有理论支撑,无法指导架构优化。
这篇论文要解决的是:怎样在对大型 embedding 模型做差分隐私训练时,不把稀疏更新带来的计算优势彻底丢掉。以往 DP-SGD 往往要求按样本裁剪和加噪,这会把原本只更新少量 embedding 行的训练变成近似稠密计算;对推荐、检索、词表很大的模型来说,这个代价过高,所以隐私训练长期难以扩展到真正的大型 embedding 场景。
这篇论文要解决的是:同步分布式训练里,少数慢 worker 会把整步训练卡住,而传统 straggler mitigation 往往牺牲收敛稳定性或引入复杂系统机制。大模型训练越重,step time 的长尾越明显,所以“如何在不改同步 SGD 基本形态的前提下减少计算方差”成了很实际的问题。
这篇论文的核心问题是:大语言模型能否不针对时间序列专门训练,就把时间序列当一种离散序列直接做 zero-shot forecasting。以往时间序列预测大多依赖专门架构、频域先验或按数据集定制训练,而这篇工作挑战的是这种范式边界:序列建模能力本身是否已经足够通用。
这篇论文要解决的是:非自回归机器翻译虽然解码快,但常见方法因为条件独立假设太强,难以建模目标句子的层级结构和长程依赖,所以质量常落后于 AR 翻译。以前大家多靠 iterative refinement、CTC 或 latent fertilities 修修补补,但结构先验仍然不足。
这篇工作要解决的是:多语言预训练里跨语言表示对齐往往依赖共享词表、平行数据或硬对齐目标,导致低资源语言和远距离语言对的迁移仍然不稳。作者试图把跨语言对齐改写成一个类似 EM 的迭代估计过程,让潜在对齐结构在训练中逐步被发现,而不是预先假定。
这篇工作要解决的是:偏好学习和 RLHF 通常先学 reward model,再优化策略,但 reward model 本身常常错配真实行为目标,导致奖励黑客和泛化失真。作者想直接优化“行为对齐”而不把 reward 当成唯一中间表示,从而减少 reward misspecification 带来的系统偏差。
这篇工作要解决的是:大家常把因果归因式定位(localization)和知识编辑联系起来,默认“找到负责某个事实的神经元/层/模块”就有助于更好地编辑模型,但这个假设是否真的成立并不清楚。作者就是在检验这个看似直觉正确、实际可能并不成立的桥梁。
next-token预测的训练目标如何塑造Transformer的语言表示尚不清楚,无法解释预训练Transformer为什么能学习到通用的语言表示。
现有强化学习智能体缺乏类人的语言思考能力,泛化、规划、适配新场景的表现远低于人类,之前的模仿学习仅克隆人类行为、不复制思考过程,导致跨任务迁移能力差。
现有大语言模型仅能处理文本模态,无法对接感知、动作等通用输入,之前的多模态大模型多采用文本基座加视觉适配器的微调方案,原生跨模态建模能力不足,零样本/少样本泛化能力差。
现有大语言模型的中文能力评估缺乏全面、多难度、多学科的基准,之前的中文评测多聚焦于通用对话或单一学科,无法衡量模型在中文语境下的高阶知识和推理能力,也无法对齐中文教育和专业场景需求。
现有预训练语言模型的知识蒸馏方法大多直接对齐Transformer块的输出特征,对学生模型约束过强,额外引入的参数和计算成本高,基于自注意力内部关系的蒸馏方案计算复杂度高,受注意力头数限制容易得到次优解。
这篇工作要解决的是:标准语言模型过度依赖词面形式,导致同义改写、词汇替换或表面扰动后预测不稳定,而现有做法通常靠数据增强或更大规模预训练被动缓解,没有直接把“词汇不变性”写进建模目标。这个问题现在值得重提,是因为大模型越来越强,但很多泛化失败仍然来自 lexical shortcut,而不是推理能力本身不足。
这篇工作解决的是大模型训练中的时间-空间权衡优化问题:显存有限时,训练系统需要在重计算、激活保存、算子切分等策略之间做组合选择,而精确最优搜索往往太慢,不适合真实工程。过去很多方案要么靠手工经验,要么用昂贵求解器,难以快速适配不同模型和硬件。
这篇工作关注数据子集选择的泛化问题:很多 subset selection 方法只能为当前模型挑数据,换个架构或训练设定就失效,导致数据筛选很难复用。随着预训练数据规模越来越大,如何选一个对多种模型都有效的训练子集,变成了非常现实的问题。
这篇工作要解决的是:在冻结 LLM 的前提下做视觉-语言预训练,现有方法过度依赖图文对数据和视觉侧 prompt 设计,训练成本高且对数据配对质量敏感。作者认为,与其一味找“哪些视觉特征最该喂给 LLM”,不如先在纯语言空间里学出“什么样的语言提示最容易和视觉特征对齐”。
这篇工作要解决的是:生成式推理阶段 GPU 利用率低,导致大模型 serving 吞吐受限。问题不在算子峰值性能,而在 autoregressive 解码天然是小 batch、强串行、memory-bound,GPU 经常在等数据或等调度;仅靠更快 kernel 不足以填满设备,所以作者关注系统层的利用率提升。
这篇工作要解决的是:超参数优化本身是否存在 scaling law,能否随着预算、模型规模或数据规模变化而预测“需要搜多少、怎么搜”。过去 HPO 常被当作黑盒工程问题,各家靠经验设搜索空间和 trial 数;但在大模型时代,HPO 成本已经高到不能继续靠拍脑袋,作者因此试图给 HPO 也建立类似训练 scaling law 的规律描述。
这篇工作要解决的是:深度网络早期训练动力学在学习率、深度、宽度变化下会落入哪些不同相区,以及这些相区如何决定训练是否稳定、是否进入有效特征学习。过去很多关于训练稳定性的经验规则来自零散观察,例如“学习率太大就炸”“更深更难训”,但缺少统一的 phase diagram 去解释这些现象之间的关系。
这篇工作要解决的是:当数据源只能部分揭示、无法完整查看全部样本时,如何做有效的数据选择。大规模预训练里,这个问题很现实:候选语料极大、清洗代价高、版权或访问限制常常让你只能先看到一部分统计信息;如果仍按全量可见假设来做数据筛选,方法往往不适用。作者试图用最优传输给这种“部分可见源”下的数据选择建立原则。
现有NLP模型的对齐方法只能由单一实体定义对齐规则,无法覆盖所有需要对齐的概念,且单一定义的对齐规则容易引入捷径,干扰模型原有能力或其他对齐目标。
现有执行计算机任务的智能体需要大量专家演示数据和任务特定的奖励函数,无法适配零样本新任务的需求,之前基于LLM的智能体方案缺乏自迭代优化机制,在复杂计算机任务上的成功率低。
现有大语言模型的隐私泄露检测方法仅由模型提供者或第三方机构执行,数据主体(隐私所有者)无法自主探测自己的个人可识别信息(PII)是否被模型泄露,缺乏面向普通用户的隐私探测工具。
当前性能最优的扩散模型使用的训练目标看起来与最大似然、证据下界(ELBO)目标完全不同,两者之间的理论关系不清晰,导致扩散模型的目标设计缺乏统一的理论指导。
文生图领域的人类偏好数据集此前被企业垄断,开源社区无法获取,现有自动评估指标与人类偏好的匹配度低,没有公开可用的大规模真实标注数据支撑相关研究。
这篇工作研究的是一个反直觉问题:给语言模型生成事后解释,能不能反过来提升模型本身。过去解释性工作大多停在“帮助人理解模型”,默认解释是诊断工具而不是训练信号;作者尝试把解释从分析产物变成可用于改进模型的监督。
这篇工作要解决的是:语言模型剪枝通常只看参数稀疏率或理论 FLOPs,忽略了真实推理时延和内存访问模式,因此“剪得很多”不一定“跑得更快”。过去大量非结构化剪枝在 LLM 上的实际部署收益有限,就是因为推理硬件对结构化模式更敏感。
这篇工作聚焦一个非常常见但经常被含糊回答的问题:模型压缩里,剪枝和量化到底哪个更好。过去很多比较并不公平,因为目标不同、硬件不同、实现成熟度不同,导致“谁更好”常常只是实验设置的产物,而不是通用结论。
这篇论文要回答的核心问题是:模型能否仅通过被动观察数据,学会原本需要主动干预才能发现的因果策略。过去主流做法通常把“会做任务”和“会主动探索因果结构”分开研究,默认没有交互就很难学到策略层面的因果知识;作者重新提出这个问题,是因为语言模型和离线智能体越来越多地只能看日志、文本和轨迹,却被期待在新环境里表现出带有实验设计意味的行为。
这篇论文解决的问题是:模型怎样同时处理短期推理和长期记忆,而不把一切都硬塞进固定上下文窗口。以往 transformer 往往把“推理”寄托在当前上下文,把“记忆”寄托在参数或检索模块里,这两者接口不自然;作者提出 self-notes,是想让模型学会像人一样在过程中写下中间笔记,再在后续步骤中读取和利用。
这篇论文要解决的是视觉语言评测中过于依赖表面相关性的老问题:现有图文对数据里,模型常常靠数据偏置答对,而不是理解图像内容与文本语义的对应关系。过去人工构造反事实样本成本高、覆盖窄,因此很多 benchmark 虽然测得方便,但很难真正检验模型有没有学到细粒度对齐。
这篇论文处理的是 continual learning 的一个根问题:如何避免把“持续学习”做成一堆任务边界和正则项特例。传统 continual learning 往往围绕灾难性遗忘设计专门损失或记忆回放机制,但这些方法强依赖任务划分,和现代大模型把一切都当序列处理的趋势不一致。
这篇论文关心的是一个机制层问题:神经网络是否真的学到了结构组合性,而不只是记住常见模式片段。过去很多工作用组合泛化 benchmark 来讨论 compositionality,但结论经常受数据设计和评测方式影响,很难知道模型是在真正重组结构,还是在做更隐蔽的插值。
CLIP预训练的计算成本极高,普通研究机构难以负担,此前的训练范式默认大模型需要搭配长token序列才能发挥性能,没有探索资源受限下的高效训练策略。
Adam优化器在深度学习训练中被广泛使用,但现有收敛证明依赖全局梯度有界等不符合实际训练的强假设,理论分析与实际应用长期脱节。
这篇论文要解决的是:PEFT 省了可训练参数,但没有真正省下训练期最贵的激活内存。过去 LoRA、Adapter、Prefix 这类方法主要减少参数更新量和优化器状态,却仍要像全量微调一样缓存大部分中间激活;当序列长、batch 大或底座模型大时,显存瓶颈依然在激活而不是参数,所以作者重新去碰“可逆网络”这个过去在 Transformer 上不太好落地的方向。
这篇论文的核心问题是:解释性研究长期缺一个“知道正确答案”的 Transformer 实验台。以前分析真实大模型时,研究者只能事后猜测电路功能,缺少 ground truth;而分析玩具模型又常常太弱,不能覆盖实际 Transformer 里的组合算法结构,所以作者想构建一个可编译、可验证的 Transformer 基准系统。
这篇工作要解决的是:如何在不回传和存储完整适配器权重的前提下,对大语言模型做更省内存的参数高效微调。已有 LoRA、Adapter 一类方法虽然比全量微调轻很多,但在 rank、优化状态和多层叠加后,显存与参数开销仍然不低,尤其不适合更细粒度或多任务适配场景。
这篇工作要解决的是:现有代码生成评测往往高估了大模型的真实正确性,尤其忽略了测试不充分、样例泄漏和评测口径宽松带来的偏差。代码生成已经从“能写出看起来像代码”转向“能否稳定生成语义正确、可执行、可泛化的程序”,因此需要更严格的评测基准。
大语言模型单次生成的输出质量不稳定,此前的输出优化方法需要额外监督训练、强化学习或外部模型,部署成本高、适用范围窄。
弱学习器是boosting等经典机器学习方法的核心基础,此前的弱学习器都是针对特定任务设计的小模型,没有探索大语言模型作为通用弱学习器的可能性。
长卷积序列模型在自回归生成任务上推理成本高,每生成一个token需要遍历整个输入序列或缓存大量激活值,与Transformer一样存在推理效率低的痛点。
机器学习研究长期以模型为中心,现有基准数据集存在覆盖度不足、难度不均衡、与实际场景脱节等问题,数据质量的评估没有统一的标准。
这篇论文要解决的是:二阶或近似二阶优化器虽然常能改善收敛和稳定性,但在大模型训练里内存和计算成本太高,难以实际替代 Adam。K-FAC 一类方法利用 Kronecker 分解降低了成本,但仍然不够轻,而且动量与曲率估计的结合不够自然;MKOR 试图把这条路线推向更可用。
这篇论文要解决的是 Transformer 中的 over-smoothing:层数加深后,不同 token 表示变得越来越相似,导致区分能力下降。这个问题在图网络里讨论很多,在 Transformer 里也存在,但通常被注意力、残差和归一化机制部分掩盖,所以过去更多是经验修补而非明确建模。作者试图给出一个更结构化的正则化方法,抑制 token 表示无差别地混合。
这篇论文解决的核心问题是:如何在单核苷酸分辨率上建模超长基因组序列,而不被 Transformer 的二次复杂度卡死。传统基因组模型通常要么截断上下文,要么降分辨率,要么用卷积近似长程依赖,因此很难同时保留原始序列粒度和百万级上下文。作者试图证明,新的长序列架构可以直接在 DNA 原始 token 上做大范围序列建模。
这篇论文关注的核心问题是:如何刻画一个模型对训练数据的敏感性,即某个样本被加入、删除或扰动后,模型记忆和输出会如何变化。过去关于 data influence、memorization 和 data attribution 的工具很多,但往往要么局部近似粗糙,要么计算代价太高,不足以解释现代深网的真实敏感性。作者提出的 Memory-Perturbation Equation,目标就是给出一个更系统的关系式来连接数据扰动与模型记忆行为。
Transformer 在深度和宽度同时趋于无穷时的理论行为尚不清楚——已有的无限宽度理论(如 NTK/GP)忽略了深度的影响,而实际 Transformer 的深度对训练动态和表达能力至关重要。本文试图建立一个同时考虑无限深度和无限宽度的极限理论框架。
知识蒸馏(KD)被广泛使用,但蒸馏过程中到底传递了什么知识?是低层特征、高层语义、还是某种特定的表示结构?以往工作大多关注蒸馏的效果而非机制,本文试图回答这个机制性问题。
Task arithmetic(通过加减 task vector 来编辑预训练模型能力)在实践中效果不稳定,理论上也缺乏解释。本文试图理解 task arithmetic 为什么有时有效、有时失败,并提出改进方案。
Score matching(扩散模型的核心训练目标)相比直接最大似然估计有什么理论优势?以往的理解是 score matching 避免了归一化常数的计算,但在统计效率(sample complexity)方面是否也有优势尚不清楚。
这篇论文想解决的是 instruction-following 数据稀缺且任务覆盖不均时,模型如何更自然地发展出跨任务、跨语言的指令遵循能力。过去常见做法是直接堆人工指令数据或用单语模板合成,但这类数据往往任务表达单一、语言分布窄,导致模型会跟格式而不是真正理解任务。
这篇论文解决的是深度网络并行化被算子边界卡住的问题。传统并行和图编译优化通常在单个 operator 或少数预定义模式内做切分,结果是跨算子的内存搬运、同步和调度开销很难消掉,尤其对大模型训练和推理,这种“算子级局部最优”会明显浪费系统吞吐。
这篇论文解决的是分布式 DNN 训练中的通信瓶颈,尤其是在实际网络条件下如何把优化器通信压到 1-bit 同时保持自适应优化器的效果。已有 1-bit 压缩方法常见的问题是要么只适用于 SGD 类优化器,要么理论上省带宽但在真实训练里不稳定、收敛慢。
这篇工作研究的核心问题是:预训练数据多样性到底如何影响微调后的鲁棒性。过去大家更常讨论数据量、标签质量或 domain match,而“多样性”常被当成模糊的好事,很少被单独拆出来分析它是改善泛化、提升稳健性,还是只是数据量的替代指标。
Transformer的自注意力机制缺乏可解释性,现有的解释方法无法在存在潜在混淆因子的情况下得到输入token之间的因果结构,无法支撑因果相关的分析需求。
原有神经元组合解释方法仅依赖最高激活的小范围区间拟合概念逻辑公式,无法覆盖神经元完整激活行为,现有研究普遍回避全激活谱的解释完备性问题。
受限解码下的语言模型句法/语义解析评测缺乏统一基准,现有工作的数据集、语法约束、数据划分规则不一致,无法公平对比不同模型的解析能力。
现有大语言模型对话能力评测未覆盖语用隐含推理(根据上下文推导言外之意)能力,大部分模型在这类任务上表现接近随机,现有研究默认通用指令微调即可覆盖这类能力。
实际应用中从单个预训练 checkpoint 微调得到的集成模型都落在同一个预训练损失盆地,多样性不足;现有工作要么仅在盆地内浅度探索,要么直接跳出盆地,未明确二者的 trade-off。
现有研究缺乏对 Transformer 注意力层相比其他架构优劣势的严格数学分析,相关结论仅停留在经验观测层面,无法指导架构设计。
这篇论文要回答的问题很直接:大语言模型到底是在做可迁移的演绎推理,还是主要靠训练分布内模式匹配。过去很多“推理”评测混入了模板重复、表面统计规律或近分布样例,模型即使没有稳定的规则泛化能力也能拿到不错分数,因此作者专门用 OOD(分布外)构造来测真正的演绎泛化。
这篇论文讨论的是一个很实际的问题:面对参数高效场景,是否一定要继续做 domain-adaptive pretraining,还是可以把 prompt-based fine-tuning 训练得足够强,从而在更低成本下逼近甚至替代继续预训练。过去的默认答案常是“别停预训练”,因为 prompt tuning 容量有限、任务迁移弱,但这也带来额外算力和语料准备成本。
这篇工作要回答的是:instruction tuning 到底让模型更对齐了,还是只是暴露了新的可利用攻击面。以往大家更多关注能力提升和安全对齐收益,但对“经过指令微调的模型是否更容易被诱导产生有害、偏离或越狱输出”缺少系统刻画。
这篇论文要解决的是:如何对类别分布进行可微采样,同时避免现有近似方法的高偏差或高方差。过去常见做法是 Gumbel-Softmax 这类连续松弛,优点是可导,问题是训练目标和真实离散采样不完全一致;另一类 score-function 估计又往往方差太大。
这篇论文要解释的是深度学习优化里著名的 edge of stability 现象:训练在学习率高到理论稳定界附近时,为什么不会直接发散,反而常长期停留在“看似不稳定但还能训练”的区域。过去这类现象多靠经验观察和线性化分析解释,缺少更完整的动力系统视角。
现有科学机器学习(SciML)预训练工作未系统研究缩放规律和迁移行为,无法复用 NLP/CV 领域的预训练缩放经验到 SciML 场景。
百亿/千亿参数的多任务大模型推理和微调成本高,且多数最强模型不开源,下游适配难度大;现有参数高效微调方法仍需要较高硬件资源。
这篇工作想用最小但不平凡的 setting 理解 Transformer 的训练动力学:一层 Transformer 究竟如何扫描输入并形成 token 组合。现实里大模型训练现象很多,但全模型太复杂,导致我们常常只能做经验归纳,难以建立机制级解释。
这篇工作关注一个很现实的问题:多模态系统的失败案例太多、太分散,人工发现效率很低,导致安全评估和鲁棒性改进跟不上模型能力增长。过去大多依赖人工红队或小规模模板攻击,覆盖面和组合复杂度都不足。
这篇工作解决的是蛋白质家族建模中过于扁平的问题:传统序列模型通常把每条蛋白单独看待,难以同时建模家族内部变异规律和跨家族结构。作者想把蛋白家族表示成 sequences-of-sequences,从而显式捕捉层级结构,而不是只做单序列语言建模。
这篇工作要回答的问题是:图像描述模型不仅能做生成,是否也能像对比学习或 masked image modeling 一样学到可扩展的视觉表征。过去 captioning 常被视为下游任务或辅助目标,而不是主流视觉预训练范式,因为大家担心语言监督过窄、容易偏向语义而忽略视觉细节。
这篇工作要解决的是:CLIP 在鲁棒性上到底强到什么程度,以及哪些鲁棒性只是零样本泛化的表象。过去很多讨论把 CLIP 的开放词表和大规模图文对比预训练,直接等同于更强鲁棒性,但这一判断常常缺少系统分解:是对自然分布偏移更稳,还是对对抗扰动、噪声、腐蚀或语义改写仍然脆弱。
这篇工作要解决的是:大 Transformer 的隐藏表示到底呈现什么几何结构,以及这种几何是否能解释模型的分层功能和泛化行为。过去对表征的分析常停留在 probing 或相似度热图,能看到现象,但不容易回答表示在不同层如何展开、压缩、分离语义或形成任务相关流形。
这篇工作要解决的是:主流关于‘LLM 具备规划能力’的说法可能高估了模型在真正规划问题上的能力。过去不少正面结果来自宽松评测:模型只要生成看似合理的步骤就算成功,但没有严格检查动作可执行性、状态一致性和目标可达性。
这篇工作要解决的是:扩散模型能否像语言模型一样进行 in-context learning,而不是每次任务变化都依赖额外 finetuning。过去 ICL 基本被视作自回归 Transformer 的特长,因为它天然按序列条件生成;扩散模型虽然条件生成很强,但缺少一个清晰的上下文示例利用机制。
现有 prompt tuning 只有经验效果,缺乏理论支撑,无法明确 prompt tuning 和全参数微调的能力边界;现有研究默认 prompt tuning 效果弱于全参数微调但没有理论解释。
现有视觉基础模型仅能处理预定义形式的任务,无法匹配大语言模型的开放式任务适配能力,此前多模态框架未建立视觉与语言任务的统一处理范式。
GPT系列模型被广泛用于医疗、金融等高敏感场景,但现有可信性评估维度零散,大量未被发现的漏洞可能导致高昂损失。
原生视觉Transformer对输入patch的顺序不敏感,位置感知能力弱,此前的自监督预训练任务大多聚焦内容重建,未专门优化位置感知能力。
现有LLM可将语言指令转化为机器人任务代码,但无法直接将人类演示转化为代码,因为演示和代码的长度、复杂度都很高,直接映射难度大,此前未建立两者的统一隐式表示。
LLM小样本上下文学习生成高度结构化的领域特定语言时泛化性差,容易违反语法约束,此前的prompt方法未引入外部语法规则约束生成过程。
这篇论文关注的问题是:不同模态各自用对比学习得到的表征,怎样连成一个一致的共享空间,而不是只在成对模态之间局部对齐。以往多模态对比学习常见做法是做 image-text、audio-text 这类 pairwise alignment,但这种方式容易出现“每对都能对齐,整体空间却不一致”的问题,限制跨模态组合与迁移。
这篇论文要解决的是:如何定义 AI deception,并给出可操作的缓解思路。现有对齐工作大量关注 helpfulness、harmlessness、truthfulness,但“欺骗”比简单的错误回答更难,因为它涉及模型是否在策略性地误导、隐瞒或操纵用户,而这类行为很难只靠表面输出质量来判定。
这篇论文解决的是文档预训练里一个很实际的数据瓶颈:缺少大规模、多语言、同时保留视觉布局信息的文档语料。很多文档模型只能依赖小而精的标注数据,或者只用 OCR 后的纯文本;这样会丢掉版面结构、字体层次和区域关系,而这些恰恰是文档理解预训练最需要的信号。
这篇论文的结论导向很明确:用局部、短视的解释方法去理解 Transformer,可能会得出根本不可靠的结论。作者用 bounded Dyck grammar 这个结构清晰、可控的形式语言任务做案例,目的不是解决 Dyck 本身,而是说明即便在相对干净的设定里,常见 interpretability 工具也可能看不到模型真正的计算机制。
这篇论文要解决的是离散 hard prompt 很难直接优化的问题。软提示容易用梯度训练,但部署时不一定兼容原模型或可迁移;硬提示更可解释、可直接拼接到输入里,却因为 token 是离散变量,搜索通常依赖启发式、贪心或黑盒方法,效率和效果都受限。
这篇论文要回答的是:组合泛化能否从更基础的原则中推导出来,而不是靠任务特定技巧拼出来。组合泛化长期是神经网络的薄弱项,很多方法在某个 benchmark 上有效,但换个分布或组合规则就失效,说明我们还没有抓住真正起作用的归纳偏置。
这篇论文关注的是:浅层 encoder-only Transformer 在什么条件下可以证明收敛,以及这种结构为什么在实践中常常比理论分析更稳定。以往关于 Transformer 收敛的理论要么依赖强简化,要么只覆盖残差网络或线性注意力近似,导致理论和真实训练之间有明显落差。
LLM多步推理时随着推理链变长,错误累积导致最终结果准确率低,此前的解码方法未对每步推理的正确性做校准,无法有效规避误差传播。
广泛使用的固定系数权重衰减正则化会导致训练末期梯度范数过大,影响模型收敛和泛化能力,此前的研究未发现该问题,也没有对应的动态调度方案。
文本到图像生成模型缺乏通用的人类偏好评估指标,此前的自动指标和打分模型无法准确匹配人类对生成图像的偏好,也没有对应的反馈微调方法直接优化人类偏好。
解决基于人类偏好微调语言模型时,偏好反馈(序列级别)与模型训练/生成(Token 级别)之间的粒度不匹配问题。
这篇工作要解决的是:现有多模态指令调优数据和评测大多偏感知问答,缺少覆盖复杂视觉理解、定位、推理与对话的统一数据框架,导致模型看起来“能聊图”,但能力结构很不完整。过去很多工作靠小规模人工数据或单任务拼接,结果是泛化窄、评测也不够系统。
这篇工作要解决的是:Transformer 为什么有效、内部表示如何组织,能不能从训练目标层面得到更可解释的白盒结构,而不是事后再做 feature attribution。过去的解释方法多是后验分析,能看现象但不改模型归纳偏置。
这篇工作要解决的是:能量模型(EBM)表达力强,但训练和采样都难,尤其 MCMC 混合慢、近似偏差大;能不能借助 diffusion 来 amortize 采样成本,从而学到更可用的能量先验。过去 EBM 的主要痛点一直不是目标定义,而是推断不够实用。
这篇工作要解决的是:NLP 的 OOD robustness 评测长期碎片化,不同 benchmark 偏移类型混杂、难度不一致,导致“模型是否真的更鲁棒”很难判断;同时,大语言模型出现后,旧结论是否还成立需要重审。过去很多鲁棒性结论建立在小模型和局部数据增强设定上。
这篇工作要解决的是:Adam 类方法收敛稳、调参友好,但泛化有时不如 SGD;SGD 类方法泛化好,但早期优化慢且对学习率更敏感。过去常见做法是人工在训练中切换优化器,或者手工设定阶段性 schedule,但切换时机和规则强依赖经验,迁移到新任务不稳定。
这篇工作要解决的是:语言模型在算法题和程序化推理上,单次 Chain-of-Thought 往往不够稳定,因为模型即使会局部推理,也不擅长自发把复杂任务拆成可复用的子程序。过去方法多半靠更长的 CoT、self-consistency 或 few-shot 提示去硬拉推理,但这些方法没有显式建立‘分解—求解—组合’这一结构。
这篇工作要解决的是:标准优化器每一步都沿当前参数点更新,容易受局部噪声和单点曲率影响,而想提高泛化时常需要更平滑地利用邻域信息。已有方法要么靠大 batch 降噪,要么像 SAM 那样显式找尖锐方向,但后者额外代价较高。
这篇工作要解决的是:LLM 在计算密集型数学推理上,真正的瓶颈往往不是理解题意,而是长链计算容易出错;单靠自然语言 CoT 会把符号推理和数值计算混在一起,误差快速累积。过去大家知道可以接计算器或 Python,但缺少系统评测:什么时候模型会调用工具、会不会把问题正确翻译成工具输入、以及工具接入后还剩哪些失败模式。
如何在不进行额外训练的情况下,将多个在不同任务上独立训练的参数高效微调(PEFT)模块组合起来,以实现能力的融合。
如何让基于 LLM 的 Agent 能够像人类一样,利用过去的成功或失败经验来提升在不同任务目标下的表现,而无需微调模型参数。
在迁移学习场景下,如何对源数据集进行剪枝(Dataset Pruning),以在提高预训练效率的同时,保证下游目标任务的微调精度无损。
如何加速扩散模型(DPMs)的采样过程,特别是在极少步数(如 <10 步)下生成高质量图像。
这篇论文要解决的是:扩散模型采样速度和样本质量之间仍有明显张力,现有高阶 ODE solver 在低步数下容易受模型误差影响,而理论阶数高并不自动等于实际采样更稳。作者希望利用模型在不同时间步上的经验统计信息,修正 solver 对 score/noise 预测误差的处理方式,从而在同样步数下得到更好的质量—速度折中。
这篇论文关心的不是把网络做得更强,而是机制解释到底怎样才算“解释到了点上”。过去 mechanistic interpretability 往往在局部电路上给出看似漂亮的故事,但这些故事是否真正具备因果支撑、是否能推广到模型整体,常常缺少检验。作者用“Clock”和“Pizza”两个案例讨论神经网络解释中的成功与陷阱,核心问题是如何区分真的机制解释和只是事后讲故事。
这篇工作要解决的是:大模型推理系统里,缓存策略和模型选择通常被分开做,导致端到端吞吐、时延和成本都不是全局最优。过去很多系统只优化单点,例如 KV cache、批处理或路由策略,但在多模型、多请求类型、有限显存的真实服务环境里,'缓存什么'和'请求发到哪个模型'是强耦合问题。
这篇工作要解决的是:微调后的分类模型常带着 foundation model 预训练阶段形成的标签先验偏置,导致概率校准差、长尾类受损,而常见校准方法多在输出层做温度缩放,不能针对这种由预训练表征和标签偏好共同引入的系统性偏差。这个问题值得关注,因为 foundation model 越强,预训练先验越会主导少样本和分布外场景下的决策。
这篇工作要解决的是:如何把医疗时间序列和临床文本笔记放进同一个预训练框架里学到可迁移表示。此前这两类模态大多分开建模,时间序列偏监督预测,文本偏临床 NLP,导致跨模态互补信息没有被系统吸收,也难以像通用多模态预训练那样复用到多任务上。
这篇工作要解决的是:能否把 Flamingo 式少样本多模态学习迁移到医学场景,让模型在极少示例下理解医学图像与文本。此前医学多模态系统通常按任务和模态分别训练,泛化到新任务时依赖专门标注和重训练,这和通用大模型的 few-shot 使用方式差距很大。
这篇工作的核心问题是:自然语言提示本身表达力有限,很多风格或控制意图很难靠现有词汇稳定描述。过去的做法要么依赖冗长 prompt 反复试,要么用 soft prompt 只在训练分布内奏效,缺少一种既可扩展又能在新提示中复用的离散控制接口。
这篇工作试图解决的是:能否设计一种真正通用、免调参的梯度下降方法,在不知道 Lipschitz 常数、噪声水平或最优学习率的情况下仍然稳定有效。这个问题长期存在,因为很多优化器的理论保证和实际好用性之间有明显落差,尤其在大规模训练里,学习率调参成本很高。
这篇工作研究的是:如何用结构化状态空间模型来做 in-context reinforcement learning,让序列模型在上下文里吸收历史交互并快速适应决策任务。过去这类问题多用 transformer 当通用序列策略,但长轨迹下计算和记忆成本高,而且其归纳偏置未必适合 RL 中的时序状态更新。
解决视觉-语言模型(如 CLIP)潜在表示空间中不同视觉属性(如物体、动作、外观)相互纠缠的问题,提高表示的可解释性和下游任务效用。
解释锐度感知最小化(SAM)优化器为何能显著提升深度神经网络的泛化性能,特别是探究其中“归一化(Normalization)”操作的关键作用。
如何在大规模机器学习应用中,计算两个任意分布之间的薛定谔桥(Schrödinger Bridges, SBs),以克服现有扩散模型(DDMs)和流匹配模型(FMMs)无法保证传输映射接近最优传输(Optimal Transport, OT)的缺陷。
现有新闻视频多模态数据集仅覆盖英语传统广播内容,缺少多语言、非专业事件拍摄素材,无法适配当前线上新闻多格式多语言的真实分布,限制了多模态新闻理解模型的泛化能力。
现有视觉推理研究普遍认为显式视觉抽象(如目标检测)是实现组合泛化的必要条件,未验证通用神经网络结合视觉预训练是否能端到端完成视觉推理任务。
现有扩散模型推理需要大量迭代步采样速度慢,DDGAN结合GAN实现大步长扩散但在大规模数据集上可扩展性差,无法同时平衡采样速度、样本质量与多样性。
现有视觉语言模型提示调优仅采用单模态单提示、整图整句粒度对齐,无法捕捉样本多样性,导致提示发现效果次优。
大规模多模态基础模型(如 CLIP、BLIP 等)的全量微调代价极高,现有参数高效微调(PEFT)方法大多针对单模态设计,缺乏对多模态模型中跨模态交互的专门考量。
从头训练大模型成本极高,能否通过复用已有预训练模型的权重来加速新模型的训练?现有方法(如 Net2Net、知识蒸馏)要么限制架构变化,要么需要额外训练阶段。
能否将神经机器翻译模型的权重二值化(1-bit)以实现极致压缩和加速?此前二值化网络在 NLP 尤其是 Transformer 上效果很差,精度损失过大难以实用。
多模态基础模型(如大型 VLM)的蒸馏面临模块间能力不均衡的问题——视觉编码器、语言模型、跨模态融合层的压缩敏感度不同,统一蒸馏策略效果不佳。
课程学习(curriculum learning,先学简单样本再学难样本)在理论上是否真的比随机顺序训练更好?此前大量实验声称有效,但严格的理论证明很少,尤其是在什么条件下课程学习有可证明的优势。
如何将文本形式的操作指南文章(how-to articles)与对应的操作视频进行细粒度对齐?现有的视频-文本数据集要么是粗粒度的(视频级标签),要么需要昂贵的人工标注,缺乏步骤级别的自动对齐方法和大规模数据集。
这篇工作要解决的是:怎样用一个统一、可操作的框架去解释神经网络内部计算,而不是继续依赖彼此割裂、只覆盖局部现象的可解释性工具。以往做法通常在特征归因、样本影响、层级分析之间分开建模,结果是解释结果难以对齐,也难以比较方法本身到底解释了什么。
这篇工作关注的是 few-shot 泛化时,除了手头很少的标注样本,怎样更有效地利用辅助数据,而不是把 auxiliary data 只当成静态预训练背景。过去常见做法要么忽略额外数据,要么统一混入训练,结果是相关辅助数据没有被优先利用,不相关数据还会带来干扰。
这篇工作要解决的是数据整理阶段的伦理决策如何系统化,而不是把问题留到模型发布后再靠审查和补丁修正。过去 foundation model 数据治理经常停留在原则口号层,缺少能落到采集、筛选、标注、文档化和移除机制上的操作框架。
这篇工作解决的是 score-based diffusion model 如何用于无限维函数空间中的贝叶斯推断,尤其是线性反问题的后验采样,而不是停留在有限维向量空间里的经验迁移。过去这类问题通常学习无条件 score 再在采样时借助前向算子修正,但这在函数空间里理论上不够干净,采样时还需要大量昂贵的 forward evaluations。
这篇工作要解决的是:机器学习做数学形式化缺少可用、可比较、可复现实验的数据集。过去这类研究往往直接依赖某个定理证明器社区的现成语料,数据格式、任务定义和切分方式都不统一,导致模型进展很难判断到底来自方法改进还是数据处理差异;因此先把数据基础设施补齐,本身就是这个方向能否走向系统研究的前提。
这篇工作要解决的是模仿学习中的一个老问题:数据质量比数据量更决定上限,但社区对“什么叫好数据”往往缺少可操作定义。过去很多方法默认专家轨迹天然可靠,或者只在算法层面做离线 RL/行为克隆修补;作者更直接地问,示范数据里哪些缺陷最伤模型,以及能否系统度量这种影响。
这篇工作解决的是多模态图像生成里一个被长期弱处理的问题:用户的意图往往无法只靠单段英文文本准确表达。现有 text-to-image diffusion 大多假设输入是单一语言的文本提示,复杂控制需求则依赖 ad-hoc 的模块拼接;作者想做的是把多语言文本、图像等多种条件统一接到同一个生成系统里,而且尽量复用已有预训练模块。
这篇工作要解决的是表示中的概念擦除问题,而且目标定得很硬:在线性可观测范围内做到完美擦除。过去很多 debiasing 或 concept erasure 方法只能近似去除某个属性,常常以额外训练、迭代优化或性能损失为代价;作者想给出一个闭式解,直接把线性可恢复的概念信息从表示中拿掉。
这篇工作瞄准的是一个常见但很难啃的问题:预训练 Transformer 的通用表示能力不错,但在需要显式推理的任务上往往不稳定,且通常要靠任务特定微调或 prompt 技巧补救。作者想做的是一个 task-agnostic reasoning 模块,也就是不为单个数据集定制,而是作为可插拔组件提升推理能力。
这篇工作讨论的是一个经常被低估的问题:模型评测本身可能不可靠,而测试集规模和覆盖不足会让我们对方法优劣得出错误结论。过去很多研究默认 benchmark test set 是固定真理,只在其上比拼平均分;作者要解决的是,能否用合成测试数据改善评测的稳定性、覆盖度和结论可信度。
如何为神经网络学到的内部表示(hidden representations)赋予人类可理解的语义标签。现有可解释性方法多聚焦于输入归因(attribution),对中间层表示的语义理解仍然粗糙,通常依赖 probing classifier 等间接手段。
标准扩散模型只能在固定维度的连续空间中生成样本,无法处理维度本身也是随机变量的情况(如分子生成中原子数量不固定、点云中点数可变)。此前要么固定最大维度再 padding,要么用自回归方式逐步生成,都不够优雅。
神经网络的内部表示与大脑神经活动之间的对齐(alignment)被广泛观察到,但缺乏统一的理论框架来解释为什么会对齐、对齐的程度由什么决定。现有分析多是经验性的相似度度量,缺乏预测能力。
扩散模型的生成过程可以用 ODE(确定性)或 SDE(随机性)来实现,但什么时候该用哪个、各自的优劣边界是什么,缺乏系统性的理论分析。实践中选择往往靠经验。
Energy-Based Models (EBMs) 训练困难,核心瓶颈是需要从模型分布中采样来估计配分函数的梯度,而 MCMC 采样在高维空间中极慢且不稳定。现有方法(对比散度 CD、score matching 等)要么有偏要么效率低。
经过 RLHF 等对齐训练的 LLM 是否真的对对抗攻击鲁棒?此前对齐工作主要关注让模型拒绝有害请求,但没有系统评估对抗性 prompt 能否绕过这些安全护栏。
Energy-Based Models (EBMs) 与 normalizing flows 各有优劣——EBM 表达力强但训练需要 MCMC,normalizing flow 训练简单但受限于可逆架构。如何结合两者优势,用 score matching 目标来训练一个 energy-based normalizing flow?
这篇论文要解决的是:在估计归一化常数(partition function)时,annealing 为什么常常比直接 importance sampling 或普通 NCE 更稳、更准,能否给出统一且可证明的收益。这个问题过去更多靠 AIS 一类经验成功来支撑,但对“为什么中间桥接分布有用、收益来自哪里、适用范围到哪”缺少清晰理论,因此值得重新系统化。
这篇论文要回答的是:score-based generative modeling 里的 probability flow ODE 不只是“能生成”,而且在理论上是否可以做到快。过去扩散模型的理论多围绕随机 SDE 采样或渐近正确性,ODE 路线虽然在实践中常用于少步采样,但其复杂度收益缺少足够扎实的证明。
这篇论文解决的是:能否让语言模型直接参与代码级 neural architecture search,而不是只在自然语言提示层面做高层建议。传统 NAS 要么依赖昂贵的强化学习/进化搜索,要么受限于手工设计空间;而仅用 LLM 生成文字建议又离真实可执行架构代码太远。
这篇论文的核心判断是:在视觉推理任务里,LLM 更适合作为协调器而不是单独的视觉推理器。过去很多方法试图把视觉 reasoning 全塞进单个 VLM 里,但复杂视觉任务往往需要拆解、调用外部工具或多步规划,单模型端到端做得不稳定也不透明。
现有辅助学习方法依赖人工收集辅助数据和任务,需要大量领域知识,当辅助数据/任务不合适时会损害主任务性能。
现有模型去偏方法需要大量偏置标注或重新训练成本高,也无法解释模型内偏置的来源,无法适配大模型场景下的快速去偏需求。
现有基于CLIP的少样本学习方法需要离线微调参数,推理速度慢,容易过拟合特定域,无法适配在线少样本泛化需求。
BBT-RvNN长序列任务效率高但无法解决ListOps等结构敏感任务,其他可解决结构敏感任务的RvNN计算开销远高于RNN,无法兼顾长序列效率和结构敏感任务性能。
预训练得到的分布式表示天然纠缠多个属性/概念,现有概念擦除方法要么擦除不彻底,要么丢失过多原表示的有效信息,缺乏鲁棒性与信息保留的平衡。
此前仅关注文生图扩散模型的生成能力,其学习到的多模态表示的判别能力未被系统探索,默认只有对比学习预训练的图文模型(如CLIP)具备零样本分类能力。
现有可解释性方法的解释结果未与被解释模型的对称属性对齐,比如CNN预测对图像平移不变,但解释结果可能随平移变化,缺乏量化可解释性方法鲁棒性的统一理论框架。
神经网络的顺序操作(如前向/反向传播逐层执行、扩散模型采样步逐次执行)的计算成本随步骤数线性增长,成为大模型训练、长步长扩散模型推理的核心瓶颈,此前没有通用的并行化这类顺序操作的方法。
扩散模型的得分匹配训练存在误差,采样过程中误差会递归累积导致采样分布偏离训练分布,标准去噪得分匹配(DSM)目标仅在未漂移的干净数据上优化,无法处理采样过程中产生的漂移数据。
传统扩散模型需要干净的训练数据才能学习目标分布,很多科学场景下无法获取干净数据,此前没有方法能仅用高噪损坏数据学到干净的目标分布。
现有美国公共领域报纸的全文数据集存在布局识别错误、OCR质量低、内容混杂的问题,没有结构化的跨多年份历史报纸文本数据集,无法支撑历史NLP、长时序社会分析等研究。
现有网页智能体数据集要么使用模拟网站,要么覆盖的网站和任务有限,无法支撑通用网页智能体的训练和评估,此前没有基于真实网站的通用网页任务数据集。
这篇论文要回答的核心问题是:做世界模型时,RNN、Transformer 和 S4 这三类序列骨干到底谁更合适,差异来自建模能力还是训练与评测设定。过去很多世界模型工作把 backbone 选择当成局部工程问题,往往在不同任务、不同训练预算下各说各话,因此很难形成可复用的结论。
这篇论文要解决的问题是:现有代码补全 benchmark 大多聚焦单文件、单语言或上下文过短,无法真实衡量模型做跨文件代码补全的能力。这个问题过去常被回避,因为构造带依赖关系、多语言且可执行评测的数据集成本很高,但随着代码模型进入真实工程场景,跨文件能力已经不是可选项。
这篇论文指出一个很具体但常被掩盖的问题:代码大模型在补全含潜在 bug 的代码时表现很差,而现有评测通常默认上下文是干净且意图正确的。现实开发中,模型面对的代码上下文经常已经带有错误、冲突或误导信号,因此“在脏上下文中继续写对代码”比标准补全更贴近真实需求。
这篇论文要解决的问题是:如何为又宽又深的神经网络给出更稳健的临界初始化条件,避免前向信号或梯度在深层中爆炸和消失。经典临界初始化理论常依赖无限宽、均匀层或全 Jacobian 分析,在更复杂网络里不够精细,也不一定能指导实际架构。
这篇论文要解决的问题是:Stable Diffusion 这类扩散生成模型在什么意义上是“不稳定”的,以及这种不稳定会如何影响生成可靠性与安全性。过去很多工作主要追求样本质量和提示词可控性,对模型在输入扰动、采样过程或训练随机性下的脆弱性分析相对不足。
这篇论文要解决的问题是:数据蒸馏时如何从大数据集中选出极少量但训练价值最高的样本子集,使得模型在这些样本上训练后仍接近原始全数据效果。传统 dataset distillation 往往直接优化合成样本或静态子集匹配,但随着数据和模型变大,计算开销和泛化稳定性都成问题。
这篇论文要解决的问题是:能不能像处理语音或图像那样,把 EEG 脑电信号离散化成 token,再用序列模型把 EEG 翻译成文本。过去 EEG-to-text 多依赖连续信号回归或任务特定架构,表示学习和语言解码之间接口较弱,因此泛化和统一建模都受限。
这篇论文要解决的问题是:如何在使用提示学习或软提示适配大语言模型时提供差分隐私保证,而不是默认提示参数训练不会泄露数据。过去很多人把 prompt tuning 视为参数少、风险小的轻量适配方式,但只要训练信号来自敏感数据,少量参数同样可能记住或泄露样本信息。
这篇论文要解决的是:人类 few-shot 学习常常能通过自然语言描述快速形成假设,而标准神经模型通常需要大量梯度更新或依赖隐式模式匹配。作者关心的不是把 in-context learning 再做大,而是能否用显式的 Bayesian 假设推断来解释和复现人类那种“看几个例子 + 读一段文字就会了”的学习方式。
这篇论文的核心问题是:标准梯度下降只看一阶梯度,默认网络局部几何由参数化给定,因此在病态 Jacobian 条件下会出现学习慢、梯度传播差和不稳定。作者试图解决的是,能否在不完全转向昂贵二阶方法的前提下,动态调控 Jacobian,让梯度下降走在更有利的局部几何上。
这篇论文的核心问题是:大步长训练和 edge of stability 现象到底在多大程度上来自深度网络的非线性复杂性,还是在线性化但仍有乘性结构的模型里就已存在。作者选择对角线性网络这个极简但非平凡的模型,研究 SGD 的隐式偏置、大步长行为以及稳定边界附近的动力学。
这篇论文的核心问题是:扩散模型推理和训练成本都高,尤其 U-Net 主干较重,而现有压缩方法往往偏向非结构化剪枝,虽然参数少了,实际部署未必更快。作者关注的是更实用的问题:能否对 diffusion 模型做结构化剪枝,在尽量少伤质量的前提下,真正减少 FLOPs 和 wall-clock。
二阶自适应正则化方法性能优于对角类自适应优化器,但内存和计算开销过高无法大规模落地;此前基于Frequent Directions(FD)实现二阶优化的工作缺乏资源开销与regret保证的正式权衡分析,实用价值受限。
现有决策智能系统要么仅基于历史交互数据学习策略,要么仅基于纯文本语料训练语言模型,两类信息源未被融合,导致智能体无法同时利用策略交互经验和自然语言形式的战略思考信息。
现有文生图模型的可控生成依赖用户输入精细布局,用户使用负担重;此前的大语言模型无法直接将文本描述的空间、数值关系转化为合理布局,无法与视觉生成模型打通。
现有大语言模型数学能力评估数据集要么仅覆盖初等数学,要么规模过小,没有覆盖研究生级别的自然语言数学题,无法准确评估大模型的高阶数学能力。
现有大语言模型的心理理论(ToM)评估结果不一致,评估方法的有效性存在争议,无法准确衡量大语言模型与人类心理理论的对齐程度。
扩散模型采样需要数百步迭代,现有蒸馏方法要么训练流程复杂多阶段,要么单步生成质量差,无法兼顾单步采样和生成质量。
这篇论文要解决的是:现有文本生成图像评测大多依赖 CLIPScore 或人工打分,但它们对“物体数目、属性、相对位置”这类可组合语义是否真的对齐并不敏感。结果是模型可能画得很像、风格也对,但在最关键的对象级约束上出错,而现有评测却不稳定甚至看不出来。
这篇论文要解决的是:扩散模型在多任务、条件迁移或联合训练时会出现 negative transfer,某些条件或子任务的学习会伤害另一些任务。过去这类问题常被更大模型或更久训练掩盖,但在共享 backbone、共享噪声预测器的扩散框架里,不同任务间的梯度冲突会直接体现在生成质量和条件一致性下降上。
这篇论文要解决的是:视觉领域 backbone 太多,但大家常在不同任务、不同训练 recipe、不同数据规模下各说各话,导致很难判断“哪个预训练 backbone 真正更通用”。过去比较经常是不公平的:一个模型在分类上强,另一个在检测上强,但训练数据、参数量、微调策略并不一致。
这篇论文要解决的是:扩散模型采样慢,根源在于逆扩散过程需要很多数值积分步,而现有快速采样器常在速度和质量之间做痛苦交换。大家以前多用 DDIM、高阶 ODE solver 或蒸馏去减步数,但要么误差累积明显,要么训练和部署复杂度上升。
这篇论文要解决的是:训练数据标签质量经常决定模型上限,但现实里大家缺少一套系统工具去评估标签到底哪里错、错得多严重、会怎样影响模型。过去很多工作只做 noisy label 学习算法,却没有把‘先诊断标签质量’做成标准化流程。
这篇论文要解决的是:蛋白设计是离散序列生成问题,但标准自回归或连续扩散方法很难同时兼顾全局结构约束和离散序列可优化性。过去很多方法要么靠自回归逐位生成,容易局部贪心;要么在连续空间做设计,再投回离散序列,过程不自然且约束注入不够直接。
这篇论文要解决的是:表格数据生成既有混合类型特征,又有复杂列间依赖,传统 GAN/VAE 或逐列自回归方法常在保真度、隐私和缺失值处理上各有短板。作者想验证 masked transformer 这种更接近 BERT/MLM 的范式,是否比纯 AR 更适合表格这种“列无固定自然顺序”的数据。
这篇工作要解决的是:扩散模型采样器在少步数下常常又慢又不稳,而现有高阶 ODE/SDE 求解器主要利用局部导数信息,没有显式利用分布形状。这个问题过去通常靠更复杂的数值积分器或蒸馏来绕开,但当步数继续压缩时,误差会快速积累,因此有必要探索直接利用 score 场诱导的局部分布结构来做采样更新。
这篇工作要解决的是:如何给训练数据集做版权保护,同时不明显伤害正常模型训练和下游性能。过去常见做法要么是对数据做明显扰动,保护有效但会污染训练;要么是事后检测,难以形成前置约束,因此“有效且无害”的数据水印一直是个难点。
这篇工作要解决的是:标准 MAE 主要学到单视角重建能力,但对实例级不变性和跨视角一致性的约束偏弱,因此表征常常更偏局部纹理而不是稳定语义。过去这类问题通常靠把 MAE 和对比学习硬拼接来处理,但两套目标容易互相牵扯,训练也更复杂。
这篇工作要解决的是:现有 MIM 预训练里 decoder 在下游阶段被丢弃,导致预训练时学到的表征路径和下游使用的表征路径不一致,这会限制迁移效果。作者认为问题不只是 decoder 浪费,而是 autoencoder 两侧的信息职责没有被结构化地保留下来,导致低层细节与高层语义在微调时被打散。
这篇工作要解决的是:给冻结 LLM 接入大量工具时,传统微调方法成本高且绑定固定工具集,而纯 in-context learning 又受上下文长度限制,工具一多就几乎失效。作者要解决的不是单个工具调用,而是如何让模型在不改动主干参数的前提下扩展到海量工具。
这篇工作要解决的是:部署后的语言模型会因为世界知识变化、需求漂移和长期使用中的错误积累而变旧,但现有模型编辑方法在连续多次编辑后很快伤到原模型能力。作者关注的是 lifelong editing,也就是如何做成千上万次局部修补,而不是一次性演示式编辑。
这篇工作要解决的是:基于偏好的 RL 通常需要先拟合一个 reward function,但 reward 学习本身既不稳定,也容易把偏好数据中过于有限的比较信号错误地外推。作者试图绕开显式 reward 建模,直接从偏好中恢复策略或决策原则。
现有大语言模型和视觉语言模型都没有在3D物理世界信息接地,无法处理空间关系、物理可供性、导航等3D相关任务。
Transformer注意力机制缺乏清晰的理论基础,能量基模型的能量函数设计困难,关联记忆模型的架构扩展性差,三类范式的优势未被结合。
现有所有视觉语言组合性评估基准均存在严重统计偏差,可被无图像输入的盲模型超越,无法真实衡量VL模型的组合理解能力。此前基准均采用基于规则的模板生成干扰项,未从根源上消除偏差问题。
小样本学习领域缺乏与模型无关的任务相关性量化方法,无法明确训练任务与新任务的关联度对新任务适应难度的影响。此前的相关性度量都依赖特定模型结构,泛用性差。
现有LLM生成代码后无法支持用户高效迭代修改,当用户需求与初始生成代码不一致时缺乏结构化的调整框架。此前的代码生成方法都只支持单次生成,未适配交互式修改场景。
图预训练模型目前未实现上下文学习能力,无法像LLM一样通过prompt示例直接适配新的图任务而无需微调。此前的图预训练方法都针对固定下游任务设计,未适配上下文学习范式。
LLM生成的规划无法适配具身智能体的物理约束,而纯交互训练的机器人策略缺乏高层语义理解能力。此前的方法要么只依赖LLM的语义知识,要么只依赖交互数据的物理约束,未将两者有效融合。
这篇工作解决的是扩散模型训练不稳定,尤其是深网络在高分辨率或大规模训练时容易出现梯度传播差、优化震荡和收敛脆弱的问题。过去常见做法是调学习率、归一化或改 backbone 细节,但这些手段往往是经验性补丁,不能系统改善长路径优化。
这篇工作关注知识蒸馏里一个老问题:学生通常只模仿教师的最终 soft target,却没有学到教师内部更丰富的结构化知识,导致蒸馏收益有限。过去大量方法靠 feature matching 或 logit matching 分别补一部分,但很难统一解释“知识如何从教师转移给学生”。
这篇工作研究学习特征中的一个核心张力:模型要想学到有用表示,往往需要在低维压缩和规则性之间取平衡,但现有理解通常把“特征瓶颈”只看成维度不足,忽略了函数正则性或平滑性对表示形态的影响。这个问题重要,因为很多表征学习和宽深网络现象都和 bottleneck 的真实来源有关。
这篇工作的结论很明确:蒸馏不会自动消除隐私风险,学生模型会复读教师训练集成员信息。以往很多人默认 distillation 能起到一定“洗数据”作用,因为学生没有直接见原始标签或原始训练流程,但这个假设并不可靠。
这篇工作处理的是多数据集联合训练时常见的负迁移问题:把来源、标注风格和难度差异很大的视觉数据简单混合,会让一个统一模型学到互相干扰的表征。传统做法不是训练单一共享模型,就是静态 MoE,但往往不知道专家该按什么原则分工。
这篇工作试图把扩散模型引入结构化节点分类,解决图数据上标签预测常见的多峰、不确定和结构依赖强的问题。传统节点分类大多直接做判别式预测,虽然简单高效,但对复杂标签依赖和不确定性表达能力有限。
这篇工作要解决的是:如何把 masked autoencoder 这类自监督预训练从“强依赖具体模态和手工 mask 设计”改成更通用的、跨模态可迁移的学习框架。以往 MAE 往往默认视觉 patch 或文本 token 的局部结构成立,mask 策略和重建目标都绑在模态先验上,因此跨图像、语音、文本时往往需要分别调一套规则;作者想用 meta-learning 学出更适合不同模态的掩码与重建行为,而不是把 mask 当固定超参数。
这篇工作要解决的是:embedding 里到底编码了什么语义关系,尤其是“条件独立”这类比相似度更结构化的语义关系。过去大家常用 cosine 相似度或线性 probe 去解释 embedding,但这只能看到“像不像”,很难表达“在给定 vegetable 的条件下,eggplant 和 tomato 是否语义独立”这种更接近概率结构的问题。
这篇工作要解决的是:预训练语言模型是否具有稳定可测的人格特征,以及能否在不彻底重训模型的情况下诱导出目标人格。过去很多“人格”研究停留在提示词层面的印象描述,缺少系统评估框架;而一旦人格被用于 agent 或对话系统,它会直接影响长期交互、一致性和安全边界,所以值得系统化研究。
这篇工作要解决的是:现有语言模型评测大多考相关性或表面推理,但对真正的因果推理能力测得不准,尤其难区分模型是在记忆叙事模板,还是在处理干预、反事实和因果链。以前很多 benchmark 用常识问答替代因果推理,导致模型只要利用语料统计就能拿高分,因此需要更针对 causal reasoning 的评测集。
小语言模型在知识密集推理任务上表现差,此前的蒸馏方法只迁移LLM的输出或推理步骤,未解决小模型知识存储容量不足的问题,导致蒸馏效果差。
现有自然语言推理基准都假设推理用到的信息是一致无矛盾的,无法衡量模型在真实世界存在矛盾信息时的推理能力。此前的方法未针对矛盾信息的推理和冲突解决进行评估。
现有零样本TTS的神经Codec语言模型依赖数千小时的训练数据,采样速度慢、鲁棒性差。此前的方法要么是自回归范式速度慢,要么依赖预训练Codec泛化性差,无法兼顾速度、数据效率和零样本效果。
这篇工作要解决的是:如何把 flow matching 这类连续归一化流/生成流方法,严格扩展到带对称性的几何数据上。以往做法通常把 SE(3) 等变性通过网络结构或数据增强近似注入,但训练目标本身未必等变,结果是采样效率、物理一致性和泛化都会受限;这个问题在分子、蛋白和3D点云生成里很关键,因为坐标系变化不应改变分布。
这篇工作解决的是 DP-SGD 中一个非常实际的瓶颈:每样本梯度裁剪太贵,导致差分隐私训练很难扩到大模型和大 batch。过去社区有多种 fast clipping 技巧,但往往只适用于特定层或特定实现,工程上碎片化,难以推广。
这篇工作要回答的是:扩散模型除了会生成图像,是否已经具备某种视觉-语言推理能力。过去 VLM 推理大多由编码器-解码器或多模态 LLM 承担,而扩散模型通常被视为感知/生成器,不被当作 reasoning system;作者在检验这种分工是否过于武断。
这篇工作要解决的是神经音乐生成的效率瓶颈:高质量音乐通常需要长时序、高采样率和多层离散表示,导致训练和采样都很贵。过去 MusicLM/MusicGen 一类系统能生成不错的片段,但一旦追求更长时长、更低延迟或更低算力部署,成本很快失控。
这篇论文重新审视 multi-vector retrieval 里的一个默认前提:检索效果好是否真的主要来自 token-level retrieval。以 ColBERT 为代表的方法把文档和查询都编码成多向量,并做细粒度 late interaction;社区通常把性能提升归因于 token 级匹配更精细,但这一点其实缺少拆解验证。
这篇论文要解决的是 text-to-image 模型评测过于碎片化的问题:现有工作常在少数 benchmark 或单一指标上报分,导致模型看似进步,但不知道到底是画质提升、文本对齐提升、组合泛化提升,还是只是更会迎合某个评分器。随着文生图模型快速迭代,缺少 holistic evaluation 已经成为方法比较和训练目标设计的瓶颈。
这篇论文解决的是参数高效迁移学习中的一个实际矛盾:adapter 类方法省参数,但常带来额外推理开销;全量微调推理快,但部署成本高。尤其在 serving 场景,模型需要同时支持大量任务,如果每个任务都挂一套会增加延迟的适配模块,系统价值会被显著稀释。
现有主体驱动文生图模型需为每个新主体做长时间少样本微调,生成内容的主体保真度低,此前方案没有预训练的通用主体表示支撑零/少样本快速生成。
现有锐度感知最小化(SAM)优化器的对抗扰动生成逻辑无约束,导致优化不稳定、泛化性能上限受限,此前SAM变体均未解决扰动方差过大的问题。
现有求解保质量偏微分方程(如Fokker-Planck方程、Wasserstein梯度流)的方法依赖时空离散化,计算成本高且精度受离散粒度限制,无法直接扩展到高维场景。
扩散模型的泛化能力缺乏系统理论支撑,此前的理论分析要么依赖强假设,要么未给出和样本量、模型容量相关的泛化误差上界,无法解释扩散模型在高维场景下的优异表现。
黑盒大语言模型的可控生成成本高,直接微调不可行,此前的提示工程方法依赖人工设计通用提示,无法实现实例级的细粒度控制。
通用多模态大模型在生物医学图像的理解和对话能力差,此前的生物医学多模态模型训练成本高,需要大量人工标注的指令数据。
这篇论文要解决的是:强化学习里的内在奖励通常依赖预测误差或状态新颖性,但这些信号常被环境噪声、像素细节和不可控因素污染,导致探索效率不稳定。作者改问一个更稳的问题:能不能从 masked input modeling 里提取“对决策有用”的不确定性,而不是对所有输入细节一视同仁地奖励新奇。
这篇论文要解决的是:Chain-of-Thought 能提升推理,但模型生成的中间步骤并不可靠,用户也很难自动验证。过去常见做法是只看最终答案对不对,或者用更强模型打分推理链;这都不能真正检查每一步是否逻辑成立,因此作者把问题转成“能否对 CoT 做演绎式验证”。
这篇论文要解决的是:代码生成模型的偏见研究明显滞后于自然语言模型,而且很多社会偏见会通过变量名、注释、模板代码和 API 选择隐蔽地进入生成过程。过去大家更关注代码正确率、pass@k 和安全漏洞,较少系统量化“代码里如何表达和放大社会偏见”,因此作者试图建立这一评测与分析框架。
这篇论文想解决的是:离散变量无法直接反向传播,Straight-Through Estimator 虽然好用,但梯度是有偏的,理论和实践长期都不够统一。过去大家在量化、离散潜变量、采样决策里反复用 ST,却往往凭经验调技巧;作者试图系统回答:ST 到底在优化什么,还能不能做得比 ST 更稳或更准。
这篇论文要解决的是:3D shape representation 过去多在封闭标签集上训练,泛化到开放世界语义和自然语言描述时明显不足。问题不只是 3D 模型不够大,更在于缺少像 CLIP 那样覆盖广、语义开放的 3D-语言监督,所以作者想把 3D 表征学习从封闭识别推到 open-world understanding。
这篇论文的核心问题是:分子上的 masked graph modeling 往往默认当前 tokenizer 和 decoder 设计是合理的,但实际上这两部分可能才是性能瓶颈。过去很多工作把注意力放在 GNN/Transformer 编码器上,掩码预测目标本身却沿用了较粗糙的原子级词表和独立解码假设;作者因此重新审视“分子图到底该怎么离散化、怎么预测被 mask 的部分”。
这篇工作要解决的是:扩散模型如何稳定扩展到非欧几里得空间,尤其是黎曼流形上的复杂分布建模。过去大多数扩散模型默认数据在欧式空间里,面对球面、旋转群、形状空间或带几何约束的表示时,直接套用标准高斯噪声和反向过程通常不自然也不稳定。
这篇工作要解决的是:多模态学习为什么会有效、何时有效,以及不同模态之间的信息关系如何决定学习收益。这个问题过去大量靠经验规律和 benchmark 结论推动,但缺少统一理论解释,导致很多设计只能靠试错。
这篇工作要解决的是:大语言模型在组合式推理任务上经常不是“不会想”,而是不会按任务需要调用合适的外部模块和中间表示。单一提示让 LLM 端到端硬做复杂推理,往往在需要表格、程序、知识检索或视觉子模块协作时失效。
这篇工作要解决的是:文本到图像生成的评测能否借助大语言模型获得更接近人类判断的信号。传统自动指标常偏重低层相似度或依赖专门训练的评估器,但对复杂文本语义、细粒度约束和常识一致性的覆盖仍然有限。
这篇工作要解决的是:如何把已经训练好的扩散模型中的知识迁移到新模型或新目标上,而不必每次从头做高成本蒸馏或重训练。扩散模型越来越大,但其知识迁移手段仍相对分散,这限制了后续对齐、压缩和定制化。
这篇工作要解决的是:视觉-语言指令微调成本太高,很多方法需要大规模高质量多模态指令数据和长时间训练,难以快速迭代。随着 LLM 和视觉编码器越来越大,VLM 的瓶颈已经从“能不能做”转向“能否便宜、快速地做得足够好”。
这篇工作要解决的是:few-shot prompting 在大语言模型上容易放大示例偏差,从而带来不公平或群体间性能失衡。已有 prompt engineering 大多追求平均准确率,但很少显式控制 fairness,因此在敏感属性相关任务上,示例选得不对会让模型输出系统性偏斜。
现有长视频理解基准的难度仅由视频长度决定,无法真实衡量模型的长时序理解和推理能力,此前的基准大多存在答案可通过片段匹配得到、不需要全局理解的问题。
深度神经网络的表示学习机制未被完全理解,此前的共识认为网络越深,学到的表示越复杂,对性能的贡献越大,未发现深层网络的结构冗余问题。
现有基于预训练模型的持续学习方法存在两类缺陷:直接使用预提取特征难以桥接分布差距,引入适配器则易发生遗忘;过往持续学习研究多聚焦从零训练范式下的灾难性遗忘问题,预训练基础模型普及后缺乏适配的高效持续学习方案。
现有研究证明有限精度Transformer分类器的表达能力等价于一阶逻辑的泛化版本,但有限精度Transformer单头只能关注常数个token,无法实现均匀注意力,不符合实际Transformer的宽注意力核心能力,需要刻画支持全局注意力的Transformer的逻辑表达边界。
这篇论文的核心问题是:机器学习系统是否真的具备“写一次到处跑”的软件可移植性,以及这种假设是否高估了算法进步的真实速度。过去很多模型进展默认可以跨硬件、框架和工程栈平滑复用,但作者认为这种前提并不成立,而且会直接扭曲我们对 ML 研发效率和 scaling 成本的判断。
这篇论文要解决的问题是:在高质量图文标注稀缺时,如何用很少量“专家级 caption”把大规模未标注视觉数据转化为有效的 vision-language 预训练信号。传统 CLIP 类方法依赖海量 noisy web pairs,而专门人工描述成本高、规模上不去;S-CLIP 试图在这两者之间找到更省标注的折中。
这篇论文的核心问题是:大语言模型在导航、规划和环境结构理解上,到底有没有形成类似 cognitive map 的内部表征,而不是只会做表面模式匹配。过去很多 LLM 评测集中在问答和推理链,但对空间关系、状态转移和长期规划测得不够细,CogEval 试图把这个空白补上。
这篇论文要解决的是:如何在适配大型预训练模型到新任务时,显式注入旋转、平移、置换等对称性,而不是完全依赖微调自己学出来。过去大模型迁移通常偏向通用 adapter / LoRA / full fine-tune,但对于几何结构明确的任务,这种做法样本效率不高,也容易破坏已有表示;作者想把 equivariance 作为受控 inductive bias 接到预训练模型上。
这篇论文要解决的是:现有 vision-language pre-training 往往停留在静态图文对齐,缺少与环境交互、动作后果和多步决策相关的训练信号,因此很难支撑 embodied agent。EmbodiedGPT 试图把 embodied chain of thought 引入 VLM 预训练,让模型不仅看图说话,还能围绕感知-动作-结果链条组织表示。
这篇论文要回答的核心问题是:Sharpness-Aware Minimization(SAM)的收益到底来自哪里,是否真的需要对所有参数都做扰动。以往 SAM 被当作一种通用优化技巧直接套用,但它额外增加两次前后向开销,且机制解释一直不够清楚。作者指出,真正关键的并不是对整网参数施加邻域鲁棒性,而主要是归一化层参数决定了绝大部分效果,因此有必要重新拆解 SAM 的作用来源。
这篇论文研究的核心问题是:大语言模型在创造性问题求解中是否会被表面上很像答案的“红鲱鱼”线索误导,从而陷入类似人类 Einstellung effect 的思维定势。过去大模型评测更偏重标准推理题或知识问答,往往默认错误来自能力不足;这篇工作关心的是另一类失败——模型明明有足够知识,却被先验模式匹配牵着走,难以跳出局部最优解法。
这篇论文关注的核心问题是:预训练表征中的冗余并不总是集中在少数显式维度里,而可能以“扩散”的方式分布在很多方向上,因此传统按神经元、通道或主成分做压缩并不能真正识别冗余。过去大家常把表示冗余理解成可直接剪掉的一小块子空间,但在现代预训练表示里,信息往往被旋转、混合和分散编码,这使得“看起来高维”与“有效自由度高”并不等价。
这篇论文要回答的是:Transformer 在强化学习里究竟什么时候有优势,这个优势到底来自长时记忆,还是来自更好的 credit assignment。过去很多工作观察到序列模型在 RL 中表现好,但常把‘能看长历史’和‘能优化长时依赖决策’混在一起讨论,导致机制不清楚。作者试图把 memory 和 credit assignment 两个因素解耦,弄明白 Transformer 真正擅长的部分。
这篇论文的核心问题是:如何系统测量语言模型在人类因果判断和道德判断上的对齐程度,而不是只看聊天偏好或安全拒答。现有 alignment 评测常把‘像人一样回答’压缩成主观偏好分数,但在涉及因果归因、责任、道德两难时,模型是否真的接近人类判断分布并不清楚。作者提出 MoCa,目标是把这类高层认知判断的对齐问题测得更细。
能否不做任何训练,仅利用已有的单模态模型(如独立的视觉编码器和文本编码器)实现多模态对齐?以往的多模态模型(如 CLIP)需要大量配对数据联合训练,本文探索一种零训练的替代路径。
预训练的扩散模型(如 Stable Diffusion)隐含地学到了关于图像质量和语义一致性的评价标准,能否从中提取出可用的 reward function?以往获取 reward 需要人工标注或专门训练 reward model,本文探索直接复用扩散模型自身的似然信号。
扩散模型的组合泛化能力(compositional generalization)是如何涌现的?以往对扩散模型能力的理解多停留在经验层面,缺乏对组合能力涌现机制的系统分析。本文在合成任务上研究这一问题。
语言模型和人脑在处理语言时,是否以类似的方式联合编码多种语言属性(如句法、语义、语用)?以往的 brain-LM 对齐研究多关注单一属性的对应关系,本文研究多属性的联合处理模式。
多任务学习中,如何让一个模型高效地泛化到新任务?已有的 adapter 方法为每个任务独立训练一个 adapter,缺乏跨任务的知识共享。本文提出通过路由机制在多个 adapter head 之间动态组合来实现跨任务泛化。
这篇论文要解决的是扩散模型生成分布的概率校准问题。以往大家更关心 FID、IS 这类样本质量指标,默认生成模型只要样本看起来好就够了,但在下游决策、风险控制和不确定性估计场景里,模型给出的概率是否可信是另一件事,而扩散模型在这方面长期缺少系统分析和修正方法。
这篇论文关注带标签噪声时如何做更稳健的数据裁剪。过去很多 pruning 方法默认高损失样本就是坏样本,但在噪声标签场景里,高损失样本里既有错标数据,也有真正困难但有价值的数据,简单丢掉会伤害泛化。
这篇论文要解决的是 text-to-image diffusion 中 cross-attention 对文本上下文更新不稳、难以表达不确定性的缺陷。标准 cross-attention 更像一次性把文本 token 权重映射到视觉特征上,缺少显式的贝叶斯式上下文修正,因此在歧义提示词、组合概念和局部属性绑定上容易出错。
这篇论文讨论的是:自监督视频预训练得到的视觉表征,是否比监督学习更鲁棒,也是否更接近人类感知。过去视频模型通常用下游任务精度来评估表示好坏,但这不能回答模型在扰动、分布外变化或与人类相似性的层面到底学到了什么。
这篇论文要解决的是多模态视频模型缺少真正诊断性的评测。现有 benchmark 常常把数据偏差、语言先验和静态视觉捷径混在一起,模型拿到高分不代表真的理解了时序、因果、交互或跨模态对应关系。
这篇论文解决的是在有人类主动参与但反馈稀疏、昂贵、局部的情况下,如何更有效地学习。传统 RLHF 或 imitation 往往只利用被显式标注的片段,没被人碰到的状态和动作很难获得训练信号,导致人类参与成本高、样本效率低。
这篇工作要解决的是:文本到图像 diffusion 模型经常出现 attribute binding 错误,也就是词和属性对不上对象,例如“红色立方体和蓝色球”生成成相反配对。过去很多方法靠更强的文本编码器、prompt engineering 或额外监督缓解,但没有直接约束模型内部“词—区域”对齐信号的一致性。
这篇工作要讨论的是:生成式 diffusion 模型中会不会出现 spontaneous symmetry breaking,也就是数据或目标本身具有对称性,但训练后的模型在生成时自发偏向某些等价解。过去扩散模型通常被视为稳定拟合数据分布的工具,但对其训练动力学是否会打破理论对称性,研究并不充分。
这篇工作解决的是:神经模型在组合泛化上长期表现不稳,尤其容易记住训练中见过的表层组合,而不是学到可重组规则。过去常见做法是改架构或加更多数据,但如果训练过程本身不断强化复杂而脆弱的表示,模型仍然会在新组合上失败。
这篇工作解决的是:开放词汇视觉识别要覆盖大量类别,但传统做法往往依赖有限类别监督或把文本提示当作后处理,难以真正把大规模类名知识吸收到视觉预训练里。过去 CLIP 式方法虽然天然开放词汇,但 prompt 往往手工且类别规模受训练组织方式限制。
现有预训练零样本模型的训练数据集标签仅为大标签空间的一小部分,标准预测规则使用argmax未利用标签空间自带的度量信息,无法有效预测新类别或提升零样本性能,现有适配方法多需要额外训练。
现有神经算法推理方法依赖算法中间步骤监督才能泛化到分布外大输入,中间监督在很多实际场景中不可获取,需要仅通过输入输出对即可学习的低监督神经算法推理方案。
多任务多域学习优化存在任务/域差异大的痛点,现有研究提出了多种复杂优化方案,但均匀标量化(即最小化任务损失平均值)性能与复杂SOTA方法相当,现有对多任务训练动态的理解不足。
现有大模型可生成推理解释,但不清楚其能否作为教师向弱学生模型传递知识提升性能,过往可解释AI研究未系统分析大模型作为教师的效果及约束条件。
这篇论文关注一个常被低估但工程上很致命的问题:同一个神经网络在不同推理框架、硬件或数值实现下,为什么会出现意料之外的数值偏差,以及这些偏差会如何传播成最终预测差异。很多工作默认推理是“确定的”,但实际部署里 kernel、算子融合、精度模式和并行顺序都会改浮点轨迹。
这篇论文解决的是解释性评测里一个长期空缺:我们常说某种 interpretability 方法找到了某个神经元、通道或子网络的“功能”,但缺少一个能系统检验这种功能描述是否真的准确、可判别、可泛化的 benchmark。过去很多评测停留在可视化好不好看,或者只验证局部干预是否有效,难以比较方法优劣。
这篇论文要解决的是一个理论问题:DDPM 这类扩散目标在简单但非平凡的分布上到底学到了什么,是否真的能有效恢复多峰结构。过去扩散模型在图像上经验成功很多,但对基础分布学习性质的理解不够,尤其缺少对 mixture distributions 这类经典对象的清晰分析。
这篇论文解决的是让模型直接从屏幕像素和自然语言指令出发,学会在 GUI 中执行动作,而不是依赖手工 DOM、结构化状态或任务特定接口。过去很多 UI agent 工作用的是简化环境或可访问的语义树,这降低了感知难度,但离真实桌面和移动端交互还有明显距离。
这篇论文关注的问题是:在过参数化模型里,是否可以只对最该学的模块做自适应训练,从而同时缩短训练时间并提升最终性能。标准做法通常对全模型一视同仁地更新,这在大模型上既贵,也可能让已经足够好的部分被无效扰动。
这篇论文解决的是事件预测中的一个常见短板:模型往往能利用相关性做预测,但缺少对“为什么会发生”这类隐含因果链的建模,因此在证据稀疏或事件链不完整时容易失准。作者提出用 few-shot abductive reasoning,也就是从结果反推最可能前因,来补上这个缺口。
这篇论文解决的是扩散模型采样太慢这个核心瓶颈,但切入点不是再压缩步数,而是探索能否并行化采样过程。标准 diffusion sampling 天生是串行去噪链,哪怕单步很快,总延迟仍高;这对图像生成和更广义的 diffusion-based generative modeling 都是结构性限制。
这篇论文的核心结论是:实践中常用的 Sharpness-Aware Minimization, SAM,并不能一路收敛到真正的最优点。过去大家常把 SAM 当成“找更平坦极小值、泛化更好”的稳健优化器,但对它最终会停在哪里、为什么会停住,理论上并不清楚。
这篇论文要回答的是:Transformer 里的 attention 是否不仅是信息路由,还在隐式执行某种结构推断。过去很多工作把 attention 当相似度加权或可解释性线索,但较少从“它是否在学习 latent structure”这个角度系统讨论其计算角色。
这篇工作要解决的问题是:如何在长程时空建模中同时兼顾长依赖、局部归纳偏置和计算效率。纯 attention 在高分辨率视频或长时序场景成本太高,纯卷积又很难覆盖超长依赖,传统 state space model 虽然长程高效,但处理二维/三维时空结构不够自然。
这篇论文的核心问题是:扩散模型是否会直接复制训练数据,以及这种 copying 是怎么发生、如何缓解。过去生成模型的记忆与隐私风险更多在语言模型中被讨论,而图像扩散模型常被认为只是“生成相似风格”,对逐样本记忆的系统证据相对不足。
现有生成模型评估指标与人类感知相关性低,扩散模型的人类感知真实度高但常用指标如FID未反映该优势,过往评估指标未系统验证与人类感知的对齐性。
现有权重量化方法仅按权重值分组,忽略权重位置的独特作用,量化效果受限,现有贝叶斯神经网络训练难以适配复杂数据集和模型组合。
此前未明确AI模型表征与人类表征的对齐程度对少样本学习性能、鲁棒性的量化影响,相关研究要么仅关注任务性能要么将对齐作为二元目标处理,未建立两者的关联规律。
现有LLM序列决策方法要么贪心执行无规划,要么采用不响应环境反馈的静态规划,导致任务复杂度升高、规划 horizon 变长时性能快速退化,此前的闭环规划方法未区分反馈类型, hallucination 问题严重。
图像匹配任务此前要么需要有监督标注训练特征提取器,要么弱监督方法精度不足,此前未发现预训练扩散模型隐式包含无监督学习到的图像对应关系,也没有方法可直接提取这类知识用于匹配任务。
预训练语言模型微调过程易受投毒样本攻击植入后门,此前的后门防御方法要么需要提前检测投毒样本,要么会损伤模型的正常任务性能,无法在不感知投毒的前提下保证微调后模型无后门。
这篇工作要解决的是:如何在一个统一框架里做 any-to-any 生成,而不是为文本到图像、图像到文本、图像编辑等每种模态映射各训一个模型。以往做法通常依赖成对监督和任务特化架构,扩展到新模态或新组合时成本很高,因此值得重新考虑一种可组合、可复用的生成机制。
这篇工作关注注意力里的 token 选择问题:标准 softmax attention 会给很多低价值 token 分配非零权重,既浪费算力,也可能引入噪声。过去常见做法是做启发式稀疏化或后处理裁剪,但缺少一个直接从判别间隔角度定义"该保留哪些 token"的方法。
这篇工作要回答一个直接问题:文本生成图像模型合成的数据,能不能反过来作为视觉表征学习的有效训练源,而不严重牺牲下游表示质量。过去大家通常把合成图像当数据增强或蒸馏辅助,而不是当主训练语料,因为担心分布偏差、语义伪影和多样性不足。
这篇工作解决的是鲁棒微调里的效率问题:很多鲁棒 fine-tuning 方法有效,但训练代价高、参数更新重,不适合大模型或频繁适配。过去常见替代是只调少量参数或加适配器,但往往在鲁棒性上掉得明显。
这篇工作要解决的是多模态 Transformer 中结构一致性不足的问题:不同模态、不同输入顺序或变换路径下,模型输出往往不满足传递性和交换性。过去大多数多模态模型只优化最终任务损失,不显式约束这些代数性质,导致组合推理和跨视角一致性较弱。
这篇工作解决的是 likelihood-based generative model 优化不稳、训练困难的问题。很多生成模型目标函数本身没问题,但优化地形尖锐、梯度噪声大,导致训练对超参和初始化敏感。过去通常通过复杂架构或额外正则去缓解,而不是直接改输入分布的光滑性。
这篇工作关注 embedding table 的压缩问题:大规模推荐、语言或多模态系统中,嵌入表常常占去大量参数和内存,而且长尾 token 的表示利用率很低。过去常见压缩方法是哈希、量化或静态聚类,但很难同时兼顾动态访问分布和表示质量。
这篇工作要解决的是:标准 Transformer 注意力把所有 token 视作同层级对象,导致在存在明显层次结构的数据上既浪费计算,也难以稳定利用长程依赖。过去常见做法是靠稀疏注意力、局部窗口或外部树结构近似处理层次性,但这些方法通常要么先验过强,要么对真实序列中的隐式层级不够自适应。
这篇工作要解决的是:如何同时获得神经密度模型的表达力和精确可解性。过去可 tractable 的密度模型,如 normalizing flows、自回归模型或某些图模型,往往在结构上受限;而更灵活的神经密度模型又经常要靠近似推断、采样或变分下界,训练和评估都不够干净。
这篇工作要解决的是:多任务 RNN 为何会偏向学习更简单、可复用的动力学结构,而不是为每个任务单独形成完全不同的内部机制。过去对多任务泛化的解释常停留在参数共享有效,但对“共享了什么”讲得不够具体,尤其缺少从动力系统和表示几何角度的统一解释。
这篇工作要解决的是:现有 LLM 规划评测过于零散,常把语言匹配、世界知识和真正的规划推理混在一起,导致很难判断模型到底会不会规划。过去很多规划能力结论来自少量 handcrafted 任务或 prompt-sensitive setting,既不系统,也不利于复现。
这篇工作要解决的是:扩散模型训练成本高、数据效率低,尤其在高分辨率图像上,标准全图训练会把大量计算花在冗余局部统计上。过去提升扩散训练效率通常靠蒸馏、采样加速或架构优化,但直接减少训练阶段对整图建模的浪费空间仍然很大。
现有预训练方法仅优化平均下游任务性能,无法保证在一系列相关下游任务上的性能一致性,极端情况下部分下游任务性能会出现显著掉点,此前没有针对下游任务鲁棒性的预训练目标设计。
现有LLM在隐含图结构的任务上表现优异,但能否显式处理自然语言描述的图结构、执行结构化推理尚未得到系统验证,此前没有统一的基准测试集合评估LLM的图推理能力。
现有线性探针方法只能判断预训练模型是否包含某个概念,无法量化判断的不确定性,也无法在无训练数据、无梯度访问权限的场景下做探针分析。
现有图文预训练模型的归因分析方法多为单模态,需要真值标签才能执行,无法在无标注场景下做跨模态归因分析,限制了其在安全敏感场景的应用。
这篇论文讨论的是一个理论问题:带逐层非线性的状态空间模型,究竟能表达多广的一类序列映射,以及它的记忆结构是什么。此前很多关于 SSM 的讨论集中在线性递推、长程建模效率或经验表现,但对“非线性分层 SSM 到底能不能像 Transformer/RNN 那样形成通用逼近能力”这一点,理论上并不充分。
这篇论文要回答的是:sharpness minimization 类算法带来更好泛化,是否真的只是因为它们找到了更平坦的极小值。近年来 SAM 及其变体很流行,但经验上‘低 sharpness = 好泛化’常被直接当因果解释;作者显然在质疑这个过于简化的叙事。
这篇论文要解决的是 simulation-based inference 在高维或大规模设定下的可扩展性问题。传统 SBI 往往依赖似然不可得时的后验近似,但很多方法在复杂模拟器、高维参数空间或大量训练样本下成本很高、训练不稳,限制了实际使用。
这篇论文研究的是:在 logistic regression 的 edge of stability 区域,梯度下降到底会偏向什么样的解。过去大家知道梯度下降在可分数据上有最大间隔一类的隐式偏置,但当学习率接近稳定边界、训练进入震荡而非平滑收敛时,经典结论不再直接适用。
这篇论文关注的是:soft prompt tuning 在自然语言理解任务上为什么经常不稳定、数据效率一般,以及如何让 prompt 学到真正有信息量的表示。过去 soft prompt 常被当成廉价参数高效微调手段,但如果只按任务 loss 更新,它很容易学到数据集偏置或冗余方向,而不一定把有限 prompt 容量用在最有判别力的信息上。
这篇论文试图解决的是:多模态模型为什么常常只能在见过的模态组合上泛化,而无法真正做到跨模态迁移。过去很多方法通过对齐图文、音文等成对数据拿到不错结果,但学到的是配对统计而不一定是统一表示;一旦测试时换模态、缺模态或要求从一种模态迁到另一种模态,性能就会明显掉。
这篇论文关注的是:视觉表征能否像 NLP 一样通过生成式预训练学到更通用的先验,而不是主要依赖判别式监督或对比学习。过去视觉预训练在对比学习上很成功,但这类目标更偏不变性抽取,未必鼓励模型学习图像的生成结构、空间组合规律和细粒度先验。
深度学习领域缺乏随机梯度分布结构(尤其是重尾特性)的正式统计检验工具。此前研究要么支持要么反对梯度噪声重尾假设,但均无严谨统一的验证流程,导致梯度与优化、泛化的关联研究结论长期不一致。
基于微分方程的生成模型(如扩散模型)采样需要平衡速度和质量,现有ODE采样器快但性能提前饱和,SDE采样器质量高但速度慢,此前研究未同时解决离散误差和误差收缩的平衡问题。
现有视觉语言模型只能基于预存知识被动响应全信息问答,无法像人类一样主动探索积累新信息解决不完全信息问题,此前缺乏适配主动推理能力评估的开放世界交互环境。
现有掩码语言模型(MLM)预训练的完形填空目标和下游机器阅读理解(MRC)微调目标存在分布Gap,此前基于MLM微调MRC任务性能差,尤其是低资源场景下掉点严重,需要大量标注数据成本高。
机器生成文本和人类文本的差异缺乏准确的自动度量指标,现有指标和人类判断相关性低,无法有效区分不同模型、解码方法的性能差异。
这篇工作要解决的是:如何让语言模型在满足复杂逻辑约束的生成任务上不再只靠提示碰运气,而是能显式保证可满足性。过去这类问题通常要么把约束软写进 prompt 里,让模型自己学着遵守;要么生成后再做过滤或修补,代价是效率低、失败模式多,而且一旦约束组合变复杂,纯自然语言提示很容易失效。
这篇工作要解决的是:能不能用极少量人类反馈快速控制 diffusion model 的采样分布,而不必重训模型或收集大规模偏好数据。过去偏好对齐通常依赖大量反馈训练 reward model,或者做昂贵的 finetune;这对图像生成这类高成本模型并不友好。
这篇工作要解决的是:能不能从判别模型直接构造生成模型,而不是单独训练一个显式生成器。传统生成建模通常需要 likelihood、GAN、diffusion 或 flow 等专门范式;而分类器虽然常学到丰富的密度边界信息,却很少被直接当成生成器使用。
这篇工作要解决的是:diffusion model 采样慢,能不能在不明显损失质量的前提下用更少步数近似原始后验。过去的加速方法很多是蒸馏、ODE/SDE 求解器改进或 consistency 类训练,但常常要么额外训练代价高,要么近似误差不可控。
这篇工作要解决的是:如何让 conditional diffusion 不只是拟合数据分布,还能朝高 reward 区域移动,同时保留分布估计的理论可解释性。过去 reward-guided generation 往往是启发式的,能提偏好分数,但很难说明是不是还在学一个合理分布。
这篇工作要解决的核心问题是:音乐音频表示学习一直缺少一个真正统一、可复现、覆盖面足够广的评测基准,导致不同预训练方法常常只在各自挑选的任务上比较,难以判断表示是否真的通用。过去这类工作通常用少量下游任务或私有划分做验证,结论容易被任务选择和数据清洗方式主导,因此现在需要一个面向通用音乐表征的标准化 benchmark。
这篇工作想解决的是:增量扩展网络宽度或深度本来可以减少早期训练开销,但实际常常训不稳或最终精度掉队,因为新长出来的参数与旧网络的优化状态不匹配。过去 growing network 方法往往只处理参数初始化,却没有把方差传递和学习率适配一起考虑,所以加速效果和最终收敛之间经常二选一。
这篇工作聚焦在一个老问题上:图像描述模型用标准最大似然训练时,往往更容易学到安全、常见、模板化的描述,而不是更具体、更有区分度的描述。过去做法要么在解码时加启发式约束,要么用 CIDEr 等序列级奖励再调,但这些方法不是训练目标和生成目标不一致,就是优化成本较高。
这篇工作要解决的是:NLP 任务种类很多,传统做法往往为分类、抽取、匹配、生成分别设计模型头和训练目标,导致系统复杂、迁移成本高,而且多任务共享有限。作者提出的问题是,能否把大规模 NLP 任务统一成一种更简单的文本对齐形式,让同一个模型接口覆盖尽可能多的任务。
这篇工作要解决的是:现有 LLM benchmark 大多只覆盖英文、文本单模态,且题目难度层级有限,因此很难真实衡量模型在跨语言、跨模态、跨教育层级上的泛化能力。过去即使有多语言或多模态评测,也常常只覆盖其中一维,无法看出模型能力短板到底来自语言、视觉还是知识难度。
基于去噪得分匹配(DSM)训练的能量基模型(EBM)存在分布不一致问题,学到的是带噪声的数据分布,采样难度大,此前EBM采样方法无法从DSM训练的带噪声模型中采样得到干净的目标分布。
扩散模型SDE求解的离散误差不可避免,导致模型分布和真实数据分布存在Gap,此前方法无法有效降低离散误差。
有监督预训练数据集的类内多样性(每类样本数)和类间多样性(类别数)的trade-off对下游性能的影响机制不明确,此前研究没有给出固定数据集大小下的最优配比规律。
LLM可以根据功能描述生成普通代码,但解决算法问题时需要同时选对算法和保证生成逻辑的正确性,此前的方法要么依赖人工编写测试用例验证,要么无法引导算法搜索,无法保障输出的可靠性。
大视觉模型参数规模大、多数仅提供API调用接口无法微调,此前视觉领域的上下文学习(ICL)研究较少,不清楚什么样的上下文示例能有效提升大视觉模型的零样本任务性能,现有方案多直接照搬NLP的ICL示例选择策略,不适配视觉模态特性。
这篇论文的核心问题是:现有大视觉语言模型(LVLM)的鲁棒性评测并不可靠,很多工作沿用图像分类或VQA里的攻击设定,但没有真正覆盖 LVLM“图像编码器 + 语言解码器 + 指令跟随”这一整条链路的脆弱点,因此容易高估模型安全性。作者想建立一套更贴近生成式多模态交互的对抗评测视角,回答 LVLM 到底在什么地方最容易被攻击、现有评测为什么失真。
这篇论文要解决的问题是:大语言模型在需要外部知识时,经常面临“该不该检索、检索多少、如何把检索结果真正用起来”这三个连续决策,但大多数 RAG 系统只做静态拼接,因此要么引入无关噪声,要么在知识缺口上补不够。作者试图让模型按问题难度和知识需求自适应调用外部知识,而不是对所有输入一刀切地检索增强。
这篇论文聚焦推理系统而不是模型权重本身:LLM 在线推理的延迟和吞吐往往被请求长度分布拖垮,但现有 serving 调度通常只基于已知输入长度,很少提前估计输出长度,因此 batch 内部会出现严重的尾部等待。作者要解决的是如何利用 LLM 自己预测响应长度,再据此做更好的 sequence scheduling。
这篇论文要解决的是:多模态推理里的 CoT 提示经常把所有任务都交给一个统一的语言链条处理,但视觉理解、证据定位和最终答案生成其实是不同职责,混在一条 chain 里容易互相干扰。作者因此提出 duty-distinct 的思路,把不同推理职责显式拆开,让语言模型在多模态场景里少做“无结构的长篇自言自语”。
这篇论文要解决的是:视觉语言基础模型通常具备比纯视觉模型更强的分布外泛化能力,但代价高、部署重,不适合很多下游场景。作者的问题是,能否把这种 OOD 鲁棒性从大规模 VLM 蒸馏到更轻量的视觉模型里,让小模型在不依赖文本输入的情况下继承一部分跨分布稳健性。
这篇论文的核心问题是:标准扩散过程大多建立在高斯噪声上,但高斯并不是唯一合理选择,尤其当数据空间有边界、稀疏性或概率单纯形结构时,高斯扩散会带来不自然的几何失配。作者提出 Beta Diffusion,试图在更适合有界变量或 simplex-like 结构的噪声族上建立扩散模型。
这篇论文要解决的是:时间序列任务高度碎片化,预测、分类、异常检测、补全等通常各训各的模型,迁移性弱、数据效率低。作者提出用预训练语言模型统一做时间序列分析,核心问题不是把时序硬套成文本,而是如何构造一种表示和接口,让单个预训练框架跨任务复用。
这篇论文讨论的是一个训练动力学问题:神经网络训练中不同层的尺度、温度和谱性质不平衡,会导致优化效率差、泛化不稳定,但这些现象常被当作经验问题分别修补,缺少统一视角。作者想回答的是,layer-wise weight analysis 能否揭示这种不平衡,并指导一种更系统的 temperature balancing 策略来改进训练。
这篇工作要解决的是:对比学习得到的视觉-语言模型在测试分布发生偏移时,常因特征分布失配而显著掉点,但标准做法通常只做 prompt ensembling、logit calibration 或轻量适配,没有直接处理测试时特征统计量与训练时不一致的问题。这个问题现在值得重看,因为 CLIP 一类模型越来越被当作通用预训练骨干使用,零样本部署场景多,测试分布又往往不可控,不能每次都重新微调。
这篇工作要解决的是:现有 QA 数据集大多默认模型只靠参数内知识和纯文本推理作答,无法系统评估 LLM 在需要外部工具时的真实能力。以前这类能力常通过少量手工案例或 agent benchmark 零散测试,但缺少一个把问题设计成“必须调工具才能高质量解答”的标准数据集。
这篇工作要回答一个经常被默认接受的判断:模型规模变大,机制可解释性会不会自然变好。作者的结论直接写在标题里——单靠 scale 并不会提升视觉模型的 mechanistic interpretability。过去不少人把更大模型的更强线性可分性、更多稀疏特征或更清晰语义单元,误当成机制层面更容易解释,但这两者并不等价。
这篇工作要解决的是:如何在在线学习设定下学习长程依赖,而不依赖完整序列回看或昂贵的反向传播穿越很长时间跨度。这个问题一直很难,因为标准 RNN 在线更新时容易遗忘,BPTT 又要求缓存长历史,既不符合在线设定,也不利于低延迟持续学习。