International Conference on Learning Representations
这篇论文要解决的问题是:预训练目标和模型架构长期被绑在一起,导致 encoder、decoder、prefix LM 各自擅长一类任务,却缺少一个在不同任务形态下都稳健的统一方案。以前的做法通常是在“选哪种目标”上二选一,结果是某类能力强,另一类能力吃亏。
这篇论文的核心目标是提供一个可公开使用的 130B 级中英双语预训练模型,并证明在资源受限条件下也能把超大模型稳定训起来。此前 100B+ 级模型大多闭源,中文能力强的开放模型更少,训练细节和稳定性经验也不透明。
这篇论文要解决的是:LLM在复杂推理任务上常因“直接解题”跨度太大而失败,即使模型具备局部能力也难以一次性组织出完整推理链。以往CoT能缓解但仍常卡在长程依赖与子问题分解上。
此前多模态生成模型通常为每个方向(T2I、I2T、图文联合)分别训专门的模型或用非对称架构;怎么用一个统一的 discrete diffusion 模型同时干 modality translation 和 simultaneous vision-language generation?
CoT 默认用 greedy decoding 取单条推理链,但 reasoning 问题常有多条合理路径到同一答案;单条 greedy 既容易采到错误链,也丢掉了多数投票式的鲁棒性。怎么把 reasoning 的 diversity 当成信号用起来?
经过人类反馈或模仿学习训练的 LLM 会产生“迎合人类(sycophancy)”或重复人类错误的现象,导致标准监督微调无法提取模型内部真正的知识。
传统的神经缩放定律(Scaling Law)假设性能随计算量呈单一幂律变化,但实际预训练中经常出现性能停滞、突然涌现或双重下降等非单调/非平滑现象。
LLM 会记忆训练数据并原样输出,这引发了隐私和质量问题,但记忆化程度与模型规模、数据重复次数及上下文长度之间的定量关系一直缺乏系统性测量。
这篇论文要解决的是:源码预训练里该如何做 subtokenization,远没有自然语言里那么“默认”。过去很多代码 LM 直接沿用 BPE/byte-level 方案,但代码有标识符、命名风格和长尾词表等特殊性,不同切分方式会直接改变序列长度、拷贝能力和跨语言共享程度。
这篇论文要解决的是:多语种预训练里的语言采样分布该怎么定,现有温度采样虽然常用,但在不同模型规模下并不稳定地公平或有效。过去的做法通常在 head 语言与 tail 语言之间手调温度,结果要么 head 覆盖不够,要么 tail 被重复采样过度、出现过拟合。
这篇论文要解决的是:图像到文本生成和文本到图像生成能否用一个统一的生成式预训练目标同时学好,而不是分别训练再拼接。此前视觉-语言预训练大多偏理解任务,或把写作与绘画分成两套系统;作者认为这两种能力共享跨模态条件生成结构,值得在一个模型里联合学习。
传统的自回归语言模型只能从左到右生成代码,无法处理代码补全(infilling)任务,即在给定上下文(前后文)的情况下插入缺失的代码。
状态空间模型(SSM,如 S4)在处理长序列任务时表现优异,但在标准的语言建模(Language Modeling, LM)任务上,其性能一直落后于 Transformer 中的注意力机制。
这篇论文要解决的是:能不能不用标准自回归 next-token 生成,也把序列到序列文本生成做对。过去文本生成几乎被 AR 范式垄断,因为离散文本上的 diffusion 难训练、解码慢、条件控制也不自然,所以 diffusion 在 NLP 多停留在补全或非主流设定;这篇工作试图把它推进到更标准的 seq2seq 生成场景。
这篇论文要解决的是:HIPPO/SSM 这类长序列模型虽然理论上强,但其状态投影基底过于固定,限制了表达能力和训练适配性。过去 S4 一类方法依赖特定正交多项式结构来获得稳定长程记忆,但这也把模型设计绑死在少数解析基底上。
这篇论文要解决的是:结构化状态空间模型(SSM,如 S4)在长序列建模已很强,但其状态转移通常是输入无关的线性动力学,难以在推理时对输入分布变化做自适应。
这篇论文要解决的是:ELECTRA 式 RTD(replaced token detection)预训练更省样本,但在强模型(如 DeBERTa)上直接套用会因生成器/判别器共享 embedding 带来训练动力学冲突,导致效率与效果都受损。
现有领域自适应预训练(DAP)仅支持单一领域适配,连续多领域DAP训练会触发严重的通用知识灾难性遗忘。 prior 工作要么限制为单次领域迁移,要么采用数据重放/正则化方案,通用知识保留效果差且存储成本高。
在 Transformer 预训练中,Adam 优化器远胜于 SGD。学界普遍认为这是因为 Adam 的自适应学习率能更好地处理 Transformer 梯度中的重尾噪声(Heavy-tailed Noise)。
标准的自回归(AR)语言模型逐 Token 生成文本,在生成长文本、高度事实性内容或重复性短语时效率低下且容易产生幻觉。
这篇论文的核心结论是:生成建模可以不走离散扩散时间链,也不必直接做神经 ODE 最大似然,而是通过学习一条连续概率流来统一两者。此前扩散模型训练稳定但采样慢,连续归一化流可逆但训练和建模灵活性受限,作者试图在训练目标层面把这两类方法接起来。
这篇论文的核心结论是:如果把生成轨迹学得更“直”,就能同时提升采样速度和传输稳定性。传统扩散或流模型常需要弯曲、长路径的数值积分,导致步数多、误差累积大,作者试图直接优化这条路径的几何形状。
解决视觉、语言和多模态任务通常需要不同架构和目标函数的问题。以往的模型(如ViT、BERT)往往针对特定模态或任务设计,缺乏一个真正统一的架构来处理所有类型的输入和输出。
解决Transformer在处理长序列时注意力机制的二次复杂度问题,以及现有线性注意力或状态空间模型(SSM)在表达能力或训练稳定性上的不足。
这篇论文要解决的是长程自回归语言建模里,Transformer 计算贵、而已有状态空间模型虽然擅长长依赖却在生成建模上不够成熟的问题。过去 S4 一类模型更多在分类任务上表现突出,但在真实语言建模上,训练效率、实现复杂度和局部依赖建模都还是短板。
这篇论文要解决的是:代码生成模型经常“会写但不懂库”,因为训练语料里API文档覆盖不足且更新快,导致模型在调用真实库函数时容易幻觉或用错参数。以往做法要么只检索代码片段(不解释API语义),要么把文档塞进prompt但缺少结构化检索与融合。
CoT 两种主流用法各有短板:Zero-shot CoT('Let's think step by step')便宜但弱;Manual-CoT(人写 few-shot 示例)强但每个任务都要手工构造示例。能否自动构造 few-shot 示例,既不人工又拿到 Manual-CoT 的效果?
序列模型到底是记了一堆表面统计,还是真学到了生成序列的底层过程?语言模型的'能力从哪来'一直没法 clean 地回答,因为自然语言太复杂、ground-truth world state 不可得。
Transformer上下文学习(ICL)的内在机制不明确, prior 研究要么将ICL归为隐式模式匹配,要么无法量化验证ICL对应的具体学习算法,无法解释ICL的泛化边界。
以往的图文多模态预训练往往侧重于扩大语言模型(LLM)的参数量,而视觉编码器(ViT)的规模相对较小,导致视觉表征能力成为多模态任务的瓶颈。
扩散模型原生针对连续数据设计,处理文本等离散数据时通常需要引入复杂的离散状态空间或分类转移矩阵,优化困难且难以扩展。
这篇论文要解决的是:如何在不按传统方式直接扩宽或加深 Transformer 的前提下,同时拿到更好的容量-计算折中和可按预算弹性推理的能力。过去 dense scaling 主要靠更大网络和常规 dropout 来稳训练,但这两条路分别受算力和部署约束限制,作者尝试把 sparse MoE 从“增大容量的结构”重新解释成“比 dropout 更强的结构化随机化与自适应容量机制”。
这篇论文要解决的是:标准自终止语言模型通常假设生成概率随步数单调逼近终止,但这种单调设计会限制模型在不同长度上的表达能力,并导致过早或过晚结束。作者要做的是一种 non-monotonic self-terminating LM,让模型能更灵活地决定何时结束,同时保持可控的终止行为。
如何高效且准确地将百亿/千亿参数规模的生成式预训练 Transformer (GPT) 模型量化到 3-4 bit,以降低推理成本,同时保持模型性能?
这篇论文要解决的是:能否直接从原始音频和视频中联合学习语音表示,而不依赖预先抽取的唇形、梅尔谱或文本标签。过去视听语音学习常把模态预处理得很重,虽然有效,但也把表示上限锁在手工前端上。
这篇论文要解决的是:语言模型能否在没有外部人工标注程序数据的情况下,通过自生成和自筛选来提升编程能力。过去代码能力提升主要依赖更大代码语料或人工构造训练集,而这两者都昂贵且扩展慢。
这篇论文要解决的是:语言模型微调后在域外(OOD)场景常出现过度自信(miscalibration),而现有校准方法往往把问题当作“分类头/温度”层面的后处理,忽略了微调对预训练表征的破坏。
文本到视频生成预训练面临两大核心障碍:从零训练大模型计算成本极高,公开文本视频数据集规模小、语义相关性弱,无法支撑复杂运动语义学习。 prior 工作要么用小参数模型生成低分辨率短视频,要么没有复用预训练文本到图像模型的能力。
少样本提示的性能随任务复杂度上升急剧下降,单一提示无法同时优化复杂任务的多个推理步骤。 prior 工作要么依赖手动设计更复杂的提示,要么仅支持固定逻辑的任务拆分,灵活性差。
真实世界音频(环境音、声效)包含复杂的重叠声源和高采样率,传统的连续波形建模难以直接通过文本条件生成高保真音频。
早期的多模态预训练通常独立进行掩码语言建模(MLM)和掩码图像建模(MIM),或者仅依赖全局对比损失(CLIP),缺乏在细粒度 Token 级别利用跨模态信息进行重建的机制。
强化学习中的奖励函数设计(Reward Design)极其困难,依赖大量人工调试,且容易引发奖励作弊(Reward Hacking)。
传统的强化学习智能体在面对新任务时需要进行梯度更新才能学习,缺乏像 LLM 那样通过上下文(In-context)快速适应新任务的能力。
在对预训练 Transformer 进行持续预训练(Continual Pre-training,如适配代码或医疗领域)时,模型极易发生灾难性遗忘,丢失通用的基础能力。
这篇论文要解决的是:如何把一个表示向量追溯到训练语料中真正支持它的文本证据,而不是只做样本级相似检索。以往解释表示的方法常停留在特征归因或最近邻示例,难以回答“这个表示为什么长成这样、是被哪类语料塑造的”。
解决大规模分布式训练中,Adam优化器由于需要同步一阶和二阶矩估计而导致的巨大通信开销问题。传统的梯度压缩方法(如1-bit SGD)难以直接应用于Adam,因为Adam的非线性更新规则会破坏压缩误差的补偿机制。
这篇论文要解决的是注意力计算在长序列下的二次复杂度瓶颈,但不想走稀疏注意力那条容易牺牲精度、且梯度传播不稳定的路。作者试图用树结构把全局交互压缩成可并行、可微的 dense gradient tree,从而在保留较强表达能力的同时降低计算和内存成本。
这篇论文要解决的是如何一次性给大语言模型批量改写大量事实记忆,而不是像以往那样一次只改一条关联。已有模型编辑方法在单点编辑上很有希望,但规模一上去就容易互相干扰、泛化失控,因而难以成为真正可用的知识更新工具。
作者要解决的是:数学推理微调数据通常每题只有一条参考解,导致模型被单一路径监督而泛化差,尤其在多步推理时更明显。过去常用做法是直接用参考解做 SFT,但这会把“解题路径多样性”当作噪声丢掉。
缺少论文摘要与正文信息,无法可靠概括 CodeGen 在“多轮程序合成”的核心问题设定与相对 prior 的差异点。
想要在 sub-quadratic 复杂度下做序列建模同时保留全局感受野,attention 是 O(n²) 太贵,线性 attention 和 SSM 又各有表达力或稳定性问题。本文提出 Toeplitz 结构化矩阵作为统一框架。
RL 到底适不适合 NLP?社区此前对 RLHF/PPO 应用在 LM 上存在两极看法——有效的人觉得它是 alignment 的关键,怀疑的人觉得信号噪声大、容易崩。本文给出统一的 benchmark 和库 (RL4LMs) 系统评估。
LM 的持续学习(continual learning):在一串任务上依次 finetune 时怎么不忘旧任务、还能正向迁移。传统做法是 replay、EWC 或单独加 adapter,都各有不足。
现有的推理基准(如数学 QA)仅通过最终答案的准确率来间接评估 LLM,导致无法确认模型是真正遵循了思维链(CoT)的逻辑步骤,还是仅仅依赖了捷径或启发式规则。
标准的在线 RL(如 PPO)在对齐大语言模型时,由于动作空间巨大且需要频繁采样分布外(OOD)的生成结果,导致训练极不稳定且效率低下;而纯 SFT 又无法有效最大化长期奖励。
这篇论文要解决的问题是:在 few-shot in-context learning 已经能用少量示例驱动大模型完成新任务的前提下,如何用尽可能少的标注预算构造一个“够用”的示例池。以往工作多把重点放在测试时怎么检索示例,默认训练集已完整标注;这篇工作反过来问,既然最终只会用到少量 demonstrations,那是不是可以先从未标注池里挑一小部分去标,再配合检索使用。
这篇论文要解决的问题是:score-based diffusion 在连续空间已经很成熟,但离散变量上缺少自然的 score 定义,导致这一路线很难直接用于文本等 categorical 数据。此前离散 diffusion 多依赖离散时间马尔可夫链和特定噪声形式,缺少像连续数据 SDE 那样统一、可分析的连续时间视角。
这篇论文聚焦的问题大概率是:对超大语言模型做剪枝时,现有高效剪枝方法虽然便宜,但精度掉得多;如何在不承担完整重训练成本的前提下,把效率和恢复性能做得更平衡。题面没有摘要,因此这里只能按标题给出保守概括。
按标题判断,这篇论文要解决的问题是:纯文本语言模型在很多场景里其实暴露于视觉上下文,但标准 LM 预训练完全忽略这一点;如果把视觉信号直接并入语言建模,是否能学到更好的文本预测与多模态表征。它关心的不是传统 VQA 下游,而是把视觉作为 LM 预训练的一部分。题面无摘要,因此需保守表述。
大语言模型(LLM)的推理能力(如 Chain-of-Thought)和行动能力(如生成动作计划)通常被分开研究。纯推理模型缺乏与外部世界的交互,容易产生幻觉或错误累积;纯行动模型缺乏深度思考,难以处理复杂任务。
指令微调(Instruction Tuning)通常是给定指令(Instruction)和输入(Input),让模型预测输出(Output)。这种前向学习方式虽然有效,但模型有时并未真正理解指令的意图,而是依赖输入输出的表面模式。
这篇论文解决的是 MoE 模型里专家之间几乎不通信导致的信息割裂问题。标准 sparse MoE 通过路由提升参数容量和计算效率,但每个 token 只看少数专家,专家间缺少结构化交互,容易限制表示协同和训练效率。
这篇论文要解决的是代码生成中“直接采样答案”容易局部正确但整体结构错误的问题。大语言模型会写出语法像样的代码,但在需要多步分解、全局约束和中间变量设计时,缺少显式规划常导致一次性生成失败。
这篇论文要解决的是:条件生成(摘要、翻译、对话等)里,模型的序列对数似然常与人类偏好/任务指标不一致,导致解码时“高似然但低质量”或长度偏置等问题。过去多靠启发式长度惩罚、温度、coverage等补丁,缺少更系统的校准视角。
这篇论文要解决的是:高效注意力近似常在速度、无偏性与方差之间难以兼得,很多方法要么引入偏差(影响质量),要么方差大(训练不稳),要么实现复杂。以往常见路线是kernelized attention或稀疏注意力,但它们对分布与长度敏感。
这篇论文要解决的是:提示工程对LLM效果影响很大,但人工写prompt成本高且不可复现,导致“会不会写prompt”成为隐性门槛。以往自动prompt方法要么搜索成本高,要么依赖额外标注/模型。
能否不重训一个 CLIP,而是在已训好的视觉和语言模型之上只动很少参数就拿到一个 contrastive VLM。过去 parameter-efficient 的视觉-语言融合(如 Frozen、Flamingo 那一脉)基本都是 non-contrastive 的生成式接法,不适合 retrieval/neural search 这种对 latency 和 dual-encoder 形态敏感的场景。
知识密集型 QA 的默认管线是 retrieve-then-read:从 Wikipedia 之类外部语料检索相关文档再读答案。但 retriever 召回天花板明显,且 dense retriever 很难命中需要多跳、隐含或组合的事实。能否把 retriever 换成 LLM 本身?
条件生成模型(翻译、摘要等)在 OOD 输入上会胡编,但现有 OOD detection 研究主要在分类上,生成场景下没有干净的 detector,也没有把 OOD 检测和 selective generation(见到就弃权)连起来。
训练集里不是每条样本都有用,但怎么**有理论保障地**识别并丢弃冗余/有害样本、又把保留子集规模压到最小?此前 coreset / influence function 类方法要么贵、要么没 generalization guarantee。
神经网络的非凸优化导致不同训练轮次得到的模型参数位于不同损失盆地,无法直接在权重空间合并。 prior 工作认为损失盆地相互独立,未考虑隐藏单元的排列对称性。
提示设计非常脆弱,微小的提示修改会导致预测结果大幅波动。 prior 工作依赖手动设计完美提示,人力成本极高,无法规模化落地。
扩大语言模型规模通常会提升性能,但在某些包含误导性或偏见示例的上下文中,大模型反而表现更差(逆向缩放),这种现象缺乏在受控环境下的机制级分析。
防止 LLM 生成有害文本通常依赖于计算成本高昂的重训练/RLHF,或者目光短浅的解码期干预(如屏蔽特定 token),后者忽略了生成序列的长期轨迹,容易导致延迟的毒性爆发。
这篇论文要解决的是:能否在保持标准数值格式和常规训练流程兼容的前提下,用 4-bit 矩阵乘法训练神经网络而不明显掉精度。以往低比特训练常常依赖特制格式、复杂补偿或只在推理有效,训练端要么不稳,要么硬件落地成本高。
这篇论文要解决的是:如何在 N:M 结构化稀疏约束下压缩神经网络梯度,同时尽量不引入偏差并把方差降到最低。此前梯度稀疏化常在 unbiased 与低方差之间取舍,结构化稀疏又会额外限制可保留的元素模式,导致训练噪声变大。
这篇论文要解决的是:LLM 在多步逻辑推理上往往明显弱于单步蕴含或局部判断,直接 few-shot prompting 很难稳定把多步链条走对。过去很多工作要么只测少数 benchmark,要么依赖不透明的 chain-of-thought 文本,作者则想要一种更可解释、更模块化的逻辑推理流程。
这篇论文要回答的是:为什么大模型训练常常在“稳定性边缘”附近仍能继续优化而不立刻发散。以往对 edge of stability 的理解多停留在经验现象:学习率超过经典局部稳定阈值后,loss 会震荡但训练还能推进;作者想给出一个更机制化的解释,说明梯度下降为何会自发进入一个可训练但非经典稳定的状态。
这篇论文要回答的是:神经网络在分布外长度或组合结构上的泛化边界,是否能用 Chomsky hierarchy 这样的计算复杂度分层来预测。过去很多工作在单个合成任务上讨论“模型会不会组合泛化”,但缺少跨任务、跨架构的统一刻画;作者试图把问题放到形式语言层级上系统比较。
从标题看,这篇论文要解决的是:任务型对话系统中的 reward learning 容易学出“看起来高分、实际失真”的奖励,如何识别并抑制这种 reward hacking。过去很多对话 RL 工作默认 reward model 足够可靠,但一旦奖励偏差被策略利用,系统会快速偏离真实用户目标;作者显然在做一次案例式拆解。
在大型语言模型(LLM)的多步推理任务中,如何选择合适的 few-shot 提示(prompts)以最大化模型的推理性能?
在计算机视觉的预训练中,数据增强(Data Augmentations)被广泛使用,但它们究竟相当于多少真实的额外数据?数据增强是通过引入不变性(invariance)还是隐式正则化(implicit regularization)来提升性能的?
传统的 CLIP 模型在进行图文对比预训练时,将图像视为平铺的 patch 集合,忽略了图像中天然存在的层次化语义结构(如:整体场景 -> 局部物体 -> 物体细节),导致细粒度跨模态对齐能力不足。
大型语言模型(LLM)在生成多步推理(如 Chain-of-Thought)时,传统的评估指标(如 BLEU, ROUGE 或仅看最终答案的准确率)无法准确衡量推理过程的逻辑正确性、连贯性和事实性。
这篇论文要解决的是:音频和视频的自监督预训练,如何同时学到模态内表征和跨模态对齐,而不是二选一。过去 MAE 类方法擅长重建单模态细节,CLIP 类方法擅长跨模态对齐,但两者往往分开做,导致表示要么偏局部重建、要么偏全局语义。
这篇论文要解决的是:在强化学习里,符号化目标太僵硬,人类偏好学习又太弱约束,二者之间缺少一个既可表达又可交互的中间层。过去要么手工写 reward/specification,要么收集成对偏好学 reward,但前者难覆盖复杂意图,后者样本效率和可控性都有限。
这篇论文要解决的是:视频预测通常依赖像素级自回归或重建,训练重、误差累积快,而且难学到高层时空结构。过去视频生成常在像素空间逐帧预测,或者在 latent 空间做 AR,但都容易把容量花在低层细节上。
这篇论文要解决的是:大语言模型做 few-shot 分类时,输出概率常常校准很差,导致 prompt 选得差一点性能就波动很大。过去 in-context learning 的 few-shot 分类常依赖 verbalizer 和 prompt 工程,而模型概率并不可靠,尤其类别先验不平衡时更明显。
这篇论文要解决的是:Transformer 训练深度很大时高度依赖残差(skip connections)和归一化(LayerNorm)来维持信号传播,否则会出现梯度/激活退化;但现有“无 shortcut 的深网”理论与方法很难直接适配自注意力(self-attention)。
这篇论文要解决的是:标准 Transformer 编码器在流式/在线推理时需要反复对重叠窗口做注意力计算,导致大量冗余计算与延迟,而很多时间序列场景需要 token-by-token 的持续输出。
这篇论文要解决的是:小规模表格分类通常需要大量调参和模型选择,而通用深度模型在小数据 regime 不稳定;作者希望像 LLM 的 ICL 一样,用一次离线训练得到一个“秒级、免调参”的通用表格分类器。
奖励推理依赖人类行为模型的准确性,但完美的人类行为模型无法获得。 prior 工作假设人类模型的小误差只会导致奖励推理的小误差,没有量化模型误配的影响。
预训练LM的错误修正面临连续编辑的挑战,现有模型编辑方法只能处理单次错误修正,连续多次编辑会导致之前修正的错误复发、通用知识遗忘。真实工业部署场景下需要持续修正不断出现的新错误,现有方案无法满足需求。
LLM 经常用不同的词汇表达相同的语义,导致传统的基于 Token 概率的熵(Token-level Entropy)无法真实反映模型对知识的认知不确定性(Epistemic Uncertainty)。
离线强化学习(Offline RL)在扩大模型参数时,常因价值高估(Value Overestimation)和训练不稳定而崩溃,无法像 NLP/Vision 模型那样享受 Scaling Law。
这篇论文要回答的是:卷积模型为什么在长序列建模上常常比 Transformer 或 RNN 更稳、更省算,而且长度外推不容易崩。过去很多工作把这种优势归因于实现细节或感受野设计,但缺少把性能来源拆开的系统解释。
这篇论文关心的是:稀疏 MoE 不仅能提升参数效率,是否还能天然改善 domain generalization。以往 MoE 大多从扩容和计算效率角度讨论,默认路由带来的专家分工是工程手段,而不是泛化机制;跨域泛化通常由数据增强、IRM 或 domain alignment 一类方法处理。
这篇论文关注一个训练动态问题:Transformer 会自发出现 activation sparsity,也就是一部分神经元越来越少被激活,但这个现象此前更多被当作经验观察,没有被系统解释。过去很多稀疏化工作依赖显式正则或结构剪枝,而不是先理解模型为什么自己就会变稀。
这篇论文解决的是一个很实际的问题:CLIP 有强图文对齐表征,但没有原生生成能力,怎样在不做大规模图文生成训练的情况下,把 CLIP 图像 latent 变成自然语言 caption。过去零样本 captioning 通常依赖检索、prompt engineering 或额外配对数据微调,质量和泛化都受限。
这篇论文要回答的核心问题是:大语言模型到底是在“理解概念”,还是主要依赖表面共现和模板线索完成概念相关任务。过去很多工作用下游准确率间接判断概念能力,但这会把记忆、提示技巧和真正的概念泛化混在一起,因此作者转向更细粒度的经验性拆解。
这篇论文的核心结论是:Transformer 在学习形式语言或自动机任务时,往往没有学到预期的状态机算法,而是学会了更脆弱的捷径。过去很多工作把在合成序列任务上的高准确率解读为模型具备算法泛化能力,这篇论文专门去拆这个假设。
这篇论文要回答的是:自监督学习的 loss landscape 到底由什么决定,尤其是哪些结构因素塑造了优化难度和解的几何。过去 SSL 成功很多,但对其损失面为何有时平滑、有时病态,理解并不系统,这限制了我们对稳定训练和可扩展性的把握。
这篇论文的核心结论是:grokking 不是算法玩具数据上的特例,而是可以在更广泛的数据形态中出现。此前 grokking 常被视为小型算法任务上的奇异现象,因此它对大模型学习动态的外推价值一直有争议,作者试图把这个边界推开。
这篇论文要解决的是:语言模型在需要物理或环境约束的推理中,单靠文本统计往往不够,能否通过显式模拟来获得 grounded reasoning。过去 LLM 常在文字推理 benchmark 上表现不错,但一旦涉及隐含状态演化、空间关系或交互后果,纯文本链式推理容易脱离真实世界约束。
解决大型语言模型在半结构化数学推理(如包含表格、文本的数学题)中,由于提示(prompt)选择不当导致性能不稳定的问题。静态或启发式选择的few-shot prompt难以适应多样化的题目。
解决大型语言模型在零样本常识推理(Zero-Shot Commonsense Reasoning)任务中,由于prompt设计和模型输出概率校准(calibration)不佳导致性能波动的问题。
解决非自回归机器翻译(NAT)中,由于目标端词汇的条件独立性假设导致的“多模态问题”(即模型在多个可能的正确翻译中犹豫,导致输出重复或遗漏)。以往的NAT模型通常依赖于知识蒸馏或复杂的迭代细化来缓解此问题。
解决强化学习(RL)中奖励函数设计困难和视觉表示泛化性差的问题。以往的方法通常需要为每个任务手动设计奖励,或者依赖于特定领域的预训练表示,难以实现跨任务的通用性。
这篇论文要回答的是:冻结的纯文本语言模型和纯视觉模型,是否已经学到了足够相似的概念空间,以至于只用一个线性映射就能把图像表示接到语言空间里。过去常见做法需要联合调图像编码器或语言模型,默认跨模态对齐需要较强非线性适配;作者在检验一个更强、更冒险的假设。
这篇论文要解决的是 BERT 推理中的复杂非线性函数开销,目标是把推理尽量变成矩阵算术操作。问题背景很实际:在边缘设备或专用硬件上,GELU、Softmax、LayerNorm 这类非线性和归一化往往比矩阵乘本身更难高效部署。
这篇论文要解决的是一个机制层面的核心问题:Transformer 在语言上成功,到底是靠任意全连接的信息路由,还是在训练后自发收敛到更接近树状、层次化的组合计算。过去关于组合性的大量讨论往往停留在行为层面,难以直接刻画模型内部是否真的在做近似树结构的计算。
作者要解决的是:像 grokking 这种看似“突然涌现”的能力变化,能否用连续的进度量(progress measures)来解释并提前预测。以往对涌现的解释常停留在现象描述或宏观指标(loss/acc),难以指出模型内部到底“学会了什么组件”。
作者要解决的是:纯参数化 LM 需要用大量参数“存知识”,既昂贵又难以随世界知识更新,而传统检索增强又常把检索当作外接模块,难以让模型在不同知识类型间自适应选择。过去的次优方案要么继续堆参数,要么做单一来源的 RAG,导致覆盖面与可控性不足。
作者要解决的是:双向去噪预训练(如 MLM)的模型通常被认为不适合像 GPT 那样做 few-shot prompting,因为其训练目标不是左到右生成,导致“如何把任务写成 prompt 并解码”不自然。过去因此把 few-shot 能力几乎等同于自回归(AR)LM 的专属优势。
文本生成自动评测到底应该在哪个空间比较:字符串(BLEU/ROUGE)、embedding(BERTScore/MAUVE)、还是 cluster?本文给一个统一的分析框架来评估这些指标的信息性和缺陷。
形式化数学定理证明里最大障碍之一是训练分布与目标分布之间的巨大 gap:模型会的都是简单引理,想证明的是奥数级命题,中间没有 curriculum。本文想用'语句课程学习'把这条路打通。
序列模型(尤其是 Transformer)在输入扰动下输出可能剧烈变化,作者认为这种'数据连续性'缺失是泛化差和鲁棒性差的共同源头,想用 Lipschitz 正则化显式约束。
大语言模型在面对复杂、未见过的组合任务时,难以有效地复用其在简单子任务上学到的能力。
在对比学习预训练中,业界普遍追求一个“完美”的表征,但表征在广泛下游任务上的通用性(Universality)与在特定任务上的标签效率(Label Efficiency)之间是否存在冲突,一直缺乏理论和实证分析。
LLM 的复杂推理能力(如 CoT)主要在英文语料上涌现,尚不清楚这种能力能否泛化到预训练占比极低的非英语种,尤其是资源匮乏的语言。
尽管 GPT-3 等商业 API 展现了强大的少样本能力,但其在实际应用中的可靠性(如泛化性、社会偏见、校准度和事实性)往往不佳,且缺乏系统性的改进方法。
预训练语料库规模庞大且充满噪声,传统基于静态规则或启发式的方法难以深入挖掘数据内部的潜在结构(如难度、领域分布或错误标签)。
这篇论文要解决的问题是:闭卷语言模型明明存了不少事实,但在直接回答知识密集型问题时经常提取失败。过去两条主路分别是直接 answer 或外部 retrieval;作者提出第三条路:不接外部语料,先让模型从自身参数记忆里“背诵”相关段落,再基于这段中间文本作答。
这篇论文要解决的问题是:真实任务经常是含糊指定的,用户意图需要从指令、上下文和少量示例共同推断,但主流 benchmark 往往把任务定义得过于清楚,掩盖了模型在“任务判别”上的短板。换句话说,大家常测的是已知任务上的执行能力,而不是面对歧义时的任务识别能力。
按标题看,Phenaki 要解决的是开放域文本到视频生成里的一个难点:如何生成可变长度视频,而不是被固定帧数或固定时长限制。大多数早期文本视频模型要么生成很短片段,要么靠逐段拼接,难以在长时长下维持语义连贯和计算可控。题面无摘要,因此这里只做保守总结。
这篇论文要解决的是:分子图上的 GNN 预训练长期效果不稳定,很多自监督目标在分子领域并没有像 NLP/视觉那样带来稳定收益。过去方法常直接迁移图对比学习或属性掩码,但忽略了分子图离散语义细、原子/子结构词表缺失的问题,所以作者重新审视“分子图到底该预训练什么”。
这篇论文要解决的是:标准 in-context learning 受上下文窗口限制,而且 few-shot prompt 的示例选择和顺序高度敏感,常常还需要额外 calibration。作者想把“示例检索”从 prompt 内部挪到 prompt 外部,用 kNN 推断补足上下文学习的覆盖范围。
这篇论文的核心结论是:扩散模型训练里的一个重要噪声源来自中间噪声尺度下 score target 的高方差,而不是所有时间步都同样难。过去 denoising score matching 默认直接用单样本目标,但在中间噪声区间,多模态数据会让反向路径方向不稳定,导致目标方差大、训练效率低。
如何有效地将预训练的图文模型(如 CLIP)迁移到视频-语言对齐任务(post-pretraining)。过去通常直接在视频数据上微调,但受限于视频描述数据的规模和图文/视频-文本之间的领域差异,性能提升有限。
在长视频-文本预训练中,现有的对比学习方法通常只在句子-片段(sentence-clip)级别进行匹配,忽略了全局的时序上下文(temporal context),导致模型难以理解长视频的整体逻辑和时序依赖。
在离线强化学习中,基于回报条件(return-conditioned)的监督学习方法(如 Decision Transformer)在高度随机的环境中表现不佳。因为高回报可能是由环境的随机性(不可控因素)带来的,而非策略本身(可控因素),导致模型学习到不一致的策略。
预训练语言模型在生成文本时容易产生有害内容(毒性)和偏见。过去的方法通常将去毒(detoxifying)和去偏(debiasing)分开处理,但作者发现这会导致“按下葫芦浮起瓢”:去偏后的模型仍有毒性,而去毒后的模型甚至会加剧社会偏见。
文档图像预训练(Document Image Pre-training)通常需要处理视觉、文本和布局等多模态信息。现有的方法往往依赖于复杂的 OCR 引擎提取文本,或者在预训练目标上未能充分融合视觉和文本的深层交互。
这篇论文要回答的核心问题是:很多视觉-语言模型并没有真正建模词序和组合语义,而是在相当多场景下退化成“词袋匹配器”。过去这件事常被零样本准确率掩盖,因为常规 benchmark 更奖励对象共现而不是关系理解;作者认为随着 VLM 被用于更细粒度推理,这个缺陷已经不能再回避。
这篇论文要解决的是:能否不重新训练一个统一多模态大模型,而是把现成的单模态基础模型通过语言接口组合起来,完成零样本多模态推理。过去主流路线是端到端联合训练,但成本高、数据要求重,而且每加一种模态都要重新做对齐。
这篇论文要解决的是自注意力的二次复杂度和实现开销问题,但不想再引入额外可学习参数或复杂近似器。已有高效注意力方法往往要么改动较大、要么依赖核技巧/低秩假设,速度和精度 trade-off 不稳定。
这篇论文解决的是大语言模型在测试时 prompt 很敏感,但人工改 prompt 成本高且不可泛化的问题。过去常见做法是离线 prompt engineering 或基于验证集搜索,难以针对单个输入动态调整。
这篇论文解决的是参数高效微调里预算如何分配的问题。LoRA、adapter、prefix 等方法通常给每层分配相同 rank 或相同参数量,但不同层对任务适配的重要性并不一样,平均分配往往浪费预算。
这篇论文要解决的是:时间序列建模里,S4等连续状态空间模型(SSM)很强但实现复杂、训练不稳定且算子重,导致工程上难以像Transformer那样普及。以往常见的次优做法是退回到RNN/TCN或用简化版SSM但牺牲长程依赖能力。
这篇论文要解决的是:零样本泛化(zero-shot)在不同任务上差异巨大,但社区常把它当作单一能力来讨论,导致评测与训练信号设计缺乏针对性。以往的次优做法是用平均分掩盖任务间难度与可迁移性差异。
这篇论文要解决的是:AdamW把权重衰减(weight decay)与自适应梯度更新解耦后更好用,但在带动量/加速(如Nesterov)与自适应算法结合时,权重衰减的实现细节仍会影响收敛与泛化。以往很多实现把weight decay当作简单的L2项或事后缩放,理论与实践不一致。
把 MLM 预训练得到的 lexicon 权重直接拿去做稀疏检索(SPLADE 一脉)效果不理想,根本原因是 MLM 目标偏爱低熵的确定性词(the/a 这种),而检索需要的是高熵的 pivot 词。这个 objective mismatch 一直靠下游 fine-tune 硬拗。
MIM(MAE/BEiT 一脉)在 pixel/patch 空间 mask-and-predict,但图像在空间域冗余极高(相邻像素几乎相同),导致 mask 任务要么太容易要么信号稀。能不能换个域做 mask-and-predict,让任务的信息结构更合理?
预训练 Transformer 产出的对话上下文表示有两个已知毛病:anisotropy(表示集中在窄锥,区分度差)和缺失 conversation 结构(同一段对话里谁先谁后、谁和谁是一轮的关系被抹掉)。已有各向同性校正方法只解决前者。
CLIP 在下游用起来很尴尬:zero-shot 依赖人写 prompt,描述不准就掉点且鲁棒性差;linear probing 抛开了文本分支,破坏了 CLIP 辛苦学到的 vision-language 对齐。想要一种既用上文本分支、又不依赖人写 prompt 的下游方法。
现有模块化多语言大模型评估默认省略语言识别(LID)模块,掩盖了未知语言输入的真实推理场景下的性能缺陷,过往评估假设输入语言已知,不符合落地需求。
现有视觉语言融合方法要么直接拼接单模态表征,要么仅使用交叉注意力,对齐效率低,无法充分捕捉跨模态细粒度对应关系。
传统归一化流的最大似然训练需要通过ODE求解器反向传播,计算成本极高,限制了归一化流在大规模生成任务上的应用。
现有研究缺乏对预训练语言模型抽象能力的定量评估框架,无法确认大模型是否真的具备从具体实例归纳抽象概念并迁移到未知场景的能力。
主流基于小批量统计的自监督预训练方法(SimCLR、VICReg等)都隐含了特征均匀聚类的先验,在类别不平衡的真实数据集上会损害表征质量,过往研究默认该先验总是有益的。
无法确认在长文本叙事任务上训练的语言模型是真的理解了文本语义,还是只学到了完成任务的启发式规则,缺乏客观评估标准。
ViT 模型由于注意力的二次复杂度和庞大的 token 数量导致计算成本极高,以往通过剪枝(损失信息)或修改架构(需重新训练)来缓解,缺乏即插即用的加速方案。
表格数据生成通常依赖 GAN 或 VAE,这些模型难以处理异构数据类型(分类/连续)和复杂的特征依赖,而具有强大生成能力的 LLM 却很少被用于此领域。
稠密检索模型通常难以在没有域内微调的情况下泛化到未见过的任务,而标准的多任务学习往往会因为不同检索任务的异构性导致负迁移。
尽管扩散模型在经验上取得了巨大成功,但其采样过程收敛的理论保证通常依赖于对数据分布的强假设(如平滑性、对数凹性或有界支持),而这些假设在真实的图像/文本数据上根本不成立。
深度神经网络的不同层学习速度不同是共识,但缺乏一个系统性的指标和大规模实证研究来量化不同架构和任务下的逐层收敛速度,这阻碍了对预训练动态的精细优化。
这篇论文要解决的是:代码生成模型常常会写出“看起来对”但执行不对的程序,而训练和解码阶段通常没有把可执行测试作为强约束用好。以往方法多依赖静态文本监督或 pass@k 采样碰运气,缺少一个能把测试信号系统接进生成流程的统一办法。
这篇论文要解决的是:参数高效微调(PEFT)方法很多,但它们的设计空间缺少统一比较框架,导致实践里常常靠经验选 LoRA、adapter、prefix 或 bias tuning,而不是基于清晰的机制判断。这个问题之所以值得重新系统化,是因为大模型时代微调成本已从“能不能训”变成“同样预算下怎样设计最值”。
这篇论文要解决的是:标准语言模型擅长在自然语言里做近似模式匹配,但在需要精确绑定变量、作用域和符号引用的符号语言中,经常因为缺少显式 binding 机制而出错。以前这类问题通常靠外部解析器、手工特征或把任务限定在浅层模式上规避,现在作者尝试让 LM 直接学习更可靠的符号绑定。
这篇论文要解决的是:神经网络泛化究竟主要来自梯度下降的隐式偏置,还是来自损失地形本身。过去很多工作把优化器路径看成核心解释,但这篇论文认为,只看 loss landscape 的结构就足以解释大部分泛化现象,不必把结论绑定到特定梯度下降动态上。
这篇论文要解决的是:稠密检索任务高度异质,指望从一个大监督检索任务迁移到所有其他任务往往不现实,但很多目标场景又只有极少标注。过去常见思路是做通用 retriever 或依赖零样本迁移,作者则把问题重定义为 few-shot dense retrieval:每个任务只给简短描述和极少样例,能否快速造出任务专属检索器。
这篇论文要解决的是:在真正的多模态对比学习里,不同模态由不同生成机制产生时,是否还能从对比目标中可识别地恢复共享潜变量。此前可识别性结果大多建立在 multi-view 假设上,即不同视角共享同一种生成机制;这对图文、音文这类异构模态并不贴切,所以作者把问题从 multi-view 推进到 multimodal。
这篇论文要解决的是:3D 自监督表示学习数据稀缺、标签昂贵,能否直接借助在 2D 图像或语言上预训练好的 Transformer 作为跨模态教师来提升 3D 表征。过去跨模态迁移常停留在初始化或蒸馏 feature 层面,作者想把 masked modeling 重新解释成一种统一的知识蒸馏过程,让 2D/文本基础模型真正参与 3D 预训练。
这篇论文要解决的是:大语言模型在更真实的组合式语义解析任务上,如何从“会做一些人工合成任务”走向“在大词表和复杂结构下仍能组合泛化”。此前 SCAN 一类结果说明 prompt 技巧可能有用,但现实语义解析比 SCAN 更难,单纯 few-shot 或 chain-of-thought 往往不够稳定。
这篇论文的核心问题从标题可判断为:能否利用自然语言来帮助模型泛化到未见域。传统 domain generalization 往往只在视觉特征空间里做不变性学习,但未见域的变化常常难以仅靠训练域统计覆盖;语言提供了更抽象、可组合的域描述,作者显然在探索把这种描述变成泛化信号。
从标题看,这篇论文要解决的是:标准 masked image modeling 之外,是否可以通过“腐化图像建模”得到更强的自监督视觉预训练信号。传统 MIM 主要依赖遮挡重建,但遮挡是一种很单一的破坏方式;如果预训练目标只适应这种破坏,学到的表示可能不够鲁棒,也未必最贴近真实视觉退化。
从标题看,这篇论文关注的是:在时间事件序列建模中,位置编码该如何设计,现有 positional embedding 是否并不适合这类非均匀时间结构。标准 Transformer 位置编码默认 token 间隔规则、顺序主导,但事件序列往往同时包含顺序和真实时间间隔,直接套用 NLP 位置编码可能是次优的。
从标题看,这篇论文要解决的是:在文本到图像扩散模型中,如何在不额外训练的前提下加入结构化引导,以提升组合式生成。现有 compositional T2I 常依赖额外控制网络、微调或复杂 prompt engineering;作者显然想要一种 training-free 的 guidance,让已有扩散模型更好地遵守对象关系或布局约束。
从标题看,这篇论文要解决的是:能否利用无标注数据来追踪模型记忆化,而不是只依赖训练集成员推断或带标签评估。记忆化通常通过 membership inference、训练损失异常或重复样本分析来间接观察,但这些方法要么依赖访问训练数据,要么覆盖面有限;作者想把无标注数据也变成检测记忆化的探针。
在联邦学习(FL)中,恶意服务器能否在不改变模型架构的情况下,通过修改模型权重来窃取客户端的私有训练数据(特别是文本数据)?
视觉-语言模型(VLM)通常包含庞大的参数量,如何在保持跨模态对齐(grounding)性能的同时,有效地压缩模型(剪枝),并促进不同模态间的知识共享?
二阶优化算法(如自然梯度法 Natural Gradient Descent, NGD)在理论上收敛更快,但由于需要计算和求逆巨大的 Fisher 信息矩阵(FIM),在深度神经网络(特别是大规模预训练模型)中难以实际应用。
自监督学习(SSL)中,对比学习(如 SimCLR,依赖负样本)和非对比学习(如 VICReg/Barlow Twins,依赖正则化防止坍缩)看似是两种截然不同的范式,它们之间是否存在内在的数学联系?
在神经网络训练中,当我们无法使用精确的反向传播(例如在强化学习、生物学启发的学习规则或某些量化/离散化模型中),必须使用梯度估计器时,估计器的方差(variance)和偏差(bias)究竟是如何影响学习动态和最终性能的?
这篇论文要解决的是:为什么 Local SGD 在实践里常常比同步 SGD 泛化更好,以及这种优势什么时候成立。过去分布式训练里 Local SGD 主要被当成通信优化手段,但经验上它有时还能带来更低测试误差,原因并不清楚。
这篇论文要解决的是 GNN 的 oversmoothing:层数一深,节点表示会变得彼此过于相似,导致可分性下降。过去常见做法是加残差、归一化或改消息传递半径,但这些方法多是经验修补,对 oversmoothing 的机制解释不够统一。
这篇论文要解决的是:能否只用单语训练,却在推理时获得双语能力。传统跨语言迁移通常依赖并行语料、共享词表或多语联合训练,这些资源对低资源语言并不总可得。
这篇论文要解决的是:复杂序列生成中,一次性自回归解码容易早期犯错并持续传播,导致长结构、组合约束或全局一致性差。过去常见做法是 beam search 或 reranking,但它们主要在解码层补救,不能真正修正已生成内容。
这篇论文要回答的是:对比学习(contrastive learning)里常见的数据增强、负样本与归一化等“经验做法”,到底在理论上向表示学习注入了什么归纳偏置(inductive bias),以及这些偏置何时会带来可泛化的特征、何时只是在拟合捷径。
这篇论文要解释的是:知识蒸馏(KD)为什么能提升学生模型泛化,而不是只把它当作“软标签更好”的经验结论;尤其是老师预测的“可学性”如何与学生的归纳偏置相互作用。
这篇论文要回答的是:文生图模型生成的高保真合成图像,是否真的“可用于识别”(recognition)而不只是“看起来像”,以及在少样本增广与大规模预训练两种用法下分别有哪些失效模式。
这篇论文要解决的是:Transformer 的表示往往缺少显式的信息瓶颈与可控的潜变量结构,导致难以在压缩、泛化或可解释性上施加约束;作者希望用 VAE+信息瓶颈的视角为 Transformer 引入可调的表征压缩。
这篇论文要解决的是:扩散式文生图模型的 prompt 编辑往往难以做到“只改想改的区域/语义”,常见问题是编辑泄漏到无关区域或主体一致性被破坏。
这篇论文要解决的是:现有“推理型”QA 基准覆盖面窄且容易被模板/捷径击穿,难以评估 LLM 是否真的能给出因果解释;作者用“why 问题 + 显式 rationale”来提高评测约束。
基于热耗散(模糊)的扩散过程和标准高斯扩散过程之间的关系不明确,无法结合两者的优势,过往研究将两者视为完全独立的不同范式。
将自回归预训练范式应用到视觉领域时,直接按空间顺序预测图像令牌的收敛速度慢、表征质量低,缺乏适配视觉数据结构的自监督训练策略。
这篇工作要解决的是:如何在几乎不依赖人工标注和人工审阅的情况下,自动找出模型稳定出错的子群体与伪相关模式。以往做法通常要先定义受保护属性、手工筛选 hard slice,或依赖特定数据集的元数据,因此很难扩展到开放场景;作者关心的是,能不能直接从模型错误本身蒸馏出可解释、可操作的 failure mode 表示。
这篇工作要回答的是:DDPM 在 probability flow ODE 下诱导出的 latent code,到底对应什么几何对象。扩散模型常被当作强生成器来用,但其 encoder map 的理论含义一直不清楚;如果这个映射和某个经典最优性原则一致,那么 latent space 的解释、可控性和 likelihood 相关分析都会更扎实。
扩散模型的正向加噪和反向去噪过程通常依赖启发式设计,缺乏从信息论视角对最优噪声调度和表示效率的严格刻画。
条件计算(如 MoE)在经验上显著提升了 LLM 的推理效率,但缺乏对其记忆容量(Memorization Capacity)极限的严格数学证明。
大模型训练常在“稳定边缘(Edge of Stability, EoS)”运行,即 Hessian 矩阵的最大特征值徘徊在 $2/\eta$ 附近。但传统的锐度(Sharpness)指标无法完全解释 Batch 梯度分布带来的训练动态和 Loss 尖峰(Spikes)。
这篇论文要解决的是:Transformer 在高分辨率视觉输入上主要被 token 数拖慢,但直接做稀疏注意力通常会把早期被忽略的重要 token 永久丢掉。已有做法多靠固定窗口、启发式 token pruning 或静态稀疏模式降算力,问题是它们一旦裁错就很难恢复,精度和效率经常二选一。
这篇论文要解决的是:离散 diffusion 在图像生成上已可行,但纯离散链条的采样质量和稳定性仍受限,尤其难同时兼顾 coarse global structure 和 local refinement。此前离散模型通常直接沿单一离散去噪链采样,缺少类似连续 diffusion 中 predictor-corrector 的纠偏步骤。
这篇论文的核心问题是:ViT 在经验上很强,但训练与泛化为什么成立、样本复杂度受什么控制,理论上一直说不清。过去理论工作多回避 self-attention 的跨 token、跨层耦合,要么分析极简线性模型,要么不给出可训练性的明确结论。
这篇论文要解决的是:训练过程中历史参数往往蕴含稳定且泛化更好的信息,但传统做法通常只在训练后做 SWA/EMA,历史解没有被当成可优化对象。已有平均策略大多是固定权重或启发式衰减,省事但不一定最优,也不能主动利用不同阶段参数的互补性。
这篇论文要解决的是:Transformer 推理在多方安全计算(MPC)下非常慢,尤其 softmax attention、非线性和矩阵乘导致通信与延迟都难以接受。此前私有推理工作往往只在小模型或简化网络上可用,把 Transformer 真正做快、做实用一直是难点。
这篇论文要解决的是:全模型训练代价高,而简单的逐层冻结虽然能省算力,却容易冻结错层、损失精度。过去 layer freezing 多依赖手工 schedule 或经验规则,问题是不同任务和不同训练阶段,真正重要的层并不固定。
这篇论文解决的是:预训练 Transformer 的蒸馏通常强依赖具体任务和中间层对齐设计,迁移性差,蒸馏过程也容易不稳定。过去 task-specific distillation 往往在某个下游上有效,但很难保留 teacher 的通用能力;而简单 logits matching 又不足以在无任务约束下稳定压缩大模型。
这篇论文要解决的是:多模态模型越来越复杂,但我们仍缺少统一、可操作的可视化工具去看它到底如何融合文本、视觉等模态,以及错误来自哪里。过去解释方法通常是单模态迁移过来的,或者只看 attention heatmap,难以反映真正的跨模态交互。
这篇论文要解决的是:自适应优化器在无限宽极限下到底对应什么训练动力学,以及现有 μP/NTK 风格理论如何覆盖 Adam 一类方法。过去无限宽分析大多围绕 SGD 或少数可解析设定,自适应优化器虽然在实践中主导大模型训练,但理论刻画明显滞后。
这篇论文要解决的是:二值能量模型训练时,如何更高效地从困难分布中采样,降低梯度估计方差并改善学习。传统 MCMC 在离散空间里混合慢,负样本质量差会直接拖累 EBM 训练,因此作者把采样器设计成显式利用梯度信息的重要性采样。
这篇论文要解决的是:模型在持续接触新域时,如何不仅避免遗忘旧域,还能对未来未见域保持泛化。传统 continual learning 多聚焦灾难性遗忘,但现实部署更关心 domain shift 下的持续泛化,作者把问题从“记住过去”扩展到“适应未来”。
这篇论文要解决的是:视觉-语言检索通常按任务或模态对分别训练,表示空间彼此割裂,能否学到一个统一空间同时支持多种跨模态检索。过去很多方法只优化 image-text 双塔上的单一检索设置,迁移到 region-text、image-image 或更复杂检索时往往需要重训或额外对齐。
解决神经网络坍缩(Neural Collapse, NC)理论在不平衡数据和非交叉熵损失下的泛化问题。以往的NC理论主要针对平衡数据集和交叉熵损失,难以解释更广泛的训练场景。
解决模型在训练数据存在虚假相关(spurious correlations)时泛化能力下降的问题。以往方法通常需要额外的组标注(group annotations)或复杂的两阶段训练,成本较高。
解决低精度浮点数(如FP8、FP4)量化在推理时精度下降的问题。传统的均匀量化或简单的非均匀量化难以兼顾大动态范围和高精度,尤其是在Transformer等模型中。
解决文本模型在测试阶段面临的隐形木马(Trojan)攻击问题。以往的文本木马攻击通常需要修改训练数据(data poisoning),且触发器(trigger)往往是可见的、不自然的词汇,容易被防御机制检测。
理解自监督学习(SSL,如对比学习)为何对数据中的虚假相关性(spurious correlations)具有鲁棒性。以往研究观察到了这一现象,但缺乏理论解释。
这篇论文关注的是对比学习在数据规模继续增大时如何训练得更好,而不是把改进局限在更复杂的损失或更大的 batch 上。问题的背景是:很多对比学习方法默认数据越多越好,但训练目标、负样本构造和优化设置未必能把额外数据真正转化成表示质量。
这篇论文要解决的是:如果拿不到高质量的人类相似性标注,能不能直接用预训练模型来近似人类相似判断;作者的结论是否定偏多。过去很多工作默认预训练 DNN 的 embedding 已经足够接近人类感知,因此把它当廉价替代监督,但这个假设在跨领域上并没有被系统检验。
这篇论文要解决的是零样本视觉分类过度依赖类别名的问题。标准 CLIP 式做法只拿一个标签词去和图像做相似度匹配,既浪费了语言能提供的判别细节,也不给出可调的决策依据,因此在细粒度或可解释场景下往往不够稳。
这篇论文关注的是 Transformer 作为世界模型时的样本效率问题,也就是在有限交互数据下能否学到足够好的环境动态。传统看法往往认为 Transformer 参数多、数据饥渴,更适合大规模离线序列建模;作者显然在挑战这一点。
这篇论文关心的是如何从 rate-distortion 的角度理解模型更新,也就是在有限更新预算下,哪些参数变化最值得保留、会带来多大任务收益。这个问题以前更多以压缩、联邦学习或增量更新的工程形式出现,但缺少统一的信息论视角来描述更新质量与代价的权衡。
这篇论文要解决的是标准 attention 权重完全由 query-key 相似度决定,表达形式可能过于受限的问题。作者试图用 MLP 生成或修正 attention 权重,以提升 Transformer 的建模灵活性。
作者要解决的是:在多模态 few-shot 场景里,冻结的视觉模型与语言模型之间存在显著“表征/接口鸿沟”,导致仅靠手工 prompt 或任务归纳(task induction)很难稳定泛化。以往做法通常把视觉概念“翻译成提示词”喂给冻结 LLM,但需要人为设计约束假设空间,学习能力被卡在工程启发式上。
作者要解决的是:强化学习(尤其 AlphaZero 这类自博弈算法)的性能是否也遵循类似监督学习的幂律 scaling law,以及在 compute/数据受限时如何刻画瓶颈。以往 scaling law 主要集中在监督/自监督,RL 因为非平稳数据与训练噪声更难做系统刻画。
作者要解决的是:Transformer 自注意力层长期依赖经验性设计,缺少一个能统一解释并系统派生新注意力形式的原则化框架。过去的注意力变体多靠启发式堆叠,导致“为什么有效、何时失效”难以判断。
缺少论文摘要与正文信息,无法可靠判断作者具体要解决的核心问题与其相对已有工作的定位。
作者要解决的是:视觉网络内部单个神经元到底在“检测什么概念”很难自动化描述,传统做法要么依赖人工标注概念集,要么只能在最后层做有限验证。随着模型规模变大,手工解释单元语义的成本不可接受。
缺少论文摘要与正文信息,无法可靠概括作者对“mask reconstruction 预训练为何有利于下游”的具体问题分解与结论。
作者要解决的是:对比学习(CL)与掩码图像建模(MIM)在 ViT 上学到的表征到底差在哪,为什么会导致线性评估、可扩展性与密集预测表现出现系统差异。以往讨论常停留在“哪个指标更好”,缺少对注意力与表征多样性的机制解释。
在行为克隆(imitation learning)里用 diffusion 作为策略分布,替代高斯或 MoG 这种容易 mode-collapse 或无法表达多模态人类行为的输出头。过去 BC 一直被策略表达力卡住,高斯输出会把'左走或右走'平均成'直走'。
训练时直接产出一个'压缩后依然好用'的 dense 模型。常规做法是先训练再剪枝/量化,精度损失需要再 fine-tune 弥补;本文想一步到位,让后训练的一次性压缩也不掉点。
把自然语言需求的句法结构(parse tree)显式注入 NL→Code 生成模型,希望缓解纯 seq2seq 在长描述里对论元关系、从句嵌套理解不稳的问题。
没有大规模 3D 数据的前提下,怎么用文本生成 3D 物体。直接训练 text-to-3D 模型缺数据,DreamFusion 反过来用已经训好的 2D text-to-image diffusion 当'监督者'。
AutoPrompt 这类离散 prompt 搜索出的 trigger 字符串能否跨模型迁移?还是说每个 LM 都需要单独搜一套。这个问题决定了离散 prompt engineering 能否作为通用工具。
能否用一个极小的 attention 模块(远小于 Transformer 层)就学到有用的上下文化 word embedding,作为轻量 embedding 方案替代 ELMo/BERT。问题动机是 BERT 太贵,有些下游任务其实不需要完整 Transformer。
机器翻译系统在处理低资源非洲语言时,其翻译结果的语义保真度难以评估,且可能存在未被察觉的系统性情感偏移。
在利用张量分解压缩神经网络时,业界普遍假设“权重近似误差越小,微调后的模型性能越好”,但这一基础假设缺乏系统性的实验验证。
生成式模型(如 LLM 或 Diffusion)的输出分布极其复杂,难以严格验证其是否满足特定的统计属性或安全约束。
标准神经网络中的点积运算依赖大量密集的乘法累加(MAC)操作,导致极高的计算能耗和硬件带宽压力。
主流的文本到图像扩散模型强依赖海量的图文对数据,导致它们无法在缺乏文本标签或数据稀缺的新领域中进行训练和部署。
这篇论文要解决的问题是:神经代码翻译把源码当普通文本序列处理时,容易抓住表面相似而忽略跨语言语义差异,导致译文看起来像代码但行为不对。传统 transpiler 依赖手写规则,覆盖窄且不自然;纯文本 NMT 扩展了覆盖面,但在语义保真上仍然不够。
按标题判断,这篇论文研究的问题是:多任务预训练在强化学习里到底学到了什么,以及这些能力何时能迁移、何时只是任务内记忆。RL 里“先预训练再泛化”常被默认有效,但真实收益高度依赖任务分布、表示共享和评测协议。由于没有摘要,这里只能做保守概括。
这篇论文要解决的问题是:BERT 式 masked modeling 在视觉上主要成功于 ViT,而直接搬到卷积网络上效果差,原因不在于 convnet 不能预训练,而在于 masked image modeling 的输入形态和 convnet 的计算假设不匹配。具体有两个障碍:随机掩码使输入变得不规则,conv 无法高效处理;同时 convnet 是分层多尺度结构,单尺度解码目标和它天然不对齐。
按标题判断,这篇论文研究的问题是:基于偏好学习奖励函数时,模型可能因为因果混淆而学错了“人到底在偏好什么”,也就是 reward misidentification。它关注的不是如何把偏好拟合得更好看,而是偏好信号在存在混杂因素时是否真的对应目标奖励。没有摘要,因此这里只能做保守概括。
这篇论文要解决的是:链式思维提示虽然能提升推理正确率,但生成的 rationale 往往不忠实,模型可能先拍出答案再事后编理由。过去很多工作默认“有解释=按解释推理”,但这一点在多步语言推理里并不成立,所以作者尝试把 rationale 从自由生成改成受约束、可验证的中间表示。
这篇论文要解决的是:NLP 里的对抗训练大多作用在离散 token 或静态 embedding 上,但现代模型真正使用的是上下文化表示,攻击和鲁棒训练如果不对准这一层,往往既不稳定也不够有效。过去方法常在“可优化”与“语义保持”之间做妥协,这篇工作试图把对抗训练直接搬到 contextualized representation 上。
这篇论文要解决的是:标准 Transformer 在图上做全局注意力时,计算和内存都随节点数平方增长,图稍大就不可扩展;而很多图 Transformer 的稀疏化又依赖手工结构偏置,表达力和通用性受限。作者想要一个既保留 Transformer 风格全局交互、又能线性或近线性扩展的替代机制。
这篇论文要解决的是:现实数据高噪声、长尾、分布混杂时,现有 coreset / data selection 方法往往依赖特定任务假设,离开干净 benchmark 就失效。过去数据选择常在“理论优雅”与“真实可用”之间脱节,这篇工作试图给出一个更通用、对真实数据更稳的选择准则。
这篇论文要解决的是:Vision Transformer 的训练成本高,而现有加速方法往往只优化单一维度,比如减少 token、缩短训练轮数或换轻量结构,结果常常在不同预算下不稳。作者想做的是预算感知训练:给定固定算力或时间,系统地重排训练过程,让 ViT 在预算内更高效地逼近全训练效果。
这篇论文的核心结论是:离线 RL 里真正难的不是近似 in-sample max,而是避免 max 在覆盖不足时把 Q 值推向数据外动作;作者认为改做 in-sample softmax 更自然也更稳。过去很多方法围绕保守估计或行为约束去近似“只在数据内取最大”,但 max 本身对估计误差过于敏感,所以训练容易高估甚至发散。
这篇论文要解决的是:文本编码器可能被纯长度变化欺骗,即语义几乎不变时,仅通过拉长输入就显著改变表示或检索结果。过去很多鲁棒性研究关注同义替换、拼写扰动或对抗 token,但长度本身作为攻击面被低估了,因为它不一定改变局部词义,却会系统性影响 pooling、位置编码和归一化。
这篇论文的核心问题是:Decision Transformer 在离线 RL 上表现不错,但面对新任务时适应速度慢,尤其当只有少量 demonstrations 时,直接全模型微调既费数据也费参数。作者要解决的是如何让 DT 具备 few-shot task adaptation 能力,同时保持参数效率。
这篇论文要解决的是:跨模态知识蒸馏常被当成黑盒技巧使用,但我们并不清楚学生模型到底学到了什么、为什么有时蒸馏有效有时无效。作者提出“modality focusing hypothesis”,试图解释蒸馏过程中模型是否会过度聚焦某一模态,从而影响跨模态迁移。
MoE(混合专家)模型在微调阶段容易出现过拟合和性能退化,导致其在下游任务上的表现不如同等参数量的稠密模型。过去通常通过增加正则化或调整路由策略来缓解,但没有从根本上解决稀疏模型在小数据上的脆弱性。
现有的特征归因(Feature Attribution)方法在解释模型预测时,往往会受到模型自身偏差(如对某些特征的过度敏感)的影响,导致解释结果不够准确或具有误导性。过去的方法多关注于生成归因图,而较少关注归因图本身的校准。
如何让神经网络端到端地学习解决约束满足问题(CSP,如数独)。过去通常依赖图神经网络(GNN)或专门的神经符号求解器(如 SATNet),但这些方法在处理视觉输入或复杂逻辑时存在局限,且难以与通用架构统一。
掩码图像建模(MIM,如 MAE)在视觉预训练中取得了成功,但其重建目标通常是在像素空间或低级特征空间,这导致模型倾向于学习高频的局部细节,而忽略了对下游任务更重要的低频全局语义信息。
神经网络在训练时存在“频率偏差”(Frequency Bias,或称谱偏差 Spectral Bias),即倾向于先学习低频函数,后学习高频函数。在处理非均匀分布的数据时,这种偏差会导致模型在数据稀疏区域难以拟合高频特征,影响泛化性能。
这篇论文解决的是非均匀量化码本如何自动设计的问题。传统做法通常固定量化级别分布或手工设定 companding 规则,搜索空间小但容易错过更适合权重/激活分布的离散映射;作者尝试把这个设计问题变成可搜索的结构优化。
这篇论文要解决的是视觉自监督预训练里对比学习和掩码建模各有短板:前者常依赖重视图增强,训练成本高且语义粒度偏全局;后者训练更稳定但容易忽略判别性。作者想要一种更快、同时兼顾局部上下文和判别能力的视觉预训练方式。
这篇论文要解决的是扩散模型采样太慢的问题。标准离散化求解器需要很多函数评估步数,虽然生成质量高,但推理成本高到限制了实际部署和与自回归模型竞争。
这篇论文要解决的是视觉模型出错后很难被系统诊断和修复,尤其当错误模式是语义性的而不是简单分布偏移时。传统做法通常依赖人工标注错误类别或重新收集数据,成本高且反馈慢。
这篇论文要解决的是:二阶/准二阶优化在深度网络里往往“理论好但工程上太贵”,导致大多数训练只能在一阶方法(SGD/Adam)里做折中。以往的回避方式要么用对角近似(太粗),要么用K-FAC/自然梯度类方法(实现复杂、内存/通信重)。
这篇论文要解决的是:DDIM把扩散采样从随机SDE变成确定性ODE后更快,但其形式与适用范围受限,难以统一解释“不同噪声日程/不同离散化/不同采样器”之间的关系。以往实践里常靠经验调参选采样器,缺少可控的泛化框架。
这篇论文要解决的是:深度网络的损失面存在对称性(如参数重标定)导致“平坦极小值/尖锐极小值”的直觉常被混淆,很多关于泛化与平坦性的讨论忽略了这些不变性。过去常用的平坦度度量可能在对称变换下不保持一致,从而得出不稳健结论。
这篇论文要解决的是:标准扩散模型训练与采样都很慢,且把扩散当作纯生成器时难以与自编码器式的表示学习结合。过去的加速多在采样器上做文章,但训练成本与“生成-表示”统一仍是痛点。