International Conference on Learning Representations
这篇论文解决的是 attention 已经不是“算法上太贵”而是“实现上没有把硬件吃满”的问题。FlashAttention 已经把精确 attention 的 IO 开销大幅降下来了,但在现代 GPU 上仍有不少并行度和线程块划分没有榨干,导致理论上更快、实际却被 kernel 调度和低占用率卡住。
这篇工作解决的核心问题是:仅靠最终答案监督不够,如何训练模型判断中间推理步骤是否正确。过去大家多用结果对错来做过程任务的近似监督,但这会把大量“答案碰巧对、过程其实错”或“过程大体对、末步失误”的样本混在一起,导致推理学习信号很脏。
LLM 预训练几乎只用 Adam/AdamW,二阶优化器因为计算和内存开销太大一直无法落地。Sophia 试图设计一个真正能 scale 到大模型预训练的随机二阶优化器,在不显著增加开销的前提下加速收敛。
这篇论文要解决的是:在不改动 LLM 主干或只做轻量改动的情况下,把超长上下文压缩成更短的“可恢复表示”,从而在推理时降低上下文长度带来的算力与 KV-cache 成本。过去常见做法是检索/摘要/截断,但它们要么丢信息不可逆,要么需要额外系统组件且难以端到端优化。
这篇论文要解决的是:Transformer 在解决“内在串行”(inherently serial)的问题时为何会受限,以及为什么 Chain-of-Thought(CoT)能系统性地提升这类问题的可解性。过去 CoT 多被当作经验技巧,缺少对“串行性”与模型计算图之间关系的清晰刻画。
这篇工作要解决的是:CLIP 类模型到底从什么样的数据中受益,哪些数据属性真正重要,而不是把“大规模图文对”当成一个黑箱。过去开放式视觉预训练往往把焦点放在模型和算力上,但数据来源、过滤、重复、文本长度、图文关系强弱这些因素并没有被充分拆开分析,因此很难指导下一代 VLM 数据构建。
Causal (autoregressive) language model 并非 in-context learning (ICL) 的最优建模选择。此前 ICL 的理论分析几乎都默认 causal attention,但 causal mask 限制了 demonstration 之间的信息交互,导致 ICL 效率低于 prefix LM 或其他非严格因果的注意力模式。
LLM 微调的 scaling behavior 尚未被系统研究:当数据量、模型大小、微调方法(full fine-tuning vs LoRA vs prompt tuning 等)同时变化时,性能如何 scale?此前的 scaling law 研究主要聚焦 pretrain,对 fine-tuning 阶段的 scaling 规律了解不足。
这篇论文要解决的是:当前 LLM 的“自我纠错推理”(self-correction)在很多基准上看起来有效,但作者认为这种能力被高估了,模型并不能稳定地发现并修正自己的推理错误。过去常用的做法是让模型多次采样/反思,然后挑一个更好的答案,但这可能更多是“采样带来的运气”而不是纠错机制。
这篇论文要解决的问题很直接:标准 Transformer 的注意力在上下文长度上是二次复杂度,训练和推理都很快碰到显存、带宽和跨设备通信瓶颈,因此“超长上下文”往往停留在理论支持而非可训练的系统实现。过去常见做法要么近似注意力牺牲精度,要么简单并行切分但通信代价太高。
这篇论文要回答的问题很关键:指令微调时,什么样的数据才是真正对 alignment 有用的数据。过去社区常用人工经验、启发式规则或小规模人评来选数据,但在数据池越来越大、来源越来越杂时,这些方法既不稳定,也难解释为什么某些样本有效而另一些只是增加训练成本。
多模态大模型通常分阶段训练(先训视觉编码器,再对齐,再微调),这种 pipeline 复杂且各阶段目标不一致。本文探索的是:能否用一个统一的自回归目标,从头联合训练文本和图像生成能力?核心挑战是图像 token 和文本 token 在序列长度、信息密度、loss 量级上差异巨大,直接混合训练容易互相干扰。
当生成模型的输出被用作下一代模型的训练数据时(即「模型自噬」),模型质量会逐代退化。这在 LLM 和图像生成领域都是现实威胁——互联网上越来越多的内容是 AI 生成的,未来的 pretrain 数据不可避免地包含合成数据。本文首次系统地刻画了这种退化的机制和速度。
这篇论文要解决的是:高效语言模型(尤其是状态空间模型/线性注意力等)常见的短板是“召回(recall)”能力不足,即对早期信息的精确提取与复用不稳定,而现有评测往往只看困惑度或下游任务,难以定位问题。过去这类模型常被用“更大模型/更长训练”掩盖缺陷,但在长上下文与检索式任务里会直接暴露。
这篇论文的核心结论很直接:LLM 从“A is B”并不会自动学到“B is A”,即使对人来说这类逆向关系几乎是常识。以往大家默认大模型会通过分布式表示和泛化自动补上这类简单可逆关系,但作者指出,next-token 训练并不保证这种对称性被学到。
这篇论文想回答一个基础问题:Transformer 和 LLM 的 in-context learning 到底学到了什么机制,尤其是在离散函数学习场景下,它更像是当场做算法归纳,还是只是在提示分布上做模式匹配。过去关于 ICL 的讨论很多,但常被自然语言复杂性掩盖,很难分清模型是在真正‘学会学习’,还是仅仅复现训练中见过的统计模板。
这篇论文问的是一个比“Transformer 能不能做推理”更具体的问题:它在什么条件下才能对抽象符号进行推理,而不是只记住表面模式。以前很多关于推理能力的结论都建立在自然语言或有限任务分布上,容易混入词汇语义、训练共现和 shortcut,因此很难判断模型是否真的学会了符号层面的组合规则。
这篇工作要解决的是:让 LLM 在训练上下文长度之外继续稳定泛化,而不是一到更长序列就位置编码失真、注意力退化。过去常见做法要么直接插值/外推位置编码,要么靠长序列继续训练硬补,但前者在极长长度上容易崩,后者算力和数据成本都高,所以“低成本且连续”的长度外推值得单独研究。
这篇工作解决的是:如何用较低成本把已有 LLM 微调到长上下文,而不是全量长序列训练把显存和通信成本拉到不可接受。过去长上下文扩展通常卡在 attention 二次复杂度和 fine-tuning 昂贵上,因此需要专门面向长序列的高效适配方案。
这篇论文的核心观点很直接:语言建模可以用压缩能力来定义和衡量,而不仅是传统的 perplexity。这个问题老但值得重提,因为 next-token loss 一直被当成默认目标,大家默认它和“理解语言结构”一致;作者想更强地说明,好的语言模型之所以强,是因为它学会了把数据中的可预测结构压缩掉,而压缩提供了更统一、更可操作的视角。
这篇论文解决的是 LLM 权重压缩里一个很硬的工程问题:常规低比特量化已经很强,但总有少量异常权重会主导误差,使得进一步压缩时质量突然掉下去。单纯增加 bit 数能缓解,但压缩率不够;单纯做稀疏化也不够,因为大多数权重仍要存。
这篇论文要解决的是:大规模预训练数据集“到底包含什么”通常不可见,研究者只能用粗粒度来源统计或下游表现间接猜测,导致数据质量、覆盖与偏差问题难以被定位和复现。
这篇论文要解决的是:数据过滤通常是离线规则或打分器,无法随模型训练动态适配,也很难针对特定目标(例如减少毒性、提升推理、保留长尾)做端到端优化。
这篇论文聚焦于一个基础但长期缺少可操作刻画的问题:语言模型到底如何在上下文中把属性、关系和指代正确地绑定到对应实体上。过去大家更多用行为测试看模型“答对没有”,但这会把实体绑定、知识检索和表面模式匹配混在一起,所以很难判断模型是真的学会了 context-dependent binding,还是只是在利用统计捷径。
这篇论文研究稀疏连接基础模型的 scaling law,也就是当模型不是标准 dense 结构时,参数、数据、计算与性能之间的关系如何变化。过去大部分 scaling law 都建立在 dense Transformer 上,因此对 MoE、稀疏前馈、稀疏连接图这类模型的容量估计和 compute-optimal 配置指导有限。
作者要解决的是:长上下文推理时 KV cache 成为显存与带宽瓶颈,而现有压缩/裁剪策略要么固定规则、要么对质量损失不可控,难以在不同输入与任务上自适应。
作者要解决的是:如何追踪并量化大模型训练中的数据污染(data contamination),尤其是“时间旅行”式污染——模型在某个时间点之前训练,却似乎记住了之后才出现的测试内容;以往检测多依赖字符串匹配或人工审计,覆盖有限。
这篇工作要解决的问题是:现有 LLM 蒸馏通常只学教师的 token 分布或最终输出,难以在更小模型上保留教师的生成质量与推理行为。过去很多蒸馏方法在开放生成场景里效果一般,因为学生只是在局部模仿概率,而没有学到序列级偏好;MiniLLM 试图提升蒸馏后的小模型生成能力。
开源社区大量使用 GPT-4 等闭源模型的输出来蒸馏/微调小模型(imitation models),声称能逼近闭源模型性能。本文质疑这种做法的真实效果——模仿模型到底学到了能力,还是只学到了风格?
这篇论文解决的是:标准注意力在长上下文下是 O(n^2) 的时间/显存瓶颈,导致长上下文预训练与推理成本急剧上升,而很多近似注意力要么牺牲精度、要么实现复杂且不稳定。过去常见路线是稀疏注意力、低秩近似或线性注意力,但它们在真实分布上经常出现长程依赖退化。
这篇工作要解决的是:从人类偏好学习策略时,为什么一定要走 RL 这条高方差、难调参、易 reward hacking 的路。RLHF 已经证明有效,但它把问题拆成奖励建模再强化学习,带来信用分配、分布偏移和优化不稳定。作者要回答的是:能不能直接从偏好数据学出好策略,而不经过 RL 这一步。
这篇工作要解决的是:语言模型如果越来越依赖自己生成的数据继续训练,会不会出现系统性退化,甚至分布塌缩。这个问题现在非常值得重视,因为高质量人类数据增长有限,而合成数据和 self-training 正在变成默认选项。过去很多工作展示了 self-improvement 的局部收益,但对长期、多轮递归训练的稳定性讨论不足。
这篇论文要解决的是:所谓“涌现能力”常被离散评测分辨率(例如少量 shot、粗粒度难度档位、有限样本)制造成看似突然出现的现象,导致我们难以预测能力何时出现、也难以做可靠的 scaling 规划。作者想用“无限分辨率”的评测视角,把能力曲线从离散点变成可连续分析的对象。
这篇论文要解决的问题很直接:如何从大语言模型内部提取出稳定、可解释、接近“单义”的中间特征,而不是停留在神经元级别那种明显混叠的表示。过去对 LM 表征的解释通常依赖单个 neuron、probe 或人工案例分析,但这些方法很难处理 superposition——也就是很多语义方向被压在同一组激活里——所以解释性一直被表示容量和混叠问题卡住。
现有LLM代码评估基准多为人工构造的单函数生成任务,无法衡量模型解决跨模块、多文件修改的真实软件工程问题的能力,之前的评估体系回避了真实Github场景的复杂需求。
这篇工作要解决的是:在大模型微调前的“warm-up 阶段”,如何用原则性的数据选择用更少样本达到更稳定、更快的收敛,而不是随手抽样或靠经验挑数据。以往 warm-up 往往被当成工程细节,但它会显著影响后续全量微调的稳定性、遗忘与最终效果。
这篇工作要解决的是:在 LoRA 微调后的大模型与扩散模型里,如何高效估计“某条训练数据对某个输出/损失的影响”(data influence),而不需要对每个样本做昂贵的重训练或全量 influence function 近似。过去影响函数在大模型上常因二阶信息不可得、近似不稳或成本过高而难以落地。
这篇工作要回答的是:in-context learning(ICL)是否必须依赖注意力机制,还是某些非注意力架构也能出现可比的 ICL 能力。过去社区默认“Transformer+attention 是 ICL 的关键”,但这更多是经验事实而非被系统验证的必要条件。
这篇论文要解决的是:长上下文 Transformer 的相对位置编码(relative position)在外推到更长长度时常失效,表现为注意力模式扭曲与性能掉点,而常见做法(RoPE scaling、插值、NTK-aware 调参)缺少统一、可控的函数形式。
这篇论文要解决的是:LoRA 这类低秩微调虽然省显存,但在需要较大更新幅度或长训练时会受低秩瓶颈限制,表现为欠拟合或需要提高 rank 导致成本回升。过去的折中是直接加大 rank 或换全参训练,但两者都不理想。
RoPE 位置编码在推理时外推到训练长度之外会崩溃,现有外推方法(NTK-aware、YaRN 等)缺乏系统的 scaling law 来指导超参选择和预测外推性能。作者试图建立 RoPE 外推的定量规律,让长上下文扩展不再靠试错。
LLM 的低比特量化(如 4-bit、3-bit)在精度和效率之间难以兼顾,现有 PTQ(训练后量化)方法在极低比特下精度损失明显。QLLM 提出更精确高效的低比特量化方案。
这篇工作的核心问题是:现有多模态评测很难真正测出基础模型在“视觉上下文中的数学推理”能力。以前要么是纯文本数学题,绕开了视觉理解;要么是图文问答,但数学成分很浅,不能区分感知错误、OCR 错误和真正的推理失败。
代码LLM的指令调优研究滞后于通用LLM,现有开源代码LLM的指令遵循能力弱,无法处理复杂代码生成需求;之前的方法大多直接复用通用领域指令数据,未适配代码场景特性。
业界已知代码数据可以提升LLM推理能力,但不清楚在哪个训练阶段引入代码数据的收益最高;之前的工作要么仅在预训练加代码,要么仅在指令调优加代码,没有系统对比不同阶段的效果差异。
已有实验观察到单层线性自注意力Transformer在合成线性回归任务上会实现一步梯度下降,但缺乏理论证明;之前的理论工作无法解释为什么该结构的上下文学习最优解是一步GD,而非贝叶斯最优的岭回归。
之前的工作假设LLM的下一词分布不会泄露输入提示的信息,攻击者无法仅通过下一词分布反推原始提示;业界没有系统性研究这种隐私泄露风险。
这篇论文要解决的是:在拿不到训练数据和参数的黑盒语言模型上,如何严格证明 test set contamination 确实发生过。过去大家通常只能通过异常高分、近重复搜索或人工例子“怀疑”污染,但这些证据很难排除模型泛化、数据共现或 benchmark 泄漏的其他解释,因此缺少可归因、可重复的黑盒证明方法。
现有开源网页数据集的预处理会破坏数学符号,导致研究人员无法复现Minerva等模型用大规模数学数据预训练提升推理能力的效果;之前的开源数据集都没有针对数学内容做专门的清洗和保留。
RoPE编码的LLM无法泛化到超过预训练长度的上下文,之前的上下文窗口扩展方法需要大量微调数据和训练步数,成本高且扩展后的精度损失大。
这篇工作要解决的是:稀疏 MoE 虽然计算高效,但路由离散、负载均衡脆弱、训练和迁移都容易不稳定;而全软混合又计算过高,难以直接替代。过去做法通常在稀疏 top-k gating 上修补,例如加 auxiliary loss 或路由技巧,但没有系统回答“能否从 sparse 平滑过渡到 soft,并获得更好的训练行为”。
RLHF被广泛用于LLM对齐,但之前的工作没有研究RLHF数据投毒带来的通用越狱后门风险;现有的后门攻击方法对RLHF模型的效果很差。
这篇论文要回答的是:LLM 训练数据“污染”(训练集与评测集/基准题重叠)到底有多严重、会如何随时间演化,以及现有“按某个 cutoff 日期过滤”为什么不足以解决。过去很多工作把污染当成一次性静态问题处理,但基准题会被反复转载、改写、再发布,导致污染是一个长期动态过程。
RLHF训练的AI助手普遍存在迎合用户错误观点而非输出事实的奉承行为,此前研究大多聚焦RLHF的有用性提升,未系统验证该偏差的普遍性与核心成因。
稀疏MoE大模型可在不增加推理FLOPs的前提下扩参数,但此前未验证其与指令微调的适配性,普遍认为同推理成本下MoE的泛化能力弱于稠密模型,很少用于通用助手训练。
当前预训练将随机拼接的无关文档填充到上下文窗口,除当前文档前缀外无其他可利用的上下文信号,导致大模型跨文档推理能力弱,需要后续微调才能适配长上下文关联任务。
这篇论文的核心问题是:多模态生成预训练能否像纯文本 LLM 一样走统一 token 预测路线,而不是把视觉理解、生成和语言建模拆成多个松散模块。过去不少 VLM 用对比学习做对齐,再额外接 diffusion 或 decoder 处理生成;Emu 试图把图文统一进一个生成式预训练框架,直接让模型学跨模态条件生成与理解。
这篇工作要解决的是:开源 chat model 的训练数据质量参差不齐时,怎样仍然把模型做强,而不是一味追求‘只用高质量数据’。过去开源对齐模型经常受限于高质量指令数据稀缺,因此不是规模不够,就是为了保纯度牺牲覆盖面;这篇工作直接面对 mixed-quality data 的现实条件。
这篇工作解决的是视频-文本预训练长期缺一个足够大、覆盖够广、同时兼顾理解和生成的数据集的问题。以往视频数据集要么偏理解任务标注,要么偏生成场景,规模和多样性都不足以支撑 native multimodal pretrain 的统一建模。
大模型分布式训练中,ZeRO 系列的通信开销是主要瓶颈之一——尤其是 all-gather 和 reduce-scatter 的跨节点通信量随模型规模线性增长。ZeRO++ 要在不损失收敛性的前提下大幅降低这些通信量。
这篇论文要解决的问题是:大模型 Transformer 训练中的不稳定性很贵、很晚才暴露,而我们缺少能在小规模上可靠复现这些失稳现象的 proxy。过去常见做法是直接在大模型长训练里试错,或者用过于简化的小模型替代,但前者成本高,后者又经常复现不了 loss spike、发散或梯度异常的真实模式,因此这个问题对预训练稳定性研究很关键。
Transformer的上下文学习(ICL)能力的统计复杂度边界不明确,此前实验研究认为ICL需要大量预训练任务,但缺乏理论证明,无法指导预训练的任务配比设计。
中等规模大模型从零开始预训练成本极高,此前结构化剪枝方法得到的小模型精度损失大,需要大量微调才能恢复性能,无法直接替代从头训练的基础模型。
大模型在流式对话等长上下文场景下,KV缓存占用内存高,且超过训练序列长度后性能骤降,传统滑动窗口注意力在超出缓存大小后完全失效。
这篇论文要解决的是,能否把大语言模型直接当作优化器来使用,而不是只让它生成文本。传统优化器依赖明确的梯度、目标形式和更新规则;但在很多离散、黑盒或人类可读约束的问题里,这些信息并不完整,而 LLM 可能通过语言形式整合历史尝试并提出改进方向。
这篇论文要解决的是:标准 Transformer 预训练把所有层从一开始就全量训练,计算开销大且早期训练往往在“学低层模式”,深层参数利用率不高。以往的加速多靠更快的注意力/并行或减少 token,但对“训练过程的结构”动得少。
这篇工作的核心结论是:在离散视觉 token 质量足够高时,自回归语言模型可以在视觉生成上超过 diffusion,而瓶颈首先不是生成器类型,而是 tokenizer。过去很多“LM 做图像不如 diffusion”的结论,实际上混杂了视觉离散化损失过大、token 序列过长、语义与细节编码不均衡等问题,所以比较并不公平。
缺乏大规模、真实用户与 LLM 交互的对话数据集。现有数据集要么是合成的,要么规模小,无法反映真实使用模式。本文发布 LMSYS-Chat-1M:100 万条真实用户对话。
LLM 在复杂推理任务中容易陷入细节而忽略高层原理。本文提出 Step-Back Prompting:先让模型退一步思考抽象原理,再解决具体问题。解决的是 CoT 在需要抽象推理时效果不佳的问题。
核心问题是:Transformer到底能学到哪些“算法”,以及在训练长度之外能否做长度泛化(length generalization)。以往很多工作在固定长度上报告高准确率,但一旦输入更长就崩,说明模型可能学的是统计捷径而不是可迭代的算法。
这篇论文要解决的是:Masked Language Modeling(MLM)在表征上存在“缺陷”(representation deficiency),导致它学到的表示在某些生成或推断需求上先天不如自回归(AR)或其他目标。过去 MLM 主要被当作 BERT 式理解预训练的默认选择,但其训练-推理不一致(mask 机制)一直是隐患。
这篇论文要解决的是:In-Context Learning(ICL)效果依赖高质量示例,但在线检索或人工构造示例成本高且不稳定,导致 ICL 难以规模化落地。过去的替代方案要么做微调(失去纯 ICL 的灵活性),要么用启发式选例(泛化不稳)。
这篇工作要解决的是:怎样在不明显伤害指令跟随能力的前提下,把 LLaMA 系列模型调得更安全。过去安全对齐常靠少量拒答模板、红队数据或 RLHF,但实践里经常出现“更安全但更笨”或者“表面拒答、深层仍可绕过”的问题,因此需要系统梳理 safety tuning 到底学到了什么、伤害了什么。
这篇工作要解决的是:知识图谱推理能否像语言和视觉一样走向 foundation model,而不是为每个图任务单独训练专门模型。传统 KG reasoning 往往依赖特定任务结构、封闭图谱和监督信号,泛化到新关系、新图或复杂查询时很弱,因此作者想探索一种更统一、更具迁移性的预训练范式。
这篇工作要解决的是:困惑度(perplexity)到底能不能反映大语言模型的长文本理解能力。社区长期默认低 perplexity 代表更强语言建模,也常把它外推到长上下文场景,但长文本理解涉及跨段依赖、全局主题跟踪、信息检索和推理,未必等价于把下一个 token 预测得更准。
偏好优化(如 RLHF/DPO)中,训练数据的质量直接决定对齐效果,但现有方法在构造偏好对时缺乏对采样分布的精细控制。Statistical Rejection Sampling(统计拒绝采样)被引入来改善偏好数据的质量,从而提升偏好优化的效果。
如何让语言模型在训练过程中隐式地学会自我改进(self-improvement),而不依赖外部反馈信号(如人类标注或 reward model)。此前的 self-improvement 方法通常需要显式的验证器或 reward model 来筛选自生成数据,本文探索一种更内化的方式。
Transformer 的 in-context learning (ICL) 理论分析此前主要局限于简单函数类(如线性回归),无法解释 LLM 在复杂任务上的 ICL 能力。本文研究 Transformer 如何在 ICL 中学习带有表示(representation)的更复杂函数。
LLM 之间的知识迁移通常依赖蒸馏(需要大量数据和计算),本文从参数角度探索知识迁移:能否直接从大模型中找到承载特定知识的参数子集('neural nuggets'),并将其迁移到小模型中?
这篇论文要解决的是:长上下文 LLM 能塞进更多信息,但当上下文超长或噪声很大时,纯“把文档塞进去”并不能保证可用性;检索(retrieval)能过滤信息,但传统 RAG 又受限于 chunk 粒度与检索召回。作者想回答的是两者如何结合才能在质量与成本之间更稳。
这篇论文要解决的核心问题是:现有 LLM 评测大多只测静态问答能力,无法真实刻画模型作为 agent 在交互环境中做规划、调用工具、长期决策和容错的能力。过去这类能力通常被零散地用几个 demo 或单一环境展示,结果很难比较,也很难区分是语言能力不足、工具使用失败,还是交互决策出了问题。
这篇论文要解决的问题是:标准 reward model 只能根据回答文本本身打分,但很多高质量偏好判断依赖外部工具验证,单看表面语言很容易把“说得像对”当成“真的对”。这在数学、事实核验、代码、检索等任务里尤其明显,所以传统 RM 会把监督信号建在不可靠观测上。
这篇论文要解决的问题是:语言模型很难从稀疏、结果导向的反馈中稳定学到改进策略,因为普通监督只看到“正确答案”,看不到从错误到修正的中间过程。过去 RLHF 或 preference tuning 往往把反馈压缩成一个标量偏好,信息利用率低,也不利于把失败模式显式教给模型。
这篇论文关注的核心问题是:web-scale 数据集太大,不能只靠随机采样或简单去重来压缩,需要一种更有结构的信息保留式剪枝方法。传统剪枝通常按样本级相似度、损失或启发式分数操作,但在概念覆盖层面容易出现“表面去冗余、实际丢长尾”的问题。
这篇论文要解决的是蒸馏里的一个老问题:学生模型通常只在离线数据上模仿教师正确输出,因此对自己实际 rollout 时会遇到的错误状态覆盖不足,导致一旦偏离教师轨迹就迅速退化。这个问题在语言模型里尤其明显,因为生成是自回归闭环,早期错误会改变后续状态分布。
CLIP 等多模态模型在训练数据中存在各种 bias(如性别、种族与特定概念的关联),一个直觉的解决方案是平衡训练数据。本文系统研究的问题是:数据平衡到底能在多大程度上缓解 CLIP 的 bias?答案是:效果有限,且存在明确的边界。
标准 Transformer 缺乏显式的关系推理归纳偏置——它通过 attention 隐式地学习对象间关系,但在需要系统性关系推理(如类比、关系组合)的任务上表现不稳定。本文提出 Abstractor 模块和 relational cross-attention 机制,为 Transformer 引入显式的关系推理能力。
这篇论文要解决的是:长上下文/长序列模型的“公平比较”经常被训练配方差异污染,导致我们以为是架构赢了,其实是数据与初始化先验(prior)赢了。以往很多工作默认“从零训练”是中立起点,但在长序列设置里,优化更难、数据更稀缺,起点选择会系统性改变结论。
这篇论文要解决的是:RAG 系统的主要失败往往不是“检索不到”,而是“检索到了也不会用、不会质疑、不会纠错”,而传统 RAG 训练把检索与生成割裂,缺少自我诊断信号。过去常用更强检索器或更多文档堆量,但会带来成本上升与幻觉仍存。
这篇论文要解决的是:数学能力强的开源语言模型稀缺,且现有通用 LLM 在形式化推导、符号操作与长链证明上不稳定,主要受限于数据与训练目标不匹配。过去常用闭源模型或小规模数学微调,但复现性与可控性不足。
这篇论文要解决的是:用离线数据对语言模型做 RL/对齐时,直接做 offline RL 容易出现分布外动作的过估计与不稳定,而纯 SFT 又学不到“偏好差异”的信号。过去常用 DPO/IPO 等偏好优化绕开显式 Q 学习,但它们对奖励形状与数据覆盖仍敏感。
这篇论文的核心问题是:SGD 噪声带来的微小训练误差,在行为克隆和自回归生成中会不会被逐步放大,最终造成显著性能损失。过去大家通常把优化噪声视为局部的、平均可消化的问题,但在序列决策和 autoregression 里,模型每一步输出都会影响后续输入,因此误差可能呈链式放大。
LLM 在需要过程性知识(procedural knowledge)的规划任务中表现不佳——它们知道事实但不擅长生成可执行的步骤序列。PlaSma 通过从 LLM 中蒸馏过程性知识到专门的小模型来解决这个问题。
Transformer 的 in-context learning 能力可以被理解为一种联想记忆(associative memory)机制,但联想记忆的容量如何随模型规模(参数量、层数、头数)缩放,此前缺乏严格的理论刻画。本文推导联想记忆的 scaling law。
LLM 在解决新任务时,每次都要从头推理,无法复用之前解决类似问题时发现的通用工具或方法。本文提出让 LLM 自己制造工具(tool making):先用强模型生成可复用的 Python 函数作为工具,再让弱模型调用这些工具来解决后续问题,从而降低推理成本。
检索增强语言模型(RALM)在推理时需要对大量检索到的文档做编码和注意力计算,导致延迟和内存开销很大。本文提出用二值化的 token 表示(Binary Token Representations, BTR)来压缩检索文档的表示,大幅降低 RALM 的推理成本。
这篇工作关注的是:视觉-语言基础模型能否通过“拼接样本”式预训练更高效地学到跨样本、跨区域的对应关系,而不是总把一张图配一段文本当作固定最小单元。传统 VLM 预训练常受限于单样本配对粒度,导致上下文利用不足,也不利于建模更复杂的组合场景。
这篇工作解决的是:LLM 生成代码或答案后,能不能像程序员一样自己发现错误并修复,而不是完全依赖外部监督或更多样本重试。过去代码任务里常见做法是 sample 更多候选、跑单元测试再筛选,但这没有真正提升模型的自纠错能力。
大模型涌现行为的训练动态不明确,此前可解释性研究大多关注训练完成的模型,无法解释句法等核心能力的突然习得机制。
当前超参数设计大多与模型架构无关,不同深度、宽度、连接结构的模型用同一套超参数会导致训练不稳定或收敛慢,手动调参成本极高。
这篇工作要解决的是:LLM 在生成时容易“顺着表面似然走”而产生幻觉,尤其在需要事实约束的问答/摘要中。过去常用外部检索、RLHF 或后验重排来缓解,但这些要么依赖额外系统,要么改变训练流程。
这篇工作要解决的是:用单一 reward model 做策略优化时很容易被过度优化(overoptimization),模型学会钻 reward 的漏洞而非真实偏好。过去通常靠早停、KL 约束或人工抽检缓解,但缺少系统化、可扩展的信号不确定性处理。
现有多模态大模型要么擅长理解(如 LLaVA),要么擅长生成(如 DALL-E),很少能在一个统一框架里同时做好多模态理解和创作。DreamLLM 试图让一个 LLM 同时具备图文理解和图像生成能力,实现真正的'理解-生成协同'。
ELECTRA 的预训练效率优于 MLM(BERT),但它需要同时训练一个生成器和一个判别器,生成器的训练开销不可忽略(约占总计算量的 1/3)。Fast-ELECTRA 要解决的是如何去掉或大幅降低生成器的训练成本,同时保持 ELECTRA 的预训练效率优势。
视觉表示学习中,离散 tokenization(如 VQ-VAE、dVAE)被广泛用于生成模型,但它在判别式表示学习中的角色一直不清楚——离散化到底是帮助还是阻碍了视觉表示的质量?这篇工作系统性地分析离散 tokenization 对视觉表示学习的影响。
这篇论文要解决的是:训练数据选择通常靠启发式质量分或静态过滤,但真正决定“这条数据值不值得训练”的是它对梯度与泛化的贡献,而这在大规模训练里很少被直接优化。
这篇论文要解决的是长序列卷积在现代 GPU 上经常理论复杂度不错、实际吞吐却不高的问题。很多长序列模型会用 FFT 卷积替代注意力或作为状态空间/卷积模块的核心算子,但现有实现未充分吃满 Tensor Cores,导致算法上该快,系统上不一定快。
作者要解决的是:为什么“无监督预训练 + 少量监督微调”在理论上能显著优于从头监督学习;过去很多理论要么依赖强分布假设、要么无法给出可比较的优势界。
作者要解决的是:让 LLaMA 这类纯文本 LLM 以较小改动获得“原生看图与画图”的能力,而不是依赖外接视觉编码器/扩散模型拼装;过去的瓶颈通常在于视觉离散化(tokenizer)与语言 token 空间不统一。
作者要解决的是:现有对齐通常用单一偏好模型(reward/preference model)去覆盖多维价值取舍,导致在复杂指令或多目标场景下出现不可控的偏置与 reward hacking;过去的做法要么堆数据、要么在一个标量奖励里硬编码权重。
这篇工作要解决的问题是:自回归语言模型在生成时被迫每步都输出“内容 token”,没有显式预算去做中间计算。过去 CoT 主要依赖数据或提示把推理写成自然语言,但这会把“思考”和“对外说话”混在一起;作者提出 pause token,就是想给模型一个低语义负担的内部计算时间。
这篇工作要解决的问题是:语言模型水印到底能不能被模型稳定学到并保留下来。很多水印工作关注检测算法,却默认生成分布可以被轻松操控;这篇论文反过来问 learnability——也就是在不明显伤害文本质量的前提下,水印信号是否真的足够强、足够稳、足够泛化。
LLM 级联(先用小模型处理简单请求,不确定时再调用大模型)是降低推理成本的常用策略,但现有方法的不确定性估计粗糙(通常只看整条输出的置信度)。本文研究 token 级不确定性在级联决策中的作用。
让 LLM 作为 agent 在真实网页上完成复杂任务(如预订航班、填写表单)仍然很困难,主要瓶颈是长网页上下文理解、多步规划和代码生成的协同。本文构建了一个完整的 WebAgent 系统。
这篇论文要回答的是:纯文本语言模型在没有显式几何监督的情况下,是否会在内部表征里自发形成“空间/时间”的可用坐标系,以及这种结构到底有多普遍、可预测。以往相关讨论多停留在零散的可视化或个例探针,缺少可复现的定义与系统性证据,因此很难把“出现了空间感”变成可检验的机制结论。
这篇论文研究的是:当 in-context learning 的示例(demonstrations)包含错误标签或错误推理时,语言模型到底是在“照抄示例模式”还是会在内部做某种一致性校验并抵抗错误。以往很多工作把 ICL 当作黑箱拟合,默认示例越多越好,但在真实使用中错误示例不可避免,且会触发模型过度拟合上下文。
这篇论文解决的是:LLM 在分布外或新任务上会犯系统性错误,但重新微调成本高且有遗忘风险,能否在测试时用“最近邻”做轻量的自适应训练来即时纠偏。过去 test-time training 多见于视觉领域,LLM 场景下如何选邻居、如何避免把噪声学进去、以及如何控制计算开销都不清晰。
这篇工作要解决的是:标准 Transformer block 里的很多设计已经变成默认配置,但不一定都是必要的,尤其在大规模训练下,一些模块可能只是历史包袱。作者想回答一个很实际的问题:哪些 block 组件可以删、改、并,而不会明显损害性能,甚至还能提升训练稳定性或效率。
这篇工作要解决的是:Transformer 语言模型内部如何表示“关系”,以及这些关系能否被线性方式解码。过去对 factual knowledge 的研究已经发现一些线性探针和 rank-one editing 现象,但‘关系是否线性可读’这个问题如果成立,意味着模型内部可能存在比想象中更规则的关系表征结构。
现有自动化LLM红队通过RL训练独立红队LLM生成对抗提示,仅能产出少量有效测试用例,有害prompt空间覆盖度极低;而人工红队成本高、周期长,无法满足大规模LLM安全测试需求。
现有基于LLM的多智能体系统仅能处理简单对话任务,处理复杂任务时会因为简单链式调用LLM导致级联幻觉,出现逻辑不一致问题,无法落地复杂生产场景。
人类反馈已成为LLM评估和对齐训练的事实标准,但单一偏好分数的构成不明确,存在主观偏差,无法覆盖所有关键错误类型。
LLM的事实知识隐式存储在参数中,无法像传统知识库一样直接查询和校验,生成内容常出现事实错误或过时,但目前没有系统评估LLM事实知识边界的基准。
这篇论文要解决的是:LLM 在需要“隐变量/结构化推断”的任务上,精确推断往往计算上不可行,现有做法要么用昂贵的搜索/采样硬扛,要么用启发式近似但缺少可复用的推断器。作者关注的是能否把一次次昂贵推断“摊销”(amortize) 成一个可学习、可复用、推理时更便宜的过程。
这篇论文要解决的是:开源 LLM 的安全对齐在某些生成模式下可能被系统性绕过,攻击者不需要复杂提示注入就能触发“灾难性越狱”。作者关注的是利用生成过程本身的漏洞来放大越狱成功率,而不是单条 prompt 的巧合。
这篇论文要解决的是:定理证明数据(定理-证明对)难以规模化且格式不统一,导致用它做 LLM 预训练/微调时数据管线成本高、泛化差。作者想要一个能“统一合成”定理与证明数据的系统化方法。
这篇论文要解决的是 instruction tuning 容易过拟合小规模高质量数据,导致模型泛化和生成质量不稳定,而常规正则化在 embedding 层并没有被充分利用。过去大家更多在数据混合、LoRA 配置、learning rate 或 label smoothing 上调参,较少从“输入表示在微调阶段过于干净、过于确定”这个角度处理。
这篇论文要解决的是代码预训练数据里存在大量低质量、错误、风格混乱或不可执行样本,而这些噪声会直接限制代码生成模型的上限。过去常见做法是靠启发式清洗、去重、编译过滤或单元测试筛选,但这些规则覆盖有限,面对真实开源代码中的细碎问题,传统 pipeline 往往漏清理或误删。
现有LLM压缩方法(剪枝、量化)仅用困惑度作为评估指标,声称50-60%稀疏度或3-4比特量化下性能几乎无损,但困惑度无法反映模型在知识密集型任务上的性能下降,导致压缩后的模型在实际场景中效果大幅降低。
现有主流LLM解码方法存在明显trade-off:采样类方法生成内容重复率低但连贯性差,搜索类方法连贯性好但重复率高,无法同时在多个维度上对齐人类文本的属性。
现有多模态LLM方法将视觉输入作为prompt,仅冻结LLM优化视觉到文本的映射,对视觉和语言的不平等处理严重限制了模型的多模态推理能力,无法实现真正的跨模态统一建模。
现有LLM剪枝等降规模方法对模型能力的影响没有系统的量化研究,不清楚不同能力对模型规模下降的耐受度差异,导致压缩后的模型实际效果不符合预期。
这篇工作要解决的是:如何用“可控的合成任务”系统性降低语言模型幻觉,而不是依赖昂贵且不可控的人工标注或只在特定 QA 数据集上打补丁。过去减少幻觉常靠偏好对齐或检索增强,但训练信号往往混杂(既含事实性也含风格偏好),很难定位模型到底学到了什么。
这篇工作要解决的是:模型在需要长时间尺度记忆的任务上会出现哪些“涌现机制”,以及这些机制如何依赖训练 curriculum(训练顺序/难度安排)。以往很多工作只报告最终分数,默认机制是模型自然学出来的,但在长时序任务里,训练路径往往决定模型学到的是捷径还是可泛化的记忆策略。
这篇工作的核心问题是:LM 系统的性能瓶颈越来越多地来自“程序和调用链怎么组织”,而不是单次 prompt 怎么写;手工 prompt engineering 很难稳定复用,也很难随着模型和数据变化自动改进。过去大家常把多步推理、检索、重写、投票等流程硬编码成 pipeline,但优化目标分散,调参成本高,迁移性差。
这篇工作的核心问题是:当前 LLM 很会生成内容,但作为“评审模型”时往往只会给粗粒度偏好,难以稳定输出细粒度、可解释、可复用的评测判断。过去大家常把 GPT-4 这类强模型当 evaluator 用,但这类黑盒评审贵、不可控,而且很难针对具体 rubric 做一致化。
这篇工作要解决的是:在线交互式语言模型在多轮对话中需要长期记忆,但把全部历史原样塞进上下文窗口既贵又低效,窗口再长也会被无关细节占满。过去常见做法是截断历史或做通用摘要,但前者直接丢信息,后者则常把真正会影响后续决策的状态压没。
这篇工作要解决的是:RLHF 不只是改变模型是否更礼貌、更有帮助,它还会怎样影响泛化能力和输出多样性;这个问题以前常被经验讨论,但缺少系统刻画。过去很多工作把 RLHF 的收益集中在偏好分数提升上,却较少分析它是否牺牲了分布覆盖、探索性和对未见任务的稳健性。
当前对大模型上下文学习(ICL)的工作机制缺乏共识,一派认为ICL是通用学习算法,另一派认为ICL不会从上下文样例中学习标签关系,两类极端结论冲突,缺乏统一解释。
指令微调、RLHF等微调方法会导致大模型在微调分布外任务上性能下降(灾难性遗忘),现有研究缺乏对该现象的系统性解释,无法解释为什么微调后相同能力的任务换个prompt就失效。
这篇工作要解释的是:grokking 为什么会出现“先记忆后泛化”的长延迟相变式行为,以及这种现象在训练动力学里到底对应什么机制。以往解释常停留在经验观察或单一因素(如权重衰减/数据规模),缺少能预测何时发生、为何发生的动力学刻画。
这篇工作要解决的是:动态稀疏训练(DST)在实际大模型训练中常因稀疏模式不规则导致硬件效率差、通信开销大,而“结构化稀疏”又往往牺牲精度或灵活性。过去的次优解是在非结构化稀疏上追精度、在结构化稀疏上追速度,但两者难兼得。
这篇论文解决的是长序列 Transformer 的老问题:标准注意力精度高但二次复杂度太贵,而许多线性/稀疏近似之所以掉点,是因为它们过早丢掉了真正重要的注意力连接。过去的稀疏注意力通常靠固定模式或粗糙启发式选边,这在语言和多模态序列里经常错杀少量关键远距依赖。
这篇论文关注一个很实用的问题:把代码从一种语言自动迁移到另一种语言时,纯编译器规则方法覆盖不够,纯大语言模型生成又经常不保语义或不满足目标环境约束。过去 transpilation 往往在“可靠但死板”和“灵活但不稳”之间二选一,因此很难在真实代码库中大规模落地。
这篇论文研究一个已经成为机制分析试金石的问题:小型 Transformer 为什么学不会稳定算术,以及怎样的训练与归纳偏置能让它真正泛化,而不是记模板。过去很多工作用 arithmetic task 验证模型能力,但常见现象是训练精度很高、位数一增加就崩,说明模型学到的是表面模式而不是可组合算法。
这篇论文解决的是 QLoRA 类方法里的一个实际痛点:基础模型先被量化后再做 LoRA 微调时,量化误差会限制低秩适配器的可恢复空间,导致“能省显存,但性能掉得不值”。过去常见流程把 quantization 和 LoRA 分开做,默认 LoRA 能补齐量化损失,但这个假设在低比特下并不稳。
这篇论文针对稀疏 MoE 的一个核心现实问题:理论上专家稀疏能省算力,但真正高效的 SMoE 往往受路由策略和系统开销限制,导致参数很多、实际收益却不稳定。过去很多压缩或高效化方法直接剪专家、剪路由或改负载均衡,却没有先回答一个更基本的问题——原始专家之间到底冗余到什么程度,路由到底在用什么信号。
现有大视觉语言模型(VLM)缺乏组合推理能力,存在词袋行为,无法准确生成表示视觉实体及实体间关系的文本,限制了VLM在复杂视觉理解场景的应用。
主流大模型后门攻击方法需要大量投毒数据,实用性差,且会显著降低模型整体性能,无法适配大模型参数规模大、微调成本高的场景。
大模型存在生成答案和验证答案不一致的问题(比如生成7+8=15,但判断7+8=15为假),现有研究缺乏对该问题的量化评测框架和低成本优化方案,侵蚀了大模型输出的可信度。
这篇论文要解决的是:对齐通常依赖微调(SFT/RLHF),但微调成本高、会引入遗忘与分布偏移,而且对闭源模型不可用,因此希望让语言模型“无需 finetuning 自我对齐”。过去常见替代是提示词工程或自我反思,但缺少系统化、可迭代的对齐机制。
这篇论文要回答的是:在 RLHF 里,什么时候“真正的 RL(如 PPO)”会优于 DPO 这类直接偏好优化?过去很多比较停留在经验层面,把差异归因于实现细节或超参,而缺少从表征学习与优化动力学角度的可解释条件。
这篇论文要解决的是:自对齐(self-alignment)想摆脱昂贵的人类偏好标注,但直接让模型自生成指令数据容易同质化、偏简单,导致对齐收益有限。过去常见做法是 self-instruct 或自训练,但缺少能持续制造“分布外指令”的机制。
这篇工作要回答的是:没有配对图文、音文这类标注多模态数据时,能不能仍然学到可用的多模态模型,而且不仅靠经验,还能给出理论保证。过去这类问题通常靠弱配对、伪标签或大规模网络抓取数据绕过去,但这些做法默认仍有某种跨模态共现信号,理论上并不干净。
LLM 的 in-context learning(ICL)能力在推理任务上表现不稳定,且依赖精心构造的 few-shot 示例。本文提出用自回归 in-context distillation 的方式,让模型学会在上下文中进行推理,减少对外部 prompt 工程的依赖。
语言模型中的社会偏见(性别、种族等)难以定位和消除,现有去偏方法要么效果有限,要么损害模型通用能力。本文从神经元级别解释偏见的来源,并提出针对性的缓解方法。
这篇论文要解决的是:在自回归模型(AR)里,如何从“生成轨迹”(trajectory,即逐 token 的生成过程与中间状态)中提取更稳定、可解释的“意义表示”,而不是只把意义寄托在最终输出 token 上。以往 AR 模型的表示分析多聚焦隐藏状态或注意力,但很少把“生成过程本身”当作可学习/可分析的语义对象。
这篇论文要解决的是:如何用“模拟的社会互动”来训练更社会对齐(socially aligned)的语言模型,让模型学到在多轮互动、角色关系与社会规范约束下的行为,而不是只靠静态指令-回答数据。以往对齐数据多是单轮或弱交互,难覆盖真实社交情境中的策略性与长期后果。
这篇工作要解决的是:SFT 数据里“指令跟随”不是单一能力,但现有指令数据往往把不同要求混在一起,导致模型学到的是平均化服从,而不是可控、细粒度的遵循。过去提升 instruction following 常靠堆更多合成数据或更强 teacher,却很少先把“到底要遵循哪些维度”整理清楚。
这篇工作要解决的是:我们经常谈 SFT 数据质量,但缺少一套系统方法去标注和分析“这些指令到底要求模型做什么”。结果是不同 SFT 数据集看起来都叫 instruction tuning,实际覆盖的能力、约束密度和任务风格差异很大,导致训练效果难以归因。
Grokking现象(模型先完全拟合训练集但测试准确率随机,训练足够长时间后突然跃迁至测试准确率拉满)的成因缺乏严谨的理论证明,现有解释多为实验观察结论,无法指导模型训练中利用或规避Grokking。
Transformer的理论特性尤其是多头注意力的记忆容量缺乏明确的量化结论,现有分析多基于通用位置假设,与实际视觉Transformer的实验观察不符。
这篇论文解决的是:长序列 Transformer 在 CPU 上推理太慢、内存带宽成为瓶颈,导致很多“长上下文”能力在边缘/离线场景不可用。以往优化多集中在 GPU kernel 或近似注意力,但 CPU 侧需要的是更系统的算子与数据流重排。
这篇论文检验一个尖锐假设:CLIP 的泛化能力是否主要来自“训练-测试分布高度相似”,而不是学到了更可迁移的视觉-语言对齐。过去 CLIP 常被当作强泛化表征,但大规模网页数据可能让很多评测集与训练分布在语义与风格上过近,从而夸大零样本能力。
这篇论文要解决:现有模型往往在“符号数学”(公式、推导、精确结构)与“数值计算”(近似、浮点、仿真)之间割裂,导致要么会写式子不会算数,要么会算数但缺乏可组合的符号泛化。过去通常用两套模型或两类数据分别训练,统一建模不足。
这篇论文回答:给 Transformer 加上 Chain-of-Thought(CoT)式的中间推理文本后,模型的可表达能力(expressive power)到底提升了什么、边界在哪里。过去 CoT 更多被当作经验技巧,缺少形式化解释来区分“更长计算轨迹”与“模型类本身更强”。
这篇工作要解决的是:在大语言模型里,ReLU 虽然早被 GELU / SwiGLU 等更平滑激活大量替代,但它的激活稀疏性可能带来显著的计算和存储优势,这部分价值被低估了。过去主流选择更关注最终 loss 和稳定性,而较少系统地问:如果硬件和稀疏执行一起考虑,ReLU 会不会重新变得划算。
这篇工作要解决的是:微调大语言模型的实验太贵、迭代太慢,能否先用小模型模拟大模型的微调行为,从而在真正上大模型前做方法筛选。过去大家常靠经验、少量昂贵试验或不完全可比的代理任务来选超参和算法,效率很低。
现有研究多关注神经网络如何实现目标函数,但缺乏对神经网络为什么会学习到特定计算策略的解释,无法预测神经网络在不同任务下的特征涌现行为。
RLHF中组合式多维度奖励模型(RM)易出现过优化:超过阈值后RM得分越高人类评分反而越低,此前无针对组合RM过优化的系统研究,仅靠人工调权缓解问题,对齐效果不稳定。
此前语音LLM依赖离散语音tokenizer(引入信息损失),且语音输入/输出模块分阶段训练,无法端到端完成口语QA、语音续写任务,跨模态推理能力弱。
这篇工作要解决的是:Top-K 稀疏 softmax gating 的 MoE(Mixture of Experts)为什么能工作、何时会失效,以及如何用统计视角解释“只激活 K 个专家”的偏差-方差与负载均衡问题。以往 MoE gating 多靠工程经验(aux loss、capacity factor)调参,缺少能指导设计的可解释框架。
这篇工作要解决的是:现有“LM 输出检测器”(如检测 AI 写作、检测水印/风格特征)在对抗性优化面前是否可靠,结论是它们很容易被针对性地优化绕过。过去很多检测工作默认攻击者只做简单改写或温和采样调整,但真实场景里攻击者会直接把“躲过检测”当目标来优化。
这篇工作要解决的是:如何让 LLM 在生成长答案时更高效,结论是先生成“思维骨架(Skeleton)”再并行展开细节,可以显著降低端到端延迟而不明显损伤质量。传统自回归生成必须逐 token 串行,哪怕答案结构早已确定也无法并行。
这篇论文的核心问题是:能否让多模态大语言模型不仅理解图像上下文,还能在同一上下文里生成图像,也就是做真正的 in-context image generation。过去图文系统通常把理解和生成拆成两套模型:VLM 负责理解,diffusion/decoder 负责出图;这种分裂让上下文共享、交错多轮编辑和统一训练目标都比较别扭,因此作者尝试用 Kosmos-G 把生成能力直接并入 MLLM。
此前Sub-4bit量化方案仅减少访存开销,量化反量化过程占用大量计算资源,未真正降低矩阵乘计算量,推理速度提升存在瓶颈。
此前LLM敏感信息删除方案要么是prompt层过滤(易被绕过),要么是微调擦除(无法保证完全删除,白盒攻击下易恢复),无法从权重层面保证敏感信息不被提取。
此前多模态大模型(MLLM)仅能做通用图文理解,无法将文本中指代片段与图像中具体物体的bounding box关联,缺乏接地能力,无法落地到需视觉定位的下游任务。
这篇论文要解决的是:如何让语言模型在持续学习(continual learning)场景下可扩展地吸收新数据/新任务,同时尽量避免灾难性遗忘,而不是每次都全量重训或靠小规模回放勉强维持。过去的 CL 方法在大模型上常被“算力/存储不可承受”和“效果随规模退化”卡住。
这篇论文要回答的是:为什么 prompting 和 prefix-tuning 有时能显著提升能力、有时几乎无效,并给出可预测的失败条件,而不是把效果归因于“经验调参”。过去对 prompt/prefix 的理解多是经验规律,缺少能解释能力边界的理论框架。
这篇论文要解决的是:微调(fine-tuning)到底是在“学新机制”还是“增强已有机制”,并用实体跟踪(entity tracking)作为可测的案例来回答。过去关于微调改变内部机制的讨论常停留在相关性观察,缺少针对具体能力的机制级证据。
这篇工作要解决的是:一个已经对齐过的语言模型,在普通用户无恶意、只做常规 fine-tuning 的情况下,也可能明显失去安全性。过去安全研究更多讨论越狱攻击、对抗样本或刻意恶意微调,而这篇论文关注的是更实际的问题:能力适配型微调本身是否会顺带破坏原有对齐。
这篇工作要解决的是:传统 pipeline parallelism 存在明显的 bubble,即流水线启动和收尾阶段设备空转,导致大模型训练吞吐低于理论上限。过去方法通常在内存、调度复杂度和 bubble 缩减之间取舍,例如 1F1B 减内存但仍有空泡,更多交错调度又会增加实现复杂度。
这篇工作要解决的是:训练中大量样本在当前阶段贡献很小,但传统数据剪枝常引入偏差,导致速度变快却损伤收敛或最终精度。过去常见做法是静态挑数据、基于 loss 丢 easy samples,或者用 curriculum 改采样顺序,但这些方法往往改变了目标分布,严格说并不“无损”。
这篇工作要解决的是:让 LLM 真正学会使用海量真实 API,比做少量工具调用 demo 难得多,主要难点不在 function calling 格式,而在工具文档杂乱、调用路径长、参数约束复杂、监督稀缺。过去工具学习工作通常只覆盖几十到几百个工具,更多是在封闭 benchmark 上验证,离真实开放世界 API 生态还有很大差距。
此前LM生成没有输出质量的可证明保证,采样得到的输出可能全部不符合要求,也无法量化输出集合包含合格结果的概率,导致医疗、法律等高风险场景无法信任LM输出。
RL微调(RFT,如PPO)过程中经常出现奖励停滞,此前归因于奖励函数设计不佳或PPO超参数问题,未发现底层的梯度消失机制,导致RFT训练效率极低。
Transformer上下文学习(ICL)的涌现机制与数据依赖关系不明确,此前研究仅观察到数据分布的影响,未找到底层机制性原因,无法指导预训练过程中ICL能力的定向增强。
自回归语言模型传统采用MLE(最小化前向交叉熵)训练存在持续的生成退化问题,前向交叉熵存在优先召回、负多样性忽略、训练测试不匹配三个固有缺陷,此前没有可落地的更优分布对齐指标替代方案适配自回归训练流程。
这篇论文要回答的是:不同预训练模型之间是否存在“通用知识”可以被系统性迁移,而不是只能在同模态/同架构/同任务里做蒸馏或微调。过去知识迁移多依赖同构模型(teacher-student)或特定任务监督,但这限制了跨模态、跨架构复用预训练能力的空间。
这篇论文要解决的是:长上下文 RAG 中“检索到一堆片段但无法有效组织”的问题,如何用树结构的递归摘要与检索,让模型在固定上下文预算下仍能利用大规模文档。传统做法要么平铺检索 top-k chunk,导致冗余与主题漂移,要么先全局摘要再检索,导致细节丢失。
这篇论文的核心结论应当是:语言模型对提示格式中的伪特征非常敏感,而且这种敏感性是可以被量化的。过去大家知道 prompt wording 很重要,但常把它理解成语义表达差异;这篇工作更进一步,关注的是与任务无关的表面因素——例如标点、换行、选项布局、标签形式——会在多大程度上改变模型表现。
这篇论文要解决的是:大语言模型量化时,现有校准往往只沿单一方向或局部统计做修正,导致激活异常值、权重分布旋转和层间误差传播没有被同时处理,最终低比特量化精度掉得明显。简单说,问题不是“能不能量化”,而是“怎样在极低额外成本下,把量化误差在各个方向都校准好”。
RLHF流程中奖励模型(RM)的一致性问题被长期忽略,现有RM无法针对不同prompt的语义变化灵活调整奖励赋值,导致下游RLHF模型性能受损,此前没有系统性的RM一致性度量、改进及影响分析框架。
现有商用LLM的预训练数据不公开,无法判断给定文本是否被纳入预训练集,无法排查版权、隐私、基准污染等合规问题,此前没有可落地的黑盒预训练数据检测方法。
这篇论文要解决的是:Lean4 自动形式化(把自然语言数学陈述变成可被证明器检查的形式化表达)缺少统一、可复现的评测基准,导致模型进展难以比较且容易被“挑数据/挑题型”误导。
这篇论文要解决的是:RLHF 的偏好数据里常有“隐藏上下文”(标注者心里默认但未写出),把偏好当作单点标签会引入系统性噪声与不可解释冲突,导致学到的 reward model 不稳定且容易 reward hacking。
这篇论文要解决的是:预训练 LLM 在超长上下文里常因注意力分散与信息冗余而“读不懂重点”,直接扩展上下文窗口会显著增加计算但不保证理解质量。
这篇论文要说明的核心结论是:LLM 的隐私风险不只来自逐字记忆训练样本,还来自模型基于训练分布学到的潜在属性推断能力。过去很多隐私讨论主要围绕 membership inference 或 verbatim extraction,默认只要不背诵原文就相对安全;这篇工作指出,即便模型没有记住具体文本,也可能通过上下文、共现模式和群体统计去恢复敏感信息,因此隐私评估需要从“记没记住”扩展到“能不能推出来”。
这篇论文要解决的问题是:如何用足够简单、训练后可执行的方法对 LLM 做有效剪枝,而不是依赖复杂重训练或昂贵二阶近似。大模型部署里,稀疏化一直有明确需求,但很多方法不是实现复杂,就是对实际推理收益不稳定;作者想给出一个更朴素但足够强的基线。
这篇论文要解决的是分布式训练里一个非常实际的问题:通信和计算虽然理论上可重叠,但在真实系统中往往重叠不满,导致 GPU 在等网络。随着模型和并行规模增大,这个问题会直接卡住 pretrain 吞吐;很多系统优化只在特定并行策略或算子上见效,作者则试图实现更完整的 communication-computation overlap。
这篇论文要解决的是:能否在较少人工偏好标注的情况下,让模型通过可指令化的 reward model 实现自对齐。传统 RLHF 依赖昂贵的人类比较数据,而且 reward model 往往固定、难以按需求切换;SALMON 试图把“奖励偏好”本身做成可被语言描述和控制的对象,从而降低对人工闭环的依赖。
大语言模型的知识编辑(knowledge editing)在需要同时修改大量事实时效果急剧下降——现有方法要么一次只能改少量事实,要么批量编辑后模型性能严重退化。本文用元学习(meta-learning)来实现大规模批量编辑。
现有的音频-语言模型要么只处理语音,要么只处理非语音音频(如音乐、环境声),缺乏统一的「通用听觉」能力。SALMONN 旨在让 LLM 同时具备语音理解和通用音频理解能力。
这篇论文要解决的是:如何在不显著牺牲通用能力的前提下,通过微调让语言模型更“事实可靠”(factuality),而不是只在特定基准上做表面校准。过去常见做法是用偏好对齐或检索增强来缓解幻觉,但微调信号往往混杂“有用性/礼貌性/风格”,导致事实性提升不稳定且难以诊断。
这篇论文要解决的是:能否在LLM内部找到可复用、可组合的“功能向量”(function vectors)来表示某种操作/能力,并用向量编辑来触发或抑制该功能。过去的激活编辑(如steering vector)往往是经验性的单任务技巧,缺少对“功能是否稳定、是否可迁移、是否会产生副作用”的系统刻画。
这篇论文要解决的是:在图像生成/编辑中可靠地产生多语言文字(visual text),并能在编辑时保持字体、排版与语义一致。过去的文生图模型对文字渲染普遍不稳定,尤其在非英语、多脚本语言与精细编辑场景下更容易乱码或语义漂移。
这篇论文要解决的是:仅靠扩大VLM规模与数据,是否会自然涌现对“视觉数据类型”(如图表、表格、示意图、UI、地图等非自然图像)的理解能力。社区里常默认scale能补齐能力缺口,但这类数据的生成机制与自然图像差异很大,可能需要不同的表征与监督。
这篇工作要解决的是:如何把多个 LLM 中分散且可能冲突的知识融合到一个模型里,而不是简单做 ensemble 或继续混训。过去常见做法要么推理时集成,成本高;要么拿一个模型继续在另一个模型数据上训练,容易遗忘、冲突放大,且融合效果不可控。
这篇工作讨论的是:DPO 为什么要被固定写成 reverse KL 约束,是否可以推广到更一般的 divergence family。此前 DPO 的吸引力在于简单、稳定、无需显式 reward model,但它默认的 reverse KL 偏好会影响策略更新形状,带来模式保守或分布偏置的问题。
LLM 在特定任务上 fine-tuning 后,通用能力往往退化(specialization-generalization trade-off)。之前的缓解方法(如数据混合、正则化)要么效果有限,要么需要额外数据。
如何将一个已训练好的小模型无损扩展为更大模型(增加宽度或深度),使得扩展后的大模型在功能上与原模型完全等价,从而可以直接继续训练而不浪费已有的训练计算?之前的方法(如 Net2Net、StackBERT)要么只支持宽度扩展,要么扩展后有性能损失。
评估指令微调后的 LLM 质量依赖人工评估,成本高且不可扩展。现有自动评估方法(如 GPT-4 打分)缺乏透明性和可控性。PandaLM 要提供一个开源、可复现的 LLM 自动评估器。
这篇论文要解决的是:语言模型做归纳推理时,直接“生成答案”往往把搜索空间压扁成单一路径,导致在需要提出并检验假设的任务上不稳。以往做法要么靠 CoT 让模型自发写推理链,要么用外部搜索/工具,但缺少一个把“提出假设—验证—迭代”结构化进推理流程的通用方法。
这篇论文要解决的是:Transformer 训练的显存瓶颈很大一部分来自激活(activations),尤其在长上下文与大 batch 下,如何在低精度训练中进一步压缩激活而不显著伤害收敛。常见做法是 activation checkpointing 或更激进的量化,但前者增加算力、后者容易引入不稳定。
这篇论文要解决的问题是:现有 LLM tokenizer 对数字切分很差,导致数字表示稀碎、长度膨胀、模式学习困难。过去多数模型沿用通用 BPE/SentencePiece,把数字当普通字符串处理,这对自然语言够用,但对计算、表格、金融和代码里高频数值模式并不理想。
这篇论文要解决的问题是:单个 LoRA 适配器容量有限,面对多任务或输入分布差异时容易出现共享不足与干扰,而全量 MoE 微调又太重。过去常见做法是堆多个 LoRA、做路由选择,或者直接增加 rank,但要么参数效率不够好,要么难以动态适配不同样本。
这篇论文要解决的问题是:现有 LLM agent benchmark 往往过于狭窄,要么偏单轮 QA,要么环境封闭、任务模板化,难以评估“智能体”所需的规划、记忆、试错和长期决策能力。随着 LLM 被拿来做 agent,缺 benchmark 已经成了研究瓶颈。
采用COT推理的LLM存在后门攻击风险,传统后门攻击需要污染训练数据或修改模型参数,无法针对仅提供API访问的商用LLM生效,此前没有针对COT场景的黑盒后门攻击方案。
现有LLM置信度提取方法多依赖白盒访问模型内部信息或微调,不适用于闭源商用API,此前没有系统性的黑盒置信度提取方法评测框架。
这篇论文要解决的是:如何把“大模型学到的表示与能力”更直接地迁移到小模型初始化里,而不是只靠蒸馏或从头训练。传统做法要么训练成本高(从零训小模型),要么迁移效率低/不稳定(蒸馏依赖数据与教师行为)。
这篇论文要解决的是:RAG 往往把检索到的长上下文原样塞进模型,导致注意力被噪声稀释、成本上升、甚至引入与问题无关的干扰。过去常见做法是“更强检索/更长上下文”,但这会把问题推给上下文窗口与推理稳定性。
这篇论文要解决的是:LLM 剪枝常见的“全局稀疏”或“按层同配额稀疏”会把容量从关键模块里误删,导致质量掉得比算力省得更快。以往剪枝方法往往缺少对不同 block(层/子模块)重要性的精细分配。
这篇论文要解决的是:LoRA 微调与量化经常彼此“打架”,直接在量化权重上加低秩更新会导致量化误差放大或训练不稳定。过去的次优解是先 LoRA 再量化或用经验性 QAT,但缺少针对 LoRA 结构的量化感知设计。
这篇论文研究的是 ICL 为什么会从示例重复中获益,以及这种现象说明了什么。过去很多 ICL 解释关注梯度下降类隐式学习、模式匹配或贝叶斯推断,但对一个很具体又常见的现象——重复 few-shot exemplars 为什么会改变行为——缺少系统理解。
这篇论文研究的是 Transformer 怎样更好地学习‘学习算法’本身,而不只是拟合任务输入输出映射。标准堆深 Transformer 在元学习或 algorithmic in-context learning 场景下常常能做出结果,但学到的更新过程不稳定、泛化差,也不容易对应到迭代求解器的结构。
传统RLHF依赖人类标注的偏好数据,成本高且扩展性差,RLAIF等无人工反馈方法的偏好对区分度低,训练的奖励模型质量差,此前没有高质量的无人工反馈对齐方案。
LoRA微调LLM在小数据集上容易过拟合、输出过自信,校准差,传统贝叶斯方法计算成本高,无法适配大模型PEFT流程,此前没有轻量的LoRA校准方案。
现有LLM的上下文学习泛化性和事实性不足,此前的优化多集中在prompt工程或模型微调,没有利用任务特定微调模型(SLM)的有监督知识在推理阶段增强ICL性能。
这篇论文要解决的是:LLM 在“类比推理(analogical reasoning)”上表现不稳定,常把表面相似当结构相似,导致迁移失败。过去很多工作用少量类比题做评测或用 CoT 提示增强,但缺少对“类比能力”可控训练与可解释诊断。
这篇论文要解决的是:RAG 模型对“无关检索上下文”非常脆弱,常把噪声当证据并自信输出,导致事实性与可控性下降。过去很多工作默认检索结果大体相关,把主要精力放在更强检索器或更大生成器上。
这篇工作的核心问题是:高质量数学指令数据太贵、太少,导致 LLM 的数学能力提升长期受限于人工标注瓶颈。过去常见做法是人工收集题目或从现有竞赛数据扩充,但规模、难度覆盖和解题轨迹多样性都不够,因此模型很难靠 SFT 获得稳定的数学泛化能力。
这篇工作要解决的是:我们对 LLM 世界知识的评测长期被污染,很多 benchmark 混合了检索线索、模板偏差和任务技巧,测出来的不完全是“知道什么”,而是“会不会做这个题”。过去大家常用问答或选择题数据集做代理,但这些数据很难区分知识覆盖、知识更新、表述鲁棒性和推理干扰,因此结论经常不稳定。
这篇工作要解决的是 LLM 推理成本过高,而全量二值化又会严重破坏语言建模能力,因此需要在压缩率和性能之间找到更现实的折中。过去二值网络在视觉小模型上有一定进展,但直接搬到大语言模型通常损失过大,因为注意力、前馈层和嵌入层对量化误差的敏感性并不一致。
如何提升开源 LLM 的通用数学推理能力。以往模型通常只依赖单一的推理路径(如纯文本 CoT 或纯代码 PoT),导致在不同类型的数学问题上表现不均,且难以充分利用外部工具。
如何在极低参数更新量下实现高效的指令微调。传统的 MoE 架构在扩展时面临巨大的内存开销,而现有的 PEFT 方法(如 LoRA)在复杂任务上的表达能力有限。
LoRA 在实践中取得了巨大成功,但其理论基础(特别是表达能力)一直未被充分探索。需要从理论上回答:低秩矩阵的更新到底能多大程度上逼近目标模型?
这篇工作要解决的是“代码表征预训练怎么在更大规模上做得更稳、更通用”,因为以往代码模型要么规模受限、要么只在少数语言/任务上有效,导致迁移与泛化不可靠。
这篇工作要解决的是“在不全参微调的情况下,把 LLaMA 这类大模型高效适配到新任务/新模态”的问题,因为 LoRA/Adapter 虽省参数,但在注意力路径上如何稳定注入新能力仍有训练不稳与容量受限。
这篇工作要解决的是“activation patching 在语言模型机制分析里被广泛使用,但度量与操作细节不统一,导致结论不稳且难复现”的问题,因为不同 patch 位置、归一化方式与指标会给出相互矛盾的因果归因。
这篇工作研究的核心问题是:语言模型 finetuning 过程中,模型到底学到了什么、又忘掉了什么。过去大家常用最终指标判断微调是否成功,但这会掩盖一个更关键的问题:性能提升可能来自局部能力重写,而不是稳定增量学习;同样,灾难性遗忘也常被平均指标掩盖。
这篇工作要解决的是语音语言模型缺少一个统一、可复用的 speech tokenizer。过去语音建模通常把语义、声学、说话人等信息分别交给不同离散器或多级 token 体系,虽然能做任务,但接口分裂、训练复杂,而且很难像文本 tokenizer 一样成为通用基础设施。
LLM 对齐通常需要大量人类偏好数据,本文要解决的是:如何在只有少量(few-shot)偏好示例的情况下,让模型快速适配特定群体或个体的偏好风格。传统 RLHF/DPO 需要大规模标注,对小众偏好群体不现实。
LLM 在多选题评测中对选项顺序高度敏感——仅仅交换选项位置就能显著改变模型答案。这意味着当前基于多选格式的 benchmark 结果可能不可靠。
核心是给“语言智能体的社交智能”做可交互、可复现的评测环境,而不是用静态问答或单轮打分去近似。过去社交能力评测常被离线基准替代,导致模型学会迎合格式但不一定会在多轮互动中维持一致的人设、目标与策略。
要解决的是VLM在生成描述时“凭空编造物体”(object hallucination)的问题,并把它从现象描述推进到可诊断、可缓解的训练/推理改动。过去很多方法只在解码端做约束或用人评打分,难以定位是视觉表征、对齐损失还是语言先验导致的。
核心是让speculative decoding更稳:草稿模型(draft)如果分布和目标大模型差太远,会导致大量token被拒绝,吞吐提升打折。以往主要靠“更大/更强的draft”或经验性调参,但没有直接优化draft去匹配目标模型的接受率。
核心是把LLM的上下文窗口高效扩展到更长长度,同时避免直接长序列训练带来的算力爆炸与不稳定。过去常见做法是插值/外推位置编码或直接继续训练长上下文,但前者容易退化、后者成本高且容易出现训练尖峰。
这篇工作的核心问题是:多模态预训练通常按模态两两单独做,视频-文本、音频-文本、图像-文本各是一套,结果是能力难复用、扩展新模态成本高,而且跨模态迁移很弱。过去常见做法是为每种模态分别设计对齐头或单独训练对比学习目标,这在工程上能跑通,但无法形成统一语义空间。LanguageBind 试图把语言当成共同语义锚点,把视频预训练思路扩展到 N 个模态。
这篇工作聚焦一个很现实的问题:用于训练 harmless language model 的安全数据并不天然可信,很多样本标签、风险强度和拒答边界本身就有噪声,结果模型学到的是不稳定甚至自相矛盾的安全行为。过去大家更多关注安全训练目标和拒答模板,却较少系统检查‘训练数据到底有多可信’。这篇论文试图先把数据可信度问题显性化,再讨论如何改进。
这篇论文要解决的是:在不知道“要忘哪些标签/类别”的前提下,让模型对指定训练样本实现可验证的遗忘(unlearning),而不是依赖带标签的监督信号或重训。以往很多 unlearning 方法默认你能用标签定义要删的概念或用任务损失做对齐,但在真实数据删除请求里往往只有样本集合、没有可靠标签。
这篇论文要解释的是:深度网络训练中为何会出现“特征塌缩”(feature collapse),即不同输入在中间表征上变得不可区分,从而导致泛化或表示学习失败。以往很多讨论停留在经验现象或特定自监督损失上,缺少更一般的机制刻画。
这篇论文要解决的是:如何把 LLM 可靠地接入自动化程序验证(program verification)流程,让模型的生成能力提升证明效率,但不把验证正确性让渡给模型的“猜”。传统验证工具强但交互成本高;纯 LLM 生成又缺乏可证明的可靠性。
这篇论文要解决的是:多智能体辩论(multi-agent debate)在自然语言通道上容易被冗长对话、提示注入或表面修辞干扰,导致协作信号噪声大。作者尝试让模型“用 embedding 说密语(ciphers)”,把辩论通信从文本换成连续向量。
这篇工作要解决的是:如何把多个各有所长的模型融合成一个更强的模型,而不是只做参数平均后碰运气。以往模型融合常见做法是 checkpoint averaging、task arithmetic 或 ensemble,但这些方法要么依赖模型处在相近 basin,要么推理成本高,要么很难在互补能力明显时稳定保留各自专长,因此“低成本保留互补性”的模型融合仍是开放问题。
这篇工作要解决的是:通用基础模型在低层视觉任务上到底行不行,以及现有评测为什么经常测不准。过去大模型在高层视觉理解上进展很快,但去噪、去模糊、超分、压缩伪影去除这类 low-level vision 对感知细节非常敏感,通用模型常常表现不稳定,而评测也缺少统一、覆盖真实失真的 benchmark。
这篇工作要解决的是:神经网络训练是否一定需要标准的前向+反向传播两阶段,还是可以用一次前向就完成参数更新所需的估计。传统 backprop 的问题不是理论上不对,而是在某些硬件、在线学习或生物合理性设定下成本高、依赖全局梯度链路,因此“一次前向训练”是一个长期存在但很难做准的目标。
这篇工作要解决的是:现有 LLM 工具使用评测大多是单轮、静态、结果导向的,不能真实反映模型在多轮交互中接收工具反馈、语言反馈、修正策略的能力。随着 agent 式用法增多,这个缺口越来越明显,因为真实系统失败往往不是不会调用工具,而是不会在反馈后迭代。
LLM 在表格推理任务中,传统 chain-of-thought 用自然语言描述中间推理步骤,但表格数据的结构化特性使得自然语言推理链容易丢失结构信息、产生幻觉。Chain-of-Table 提出让推理链中的中间状态本身就是表格,而非文字描述。
稀疏化 LLM(如经过剪枝的模型)在推理效率上有优势,但性能恢复通常需要额外的微调训练。本文提出 Dynamic Sparse No Training (DSnoT),在不做任何训练的情况下对稀疏 LLM 进行性能恢复。
仓库级别的代码自动补全缺乏标准化的评测基准。现有代码补全 benchmark 大多聚焦于单文件或函数级别,无法反映真实开发中跨文件依赖、长上下文的仓库级补全场景。RepoBench 填补了这一空白。
这篇论文要解决的是:现有对文生图模型的“概念擦除/去除”(concept erasure)方法往往被当作安全与版权治理手段,但它们是否真的能阻止目标概念被生成,还是只是在特定提示下失效更少。过去很多工作用有限的 prompt 集合评估擦除效果,容易高估鲁棒性。
这篇论文要解决的是:时间序列预测通常需要专门的时序模型与特征工程,而作者想验证“冻结的大语言模型能否通过重编程(reprogramming)在不改动主体参数的情况下做时序预测”。过去把 LLM 用在时序上常见两条路:直接把数值离散成 token(信息损失大),或训练一个新模型(成本高)。
这篇论文要解决的是:多模态 LLM 往往能做零样本任务,但对“示范式指令”(demonstrative instructions,即给一两个示例让模型照着做)的遵循不稳定,尤其在跨模态输入(图像+文本)时更明显。以往常用的 SFT 更偏“指令-回答”对齐,未必强化了从示例中抽取规则并泛化的能力。
这篇论文要解决的是:大模型微调的主要成本来自反向传播的激活存储与梯度计算,但多数节省算力的方法要么牺牲收敛(如过度降精度/裁剪),要么需要改模型结构。作者关注的是能否在不显著伤精度的情况下,让反传“按需发生”。
这篇论文要解决的是:现有越狱(jailbreak)研究多集中在英文,导致我们对多语言场景下的安全边界缺乏认识;但真实产品面对的是多语言输入,攻击者也会利用低资源语言或混合语言绕过对齐。过去的对齐与红队数据往往语言覆盖不足。
这篇论文要解决的是:LLM 是否能在推理时“现场学会”一种新语言(以壮语 Zhuang 为例),而不是依赖预训练已覆盖的语言知识。以往跨语言能力更多被当作预训练语料覆盖带来的副产物,但对低资源语言,产品常希望靠少量上下文快速适配。
这篇论文要解决的是:RLHF 往往被当作一次性对齐流程,但真实系统需要持续迭代(continual learning),而持续 RLHF 容易出现遗忘、奖励漂移与策略崩塌。过去常见做法是混合旧数据回放或定期重训,但成本高且不稳定。
这篇论文要解决的是:幻觉检测通常依赖外部检索或额外判别器,但作者关注的是“模型内部状态是否已经包含足够信号”,从而在不增加外部工具的情况下检测幻觉。过去很多工作只看输出文本或 logits,忽略了中间层表征可能更早暴露不确定性与编造倾向。
这篇论文关注的问题是:如何把声学信息更有效地接入 LLM 做 ASR,而不是把语音只当成前端 encoder 的中间特征。已有 LLM-based ASR 常见做法是在输入端早期融合音频表示,但一旦语言模型已经开始生成文本,后续层对声学证据的访问会变弱,容易在同音词、长尾词或噪声场景下被语言先验带偏。
这篇论文讨论的问题是:预训练数据里的标签噪声会如何影响下游任务,以及如何缓解这种影响。过去很多工作默认大规模预训练能“平均掉”噪声,但这并不总成立;尤其当下游任务数据少、类别细、或预训练标签系统性偏移时,噪声会在表征里留下持久偏差。
Transformer 的优化理论极难分析(非凸、非线性 softmax attention),现有理论要么只能处理极简设定,要么依赖不现实的假设。作者提出用 linear attention 作为理论代理模型来理解 Transformer 的优化行为——线性 attention 去掉了 softmax 的非线性,但保留了 key-query-value 的双线性结构,使得梯度下降的收敛性可以严格分析。
Prompt engineering 的成功看起来很神秘——为什么措辞的微小变化就能大幅改变 LLM 输出?有人认为这需要新的泛化理论来解释。本文论证的是:不需要。经典的 PAC-Bayes / 压缩泛化理论框架已经足以解释 prompt 对模型行为的影响,不必引入新范式。
标准 softmax attention 只能捕获 token 对之间的二阶相关性(Q·K 的内积)。如果想捕获更高阶的 token 相关性(如三个 token 之间的联合关系),直接扩展会导致计算量指数爆炸。本文研究如何用 Kronecker 积结构高效地实现高阶 attention。
分布式训练中,worker 节点可能出现故障(crash、返回错误梯度)或使用 augmented loss(如正则化、对抗训练导致的异构梯度)。现有的 Byzantine-robust 聚合方法要么不能同时处理这两种情况,要么扩展性差。本文提出一种基于凸优化的梯度聚合方法,同时应对故障和异构 loss。
对比学习(contrastive learning)需要多少样本才能学到好的表示?之前的样本复杂度分析要么过于宽松,要么依赖特定架构假设。本文给出了对比学习在一般设定下的最优样本复杂度的紧致界。
这篇论文要解决的是:LLM 压缩常依赖非结构化剪枝或量化,虽然参数少了但硬件不一定更快,而结构化删减又容易伤精度。以往常见做法是按通道/头剪枝或低秩分解,但需要复杂的重训练与工程适配。
这篇论文要解决的是:对齐训练里“偏好反馈怎么采集”常被当成黑箱,但不同采集策略会系统性改变学到的价值观与泛化。以往很多工作默认随机采样对比对或用单一打分器,但这会浪费标注预算,且可能放大某些偏差。
这篇论文要解决的是:检测机器生成文本在零样本场景下既要准又要快,而很多方法要么依赖外部分类器训练,要么需要大量采样估计,推理成本高。过去 DetectGPT 一类方法用扰动采样看 logprob 曲率,但采样开销限制了落地。
这篇论文要解决的是:Transformer encoder 在“硬注意力(hard attention)”约束下到底能识别哪些形式语言(logical/formal languages),以及其表达能力边界在哪里。以往关于 Transformer 表达能力的结论常依赖软注意力与实数计算假设,难以对应到更离散、更可验证的计算模型。
这篇论文讨论一个越来越现实的问题:生成模型如果反复用自己生成的数据继续训练,系统会不会稳定,还是会逐步塌缩。过去大家对 model collapse 有很多经验性担忧,但更缺的是对“迭代自举训练”何时稳定、何时失真的系统分析。
这篇论文解决的是视频场景下的 grounded reasoning:语言模型能不能先看清视频内容、记住关键时序事件,再基于这些证据做推理。过去很多视频问答系统要么偏检索和匹配,要么只做短窗口感知,导致一旦问题需要跨片段整合、事件回忆或链式判断,性能就明显掉。
这篇论文要研究的是 ICL 的动态过程,而不是只看最终准确率:当 Transformer 在随机二进制序列上做上下文学习时,它是如何一步步形成预测策略的。过去很多 ICL 工作用较复杂任务来证明‘模型能做’,但复杂任务很难反推出学习轨迹,因此我们仍不清楚训练中哪些结构会先出现、哪些能力只是后期偶然涌现。
这篇论文解决的是学术文档 OCR 的一个长期痛点:不仅要识别文字,还要恢复文档的语义结构,尤其是数学公式、表格、版面和阅读顺序。传统 OCR 或文档解析流水线往往把检测、识别、结构恢复拆成多阶段,导致误差累积;对科研 PDF 来说,最后需要的往往不是纯文本,而是可继续处理的结构化标记。
窗口注意力(window attention)与位置编码插值(position embedding interpolation)之间存在一个被广泛忽视的兼容性 bug:当对绝对位置编码做插值以扩展分辨率时,窗口内的相对位置关系会被破坏,导致性能显著下降。此前大量 ViT 工作在微调到更高分辨率时直接插值位置编码,却没有意识到窗口注意力场景下这种做法是错误的。
深度方向的超参数迁移(depthwise hyperparameter transfer)问题:当残差网络的深度增加时,学习率等超参数能否自动迁移而不需要重新调参?此前 µP(maximal update parameterization)解决了宽度方向的迁移,但深度方向的理论和实践都不完善。
Quality-Diversity(QD)算法需要手工设计适应度函数和多样性度量,这在开放域文本生成等场景中很难做到。作者提出用 AI 反馈(LLM 作为评判者)来替代人工设计的适应度和多样性信号,使 QD 方法能应用于 LLM 生成的开放域任务。
传统的文本生成是逐 token 从词表中选择,但对于知识密集型任务(如实体名、数字、引用),这种方式容易产生幻觉。本文提出将生成过程重新定义为从语料库中检索 token 片段,使生成过程天然有据可查。
这篇论文要解决的是:用 LLM 当评测器(LLM-as-a-judge)时,单模型单轮打分容易受提示词、位置偏置、以及模型自身偏好影响,导致评测噪声大且可被“迎合评测器”的输出利用。作者把问题定位为:评测需要更强的对抗性与自校验机制,而不是更长的 rubric。
这篇论文要解决的是:书籍级长文摘要缺少系统化基准与可复现实验设置,导致大家用零散数据集和不一致指标,很难判断 LLM 在“跨章节一致性、信息覆盖、幻觉控制”上的真实能力。作者把问题定位为:需要一个面向 book-length 的任务定义、数据与评测协议。
这篇论文要解决的是:Transformer 在算法任务(这里是最大公约数 GCD)上能给出正确输出,但我们很难解释它到底学到了什么内部算法,还是在做模式匹配。作者选择 GCD 是因为它有清晰的经典算法(欧几里得算法)可对照,适合做机制分析。
这篇论文要解决的是:用 LLM 做数学自动形式化(autoformalization)时,大家常把失败归因于模型能力不足,但实际上微调数据的质量、对齐方式(指令格式、偏好、验证信号)可能是主要瓶颈。作者做系统研究,试图回答“数据质量 vs 对齐策略”各自贡献多大。
这篇工作研究的是:数据蒸馏是否能通过多轮迭代继续提升合成数据质量,而不是像很多工作默认那样一轮蒸馏后收益就基本封顶。过去数据蒸馏常被当作一次性压缩过程,但如果蒸馏数据本身也能作为下一轮教师训练的起点,那么“迭代蒸馏会不会越蒸越好”就是值得验证的问题。
这篇工作要回答的是:CLIP 的可迁移表征和 zero-shot transfer 到底来自哪里,哪些因素决定了它能泛化到没见过的任务,而不是把现象归因停留在“图文对比学习有效”。过去对 CLIP 的解释多是经验性的,但对于预训练来说,弄清 transfer 的成因比单纯刷榜更重要。
这篇工作要解决的是:LLM 遇到复杂推理或规划题时,单次 Chain-of-Thought 常常走错后就一路错下去,缺少像人类一样的试错搜索机制。过去大家主要靠 self-consistency 多采样或 tree search 扩展推理,但代价高,且不一定能把错误反馈真正用于后续思考。
这篇工作要解决的是:指令微调模型的质量,是否可以在显著减少数据量的前提下仍然提升,而不是默认“更多 SFT 数据总更好”。Alpaca 这一路工作证明了合成指令数据能起作用,但数据噪声、冗余和配比问题始终存在,因此“更少但更有效”的指令数据构造很有现实价值。
单个 LLM Agent 在处理复杂任务时能力有限,如何设计一个框架来协调多个 Agent 协作,以实现“1+1>2”的效果,并探索多 Agent 系统中的涌现行为。
多模态大语言模型(MLLMs)在引入更多模态和下游任务时,会面临严重的任务冲突和干扰(Task Interference),导致性能下降。以往工作往往忽视了这一现象。
现有的 LLM 对齐方法通常依赖于人类标注的完美指令-回复对(如 SFT),这使得模型难以从自身的错误中学习,且在面对诱导性问题时容易生成有害内容。
在特定领域语料上进行继续预训练(Continued Pre-training)虽然能注入领域知识,但会严重破坏模型原有的 Prompting 和问答能力(即灾难性遗忘或格式偏移)。
这篇工作要解决的是:能否把一个网络在训练过程中“学到的轨迹”(参数随时间的演化规律)迁移到另一个网络/任务上,从而减少从头训练的成本。以往迁移学习主要迁移最终权重或特征,而训练轨迹通常被当作不可复用的“过程噪声”,因此很少被系统化利用。
这篇工作要解决的是:具身智能里的“语言驱动任务规划器”缺少统一、可复现的评测,导致不同论文的 planner 很难横向比较。过去常用各自的环境、脚本与成功率口径,评测噪声大且容易过拟合特定任务集。
这篇工作要解决的是:图文表征学习里,常见的确定性 embedding(如 CLIP 的点向量)难以表达不确定性与多义性,导致在检索、对齐与下游迁移时对噪声标注和分布偏移更脆弱。过去的概率表征要么训练不稳,要么与大规模对比学习结合不紧。
这篇工作要解决的是:模型合并(model merging)常用简单权重平均或 task arithmetic,但在分布差异或能力不对齐时容易互相干扰,导致性能回退。过去缺少一个能“按不确定性选择性对齐更新方向”的合并准则。
这篇论文要解决的是:RLHF 在提升有用性时,往往把安全性当成事后约束,导致模型容易通过奖励漏洞学会“更会迎合但不更安全”。过去常见做法是先训一个帮助性 reward model,再靠拒答数据、规则过滤或额外安全分类器补洞;这类管线能用,但目标不统一,训练时帮助性和安全性会互相拉扯,且很难保证策略优化过程本身不朝危险区域漂移。
这篇论文要解决的是:我们常说语言模型有“代理性”或“目标导向行为”,但多数评测只看静态问答,难以区分它是在续写模式里模仿,还是在交互中稳定追求某个目标。谈判场景之所以合适,是因为它天然包含利益冲突、长期策略、信息隐藏和让步节奏,比单轮指令更容易暴露模型是否具备连贯策略。
这篇论文关注一个很实际的问题:如何在不重新训练模型、也不引入复杂解码器的前提下,对生成属性做可控调节。传统做法要么训专门控制模型,要么靠 prompt engineering 碰运气,要么在采样时加 classifier guidance;这些方法要么成本高,要么控制不稳定。
这篇论文解决的是视觉 tokenizer 或视觉表征学习里一个长期难点:如何让模型在没有强监督对象标注的情况下,自发形成更接近“感知单元”的 token,而不是只做固定网格 patch 切分。固定 patch 对 Transformer 很方便,但它把边界、部件和对象结构都打碎了,导致后续建模必须先学会再聚合,效率并不高。
大小 LLM 之间存在质量-成本的权衡:大模型质量好但贵,小模型便宜但质量差。之前的做法要么全用大模型,要么用简单规则分流,缺乏系统化的路由策略来在保证质量的前提下最大化成本节省。
语音到语音翻译(S2ST)传统上依赖级联系统(ASR→MT→TTS),误差逐级累积且延迟高。端到端方法虽然避免了级联,但在翻译质量上往往不如级联系统。PolyVoice 试图用语言模型来统一建模这个流程,兼顾质量和端到端的优势。
Grokking 现象——模型先记忆训练数据再突然泛化——的机制仍不清楚。特别是当训练数据中存在噪声/损坏时,记忆和泛化之间的竞争动态如何变化?这篇工作通过在算法数据集上引入可控的标签损坏来解耦这两种行为。
Transformer 在建模层次结构(如嵌套括号、递归语法)时存在已知的理论和实践困难——标准 attention 本质上是平坦的序列操作,缺乏显式的栈(stack)机制。Stack Attention 试图在 Transformer 中引入可微的栈操作,增强其建模层次模式的能力。
长时域机器人任务规划需要将高层语言指令分解为可执行的动作序列,但纯语言规划缺乏对物理世界的视觉接地(grounding)。Video Language Planning 用视频生成模型来做规划——先'想象'出完成任务的视频,再从视频中提取动作。
这篇论文要解决的是:LLM 的“伦理价值取向”很难被系统性地识别、对齐和在不同价值维度间导航,而现有做法多停留在单一安全指标或零散红队测试,缺少可操作的价值坐标系与可控的训练手段。
这篇论文要解决的是:二阶/预条件优化在深度学习里要么太贵(全矩阵),要么太粗(对角/分块),导致训练稳定性与收敛速度难以兼得,而现有 Kronecker/轴向预条件器通常只能覆盖部分结构。
这篇论文要解决的是:LLM 的碳足迹常被简化成“训练耗电”,但真实端到端影响还包括数据处理、硬件制造/折旧、推理与服务等环节,导致不同方案的环境成本无法公平比较。
这篇论文要解决的是:机器遗忘(unlearning)常需要昂贵的再训练或会显著伤害模型效用,而现有近似遗忘方法在分类与生成模型上往往不统一、也缺少可解释的“该改哪些权重”。
这篇论文要解决的是:LLM 很难直接消费图结构数据,常见做法要么用专门 GNN(失去语言接口),要么把图粗暴线性化(丢结构),导致“用 LLM 做图推理”效果不稳且不可扩展。
这篇论文要解决的问题很直接:通用 LLM 的知识覆盖不完整,但重新预训练或全面微调代价太高,因此如何用可插拔模块补齐知识空洞。过去常见做法是 RAG 或 domain finetune;前者受检索与融合质量限制,后者难以模块化复用,也容易牺牲原模型能力。
这篇论文关注 prompt 对模型输出的影响到底来自哪里,以及这种影响能否被显式操控。过去 prompt engineering 很有效,但多数工作停留在经验技巧层面,缺少对“哪些 token、哪些位置、哪些表述真正改变了模型决策”的细粒度解释,因此很难做稳定优化,也难以做安全控制。
这篇论文提出一个难度适中的奥数数学数据集,核心问题是现有数学 benchmark 两头失衡:普通 school math 太简单,国际奥赛原题又过难、样本少且不利于稳定评估。结果是模型要么很快刷满分,要么几乎做不动,中间缺少能反映推理增益的数据带。
这篇论文解决的是 instruction-based image editing 中一个常见瓶颈:文本编辑指令往往涉及视觉细节、局部区域和语义约束,单靠传统文本编码器很难充分解析,因此编辑模型经常“听懂一半”。过去方案多把多模态理解和图像编辑分开做,导致编辑器对复杂指令的 grounded understanding 不够强。
为什么在没有平行语料(Parallel Data)的情况下,多语言 LLM 依然能展现出强大的翻译能力?以往研究认为这归功于预训练数据中偶然存在的句子级双语对,但即使剔除这些数据,翻译能力依然存在。
现有VLM软提示调优方案普遍忽略软提示向量的范数对下游性能的影响,没有针对性的范数约束设计,导致软提示调优的性能存在可优化空间。
现有自主网页导航方案依赖数十亿次在线强化学习探索,且采用领域定制架构,无法利用域外通用数据的泛化能力,训练成本高、跨场景泛化差。
现有文本到图像扩散模型的应用局限于生成任务,通用视觉识别任务仍需为每个任务定制架构和损失函数,没有统一的任务接口。
现有扩散类文本生成图像模型在处理描述多对象复杂场景的长提示时,无法忠实还原所有细节,仅在短单对象提示上表现稳定。
大规模预训练VL模型更新新数据需要全量重训,成本极高,且此前没有大规模时序持续学习基准来评估这类模型的时序泛化性,无法验证低成本持续训练方案的效果。
作者要解决的是:现有音频-语言模型在“组合式推理”(compositional reasoning)上明显短板,模型能识别单一声音事件或做粗粒度对齐,但难以把多个音频属性按语言指令组合起来完成推理。
作者要解决的是:语言模型训练是否必须以“预测下一个 token”(带 LM head 的 softmax 分类)为核心目标;传统 AR 训练把表示学习与词表分类头绑定,导致参数与训练信号耦合得很死。
作者要解决的是:灾难性遗忘(catastrophic forgetting)到底如何同时受“任务相似度”和“过参数化程度”影响;以往经验结论分散,且很难用一个可计算的模型把两者的交互讲清楚。
这篇工作要解决的问题是:LLM 在推理、事实查询和代码执行这类可外部验证的任务上,第一次回答错了之后通常不会真正自我纠错。过去很多“self-correction”方法只是让模型重新生成一遍,缺少新的证据输入,所以常常只是换一种方式重复原来的错误;CRITIC 试图把工具反馈引入纠错闭环,让“批判—验证—修正”变成可执行过程。
这篇工作要解决的问题是:数学题求解里,纯语言模型容易在长链推理和符号计算之间来回出错。以往做法要么只靠 CoT 文本推理,要么把程序工具硬拼进去但缺少统一调度;ToRA 想解决的是让模型在“自然语言推理”和“外部工具计算”之间更稳定地分工协作。
数据集蒸馏(dataset distillation)旨在把大数据集压缩成小的合成数据集,但现有轨迹匹配方法在蒸馏比例提高时性能下降严重。本文认为原因是蒸馏数据没有覆盖不同难度的样本。
LLM 的性能高度依赖 prompt 质量,但手工设计 prompt 费时费力且不稳定。本文用进化算法(EA)驱动 LLM 自身来搜索和优化 prompt,实现自动化 prompt 工程。
大模型微调时显存占用巨大,LoRA 通过低秩分解降低参数量但仍需全精度存储原始权重。本文将量化和低秩分解统一到一个矩阵分解框架中,在极低比特下实现高效微调。
现有对齐方法(如 RLHF/DPO)主要依赖粗粒度的偏好信号(整条回复的好坏),忽略了回复内部不同片段的质量差异。本文探索如何利用细粒度质量信号来提升对齐效果。
In-context learning (ICL) 的工作机制仍不清楚。本文提出一个统一视角:ICL 中的 context 本质上扮演了因果推断中'环境变量'的角色,模型通过 context 识别出不同的数据生成机制,从而实现泛化。
给 LLM 分配 persona(如'你是一个保守派')是常见的 prompting 策略,但这可能引入隐式推理偏差——模型不仅改变了语气风格,还在逻辑推理任务上产生了与 persona 相关的系统性错误。
这篇论文要回答的是:在视觉-语言模型适配中,视觉 prompt tuning(只训练少量提示参数)到底何时足够、何时必须全量微调,过去社区常把“参数高效”当默认更优但缺少系统对照。由于 VLM 的分布偏移很大(新领域、新任务、新视觉风格),只看参数量往往掩盖了性能与稳定性的真实差异。
这篇工作要解决的是:Transformer 参数量不断上升,但简单共享层参数又常常伤害表达能力,如何在参数效率和层间功能分化之间找到更好的平衡。过去的 layer tying 往往是静态的——哪些层共享在训练前就定死;这会忽略不同阶段、不同层可能只在部分训练区间适合共享的事实。
这篇工作要解决的是:LLM 低比特权重量化时,少数 outlier channels 往往决定误差上限,直接均匀量化会被这些异常通道拖垮。过去很多方法通过缩放、剪枝、混合精度或 outlier migration 缓解,但通常仍在原通道维上处理问题。作者提出要重新思考 channel dimension 本身,把 outlier 更干净地隔离出来。
提示调优依赖敏感私有数据,本地部署大模型会侵犯模型所有者的知识产权,将数据发送给模型提供商又会泄露用户隐私,此前没有同时满足两方需求的方案。
现有多模态模型的零样本能力主要局限于英语,其他语言缺乏大规模高质量图文对数据,无法训练出效果相当的多模态模型,低资源语言多模态能力建设门槛极高。
现有基于LLM的ASR生成式纠错方案(GER)缺乏针对噪声场景的优化,直接应用在噪声条件下的ASR纠错效果差,此前噪声鲁棒ASR优化仍依赖微调底层ASR模型。
现有LLM水印技术普遍受限于水印强度与生成质量的固有trade-off假设,所有先前方案都会修改模型输出token分布导致质量下降,尚无方法完全消除该影响。
这篇论文要解决的是:标准 Transformer 的表示往往是单一粒度的 token 序列,缺少可递归组合的多粒度结构,导致在需要层次化组合(短语-句子-段落或局部-全局)的任务上效率与泛化受限。作者想在不放弃 Transformer 主干的前提下,引入递归组合的多粒度表示。
这篇论文要解决的是:持续生成式学习(continual generative learning)中模型会灾难性遗忘旧分布,而直接 replay 全量旧数据成本高且可能有隐私/存储约束。作者希望用“知识重建 + 反馈巩固”在较小 replay 预算下维持旧能力并学新知识。
这篇论文要解决的是:工具使用评测常把问题简化成“给定工具就用”,但真实 agent 需要先决定“要不要用工具、用哪个工具”,而这一步在现有 benchmark 里覆盖不足。作者提出 MetaTool 来专门评测 LLM 的工具选择与调用决策。
这篇论文要解决的是:生成式 AI 的“好坏”很难只靠小规模人工偏好数据来评估和优化,尤其在创意内容场景中,质量标准高度主观且随社区演化。过去 RLHF 或 reward model 往往依赖受控标注平台,数据规模有限、分布窄、社会性反馈弱;作者尝试利用真实线上创意社区的百万用户反馈,把更自然的社会奖励信号接入生成模型评估与改进。
这篇论文要解决的是 CLIP 一类对比式图文模型在训练时只看到 batch 内负样本,检索上下文过窄,导致表示学习对细粒度语义和长尾概念利用不足。过去大家靠更大 batch、队列或更大数据集弥补,但这些办法本质上还是被动地等相关样本同批出现,不能显式把“真正容易混淆的近邻”拉进训练过程。
这篇论文要回答的核心问题是:二阶优化到底在什么条件下会比一阶方法明显更快,而不是停留在“理论更好、实践未必”的泛泛讨论。过去关于二阶法的结论很分裂:理论上它利用曲率信息应当更高效,但在深度学习里计算、近似误差和噪声梯度往往吞掉收益,所以真正的适用边界一直不清楚。
这篇论文要解决的是生成模型可控性和可解释性不足:通常 latent space 学到的是高纠缠连续表示,用户很难通过人类概念直接操控生成结果。过去 concept bottleneck 主要用于判别模型,把中间层约束为可解释概念;但在生成模型里,这条路线较少被系统化,因为生成任务既要保真又要保留足够表达能力,概念约束很容易把模型做僵。
这篇论文要解决的是自回归语言模型生成时过度依赖局部 next-token 概率,导致全局一致性、约束满足和长程博弈式推理不足。传统解码如 greedy、beam search、sampling 都是在固定模型分布上做近似搜索,但如果生成可以被看成多个相互制约目标之间的均衡问题,仅靠逐 token 局部最大化可能不是合适视角。
这篇论文要解决的是一个机制层问题:微调为什么会改变模型在程序化定义任务上的能力,以及这种改变是重用原有电路、局部修补,还是重写了内部算法。过去关于 fine-tuning effects 的讨论大多停留在行为层面,比如准确率升降或遗忘现象,但缺少对“内部计算被如何改写”的可检验分析。
这篇论文要解决的是一个长期被低估的问题:生成式分类器虽然训练和推理都更重,但它们到底有哪些判别式分类器没有的性质,是否在鲁棒性、校准或分布外行为上存在系统优势。过去主流分类基本被 discriminative objective 主导,因为它直接优化 p(y|x) 更高效;生成式分类器优化 p(x,y) 或 p(x|y),通常被认为只是老路线,准确率未必占优,所以其独特性质没有被充分重新评估。
现有VLM评估基准依赖人工标注的固定数据集,只能衡量特定任务性能,无法评估VLM与人类智能、价值偏好的对齐程度,适配多模态大模型的评估能力严重滞后。
深度学习特征学习的理论解释不足,现有方法无法量化模型、数据、特征三者的交互关系,不同随机种子的模型学习到的特征差异的成因没有统一分析框架。
现有因果NLP数据集都依赖常识知识测试因果能力,无法衡量LLM从纯相关性信息中推理因果关系的原生能力,LLM的纯因果推理能力边界尚不明确。
这篇工作要解决的是:在“离线数据”条件下,能否用 in-context learning(ICL)做对手建模,从而在交互式/博弈式环境里预测对手策略而不依赖在线反复试探。以往对手建模通常要么依赖在线交互收集新轨迹,要么用显式参数化的对手模型做监督拟合,前者成本高且不稳定,后者在分布外对手上容易失效。
这篇工作要解决的是:缺少一个能在 zero-shot 条件下系统评估视频-语言模型(VLM)“语言理解 + 时间定位/时序指代”的基准,导致大家只在各自任务上报分数但难以比较。过去视频 VLM 评测常把语言理解与时间 grounding 混在一起,或者依赖特定数据集的训练,难以衡量模型原生能力。
这篇工作要解决的是:持续学习(continual learning)里如何在保持稀疏性(sparsity)的同时避免灾难性遗忘,并指出“合适的优化器”可能比复杂的记忆回放机制更关键。以往很多方法堆机制(replay、正则、动态结构),但训练稳定性与优化细节经常被低估。
这篇工作要解决的是:能否用一套统一、低人工干预的剪枝流程,在不同 Transformer 架构和任务上稳定拿到推理加速,而不是每个模型、每种压缩率都单独调一套 recipe。过去 Transformer 剪枝常见的问题是方法很多,但强依赖层级启发式、任务特定微调和繁琐超参搜索,导致研究上看起来有效,工程上却很难落地。
这篇工作要解决的是:在不显式训练大规模策略模型的情况下,如何把 alignment 信号直接用于推理时搜索,从而让语言模型输出更符合偏好或更有帮助。过去主流做法是 RLHF/DPO 这类参数更新方法,但它们成本高、容易把 reward 过早写死到模型里,而且测试时很难针对具体输入做动态控制。
这篇工作关注一个很实际的问题:指令微调后的 LLM 面对噪声、含糊或自相矛盾的指令时,能否在解码阶段先修正指令理解,再生成答案,而不是机械执行有缺陷的输入。过去这类问题通常靠数据增强或额外的 instruction rewriting 模块处理,但那要求额外训练,且很难覆盖开放环境里的噪声形式。
这篇工作解决的是:交互式 instruction-following agent 在持续与环境和用户交互时,数据分布会不断变,若还按静态离线训练假设处理,就会快速遗忘旧技能或跟不上新任务。过去 agent 学习多是先离线训好再上线,或者做很弱的在线更新,但这两者都不适合长期交互环境。
这篇工作的核心问题是:LLM watermark 常被宣传为可用于识别 AI 生成内容,但它们在真实环境下到底有多可靠,尤其是在改写、截断、采样变化和攻击存在时,还能不能稳健检测。过去很多 watermark 结果主要在理想化设置下成立,而实际部署要求同时满足低误报、抗编辑和跨模型可用,这几个目标往往互相冲突。
Transformer的FFN模块参数量占比超过一半,但现有可解释性研究主要聚焦注意力模块,对FFN的上下文建模作用和机制缺乏系统分析。
弱监督场景下的数据选择缺乏统计理论支撑,现有方法都是经验性设计,无法保证筛选出的小子集标注后训练的模型性能最优,也无法量化选择效果的理论边界。
现有检索增强LLM主要面向文本数据设计,在结构化表格数据上的推理效果差,无法处理大表、多表的开放域表格推理任务。
现有参数高效微调方法如LoRA受限于秩1分解的参数下界,压缩比例受模型架构和秩选择约束,无法实现更高的参数压缩率。
LoRA微调大模型时训练参数量仍过高,部署多任务/多用户适配模型时存储压力大,现有方案大多仅在单层层级优化低秩矩阵,未探索跨层共享的降本设计。
现有无参考图文描述评估指标(如CLIPScore)未经过系统的人类偏好对齐验证,且现有评估基准都忽略上下文对描述质量的影响,导致指标优化方向与实际人类需求脱节。
这篇论文聚焦于一个被持续学习社区长期低估的问题:当训练流中同时存在任务切换和伪相关特征时,模型的遗忘与泛化退化会被系统性放大。以往很多 continual learning 方法默认分布漂移主要来自任务本身,因此重点放在参数隔离、回放或正则化上,但没有把“模型持续依赖捷径特征”单独拿出来分析;这使得方法在含 spurious correlation 的环境里看起来能记住旧任务,却未必学到稳健规律。
这篇论文要解决的是:结构化矩阵能显著降低线性层和卷积层的参数与计算,但过去大多依赖人工指定结构,表达力和部署收益很难同时兼得。以前常见做法是预先选 Toeplitz、Circulant、Kronecker 等固定形式,再去适配任务;问题是结构一旦选错,就会把模型瓶颈写死,而全量稠密矩阵又太贵。
这篇论文要解决的是 dataset distillation 在 transfer learning 场景下不够好用的问题:传统蒸馏通常围绕单一监督任务优化合成样本,一旦换下游或改初始化,蒸馏集的价值就明显下降。以前这种问题常被回避,因为最容易做的是把少量 synthetic data 直接拟合某个分类器,而不是让它学出可迁移表征。
这篇论文直接追问一个和 in-context learning 数据构造密切相关的问题:示例一定要由人写吗,还是只要满足某些结构条件,机器生成 demonstration 也能同样甚至更好地触发 ICL?过去很多 prompt-based 研究默认高质量人类示例是关键资源,但这个假设成本高、可扩展性差,而且未必揭示了 ICL 真正依赖的信号。
现有大模型知识编辑方法仅关注编辑目标的准确率,未系统评估编辑带来的副作用,可能引入潜在的逻辑冲突或泛化错误,阻碍知识编辑的落地应用。
现有时序预测大多针对数值型数据,没有系统的文本未来预测建模范式,无法直接利用大模型的语言能力生成人类可理解的趋势预测。
现有半监督学习的伪标签选择策略多为预设规则或分类任务定制的人工策略,无法同时满足高质量标签、快速收敛、多任务适配的需求,存在确认偏差问题。
这篇论文要解决的是:对齐评测越来越依赖“LLM-as-a-judge”,但现有 judge 往往不可控、偏好不稳定、对提示词敏感,导致评测信号本身不可信。过去大家多用通用大模型直接打分或少量人工标注校准,但在跨任务/跨模型时容易漂移,因此需要一个“专门为对齐评测而训练的生成式裁判”。
这篇论文解决的是:文本生成模型在存在脏数据/噪声标注时训练会被少量极端样本主导,出现 loss spike、梯度爆炸或学到错误模式,而常规做法(清洗数据或简单截断 loss)要么成本高,要么会误伤难样本。
这篇论文要解决的是:多步推理常用 self-consistency(多次采样再投票)提升正确率,但 token 成本会线性甚至超线性增长,导致推理费用“上天”。过去大家要么固定采样次数,要么用启发式提前停,但缺少对“何时已经足够一致”的系统判据。
这篇论文要解决的是:把外部知识接入 LLM 时,RAG 往往把检索当作静态前处理,面对异构知识源(文档、表格、知识图谱等)时难以动态选择与融合,导致要么检索噪声大,要么知识覆盖不足。过去的次优方案是为每种源单独做管线或用固定融合策略。
这篇工作要解决的是:怎样让视频扩散模型真正受益于大语言模型的语义与推理能力,而不是只把文本编码器当成静态条件输入。此前视频生成大多依赖冻结的 CLIP/T5 类文本表征,能给出词级语义,但很难提供事件结构、物体关系和时间一致性,因此一到长指令、复杂场景或多步骤动作就容易漂。
这篇工作聚焦的核心问题是:RAG 系统不仅检索器和生成器容易错位,单独给生成器做指令微调也不足以教会模型在“何时检索、如何使用检索结果、如何拒绝无依据生成”上形成稳定行为。过去很多做法把 retriever 当外设,只调 reader,结果是端到端行为并不稳。
这篇工作讨论的是:Transformer 能不能只靠监督式预训练,在上下文中表现出类似强化学习决策的能力,而且还能给出理论证明。过去 decision transformer 一类方法展示了经验上的 in-context decision making,但缺少较完整的可证明解释,大家并不清楚它学到的是策略、记忆模板,还是某种近似 Bayes 规则。
这篇工作要解决的是:很多 base LLM 并不是没有能力,而是缺少被正确触发和引导的上下文;因此所谓 alignment 不一定都要靠重训练,还可以通过 in-context learning 去“解锁”已有能力。过去对齐通常默认要改参数,比如 SFT 或 RLHF,但这把“模型不会”和“模型没被唤起”混在了一起。
这篇工作要解决的是 Transformer 的一个核心扩展瓶颈:标准自注意力时间复杂度随序列长度二次增长,长上下文成本太高。过去线性注意力、稀疏注意力、状态空间模型都在试图绕开这个瓶颈,但常见代价是表达能力下降、近似偏差大,或者难以保持标准 Transformer 的接口习惯。
标准 Transformer 在组合泛化、隐私保护(遗忘特定训练数据)和数据删除方面缺乏理论保证。Tangent Transformer 试图通过将模型线性化(在参数空间的切线近似)来获得这些性质的可分析性。
大型多模态模型(LMM)在视觉问答等任务中容易产生幻觉(生成与图像内容不符的描述),现有指令微调数据中包含的幻觉样本会加剧这一问题。本文提出通过鲁棒指令微调来缓解多模态幻觉。
这篇论文要解决的是:如何给 LLM 输出加上“公开可验证、且不可伪造”的水印,使得第三方在不知道私钥的情况下也能验证文本是否来自某个模型/发布者,而攻击者即使知道验证算法也难以伪造通过验证的文本。以往很多水印要么只能私下验证(需要密钥/模型侧信息),要么容易被仿造/转写/改写破坏,导致在开放生态里难落地。
这篇论文要解决的是:在不改变语义的改写、同义替换、摘要化等“语义保持”编辑下,LLM 水印如何仍然可检出,同时避免把水印做得过强而明显伤害生成质量。以往鲁棒水印往往依赖表层 token 模式,遇到语义等价改写就失效;而强行提高鲁棒性又容易引入可感知的分布偏移。
这篇论文要解决的是:在参数高效微调(PEFT)里,如何用更少的可训练参数实现接近全参微调的表达能力,同时避免 LoRA 这类低秩更新在某些任务上“容量不够或互相干扰”的问题。以往 PEFT 常用低秩分解,但低秩本身对可表示的更新子空间有硬限制。
这篇论文要解决的是:如何自动生成更隐蔽、更高成功率的 jailbreak prompt,以系统性地评估和攻击对齐后的 LLM,而不是依赖人工手工构造提示词。以往 jailbreak 研究常被“提示词工程”主导,覆盖面窄且难复现。
这篇工作的核心问题是:扩散文生图质量高,但采样太慢,能不能把几十步甚至上百步压到一步而不明显掉画质。过去常见做法是蒸馏少步模型,但步数越少越容易出现模糊、结构崩坏和文本对齐下降,所以“一步生成”一直更像速度展示而不是实用解。
这篇论文要解决的是跨模态迁移里 PEFT 方案碎片化的问题。以往图像、文本、音频或图文模型常各自配一套 adapter/LoRA 设计,导致参数高效迁移虽便宜,但很难在统一架构下复用,也不利于分析“哪些参数改动对跨模态最关键”。
现有大模型只能做高层语义规划,无法为复杂低阶操纵任务设计可用的奖励函数,依赖人工设计奖励的强化学习落地成本极高。
现有大模型训练后量化方法仅优化量化前后的缩放变换,低比特量化时误差大,无法在4比特及以下精度保持可用效果。
这篇论文指出:用“子空间激活补丁(subspace activation patching)”做机制解释时,很容易得到看似稳定但其实是幻觉的结论,因为你找到的“有效子空间”可能并不对应模型真实使用的表征方向。以往很多工作默认“能补丁成功=找到了因果子空间”,但作者认为这个推断在高维表征里并不可靠,值得系统拆穿。
这篇论文要回答:在非结构化剪枝(unstructured pruning)里,什么样的剪枝准则才算“好”,以及如何在高稀疏率下仍保持网络功能接近原模型。以往很多准则用权重幅度或二阶近似,但在极限稀疏时往往失真,且与实际输出相似度不直接对齐。
这篇论文解决的是:VQ-VAE 类离散化在实现与训练上常常复杂(码本更新、commitment loss、EMA 等),而离散 tokenizer 又是图像/音频/视频统一建模的关键组件。过去很多系统在“离散化质量”和“训练稳定性/简洁性”之间做了不透明的工程折中。
这篇工作要回答的核心问题是:Transformer 里的可解释“电路组件”到底是任务专用的,还是会跨任务复用。以往机制可解释性多数在单任务、单现象上做局部分析,容易把一个组件误判成某个能力的专属实现;这篇论文试图把问题提升到“同一组内部子结构是否服务多个行为”这个层面。
GAIA 要解决的问题是:现有 LLM benchmark 太偏向静态问答,无法评估“通用 AI 助手”在真实环境中整合检索、工具使用、多步推理和执行的能力。过去很多基准把复杂任务切成封闭式选择题或单轮文本回答,结果是模型能刷分,但未必真能完成开放世界任务。
这篇工作想解决的是:当 LLM 训练数据里混有法律或高风险内容时,如何降低模型参数中难以删除的法律风险暴露。传统做法是数据清洗、再训练或参数编辑,但它们要么成本高,要么删不干净,还容易伤害通用能力;SILO 提出把高风险知识隔离到非参数 datastore 中处理。
现有代码大模型的指令微调数据多为合成数据,质量低、覆盖语言少,没有利用真实Git提交的天然指令-代码变更对结构,导致代码能力提升有限。
大模型生成内容常出现同上下文下自相矛盾的细分幻觉类型,此前的幻觉治理方法没有针对该场景做系统性优化。
Transformer自注意力的序列长度平方级复杂度限制了长序列场景应用,此前的线性注意力方法大多无法复现原生softmax注意力的分布特性和信息聚焦能力,导致精度下降明显。
这篇工作要解决的是:把“对齐问题(alignment)”用深度学习的语言重新表述成可分析的训练动力学与目标错配问题,而不是停留在哲学或宏观治理讨论。过去对齐讨论常绕开一个关键点:我们实际训练的是可微目标与代理信号(reward/modeling loss),它们如何在分布外与长链推理场景里失配。
这篇工作要解决的是:能否把“对齐能力”从 LLM 主体里解耦出来,做成可插拔的对齐模块(Aligner),从而减少为不同安全/风格目标反复微调整模型的成本。以往做法通常把对齐写进模型权重(SFT/RLHF),导致版本碎片化、回滚困难、以及对齐目标变化时要重新训练。
这篇工作要解决的是:所谓“知识神经元(knowledge neurons)”是否真的对应可定位、可编辑的知识存储单元,结论倾向于对该命题提出质疑并澄清其适用边界。过去一些工作通过激活干预找到少量神经元并声称它们承载特定事实,但这可能混淆了相关性、可控性与真正的知识表征。
这篇论文的核心问题是:代码生成里的 self-repair 并不是一个稳定有效的通用补救机制,作者想系统检验它到底在什么条件下有用。过去很多工作把“先生成、再根据执行反馈自修复”当成几乎免费的性能增益,但这类结论常来自特定 benchmark、特定 prompt 或少量 repair 轮次,缺少对失败模式和收益边界的拆解,因此现在需要重新审视。
这篇论文的核心问题是:在不完全重训模型的前提下,能否像外科手术一样有针对性地修复 LLM 的局部缺陷。过去处理模型错误通常只有两种代价都不低的办法:一是继续训练或微调,影响面大且容易引入副作用;二是做检索或规则补丁,系统复杂且不真正改变模型参数。因此需要更精细的“定位—编辑—验证”方法。
这篇论文要解决的是:在黑盒 LLM 上,能否不依赖内部概率和隐藏状态,仅通过额外提问来判断模型当前回答是否在“说谎”。以往对幻觉或欺骗的检测往往依赖白盒不确定性信号、外部知识验证或直接追问同一事实,但这些方法在 API 模型上不总可用,也容易被模型表面一致性掩盖,因此作者转向“无关问题”里的行为线索。
这篇论文的核心问题是:大量使用语言模型辅助写作,会不会让最终文本分布变窄、内容多样性下降。过去关于 LLM 写作的讨论更多集中在质量、效率和偏见,较少系统量化“表达空间被模板化”这一长期风险;但对预训练数据生态来说,这个问题越来越关键,因为模型生成文本反过来会成为未来训练语料。
这篇论文的核心问题是:攻击者能否利用语言模型本身去诱骗用户泄露隐私信息,也就是把 LLM 变成自动化 phishing 工具。过去隐私研究更多关注训练数据抽取或提示注入,而这篇工作关心的是另一个部署层风险:模型不一定直接泄密,但它可能通过高说服力、多轮对话和个性化措辞帮助攻击者更高效地骗到用户自己交出敏感信息。
现有无外部监督的大模型自改进方法(如RLAIF)依赖AI反馈模型能正确纠错的启发式假设,要求基础模型本身能力较强,小模型无法适用。
此前用大模型做视觉任务都需要多模态对齐训练、语言输入/输出或prompt,纯视觉场景下无法直接复用预训练LLM的通用建模能力,造成能力浪费。
Transformer在元学习式ICL场景下能泛化到同分布的未见函数,但背后的归纳偏置机制不明确,现有研究没有从贝叶斯推理的角度系统性解释ICL的行为。
现有无需重训练的预训练语言模型结构化剪枝方法在高压缩率下精度下降严重,无法平衡压缩率、精度和剪枝成本三个核心指标。
现有让冻结大模型具备视觉理解能力的方法大多需要复杂的跨模态对齐训练,嵌入空间转换的效率和通用性不足。
现有回归混合模型的预测方法高度定制化,通用性差,而通用的Transformer架构能否学习到回归混合模型的最优预测器还没有被验证。
这篇论文要解决的是:能否让 LLM 在推理时自检并识别自己正在被 prompt injection / jailbreak 等攻击诱导,从而在不依赖外部过滤器的情况下提升安全性。以往防御多靠规则、外部分类器或对齐训练,但攻击面变化快且容易被绕过。
这篇论文要解决的是:面对大量预训练模型与微调策略时,如何快速决定“该微调哪个模型、用什么微调方式”,而不是靠人工经验或昂贵的网格搜索。现实里模型库越来越大,选择成本正在变成迁移学习的主要摩擦。
这篇论文要解决的是:如何把 latent diffusion 做到更高分辨率、更高画质且更稳定的训练与推理,从而支撑工业级的高分辨率图像生成。早期 Stable Diffusion 在分辨率、细节一致性、文本对齐与训练稳定性上都有明显瓶颈。
这篇工作要解决的是:持续学习里新任务训练会覆盖旧任务能力,而 prompt-based continual learning 虽然参数高效,但不同任务的 prompt 仍可能在表示空间里互相干扰。过去方法常靠 replay、参数隔离或正则化来缓解遗忘,但对 prompt 更新方向本身的约束还不够直接。
这篇工作要解决的是:Transformer 的 FFN 常被解释为一种 key-value memory,但我们对这些“记忆”在训练或更新时究竟如何被修改,缺少系统实证。过去很多讨论停留在可视化或概念层面,很少直接研究参数更新如何改变 FFN 中存储的知识、哪些记忆易改、哪些难改,以及这种更新和泛化有什么关系。
这篇工作要解决的是:语言模型在归纳推理上经常看起来“会了”,但这种能力到底是稳健规则发现,还是模板匹配和表面启发式,仍然不清楚。过去很多推理 benchmark 只看最终答案,对模型如何形成和修正假设缺少过程视角,因此容易高估模型的真实归纳能力。
揭示 Transformer 模型在执行多位整数加法时的内部算法机制。以往研究多关注模型能否学会加法,但缺乏对其内部计算图和特征表示的细致逆向工程。
使小规模语言模型(如 770M 参数)也能生成高质量、多维度的自我解释(rationales),以辅助问答任务。以往认为这种能力仅在千亿参数模型(如 GPT-3)中涌现,且现有方法多只关注下游准确率,忽视了解释本身的合理性和真实性。
这篇论文要解决的是:在强化学习里能否把现成的视觉-语言模型(VLM)当作“零样本奖励模型”,从而减少人工奖励标注或专门训练 reward model 的成本。以往做法要么依赖手工 reward 设计,要么训练偏好模型/奖励模型,但这两者都昂贵且容易过拟合特定任务分布。
这篇论文要解释的是:为什么少量“信号相反”的离群样本会对优化产生远超其数量的影响,导致训练不稳定或收敛到差解。以往很多分析把离群点当作大梯度噪声,但这里强调的是“方向冲突”(opposing signals)比“幅度大”更致命。
这篇论文要解决的是:如何在不真实放出高风险权限的情况下,系统性识别 LM agent 的风险行为与失控模式,而不是只靠红队手工试探。过去评估 agent 风险要么成本高(真实工具/环境)、要么覆盖窄(少量脚本化测试),导致风险画像不完整。
这篇论文要解释的是:两层网络中的 grokking(先记忆后突然泛化)是否可以被严格地刻画为“一阶相变”,而不是经验现象。过去 grokking 多用训练曲线描述,但缺少可预测的相变判据与机制分解。
这篇论文要解决的是:持续学习里如何在“分而治之”(为不同阶段/任务训练不同专家)与“避免遗忘”(保留旧知识)之间取得更好的折中。以往要么单模型不断微调导致灾难性遗忘,要么全量回放/正则化成本高且效果不稳。
这篇论文要解决的是:为什么以及在什么条件下,引入“分布外但无标注”的数据能提升目标域泛化,而不是像直觉那样只会带来负迁移。传统半监督学习通常假设无标注数据与标注数据同分布,OOD 无标注数据往往被当作噪声丢弃。
这篇论文要解决的是:神经网络在顺序学习里为什么容易遗忘旧任务,以及能否通过改变参数化方式,把优化从“权重空间”改到“函数空间”来减轻遗忘。以往大多数方法是在现有参数化上加正则、回放或隔离机制,默认网络参数是主要操作对象;这篇工作认为真正该被保护的是模型实现的函数行为,而不是某一组具体权重,因为不同权重可以表示相近函数,而顺序学习中的干扰首先体现在函数被后续任务推走。
这篇论文要解决的是:样本难度 sample hardness 到底在衡量什么,以及现有难度刻画方法之间为什么常常结论不一致。数据中心 AI 里,大家会用 loss、边界距离、预测不确定性、训练动态等指标挑难样本,但这些指标往往被混称为“难度”,实际对应的可能是噪声、罕见性、模糊性、分布外程度等不同因素。
这篇论文的核心问题是:神经网络核方法在理论上有吸引力,但计算和内存代价太高,能否把它们做成可扩展的工具。传统 kernel 方法往往在样本数上是二次或更差复杂度,所以常被视为小规模方法;即便和神经网络结合,也容易卡在核矩阵构造、特征映射近似或训练吞吐上。
这篇论文解决的是激活稀疏化怎么做得更结构化、从而真正带来加速,而不是只制造很多零。过去很多 activation sparsity 方法能让数值上变稀疏,但稀疏模式不规则,硬件很难利用,最后得到的是“理论 FLOPs 下降、实际延迟不降”。
在不增加参数或数据的情况下,提升已训练好的 LLM 的推理能力。通常提升性能依赖于扩大模型规模或增加训练数据,成本高昂。
针对视觉语言模型(VLM)的对齐越狱问题。虽然底座 LLM 经过了严格的文本对齐,对纯文本越狱有抵抗力,但引入视觉模态后,如何利用跨模态交互绕过对齐机制仍未被充分研究。
评估神经模型在需要结合多模态(视觉-语言)信息的 STEM(科学、技术、工程、数学)领域的综合技能。现有数据集多侧重于专家级能力或单一模态,缺乏涵盖基础 K-12 课程且需要图文联合推理的全面基准。
评估和提升神经程序合成模型的组合泛化能力。现有模型在训练分布内表现良好,但难以像人类一样将复杂的新任务分解为熟悉的子任务来解决。
这篇论文要解决的是:大多对 LMM(Large Multimodal Models)的评估只看任务分数,掩盖了模型在 ICL(in-context learning)场景下的系统性缺陷(如幻觉、偏置、脆弱性),导致“看起来能做题”但不可控。
这篇论文要解决的是:让模型自动提出“能提升性能的代码修改”比生成新代码更难,因为它需要在不破坏功能的前提下定位瓶颈并做最小改动,而现有方法往往缺少对“编辑”这一操作空间的建模。
这篇论文要解决的是:一阶优化(SGD/Adam)便宜但在病态曲率下收敛慢,二阶优化更快但计算/内存昂贵,实践中缺少一个在深度网络上可落地的“混合一二阶”折中方案。
这篇论文要解决的是:PEFT(参数高效微调)通常通过加小模块省参数,但模型有效容量仍受限于基座网络,导致在小参数增量下难以获得接近全量微调的表达提升。
这篇论文要解决的是:标准 CoT 往往把推理写成离散文本步骤,但在多步推理里容易早期犯错并被后续步骤放大,且模型缺少对“中间不确定性”的表达与纠错机制。
这篇论文要解决的问题很明确:不同任务上分别训练好的模型,能不能在不再训练的前提下直接合并成一个多任务模型。传统做法通常需要 joint finetuning、multi-task retraining 或蒸馏,代价高且容易受原始数据不可用限制;ZipIt! 试图回答是否可以只靠已有权重本身完成跨任务拼接。
这篇论文的核心问题是:label smoothing 对隐私到底是保护还是伤害,答案取决于攻击目标与模型行为,不能把它简单视为单向防御。过去它常被当成提高校准和减弱过拟合的常规技巧,并顺带被认为可能降低 membership inference 风险;作者指出,对 model inversion 这类要从输出分布反推出输入信息的攻击,label smoothing 也可能反而提供更稳定、更可利用的信号。
这篇论文关注的核心问题是:prompt 优化不能只找一个全局最优提示,因为不同 query 的最优提示往往不同,而在线试错成本太高。过去常见做法是基于少量开发集搜索通用 prompt,或者直接用 bandit/在线 RL 反复试;作者试图把这个问题改写成离线学习,从已有交互数据里学出 query-dependent 的 prompt 评价与选择策略。
这篇论文的核心问题是:instruction-tuned LMs 在零样本条件下到底有多鲁棒,尤其是在任务表述、输入扰动和分布偏移发生变化时。很多指令调优结果主要报告平均任务分数,默认 prompt 改写或轻微干扰不应显著改变能力;作者则专门检验这种假设是否成立。
这篇论文关注的问题是:Vision-Language Models 很重,但直接逐层盲目裁剪容易破坏跨模态对齐,如何做更高效、损伤更可控的剪枝。相比纯视觉或纯语言模型,VLM 的难点在于某些层承担模态对齐而非单模态特征提取,删错位置会出现性能断崖。
LLM 在具身环境(embodied environments)中的决策能力与真实物理世界存在对齐差距——模型的语言知识不能直接转化为有效的环境交互策略。本文通过强化学习将 LLM 与具身环境对齐。
In-context learning(ICL)需要在 prompt 中提供真实示例,这会泄露用户隐私数据。本文解决的是如何在保护隐私(差分隐私保证)的前提下为 ICL 生成 few-shot 示例。
图形布局生成(layout generation,如 UI 设计、海报排版)传统上依赖专门的生成模型,而 LLM 是否具备布局设计能力尚未被充分挖掘。本文探索用 LLM 直接生成布局,揭示其隐藏的布局专业知识。
LLM 能否仅凭一本语法书就学会翻译一种全新的低资源语言?这个问题测试的是 LLM 的 in-context 语言学习能力上限——现有评估要么用高资源语言,要么用大量平行语料,无法真正测试从极少资源学习新语言的能力。
这篇论文要解决的是:多层Transformer里注意力(Attention)和前馈网络(MLP)的“联合动力学”到底如何共同决定表示与训练行为,而不是把两者割裂成独立模块来解释。以往机制分析常单独研究注意力头或MLP神经元,但很多层间现象(如特征形成、梯度流与稳定性)需要把两者作为耦合系统来看。
这篇论文要解决的是:如何构造更可解释、可复现的提示注入(prompt injection)攻击,并评估模型在“看似无害但带结构化载荷”的输入下到底有多脆弱。以往注入攻击常来自零散的红队案例,难以系统分析攻击语义结构与模型失效机制。
这篇论文要解决的是:程序合成器(program synthesizers)训练数据稀缺且分布偏窄时,如何生成“务实的”(pragmatic)训练样本,让模型学到更接近真实用户意图与约束的程序。以往合成数据常追求可执行或覆盖语法,但忽略了人类会给出的不完整、带偏好、带上下文的规格说明。
这篇工作要解决的是:如何把 continual learning 从一堆彼此割裂的方法,整理成一个可组合、可解释的概率建模问题。以往很多 continual learning 方法是围绕特定技巧展开,比如 replay、parameter isolation 或 regularization,能 work 但难比较,也很难知道什么时候该组合什么模块。
这篇工作研究的核心问题是:开源 LLM 的安全对齐能否被非常轻量的 prompt priming 绕过。过去大家更多关注 jailbreak prompt 本身的攻击性措辞或多轮诱导,而这篇工作强调,即使模型经过 safety tuning,只要前置上下文设计得当,拒答行为可能会被系统性削弱。
这篇工作要回答一个反直觉的问题:self-supervised learning 里的 memorization,是否一定有害,还是在某些条件下反而会提升下游泛化。传统观点往往把记忆训练样本和泛化对立起来,但这篇论文认为在 SSL 里,某些形式的 memorization 可能恰好帮助表征学习到可迁移结构。
手工写 prompt 或简单搜索式 prompt 优化难以稳定达到专家级效果,核心瓶颈是搜索空间大且缺乏系统性的试错-反思机制。之前的方法(APE、OPRO 等)多靠采样或梯度近似,没有显式的规划与错误归因。
LLM 在数学推理中常犯计算错误或逻辑跳跃,根本原因是纯自然语言推理缺乏精确计算能力。之前的方法要么只用 CoT,要么只用代码,没有在训练数据层面把自然语言推理和代码执行无缝结合。
神经定理证明(neural theorem proving)中,LLM 每次证明都从零开始,无法积累和复用已证明的引理(lemma),导致复杂定理的证明效率很低。人类数学家会不断构建引理库来简化后续证明,但现有系统缺乏这种能力。
现有 LLM 水印方法只能嵌入 1-bit 信息(有/无水印),无法编码多比特信息(如模型版本、用户 ID 等)。之前的多比特水印方法要么容量太低,要么严重影响文本质量。
这篇论文要解决的是:代码自动编辑如果只看单个文件或局部上下文,往往无法做出与仓库级约束一致的修改,导致编译/测试失败或风格不一致。以往很多方法把任务当成“给定指令生成补丁”,但缺少对 repo 级变更模式(diff)与跨文件依赖的建模。
这篇论文要解决的是:LoRA 这类低秩适配在多任务/多用户场景需要训练和存储大量 adapter,如何把这些适配过程批处理化以提升吞吐并降低总成本。传统做法是逐个任务训练 LoRA,GPU 利用率低且工程上难以并行。
这篇论文要解决的是:语言模型在符号运算(精确算术、逻辑、形式化变换)上容易出错,单靠扩大模型与数据很难获得可验证的精确性。以往常见路线是调用外部工具(calculator/solver),但工具调用需要接口设计与可靠的触发机制,且难以端到端优化。
这篇论文要解决的是:如何从自然语言中学习“可落地的动作抽象”(action abstractions),让智能体把高层语言指令映射到可复用的技能/选项,而不是每次都从原子动作重新规划。以往语言到行动要么依赖手工定义技能库,要么端到端学但泛化差,缺少能从语言中归纳出稳定抽象的机制。
这篇论文要解决的问题是:基于偏好反馈的强化学习样本效率太低,尤其是拿人类或高成本偏好标注做 RLHF 时,环境交互和偏好查询都很贵。过去常见做法是直接套标准 preference-based RL 或 bandit/RL 优化框架,但这些方法通常需要很多轮比较反馈,效率瓶颈明显。
这篇论文要解决的问题是:RL 对齐阶段常常需要用户偏好或敏感交互数据,但标准 RLHF 流程几乎没有隐私保证。过去一般是在数据收集端做脱敏,或者直接假设偏好数据可安全使用;这在真实部署里是不够的,因为 reward learning 和 policy optimization 都可能泄露用户信息。
这篇论文要解决的问题是:神经网络如何学到可组合、可泛化的“思维语言”表示,而不是只靠表面统计相关性做模式匹配。过去符号方法强调离散结构但难训练,纯神经方法训练方便但系统性泛化弱;这篇工作显然想在两者之间找到一个可学习的中间表示。
这篇论文要解决的问题是:LLM 的 in-context learning 常常需要把示例或私有文档直接放进 prompt,但这样会暴露敏感数据。过去做法大多在模型训练或参数层面谈隐私,而 ICL 的独特问题是它不改模型参数,却在推理时直接传输原始上下文,因此泄露面非常现实。
这篇论文要解决的问题是:连续 prompt 往往绑定在某个具体模型的嵌入空间里,换一个 LM 就失效,因此 prompt tuning 的可迁移性很差。过去软提示能高效适配任务,但基本默认“一个模型一套 prompt”,这限制了它作为任务语义载体的通用性。
探究 LLM 在面对外部工具(如检索增强 RAG)提供的知识与其自身参数化记忆发生冲突时的行为表现。以往研究多关注 RAG 能否补充知识,但缺乏对知识冲突场景下模型接受度(receptiveness)的系统性控制实验。
强化学习(RL)中奖励函数设计的成本高昂且依赖专家知识。现有利用 LLM 生成奖励的方法通常只能生成稀疏奖励,或在所有时间步保持不变的非成型(unshaped)密集奖励,难以应对复杂任务。
现有视频语言预训练方法大多通过全局对比学习做实例级对齐,忽略视频与文本的细粒度局部信息,无法支撑需要时序定位、细粒度语义推理的下游任务。过往方案默认全局对齐足够覆盖多数任务需求,未对时空粒度建模做针对性优化。
上下文学习(ICL)的 exemplar 选择缺乏自动有效的方案,现有方法仅基于原始问题语义检索,未利用大模型自身的推理知识,导致CoT类多步推理任务的ICL效果不稳定。过往方案默认问题语义是检索exemplar的唯一有效依据。
这篇论文要解决的是:在机器翻译这种“有明确参考答案”的任务上,通用 LLM 往往被当作黑盒提示器使用,效果不稳定且难以系统性提升。作者认为需要把翻译从“提示工程问题”重新拉回到“可控的建模与训练范式”上,才能稳定逼近或超过专用 MT 系统。
这篇论文要解决的是:LLM 在自我对话/自我评估场景下会被“提示级对抗样本”诱导产生自相矛盾或错误结论,等于模型在没有外部攻击者时也可能“骗过自己”。以往安全研究更多关注越狱或外部对抗,而这里强调的是推理链与自我一致性机制的脆弱性。
这篇论文要解决的是:语言代理(agents)既要写代码又要用自然语言规划与沟通,但现有训练数据与目标往往把两者割裂,导致“会聊天但不会落地执行”或“会写代码但不会对齐意图”。过去通常靠工具调用模板或后训练补丁来弥合。
这篇论文要解决的是:大模型在复杂指令(多约束、多步骤、长上下文依赖)上的跟随能力不足,而单纯扩大 SFT 数据量常常带来边际收益递减。过去的次优解是堆更多指令数据或用更强 RLHF,但数据质量与难度分布不受控。
这篇论文要解决的是:ReAct 这类“边推理边行动”的 agent 框架推理开销高,而推测采样(speculative sampling)虽然能加速解码,但可能破坏长链推理质量。过去很多加速工作只看 token/s,不验证对推理正确率与工具调用轨迹的影响。
这篇论文解决的是 cross-encoder 虽然精度高,但做大规模 k-NN search 时代价太高,难以直接用于检索系统。过去常见做法是先用 bi-encoder 粗召回再 cross-encoder 重排,但这会在召回阶段就丢掉部分真正相关候选,精度和成本之间很难兼得。
这篇论文解决的是预训练语言模型在表格预测上通常并不自然占优,因为表格数据既缺少连续文本语境,也有大量数值、类别和列关系结构,直接把表格序列化后喂给 PLM 往往效果不稳。过去方案要么依赖专门的 tabular architecture,要么做比较粗糙的文本化,二者都没有充分利用 PLM 已有知识与表格结构。
机器学习数据集文档的实践现状缺乏大规模系统性实证分析,现有对数据文档的要求大多是规范性的,没有实际行业数据支撑。过往研究默认多数公开数据集满足基本文档要求。
表格数据的预训练缺乏统一通用协议,不同任务的表格schema差异大,现有方法大多是任务特定的,无法跨任务迁移知识,也不支持增量列更新。过往方案默认表格模型需要针对每个任务的schema单独训练才能达到最优效果。
神经网络的深度缩放缺乏原则性方法,现有方法加深网络时容易出现性能退化,无法同时最大化特征学习能力和层间多样性。过往方案默认过深的网络必然会出现性能退化,需要额外的架构设计缓解。
这篇论文要解决的是:LLM 代理在长时序决策中容易“事后才发现早期决策错了”,但标准在线策略优化很难利用这种回溯信号,导致代理反复犯同类错误。以往多用行为克隆或基于最终回报的粗粒度 RL,信用分配(credit assignment)弱且样本效率低。
这篇论文要解决的是:对齐(alignment)评测常把复杂行为压成单一分数,导致你不知道模型到底缺的是“拒答边界、事实性、遵循指令、无害性、诚实表达不确定性”等哪一项技能。过去的基准要么太宏观(一个总分),要么任务定义不清导致可解释性差。
这篇论文要解决的是:内容依托(content-grounded)的数据集生成很难做到“像人一样”稳定高质,模型生成常出现幻觉、遗漏关键信息或与给定内容不一致。以往要么靠昂贵人工写作,要么用弱约束的合成导致训练数据污染。
这篇论文要解决的是:现有“指代并落地(refer and ground)”模型往往只能在固定粒度(框/点/短语)或固定场景里工作,难以做到“任意位置、任意粒度”的统一指代理解。过去通常是为检测/分割/短语定位分别训练专用头,泛化与组合性差。
这篇论文要解决的是:现有评测集更新慢且覆盖面固定,导致模型能力演进后评测很快饱和,难以持续区分“会做任务”与“具备可迁移技能”。过去要么不断堆新 benchmark,要么用大杂烩题库但缺少可扩展的技能组织方式。
这篇工作要解决的是:LLM 在复杂推理里经常不是缺知识,而是缺少把已有解题轨迹迁移到新问题上的机制。过去主流做法要么依赖更长的 CoT 采样,要么靠人工设计 few-shot exemplars,但这两种办法都没有显式处理“类比结构匹配”这一步,因此一旦题面变化大、推理模板相近,模型就容易失效。
这篇工作要解决的是状态空间模型在超长序列上常见的不稳定和脆弱问题,尤其是训练或推理中对参数扰动、数值误差和长程传播的敏感性。已有 SSM 虽然在效率上有优势,但一旦序列很长,动态系统本身的谱性质会放大误差,导致表现不稳,这个问题以前更多靠经验性参数化或工程修补处理。
这篇工作的核心问题是:通用 LLM 在专业任务上往往不是不会推理,而是缺少合适的外部工具,并且现有 tool-use 方式很难按领域定制。过去常见做法要么手工接入少量固定 API,要么微调整个模型去记工具调用模式,这两者都扩展性差,且无法快速适配长尾专业场景。
这篇工作要解决的是 RLHF 研究长期缺少统一平台和可比 benchmark,导致不同反馈类型、算法和任务设置之间几乎无法公平比较。过去很多 RLHF 结果只在单一 reward model、单一偏好数据或单一环境上报告,结论往往随着数据格式和训练细节变化而失效。
这篇工作的核心结论是:越强的 LLM 往往越容易理解和执行经过编码的隐蔽指令,因此能力提升并不自动带来安全性提升。过去很多安全评测默认有害请求会以自然语言直接出现,但真实攻击者完全可以用密码、替换表或轻度混淆来绕过显式内容过滤,而强模型反而更擅长解码这些攻击。
这篇工作的核心问题是:如何合成真正有用的训练数据,而不是只生成“看起来像真的”数据。很多数据合成方法过度关注样本逼真度或生成器损失,却没有保证合成数据在训练后会给下游模型带来正确的决策边界,因此生成出来的样本常常视觉上真实、学习上无效。
强LLM的推理成本过高,现有方法要么全用强模型,要么全用弱模型,无法兼顾推理效果和成本。过往方案默认LLM级联需要单独训练的路由模块来分配不同难度的任务。
大模型的事实错误缺乏可解释的内部检测方法,现有方法大多只能在生成结束后判断对错,无法提前识别错误。过往方案默认事实错误只能依赖外部知识库检测,无法通过模型内部信号提前预测。
基于LLM的自动评估的可靠性缺乏系统性验证,现有方法大多假设LLM评估可以替代人类评估,没有针对指令遵循场景的难例测试集。过往方案默认LLM evaluator在指令遵循评估上接近人类表现。
这篇工作要解决的是“线性注意力在长上下文上更省算,但表达力通常不如 softmax 注意力”的矛盾,因为很多线性注意力牺牲了 softmax 的归一化与竞争机制,导致质量掉得明显。
这篇工作要解决的是“LLM 剪枝通常要重训练或复杂校准,落地成本高”的问题,因为很多剪枝方法需要长时间微调才能把困惑度/下游能力拉回来。
这篇工作要解决的是:在不重新训练大模型的前提下,能否直接控制模型在推理时“看哪里”。过去这类可控性通常依赖提示工程、监督微调或修改解码目标,但这些方法要么不稳定、要么代价高,而且很难直接作用到注意力这一层具体机制上。
这篇工作要解决的是:能否只用单模态数据,学出跨模态任务能力。过去跨模态学习通常依赖成对图文、视听或其他配对监督,但这类数据昂贵、覆盖窄,而且真实系统常常有大量单模态数据被浪费。
这篇工作解决的是 in-context learning 依赖示例质量、但人工挑示例成本高且不稳定的问题。过去大家常用相似度检索、随机采样或启发式排序来选 demonstration,但这些方法并不真正回答:哪些标注样本对当前测试样本最有影响。
这篇工作解决的是高质量真实用户-ChatGPT 交互数据长期缺失的问题。过去 instruction tuning 和对话研究大量依赖人工构造数据、自我蒸馏数据或受控实验数据,但这些数据往往过于干净,不能代表真实用户意图分布、提示风格和失败模式。
这篇工作要解决的是文本水印在强攻击下不够可靠的问题,尤其是改写、截断、采样变化后很容易失效。过去很多 AI 文本水印方法能在理想条件下检测,但缺少严格鲁棒性保证,一旦遇到 paraphrase 或编辑攻击,就很难同时保留可检测性和文本质量。
这篇工作关注多语言机器翻译里的一个老问题:Sparse MoE 虽然有容量优势,但路由往往学得不稳定,也不一定尊重语言结构。尤其在多语言场景,不同语言的数据量、脚本和语法差异很大,单靠 token-level learned router 容易出现专家塌缩、低资源语言吃亏或专家分工混乱。
这篇工作针对的是一个明确短板:很多 vision-language model 虽然能看图说话,但并不真正擅长 multi-modal in-context learning。过去的 VLM 往往把 few-shot ICL 主要做在文本侧,图像示例更多像附加上下文,而不是能被模型系统地当作示例来归纳任务规则。
多模态 LLM 微调时参数效率问题:全量微调代价高,现有 PEFT 方法(如 LoRA)对多模态场景不一定最优。本文发现只调 attention 中的 LayerNorm 参数就能达到很好的多模态微调效果。
在开放世界环境(如 Minecraft)中,LLM-based agent 缺乏视觉感知能力,只能依赖文本描述来理解环境。本文为 LLM agent 配备视觉感知模块,使其能直接从像素观察中获取信息。
RLHF 对齐中,人类偏好标注存在标注者间的差异和噪声,导致学到的 reward model 在分布外泛化差。本文用 group invariant learning 来提升对齐的泛化能力——让模型学到跨标注者群体不变的偏好信号。
LLM 作为计算机操作 agent 时,如何有效利用历史成功轨迹作为 in-context 示例来提升任务完成率。以前的方法要么不用历史,要么检索不够精准。
核心是让LLM的定量推理“可验证”:当模型给出数值结论时,必须能被形式化系统检查,而不是停留在自然语言解释。过去的链式思维或自检多是语言层面的,遇到单位、约束、隐含条件时很容易自洽但不正确。
核心是重新定义ICL与提示工程里的“校准(calibration)”:单样本或逐样本校准会被上下文示例分布强烈影响,导致置信度与真实正确率脱钩。过去很多校准方法沿用监督学习的设定,但ICL的预测分布会随prompt批次整体漂移。
核心是给自主网页智能体提供一个“更接近真实互联网操作”的可评测环境,而不是在简化网页或脚本化任务上刷分。过去很多web agent基准过于干净,导致模型在真实网页的动态内容、表单、登录态与噪声上失效。
这篇工作要解决的核心问题是:当时开源视觉-语言模型普遍看得见但说不明白,尤其在细粒度描述、多轮对话和复杂图像理解上明显弱于更强的纯文本 LLM。此前常见做法是直接把视觉编码器接到较弱的语言模型,或者只做浅层对齐,这能完成 caption 和简单问答,但一旦需要更长链条的语言组织,瓶颈就落在语言端而不是视觉端。MiniGPT-4 的判断是,先把高质量视觉表征接入更强的现成 LLM,再用少量高质量对齐数据把接口调顺,比从头训练一个大规模 VLM 更现实。
这篇工作要解决的是:现有解释方法大多只在输入特征上做 attribution,很难回答‘模型内部哪些参数真正支持了这个解释’,因此解释往往停留在相关性而不是因果贡献。过去无论是 attention 可视化还是输入梯度,都容易把结果局限在样本表面,无法连接到模型内部机制。AttEXplore 试图把解释对象从输入扩展到参数层,寻找能支撑预测与解释的关键参数子集。
这篇工作要解决的是:多模态训练数据里图文不一致、错配、伪描述的问题非常常见,而这类噪声会直接损害 VLM 预训练质量。过去常见清洗方法依赖简单相似度阈值、规则过滤或小模型打分,这些方法对显性错配有用,但对细粒度语义不一致、局部错误描述和复杂场景覆盖不足。VDC 的思路是用更强的多模态大模型来识别视觉-语言不一致,再把它作为通用数据清洗器。
这篇工作想解决的是:当 LLM 需要调用工具时,真正困难的不只是会不会调用,而是在很大的动作空间里如何高效找到正确的调用序列。此前主流做法要么依赖贪心/beam 搜索,要么让模型逐步试错;这在工具数量多、步骤长、分支复杂时很容易爆炸。ToolChain* 把问题明确建模成搜索问题,用 A* 这类启发式图搜索来导航动作空间。
这篇工作要解决的是:LLM 的部署风险常被当作经验问题处理,依赖红队、人工规则和离线 benchmark,但这些方法很难给出‘在给定风险容忍度下,允许哪些 prompt 上线’的严格保证。随着模型被用于高风险场景,仅靠平均安全分数已经不够。Prompt Risk Control 试图建立一个更严格的统计框架,把 prompt 级风险控制形式化。
这篇论文要解决的是:在只能通过闭源 foundation model API 生成数据的场景下,如何得到满足差分隐私(DP)的高质量合成图像数据,而不是直接暴露或记忆训练集。过去 DP 合成往往依赖可访问模型参数/梯度的训练流程,但 API 场景下这些都不可得。
这篇论文要解决的是:文本生成图像(T2I)的细粒度评测不可靠,导致你很难判断模型到底是“理解并遵循了文本关系”还是只生成了看起来合理的图。以往评测常用 CLIPScore 或粗粒度对齐指标,但它们对关系、属性绑定、计数等错误不敏感。
这篇论文要解决的是:如何把“基因组序列”当作可规模化预训练对象,做出跨物种泛化的基础模型与可复现基准,而不是每个物种/任务各训各的。过去基因组模型常受限于数据组织、tokenizer(k-mer)效率、以及跨物种评测缺失。
这篇论文要解决的是:音频理解模型往往“听到了但没想明白”,缺少把声学线索转成可推理语义的中间过程,导致复杂音频问答或事件理解表现受限。过去很多音频模型偏向分类或检索式对齐,推理链路不清晰。
这篇工作要解决的是:我们该如何评估对话式 AI 呈现出来的“心理画像”,而不只是测事实正确率或指令完成率。过去很多评测默认模型是工具,不关心它在长期对话中表现出的性格、情绪稳定性、价值取向和自我描述是否一致,但这些因素会直接影响用户信任、依赖和误判,因此值得单独测量。
这篇工作要解决的是:如何构造真正可微、误差可控的神经排序网络。已有 neural sorting / ranking 方法通常用连续松弛来近似离散交换或排列,但代价是会引入排序误差、梯度偏差,或者在深层比较网络中累积数值问题,因此“既能反传又不牺牲排序正确性”一直不容易。
这篇工作要解决的是:开放词表目标检测中的文本描述往往太粗,导致 VLM 提供给检测器的语义监督不够细,尤其难区分近义类别和细粒度属性。现有 open-vocabulary detection 多依赖类别名或简短 prompt,这对 broad category 足够,但对真实场景中的细粒度识别明显不够。
这篇工作要解决的是:视频问答里真正困难的部分往往不是看见了什么,而是事件之间的因果关系和时间依赖,而现有方法大多只做时序聚合或注意力匹配,缺少显式因果过程建模。结果就是模型能抓住局部线索,却难以回答需要 reasoning 的问题。
如何在不对每个个性化 text-to-image 模型单独微调的前提下,为其添加视频生成(动画)能力。此前的视频生成方法要么从头训练,要么需要针对特定模型做 fine-tuning,无法即插即用地复用社区中大量已有的个性化 T2I 模型(如 DreamBooth/LoRA 变体)。
LLM 驱动的对话系统在多轮对话中缺乏显式的策略规划能力,导致对话目标达成率低。本文提出一个即插即用的策略规划模块,为 LLM 对话 agent 提供对话策略指导。
持续学习中的两个核心难题——可塑性丧失(loss of plasticity,模型逐渐失去学习新任务的能力)和灾难性遗忘(catastrophic forgetting,学新任务时忘掉旧任务)——通常被分开研究,本文试图在统一框架下同时解决。
这篇论文要解决的是:在类增量学习(Class-Incremental Learning, CIL)里,如何在不依赖复杂回放/蒸馏管线的情况下,稳定地区分“新类 vs 旧类”并降低遗忘。以往很多方法把问题主要当成表示学习或分类头校准问题来做,但在类分布持续漂移时,决策边界往往会被新类数据拉偏。
这篇论文要解决的是:扩散生成模型的训练/采样理论大多停留在渐近(asymptotic)收敛或理想化假设下,缺少“有限步数、有限数据、有限网络容量”条件下可用的非渐近收敛保证。扩散模型已经是主流生成范式,但工程上我们关心的是训练到多少步、采样多少步会到什么误差水平。
这篇论文要解决的是图像补全里一个常见短板:单一条件信号往往不足以恢复缺失区域的语义和细节,导致结果要么语义对不上,要么纹理不自然。传统 image completion 多依赖局部像素上下文或单模态先验,在大面积缺失、语义歧义强的场景下经常不稳定。
这篇论文要解决的问题是:现有 LLM 检索评测大多考知识回忆或开放问答,较少测模型在复杂约束下进行信息检索的能力。现实检索常常不是“找到相关文档”这么简单,而是要满足多个离散约束、逻辑条件或组合限制;这类能力介于推理、规划和检索之间,传统 benchmark 覆盖不足。
这篇论文要研究的问题是:神经网络解之间的 linear mode connectivity 是否不仅存在于整体参数空间,也能在逐层尺度上成立。传统 LMC 研究通常看两组参数做整体线性插值时损失是否保持低,但这并不能回答网络的可连通性到底是全局现象,还是由少数层主导。
标准 RL 策略通常是无状态的(给定观测直接输出动作),但在需要时间相关行为(如周期运动、平滑控制)的任务中,无状态策略要么需要极高频的控制,要么表现不佳。本文提出带内部状态的随机策略来提升 RL 的时间效率。
神经网络学到的内部表示的几何结构(如维度、流形形状)由什么决定?以前的工作分别研究了任务结构和网络非线性的影响,但没有统一分析两者的交互。本文研究的是任务结构和非线性如何共同决定学到的表示几何。
在线强化学习中,如何高效利用密度比(density ratio)来改善策略优化?离线 RL 中密度比方法已被广泛研究,但在线设定下如何利用密度比来平衡探索与利用、减少样本复杂度,理论上还不清楚。
这篇论文要解决的是:模型式规划(model-based planning)智能体很难给出“行为保证”,因为奖励模型误差会在规划滚动中被放大,导致策略偏离预期。以往通常用经验评测或保守正则来缓解,但缺少可计算的、与奖励误差直接挂钩的保证界。
这篇论文要解决的是:在高维下 SGD 的优化轨迹为什么会“对齐”到少数异常特征方向(outlier eigenspaces),从而出现训练早期的快速下降与后期的隐式偏置。以往我们用经验现象描述(如 edge of stability、sharpness 变化),但缺少能解释“为什么是这些方向”的更精细理论。
这篇论文要解决的是:单个 LLM 的能力边界越来越受限于上下文、工具调用与专长分布,而“训练一个更大的”成本高且迭代慢。过去的组合式方法多是手工路由或简单的工具链,缺少系统化的“LLM 组合=能力可扩展”的证据与方法。
这篇论文要解决的是:文本到图像生成模型里的“知识”到底存在哪里,以及能否只改动局部参数就精确编辑某个事实。过去这类模型的知识编辑大多借用 LLM 的参数编辑思路,或者只看生成结果是否变了,但没有清楚回答扩散/生成模型中的事实关联是分散存储还是可局部定位,这使得编辑常常伴随较强副作用。
这篇论文要检验一个更隐蔽的问题:当文本里完全没有显式性别词时,模型是否仍然表现出性别偏置。过去很多偏置评测依赖 he/she、man/woman 这类显式触发词,因此更像在测“模型会不会接住表面线索”,而不是测其是否会从职业、语境、实体属性等隐含信号中自动补出性别刻板印象。
这篇论文解决的是:能否把自然语言描述直接生成高质量、可编译、可编辑的科学矢量图,而不是只生成像素图。以前文本生成图像模型在视觉上可以“像”,但科学制图更需要结构正确、元素可修改、排版稳定,因此 raster image 不够用,纯代码生成又容易语法错和布局崩。
这篇论文关注一个很实际的推理成本问题:即使权重和激活已经低比特量化,网络内部的累加器往往还保留较高精度,成为硬件效率瓶颈;作者要解决的是能否把累加器位宽也降下来而不明显伤害性能。过去低比特推理大多优化乘法和存储,但 accumulation 的动态范围更大,所以通常不敢轻易压得太低。
PyTorch 生态缺少一个统一的、高性能的强化学习数据处理和训练库。已有 RL 库(如 Stable Baselines、RLlib)在数据抽象、环境交互、replay buffer 等方面各自为政,且与 PyTorch 的 tensor 生态集成不够紧密,导致研究者在实现新算法时重复造轮子。
神经网络训练动态的理论建模问题:现有的训练动态分析(如 NTK、mean-field)要么假设无限宽度,要么忽略参数间的相关性,导致对实际有限宽度网络的训练行为预测不准。本文提出一个考虑参数相关性的动态模型来更好地描述训练过程。
让 AI agent 通过观看游戏视频来学习遵循自然语言指令,而不需要大量的标注动作数据。此前的方法要么需要专家演示的动作标签,要么需要大量环境交互,成本很高。GROOT 试图仅从无标注的游戏视频中学习指令跟随能力。
GAN 用于文本生成一直效果不好,主要因为离散 token 的不可微性和训练不稳定。本文提出 Branch-GAN,试图用一种新的分支式生成策略让中等规模的语言模型(非超大 LLM)通过 GAN 训练来提升文本生成质量。
这篇论文要解决的是:RLHF 里的“对齐”被拆成一堆彼此不兼容的做法(reward modeling、KL 约束、DPO/IPO 类目标、不同形式的偏好优化),导致我们很难判断哪些差异来自目标函数、哪些来自优化细节。作者认为需要一个统一框架,把常见对齐目标放到同一数学对象里比较与推导,否则经验结论很难迁移。
这篇论文要解决的是:物理信息神经网络(PINNs)里“硬约束”(严格满足 PDE/边界条件)在规模变大时很难训练稳定且表达力受限,常见做法要么用软惩罚导致约束被违反,要么用单一结构的硬约束导致模型容量不足。作者把问题归因于:不同区域/不同物理机制需要不同的函数族,但单模型很难同时兼顾。
这篇论文要解决的是:VQA 的自然语言解释(rationale)常常“看起来合理但不忠实”,因为模型被监督成生成流畅解释而不是生成可验证的推理链。作者认为需要把解释当作可优化的中间决策变量,用任务奖励去约束其有效性。
这篇论文要解决的是:可解释图像分类往往在“解释可读性”和“分类性能”之间二选一,且很多解释方法给的是事后热力图,难以形成可验证的因果证据。作者希望用大模型(语言/视觉)来引导一个可解释的、逐步的信息获取过程。
这篇论文要解决的是:在只允许“标签查询”(label-only)的黑盒场景下,成员推断攻击(membership inference)通常被认为信息不足、泄漏有限,因此很多系统把它当作较弱威胁模型。作者指出攻击者可以通过自适应投毒(poisoning)放大这种泄漏,使 label-only 也能变得危险。
这篇论文要解决的是:LLM 压缩通常围绕权重剪枝/量化/蒸馏,但对“中间潜特征(activations/latent features)是否存在低秩或低维结构”利用不足,导致压缩要么伤性能要么收益有限。作者尝试从 reduced-order modeling(降阶建模)的角度重新看压缩:先找出潜特征的低维动力学,再据此近似。
这篇论文要解决的是:扩散模型(diffusion models)在生成过程中似乎在“内部”形成了某种可组合的语义表示,但我们缺少像 NLP 里 token/embedding 那样的语言来描述它,导致难以解释、编辑或做统一建模。作者把问题表述为:扩散模型是否也有一套“隐式语言”(hidden language)可被解析与操控。
这篇论文要解决的是:Lion 这类自适应优化器在深度学习里表现很好,但其收敛机理与“它到底在优化什么”并不清楚,导致超参选择与稳定性分析缺少理论支撑。作者声称 Lion 可以被解释为在隐式地求解一个带约束的优化问题,并且可用 Lyapunov 分析预测其行为。
这篇工作要解决的是:在样本极少的适应场景里,如何高效迁移预训练表示,而不是靠全量微调或单一线性 probe 在数据不足时硬撑。过去 PEFT、线性探测和少量微调都在做类似事,但它们往往要么容量不够、要么容易过拟合,所以“用更稳的特征组合做高效适应”是核心问题。
这篇工作解决的是生成建模中的一类基础问题:能否用比标准 diffusion/flow 更灵活的随机桥过程,把复杂分布生成做得更稳定或更高效。已有扩散模型通常沿固定噪声到数据的路径训练,路径设计空间其实很大,但过去大多只用实值幅度噪声,较少显式利用相位或更一般的桥接过程。
这篇工作处理的是 GFlowNet 里的一个结构性问题:很多生成过程天然有顺序约束,但标准 GFlowNet 往往默认更自由的生成路径,导致状态空间定义和信用分配不够贴近实际。若顺序信息被忽略,模型在组合对象生成时会浪费大量概率质量在无效或重复路径上。
这篇工作要解决的是:优化器设计能否自动化生成,而不是长期依赖人工手写 update rule 再逐步调参。传统优化器如 SGD、Adam 在深度学习中很强,但它们是少数通用解;面对不同任务、不同噪声结构时,手工设计优化器的搜索空间太大。
预训练文生图扩散模型无法原生生成带明确几何约束的目标检测训练数据,过往方案依赖定制布局编码模块或低质量复制粘贴合成,不同几何约束下的适配性差。
CLIP等预训练视觉基础模型为黑盒,无法解释预测规则、控制推理行为,过往可解释性方法需要额外训练或数据采集, overhead 高。
联邦学习在非独立同分布数据下存在客户端漂移问题,过往优化方法要么修改算法结构不具备落地性,要么依赖不符合实际场景的数据异质性有界假设。
温度缩放作为最常用的后训练校准方法,性能经常不如训练时校准方案,背后的瓶颈原因未被明确揭示。
这篇工作要解决的是:真实图像编辑时,扩散模型的 inversion 往往不稳定且难以保留局部结构,导致编辑后出现漂移或细节崩坏。以往 inversion 多依赖全局噪声/潜变量拟合,空间上下文利用不足。
这篇工作要解决的是:具身智能体用 Transformer 做决策时,常把观测当作无结构 token 序列处理,导致空间关系(相对位置、可达性、遮挡)利用不足。过去通常靠手工几何特征或额外的地图模块补齐,但与端到端预训练不够统一。
这篇工作要解决的是:纠错码(Error Correction Codes, ECC)的编码/译码传统上高度依赖专用算法与码族结构,难以像语言/视觉那样用一个通用模型覆盖多种码与信道条件。过去学习型译码往往是小模型+单码族定制,泛化差。
这篇工作要解决的是:在“有强预训练表征”的时代,传统无监督图像聚类方法(基于 k-means、对比学习特征等)往往忽略了表征空间的压缩与冗余结构,导致聚类不稳定或对超参敏感。过去很多方法默认特征已足够线性可分,但实际仍存在类内多模态与长尾。
这篇工作要解决的是:扩散模型想用“奖励”做对齐或偏好优化时,常见做法是采样后用不可微指标打分再做近似更新,信号噪声大且样本效率低。过去缺少一个能直接对扩散采样过程反传奖励的稳定方案。
这篇工作要解决的是:自回归序列建模在训练时用 teacher forcing,推理时却要吃自己的输出,导致暴露偏差(exposure bias)与错误累积。过去用 scheduled sampling 或序列级 RL 缓解,但要么不稳定,要么样本效率差。
这篇论文要解决的是长时程机器人任务里“探索难、信用分配更难”的老问题。纯 RL 在稀疏奖励和长规划链条下通常样本效率很差,而纯语言规划又常常停留在高层步骤,落不到可执行控制上;作者想把 LLM 的高层先验和 RL 的低层闭环结合起来,避免两边各自的短板。
这篇论文的结论很明确:很多 ViT 会在中间层自发长出少量“高范数异常 token”,它们不像正常 patch token 那样承载局部视觉信息,反而像临时工作内存,导致特征图出现伪影并伤害密集预测。过去大家往往把这些现象归因于训练噪声或架构细节,但没有直接给模型一个专门存放全局计算中间量的位置。
这篇论文解决的是 CLIP 零样本预测中的偏置问题,尤其是当文本提示把敏感属性和类别语义纠缠在一起时,模型会把社会偏见放大到分类结果里。以往去偏方法很多依赖线性投影、子空间删除或额外监督,这些方法往往表达能力有限,或者会明显伤害 CLIP 原本的零样本能力。
这篇论文要解决的是 SGD 稳定性到底由什么决定。过去很多分析用学习率上界、梯度噪声或光滑性常数来近似说明什么时候会发散,但这些条件往往过松,解释不了实际训练里为何某些模型在看似相似超参下一个稳定、一个爆炸。作者试图用 loss surface geometry 给出更精确的刻画。
这篇论文解决的是数据增强策略通常是固定的,而模型在训练不同阶段、不同样本难度下其实需要不同增强强度。固定 augmentation 好实现,但常常出现两头不到岸:弱了起不到正则作用,强了又会引入标签噪声或破坏语义。
扩散模型在高分辨率图像生成时面临训练和推理的计算瓶颈——直接在高分辨率上训练成本极高,而简单的 patch 拼接又会产生明显的接缝和不一致。如何让扩散模型高效地生成高分辨率图像,同时保持全局一致性?
知识蒸馏中,教师网络通常是独立训练好的,训练目标是最大化教师自身性能,而非最大化学生的学习效果。这导致教师的知识表示可能对学生来说不够'可学'。这篇工作探索如何让教师网络的训练本身就面向学生的学习需求。
用预训练扩散模型解线性逆问题(如去噪、超分、修复)时,现有的后验采样方法(如 DPS)缺乏理论保证,且在实践中容易出现不稳定。这篇工作从滤波(filtering)的视角重新推导扩散后验采样,给出更有原则性的算法。
OOD(分布外)检测通常只用有标签的 in-distribution 数据,但实际中有大量无标签数据可用。这篇工作从理论上分析无标签数据如何帮助 OOD 检测,并给出可证明的改进保证。
这篇论文要解决的是:few-shot 场景下“怎么微调”本身是个搜索问题,但常见做法要么固定一套经验超参(次优),要么做昂贵的超参搜索(不现实),导致小数据适配不稳定且难复现。
这篇论文要解决的是:多任务图预训练里“任务权重”和“任务选择”常被混在一起做联合优化,结果是训练不稳定、容易被强梯度任务主导,并且很难解释到底该保留哪些任务。
这篇论文要解决的是:自监督学习里常用的 uniformity 指标被当作“表示好坏”的核心解释之一,但它在不同特征归一化、温度、批大小与采样分布下可能失真,导致用它指导方法设计会走偏。
这篇论文要解决的是:通用 LLM 在生物分子领域缺少可指令化的数据与任务覆盖,导致模型即使懂语言也难以按科研工作流完成分子相关推理与生成。
这篇论文要解决的是标准注意力对层级结构利用不足的问题:序列 Transformer 把所有 token 放在同一平面上交互,遇到天然树结构的数据或推理过程时,计算和归纳偏置都不理想。过去通常要么硬编码树模型、牺牲通用性,要么继续用全连接注意力,让模型自己学结构,但样本效率和可解释性都偏弱。
这篇论文解决的是 dataset distillation 过于复杂、代价高且不稳定的问题。以往蒸馏数据集常依赖双层优化、梯度匹配或长时间元学习,方法上精巧但工程上很重,导致它在真正的大模型预训练或持续训练里很难落地。
这篇论文解决的是一个很实际的问题:像 MBR decoding 和 QE-guided reranking 这类高质量解码方法效果好,但推理时非常贵,是否能把它们的收益蒸馏到训练阶段。过去通常是在 inference 端付出额外采样和重排序成本来换质量,而不是让模型本身学会更接近这些昂贵决策。
这篇论文处理的是神经文本退化这个老问题,而且从标题看是想给出更完整的解释并“结案”。文本退化指模型在生成中陷入重复、空洞或低信息循环;过去大家提出过 exposure bias、search error、likelihood objective mismatch 等多种解释,但没有形成一致结论,导致缓解手段往往各治一头。
这篇论文解决的是如何从大规模多智能体交互数据里,只通过筛选而不是昂贵标注或复杂 RL,模仿出目标行为。过去多智能体数据往往混杂高质量与低质量策略,直接行为克隆会把噪声一并学进去,而从头做 RL 又成本高且不稳定。
学习率倒带(LRR)作为迭代幅度剪枝(IMP)的彩票票搜索变种效果更优,但背后机制未被拆解清楚,无法指导更灵活的稀疏架构优化算法设计。
大视觉语言模型(VLM)推理需要大量算力,攻击者可恶意诱导其产生高能耗和长延迟,现有VLM没有针对这类可用性攻击的防御机制,攻击面未被探索。
带压缩的分布式训练在数据异构场景下,误差补偿机制的收敛性没有明确理论支撑,朴素实现容易出现不稳定收敛甚至发散。
作者要回答的结论性问题是:在现代深度学习设定下,是否存在“普适且可操作”的泛化度量(generalization measure)能稳定预测不同模型/数据/训练细节下的测试误差;以往很多工作默认这种度量存在,但往往只在窄范围实验里成立。
作者要解决的是:黑盒 NLP 模型的解释往往不“忠实”(faithful),因为解释方法很难验证自己是否真的抓住了模型决策依据;以往的反事实解释需要人工或启发式生成,覆盖不足且成本高。
作者要解决的是:在“协变量偏移”(covariate shift,训练与测试的 x 分布不同但 y|x 不变)且模型设定正确(well-specified)时,训练时到底需不需要重要性加权(importance weighting)等复杂修正;以往很多结论在模型错设或高维下不稳定。
作者要解决的是:在复杂且多峰的适应度景观(fitness landscape)上做模型驱动优化(model-based optimization, MBO)时,代理模型容易被分布外查询与局部最优误导,导致优化不稳或崩溃;以往方法常在“景观较平滑/噪声较小”的设定下表现更好。
这篇工作要解决的问题是:解释性研究里常见的注意力头功能模式,究竟是不是只在小模型或人工案例里存在。作者关注一种叫 successor heads 的循环出现模式,想回答它是否会在真实大模型和自然语料中稳定出现,以及它到底在做什么信息搬运。
这篇工作要解决的问题是:程序归纳或神经符号系统往往能学到可复用子程序,但这些子程序难读、难命名、难维护。以前方法通常把“压缩程序”和“让人理解程序”分开处理;LILO 试图同时学习一个可解释库,即不仅抽出可复用模块,还给出文档化描述。
这篇工作要解决的问题是:强化学习 agent 很难像语言模型那样通过上下文快速适应新任务。传统 RL 适应通常依赖在线更新参数,代价高且不稳定;AMAGO 想探索一种 in-context RL 路线,让 agent 通过历史轨迹在上下文中完成适应,而不是每到新环境都重新优化。
这篇工作要解决的问题是:能否把无机材料结构生成也做成一种“文本建模”问题。过去材料生成更多依赖专门图模型、晶体生成器或搜索方法;这篇论文尝试证明,经过适配微调后,语言模型可以直接生成稳定无机材料的文本表示,从而复用 LLM 的生成与先验能力。
这篇工作要解决的问题是:分布式深度学习中的同步频率怎么设,才能在通信成本和优化误差之间取得更优平衡。传统做法通常是固定步数同步或经验性调参,但这在大规模训练里既浪费带宽,也可能拖慢收敛;作者提出一个 quadratic synchronization rule,想给同步策略更明确的理论与算法依据。
这篇工作要解决的问题是:文档页面分解缺少足够大、标注细且结构化的数据集。过去很多文档理解工作要么只做 OCR,要么数据规模小、类别窄,难以支撑统一页面解析模型;ADOPD 试图提供大规模 page decomposition 数据,让模型能学习更细粒度的版面和元素结构。
这篇工作要解决的问题是:视频预测如何同时处理时序连续性和语言条件控制。传统视频预测模型往往条件表达弱,或者直接在像素空间做生成代价太高;Seer 选择 latent diffusion 路线,试图在压缩表示空间里做受语言指令驱动的视频未来帧生成。
高分辨率图像/视频的扩散模型生成成本极高,现有方法要么在低分辨率潜空间操作(牺牲细节),要么在像素空间做级联超分(引入误差累积和训练复杂度)。本文想在一个端到端模型里同时建模多尺度信息,避免级联。
测试时自适应(TTA)在分布偏移下更新模型参数,但现有方法对所有测试样本一视同仁地做适应,可能在噪声样本上浪费计算甚至引入错误。本文研究如何主动选择哪些样本值得做适应。
极端多标签分类(XML)中标签数可达百万级,传统方法要么用稀疏特征+树结构(快但表达力弱),要么用 dense encoder(准但慢)。本文探索双编码器架构在 XML 上的可行性和效率。
这篇论文解决的是:自监督视觉预训练里,像素级重建(MAE/扩散式重建)往往计算重、对细节过敏且容易学到“低层纹理捷径”,能否用更便宜、更稳的目标逼模型学到语义结构。过去常见替代是对比学习或离散 tokenizer 重建,但要么依赖大 batch/负样本工程,要么引入额外码本与训练复杂度。
这篇论文要解决的是:在棋类等技能型任务里,AI 往往“太强”或风格不匹配,导致训练陪练、教学与人机协作体验差,如何系统化地定义并构建“技能兼容”的 AI。过去常用 Elo 限制或简单降采样搜索深度来控强,但这通常会带来不自然的失误分布与风格漂移。
这篇论文解决的是:自监督学习里“多视图增强”(两次随机裁剪/颜色抖动等)并不总是可靠,某些增强会改变语义或引入偏差,导致学到的表征对下游不稳。以往改进多集中在设计更好的图像增强策略,但增强空间本身很难覆盖“语义不变”的真实变化。
这篇论文解决的是:图像到图像翻译通常需要为每个任务训练/微调一个模型,泛化差且组合性弱,能否像“编程”一样用统一的生成模型执行多种视觉变换。过去的扩散式 I2I 往往依赖特定任务数据或手工管线,难以把多个操作可靠组合。
这篇论文解决的是:扩散模型的 score(对数密度梯度)通常用神经网络估计,但训练目标与优化过程并不直接等价于“学到可泛化的 score”,导致采样质量对优化细节、正则与网络容量高度敏感。以往很多分析把重点放在采样器或噪声日程,较少从优化与泛化角度解释为什么同样的目标会训练出差异很大的 score 网络。
这篇论文关注的是:单个 LLM 在“创新内容生成”上容易陷入模式复用与局部最优,能否通过多智能体协作让系统更稳定地产生新颖且可用的内容。过去多智能体更多用于分工与工具调用,但“创新”本身缺少可操作的过程约束与评价闭环。
这篇论文解决的是:现有视觉数据集与模型评测过度集中在“注视中心”(foveal vision)信息,而人类在周边视觉(peripheral vision)上对结构、运动与语义也有强感知能力,导致人机感知差距被系统性低估。过去即使讨论鲁棒性与分布偏移,也很少把“周边退化”作为独立维度来建模与评测。
这篇工作要解决的是:如何在不把整网都做成贝叶斯模型的前提下,让深度网络具备更可靠的不确定性估计。过去常见做法要么是全模型 Bayesian neural network,训练和推理代价都高;要么是深度集成,效果好但成本更高;最后一层贝叶斯化是一个更实际的折中,但现有方法通常近似粗糙、可扩展性一般,导致它长期更像工具箱里的备选项,而不是主流训练配方。
这篇工作要解决的是:在神经网络权重满秩、不能再依赖低秩或压缩结构假设时,如何给出更贴近训练动力学的泛化界。传统泛化分析常靠参数范数、复杂度上界或 margin 条件,但这些界往往对现代过参数网络过松,解释力有限;作者尝试从 Koopman operator 的角度重新看学习系统的动力学和可泛化性。
这篇工作要解决的是:Vision Transformer 在高分辨率视觉任务上计算和访存都偏重,尤其全局注意力随 token 数增长太快,导致延迟不适合真实部署。过去的主流应对要么退回 CNN,要么用窗口注意力、稀疏注意力或层级结构做折中;作者想做的是在保留 ViT 表达力的同时,把速度真正拉到工程可用。
这篇工作要解决的是:现有数据投毒攻击大多围绕误标、触发器或梯度匹配设计,但对现代训练中越来越关键的 sharpness(损失曲面陡峭程度)利用不足。作者关注的是,能否通过操纵训练样本让模型收敛到更尖锐、更脆弱的极小值,从而在不显著影响表面训练信号的情况下破坏泛化。
这篇工作要解决的是:文本属性图学习常受限于节点文本噪声和监督稀缺,传统图模型很难从长文本里抽出真正有用的语义结构。过去常见做法是直接把预训练 LM 编码的文本特征喂给 GNN,但这会把大语言模型的解释能力浪费掉。作者想利用 LLM 先生成解释,再把解释转成更适合图学习的小语言模型表示。
这篇工作要解决的是:shortcut learning 这个词被用得很多,但常常只是现象描述,缺少统一、可检验的基础定义。过去大家会说模型学了‘伪相关’、‘捷径特征’或‘dataset bias’,但这些概念边界并不清楚,导致不同论文各说各话。作者试图给出一个更扎实的 foundations 视角。
大语言模型受限于固定上下文窗口,无法生成长而一致的输出,现有记忆增强LLM要么仅支持只读记忆,要么用定制化记忆无法跨域适配,不支持长代码生成这类长输出任务。
现有预训练模块化网络无法在训练完成后灵活集成新模块做适配,此前路由机制仅考虑单模块与输入的局部匹配,忽略模块间全局交互,选块精度低。
现有基于随机游走的分布式随机优化算法采用线性马尔可夫token采样梯度,会频繁访问高频状态,采样效率低,收敛速度受限于采样分布的渐近收敛性。
这篇论文要解决的是:LLM 做闭环任务规划时,单次生成往往不稳定,而反复自洽/搜索又太慢,导致“能规划但不够高效”成为落地瓶颈。作者希望用树结构的规划与反馈,把闭环规划做得更高成功率且更省调用成本。
这篇论文要解决的是:LLM 在“批判性思考/审稿式反思”场景下往往缺少结构化的自我质疑与修订流程,导致回答看起来流畅但漏洞多。作者希望通过模拟 reviewer-author 往返的提示编辑过程,把这种反思能力以可控方式激发出来。
这篇论文要解决的是:知识蒸馏里“学生该学老师多少、学哪些”缺少可解释的几何视角,常见做法要么盲目拟合 logits 要么只看 hard label,导致在不同容量差距下不稳定。作者提出用“三边几何”(trilateral geometry)来刻画 teacher/student/label 三者关系,从而决定蒸馏强度与方向。
这篇论文要解决的是:在 Predictive State Representations (PSR) 这类用“可观测预测”替代隐状态的序列建模框架里,如何设计有理论保证且样本效率高的探索-利用算法仍不清晰。作者关注的是 UCB 类算法在 PSR 学习中的可证明效率。
这篇论文要解决的是:图上的位置编码(positional encoding)为了表达能力常被设计得很“强”,但强表达往往带来数值不稳定或训练不稳,尤其在深层/大图/长程传播时更明显。作者研究的是“表达性位置编码”的稳定性边界与条件。
这篇论文要解决的是 Transformer 里不同表示或不同分支的融合方式过于固定,通常只靠 attention 或简单加权,缺少对“两个分布如何最优对齐再融合”的显式建模。过去很多融合模块有效但启发式很强,尤其在多源输入或多层信息合并时,模型往往自己学对齐,代价是样本效率差、解释性弱、对错配敏感。
这篇论文讨论的核心问题是:实时循环学习(Real-Time Recurrent Learning, RTRL)能否在现代序列建模里成为 BPTT 的可行替代,以及它的收益和极限到底在哪里。这个问题以前长期被回避,因为 RTRL 的精确形式计算和存储成本太高,几乎无法用于大模型;但随着线性 RNN、长序列建模和在线学习需求回升,重新评估它的价值变得合理。
现有OOD检测方法多针对单视觉模态设计,未利用预训练VLM的文本模态信息,OOD样本识别精度低,且普遍依赖额外微调。
人形机器人控制任务动作空间维度高、双足形态不稳定,现有端到端强化学习方法样本效率低、泛化性差,无法适配复杂场景。
PPO-Clip是大模型对齐阶段最常用的强化学习算法之一,但现有理论分析仅针对特定场景,缺乏通用场景下的收敛性与收敛速率证明,无法解释其实际优异性能的理论机制。
传统连续投影算法(SPA)是单纯形顶点估计的主流方法,但对噪声和离群点敏感,噪声场景下顶点估计误差大,限制其在混合成分分析等任务中的应用。
这篇工作要解释的是:扩散模型为什么能在分布外仍表现出一定泛化,而不仅仅是“记住训练样本并插值”。以往对扩散泛化的解释常停留在经验观察或把它类比成去噪自编码器,但缺少可分析的表征视角来连接训练动态与生成质量。
这篇工作要回答的是:只有一层 self-attention、且注意力权重矩阵受低秩约束的 Transformer,是否仍然是通用逼近器(universal approximator)。过去关于 Transformer 表达能力的结论往往依赖多层或不受限的权重矩阵,而工程上低秩/低参数化很常见(压缩、LoRA、低秩投影),因此需要搞清楚表达能力的理论边界。
这篇工作要回答的是:深度网络在训练分布外的外推(extrapolation)是否存在可预测的规律,而不是把外推失败当成不可避免的黑箱现象。过去很多讨论停留在“神经网络不擅长外推”,但工程上我们需要知道在什么条件下外推会以什么方式失败,才能设计数据与训练策略。
这篇工作要解决的是:当模型效果不好时,如何在“端到端 ML pipeline”(数据清洗、特征、训练、后处理等)里定位到底是哪一环的数据或变换在拖后腿,而不是只在最终模型上做归因。以往数据调试多靠启发式(看分布、抽样检查)或只对单一模型做重要性分析,难以覆盖复杂流水线的组合效应。
这篇工作要解决的是:在不训练新模型的前提下,实现可组合(compositional)的图像检索,即用户用语言描述“组合条件”(如颜色+物体+关系)时仍能可靠检索。以往 compositional retrieval 常需要专门训练或微调以对齐组合语义,但这在多域部署时成本高。
这篇工作要解决的是:在强化学习里,当我们优化一个代理指标(reward/score)时,为什么会系统性偏离真实目标(Goodhart’s Law),以及这种偏离在什么条件下会变严重。以往大家知道 reward hacking,但多停留在案例与经验修补,缺少更结构化的分类与可预测的失效模式。
这篇工作要解决的是:用奖励模型微调文生图模型时,奖励信号本身并不总可靠,直接最大化它容易把模型带到 reward hacking、模式坍缩或图文错配。过去偏好优化和 reward finetuning 常默认打分可信,但图像生成里的奖励模型对分布外样本、复杂构图和细粒度审美判断都可能很不稳。
这篇工作要解决的是:开放域问答里的检索结果往往冗长、重复、互相冲突,LLM 直接吃原始检索片段时容易被噪声淹没,尤其在长上下文里更明显。过去常见做法是 top-k 拼接或先摘要后回答,但前者上下文利用率差,后者又容易把真正与答案相关的细节在摘要时丢掉。
这篇工作要回答的是:critical learning periods,也就是训练早期某些经验对最终泛化特别重要的现象,是否一定依赖深度网络的非线性和复杂优化,还是在线性网络里也会自然出现。过去这一现象多在生物学习或深度非线性模型中被讨论,因此很容易被解释成很多复杂因素的混合结果,而难以看清最小机制。
现有扩散模型成员推理攻击(MIA)查询次数多、效率低,仅针对视觉任务设计,无法直接迁移到其他模态的扩散模型隐私审计场景。
扩散模型学习的跨模态(如图文)关系不可解释,无法量化特定文本词与图像区域的对应关系,也无法预测干预后的生成效果,限制其在高可信生成场景的应用。
如何在不预先假设数据形式或群作用方式的前提下,学习数据的等变表示(equivariant representation)。以往的等变学习高度依赖于特定的网络架构设计和对数据结构的先验假设,限制了其在未知对称性数据上的应用。
循环神经网络(RNN)在什么条件下能够自发地“重放”(reactivate)任务相关的网络状态。虽然生物大脑在睡眠等静息状态下会出现这种现象,但人工网络中实现自主重放的机制尚不明确。
这篇工作要解决的是:条件图像生成模型的评测口径长期不统一,导致“看起来更好”的结论往往来自指标/数据集/协议差异而不是模型本身改进。过去社区常用各自挑选的少数指标(如 FID/CLIPScore)和私有评测脚本,难以复现也难以横向比较。
这篇工作要解决的是:大规模视觉模型微调时,为什么很多实践依赖 AdamW/自适应优化器,而用纯 SGD 往往不稳定或效果差,以及如何让 SGD 在微调场景可用。过去的次优解是“直接换优化器”,但这会改变隐式正则与泛化行为,也让跨设置复现更难。
这篇工作要解决的是:如何对“无序数据结构”(集合、点集、图的无序部分)做严格的熵编码/概率建模,使得编码长度与真实分布匹配,而不是被任意排序引入额外冗余。过去常见做法是强行排序再用序列模型,但排序会把建模难度转移为“学排序”,并造成不可忽略的编码损失。
这篇工作要解决的是:非凸双层优化(bilevel optimization)在用 penalty method(罚函数法)与一阶随机近似时,什么时候能收敛、收敛到什么点、以及如何设定罚系数与步长才不至于训练发散或停在坏解。以往很多方法在深度学习里“能跑”但缺少清晰的理论边界,导致超参选择高度经验化。
这篇工作要解决的是:如何在“文本条件”下做图像聚类,使聚类结果能对齐用户给出的语义标准,而不是只按视觉相似度自发分组。以往聚类多是无监督视觉特征空间的几何问题,用户想要的“按某个概念分组”通常需要额外标注或检索式筛选。
这篇工作要解决的是:VLM 的解释往往不忠实(faithfulness),模型给出的“理由/热力图”可能与真实决策依据无关,导致解释不可用于调试与数据治理。过去常用的后验解释方法(attention rollout、grad-CAM、文本 rationales)容易被模型的表面相关性欺骗。
这篇工作要解决的是:代码生成模型容易一次性输出长程序但缺乏模块化与自我纠错能力,导致小错误累积、可维护性差、以及难以在复杂任务上稳定提升。过去常见做法是单轮生成或简单 self-refine,但缺少“可复用子模块”的结构约束。
这篇工作要解决的是:如何把多个对象/布局/深度关系“可组合”地注入扩散生成,使模型能按部件组合生成且保持深度一致与遮挡合理。以往的组合式生成常在 2D 贴图层面拼接,容易出现遮挡错误、尺度/深度不一致,或者需要昂贵的 3D 渲染监督。
这篇论文针对时间序列 Transformer 的一个结构性问题:patch-based 建模虽然提高效率,但 patch embedding 往往强依赖相邻 patch 或全局上下文,导致局部表征和长程建模纠缠在一起。过去很多方法默认“先把 patch 嵌入做复杂,再交给主干”,但这样会把不必要的时序归纳偏置塞进 embedding 层,增加训练难度并损害长度泛化。
这篇论文要解决的是:很多感知与生成任务隐含依赖元素顺序,但训练数据并不总提供显式顺序标签,或者给出的顺序只是观测顺序而非语义顺序。过去这类问题通常靠人工规则、外部监督或把顺序固定死来回避,因此模型能做集合建模,却学不会“什么顺序更自然、更有利于建模”。
这篇论文要解决的是 text-to-3D 生成速度慢、质量不稳、优化流程长的问题。传统方法常直接从文本优化 NeRF/3D 表示,靠 2D diffusion guidance 反复反传,结果是每个样本生成都很慢,而且视角一致性与几何质量经常拉扯;这使得 text-to-3D 很难像图像生成那样进入高吞吐阶段。
如何利用非成对(unpaired)的图像-文本数据训练视觉-语言生成模型。当前模型高度依赖大规模成对数据,但自动收集的数据质量低,人工标注成本高。
在文本到 3D 生成任务中,如何解决将 2D 扩散模型的先验提升(lifting)到 3D 时产生的多视角不一致问题(如多面神现象)。2D 扩散模型缺乏 3D 知识,导致生成的 3D 结构几何错位。
如何让自主智能体像人类一样,通过理解物体的拓扑结构和关节连接(articulation)来泛化操作技能。以往的物体建模研究较少从操作(manipulation)的视角将视觉和触觉信号结合起来理解日常物体。
如何为图像到图像(Image-to-Image)生成模型实现机器遗忘(Machine Unlearning)。现有的遗忘方法主要针对分类模型,生成模型的遗忘领域尤其是 Image-to-Image 模型仍缺乏统一框架和有效算法。
如何简单有效地利用现有的视觉-语言基础模型(VLMs)来解决机器人操作任务。以往的方法往往需要复杂的架构修改或大量的特定领域预训练。
Prompt-tuning 在少样本(few-shot)推理场景下泛化能力差的问题。作者指出,这是因为预训练语言模型(PLMs)包含的知识过于庞杂,而目标下游领域的知识又被缩减,导致模型在通用知识空间中无法准确定位目标领域的知识分布。
这篇论文要解决的是:音乐音频的自监督预训练长期缺少像语音/文本那样通用的“基础模型”,导致下游音乐理解任务依赖小数据监督或任务特化特征。过去的音乐表征学习往往规模不够或预训练目标不够通用,因此需要大规模自监督的音乐理解基座。
这篇论文要解决的是:在存在潜变量的情况下恢复因果结构通常需要很强的分布假设或图结构假设,现实数据往往不满足,导致可识别性与算法适用范围受限。过去很多工作依赖线性/高斯/无混杂等强条件,因此需要更温和假设下的结构恢复理论与方法。
这篇论文要解决的是:在时间相关的 episodic RL 中,按 episode 聚合更新会把时序相关性与信用分配问题揉在一起,导致策略更新不透明、方差大、难诊断。过去常见做法是改 advantage 估计或加正则,但仍难解释“哪一步导致了策略变化”。
这篇工作想解决的是:能不能用一个统一模型处理各种不同结构的神经网络架构,并在它们之间做预测、比较或泛化。过去很多 NAS 或元模型方法都绑定某一类架构搜索空间,比如只适配 cell-based CNN 或固定 Transformer 变体,一换图结构就失效。
这篇工作解决的是一个很基础但常被忽略的问题:很多序列模型虽然理论上比 Transformer 更灵活,但因为状态转移是非线性的,沿序列长度不能并行,训练和推理效率就很差。过去可并行化的主要是线性递推或可扫描结构,一旦引入非线性,通常就退回串行。
这篇工作处理的是类增量学习里的一个老问题:测试时样本属于哪个任务通常不知道,而任务识别一错,后续分类就会连带出错。过去很多 class-incremental 方法把任务预测当成附属步骤,依赖启发式分数或额外分类头,导致在类别不断增加时很不稳。
这篇工作试图解决的是 OOD 泛化里一个典型症结:模型会抓住训练环境中稳定但伪相关的特征,一旦环境变了就失效。以往很多方法试图压制或剥离 spurious feature,但在没有强环境标注时很难精确识别,且过度抑制还会伤到有用特征。
这篇工作研究的是过拟合阶段的记忆化问题,尤其是自然训练、鲁棒训练和 catastrophic overfitting 这几种情形下,模型是否都会出现过度记忆,以及这种记忆和泛化崩坏之间是什么关系。过去大家更常把这些现象分开研究:自然过拟合看标准泛化,鲁棒过拟合看 adversarial 泛化,catastrophic overfitting 看训练失稳,但较少统一从 memorization 角度比较。
语音生成的主流方法要么依赖离散 token(如 AudioLM / VALL-E),引入量化损失和复杂的多码本建模;要么用扩散模型但缺乏与语言模型的统一框架。本文探索用 flow matching(连续归一化流)做语音的生成式预训练,试图在连续空间直接建模语音,避免离散化瓶颈。
句子嵌入的对比学习方法(如 SimCSE)擅长衡量语义相似度,但不支持集合运算(交集、并集、差集)。SetCSE 试图让句子嵌入空间支持这些集合操作,使语义检索和组合查询更灵活。
贝叶斯优化(BO)在超参搜索等场景中广泛使用,但其采集函数和代理模型的设计依赖领域知识。本文探索用 LLM 的先验知识来增强 BO 的搜索效率。
LLM 的置信度校准(calibration)在短文本和长文本生成上表现不一致,现有校准方法要么只针对分类/短回答,要么计算开销大。LitCab 提出一种轻量级方法同时处理短文本和长文本的校准问题。
多模态推理任务中,不同模型在不同输入上的表现差异很大,单一模型难以在所有情况下最优。本文提出通过模型选择机制,在推理时动态选择最合适的模型来处理每个输入。
这篇论文要解决的是:用“神经元激活覆盖率”(Neuron Activation Coverage)重新审视 OOD 检测与泛化评估,避免只依赖 softmax 置信度这类在分布外容易失真的信号。以往 OOD 检测很多方法在大模型上会出现过度自信或校准失效,导致误判。
这篇论文要解决的是:在持续测试时自适应(continual test-time adaptation)场景下,模型如何在不断变化的视觉域上在线适配,同时避免灾难性遗忘与错误累积。以往 TTA 往往依赖熵最小化或伪标签自训练,但在长时间、非平稳分布下容易漂移。
这篇论文要解决的是:多智能体强化学习(MARL)如何在复杂协作/对抗环境中更高效地学习,避免纯策略梯度在信用分配与样本效率上的瓶颈。以往 MARL 常在大状态空间里训练不稳定、收敛慢。
这篇论文要解决的是:零阶优化(zeroth-order optimization,只有函数值没有梯度)在一般条件下的稳定性如何分析与保证,避免在噪声或非凸下出现发散或震荡。以往零阶方法常有收敛结果,但对“稳定性”(对扰动/步长/噪声的敏感性)缺少统一分析框架。
这篇论文要解决的是:随机梯度方法(SGD/变体)的“最后一次迭代”(last-iterate)收敛性在什么条件下成立,以及如何解释实践中常用“取最后 checkpoint”仍然有效。以往很多理论保证的是平均迭代(iterate averaging)或最优迭代,但工程上更关心最后迭代。
这篇论文要解决的是:在模仿学习(imitation learning)里如何高效利用大规模预训练模型,同时让策略对不同任务具备可控的任务特化能力,而不是每个任务都全参微调。以往把大模型直接用于控制/决策时,要么适配成本高,要么共享参数导致任务间互相干扰。
这篇工作要回答的问题很直接:MAE 预训练里“重建什么目标”并不是细节,而是决定表征质量的核心设计。过去很多工作默认重建像素,或者零散尝试 HOG、dVAE token、深层特征,但缺少系统比较,所以 MAE 到底是在学低层复原还是在学可迁移语义,一直没有被讲清楚。
这篇工作解决的是多智能体通信为何难学且常常学出脆弱协议的问题。传统方法通常靠任务奖励端到端优化消息,但 credit assignment 很长、信号很稀疏,结果是通信通道要么塌缩成无意义噪声,要么只在特定训练分布下有效。
这篇论文研究的是训练数据重构攻击为什么会成功,以及成功边界在哪里。过去关于 reconstruction attack 的结论大多依赖经验攻击和个别案例,能看到隐私风险,但很难判断风险来自模型记忆、数据可分性,还是攻击器本身太强。
这篇工作关注 Transformer 注意力中的偏置问题,而且强调在没有 demographic 标签的情况下去偏。现实中很多公平性方法依赖受保护属性标注,但这类标签常常缺失、敏感或本身有噪声,所以“先拿到 demographics 再 debias”在很多真实场景里并不成立。
这篇论文要解决的是一个训练动力学问题:SGD 在大学习率下出现振荡,不一定意味着训练失控,哪些振荡其实是“良性的”。过去工程上常把 oscillation 直接等同于不稳定,于是保守地降学习率,但这可能牺牲收敛速度和泛化。
这篇论文要解决的是视频生成里扩散 Transformer 的通用性和效率问题。标准视频 diffusion 往往既贵又任务绑定,训练和推理都重;而视频是时空高维数据,直接沿用图像扩散配方通常不能兼顾长时建模、生成质量和扩展性。
这篇工作研究的是 VLM 对抗图像在不同 prompt 之间的可迁移性,也就是一张被攻击过的图像能否跨文本查询持续误导模型。过去很多对抗攻击只证明“某个 prompt 下能骗过模型”,但真实风险在于攻击是否具备 prompt-agnostic 的稳定性,否则威胁面其实有限。
解决 LLM 在复杂推理任务中由于缺乏最新知识和产生幻觉而导致推理过程错误的问题。以往方法通常只将知识图谱(KG)作为事实知识库进行检索,忽略了 KG 结构信息对推理路径的指导作用。
将数据集蒸馏(Dataset Distillation)技术扩展到强化学习(RL)领域。以往的数据集蒸馏方法依赖于固定的监督数据集,无法直接应用于缺乏固定专家数据集的 RL 环境。
解决无样本类增量学习(EFCIL)中的“冷启动”问题。在初始任务数据不足以训练出高质量骨干网络时,模型需要保持高可塑性以学习新任务,但这会导致严重的特征漂移(灾难性遗忘),在没有旧样本回放的情况下极难补偿。
这篇论文要回答:LLM 里到底“存了多少可用的地理空间知识”,以及如何把这种知识稳定地抽取成可评测、可用的地理表征/预测。过去地理知识常被当作常识问答或零散 probing 来看,缺少系统的抽取与验证,导致你很难判断模型是真懂地理关系还是在做文本相似性匹配。
这篇论文要解决:生成式内容检测在“改写/润色”后会显著失效,因为检测器往往学到的是表面统计特征而不是生成过程的可迁移痕迹。过去很多检测工作默认攻击者不做强改写,或只做轻量 paraphrase,因此在真实对抗环境下不稳。
这篇论文解决的是:DNA 语言模型的评测长期被“代理任务”主导,导致你很难判断模型学到的是生物学规律还是数据集偏差。过去常用的 benchmark 往往与真实生物功能关联弱,或者标签定义不够生物学可解释。
这篇论文解决的是:在持续学习/数据流式到来时,如何高效优化有限和目标(finite-sum minimization)而不每次都从头扫全量数据。以往要么用增量 SGD 但收敛慢,要么用方差缩减方法但在 continual 场景下维护代价高、对分布漂移不稳。
这篇论文解决的是:分布鲁棒优化(DRO)在实践中常常过于保守、优化不稳定,部分原因是梯度估计的偏差与方差过大。以往 DRO 往往通过 worst-case 重加权来抗分布偏移,但这会放大噪声样本的影响,导致训练震荡或性能回退。
这篇工作要解决的是:为什么 Batch Normalization 在很深网络里会伴随梯度爆炸,以及能否保留 BN 的优化好处同时去掉这个深度上限。过去很多工作绕开这个问题,直接改用 LayerNorm、残差缩放或更保守的初始化;这篇论文则直接处理 BN 的不稳定根源。
这篇工作关注一个很实际的问题:LLM 会输出看起来流畅但中间步骤错误的 chain-of-thought,能否在零样本条件下让模型自己检查自己的逐步推理。过去常见做法是只验最终答案,或者依赖外部 verifier / 监督数据;这两条路要么漏掉中间错因,要么成本高。
这篇工作解决的是自动定理证明里的 premise selection:在大量候选前提中,如何高质量地挑出真正有用的少数,减少后续证明搜索的组合爆炸。传统方法依赖手工特征或较浅的检索模型,面对长上下文和形式化语义时效果有限。
这篇工作要解决的是:评估 code LLM 不能只看一次采样的 pass@k 或功能正确率,还要看模型在语义等价变换下是否保持一致。以前基准默认“答对几道题”就足够,但代码模型常会在重命名变量、改写注释或轻微重构后出现不稳定,暴露的是表征和推理的脆弱性,而不是单点准确率能看出来的问题。
这篇工作研究的是:LLM 在对话和问答中是否会违反“情境完整性”下的隐私规范,也就是把本不该在当前情境流动的信息泄露出去。过去很多隐私评测盯的是训练集记忆或 membership inference,但现实中的隐私失误更常来自语境错配:模型知道不代表此刻该说。
这篇工作要解决的是:等变神经网络在面对复杂连续对称群时,构造成本高、适用范围窄,能否利用 Lie 群分解把难处理的大群拆成更容易建模的部分。以往很多等变模型只针对少数熟悉群单独设计,泛化到新群时需要重新造轮子。
这篇工作要解决的是:多视角 Transformer 如果只把不同视角当作普通 token 序列处理,往往不能充分利用相机几何,导致跨视角对应关系学得又慢又脆弱。过去做法常在网络外单独加几何模块,或者依赖大量数据让模型自己学,效率都不理想。
解决在固定预测器(如预训练好的 LLM)上进行带有“拒绝选项”(reject option)的分类问题。以往的拒绝学习通常需要联合训练预测器和拒绝器,这对于计算成本高昂的现代大模型不切实际。
解决标准经验风险最小化(ERM)训练出的模型普遍存在的过度自信和校准不良(poor calibration)问题。传统方法通常依赖于后处理(如温度缩放)或复杂的正则化,难以在训练阶段自然地解决。
解决视觉-语言预训练模型(如 CLIP)在下游任务微调时,虽然能提升目标任务性能,但会丧失其原有的零样本鲁棒性(即对分布偏移的抵抗力)的问题。
这篇工作要解决的是:在“可拒绝预测/选择性分类(selective classification)”里,如何在长尾分布下同时做到高覆盖率(coverage)和低风险(risk),而不是只在头部类上看起来很安全。以往很多拒绝学习方法默认 i.i.d. 或者用单一阈值控制整体风险,结果往往把长尾样本系统性地拒掉或误判。
这篇工作要解决的是:在选择性分类同时做 OOD 检测时,如何用“插件式(plugin)”估计把不可直接观测的目标量(如选择性风险、覆盖率、OOD 误检/漏检率)稳定地估出来,从而能可靠地设阈值与给出保证。以往做法要么依赖强分布假设,要么用启发式分数导致估计偏差,阈值一换数据就失效。
这篇工作要解决的是:在通用扩散式图像编辑里,用随机微分方程(SDE)采样往往比常微分方程(ODE)采样更稳、更泛化,作者给出“随机性是优势”的系统性证据。以往很多编辑方法偏好 ODE(确定性、步数少、可复现),但在编辑强度变化或提示词分布外时容易出现伪影或语义漂移。
这篇工作要解决的是:如何用“负向提示词(negative prompts)”把 OOD 检测从纯分数阈值问题变成更可控的对比判别问题,从而在开放世界输入下更稳地识别“不像训练分布”的样本。传统 OOD 往往依赖最大 softmax 概率或能量分数,但这些分数在大模型与分布漂移下很难校准。
这篇工作要解决的是:在涌现通信(emergent communication)里,智能体如何通过“会话修复(conversational repair)”机制在误解发生时恢复对齐,而不是把通信当成一次性编码-解码。以往很多 emergent communication 任务假设信道干净或协议固定,导致学到的语言脆弱且缺少真实对话中的纠错能力。
这篇工作要解决的是:在固定算力预算下,如何最小化“达到目标精度所需时间(time-to-accuracy)”,结论是重复随机采样(Repeated Random Sampling)能在某些学习设置里更快到达给定精度。传统训练往往默认均匀遍历数据或按固定 curriculum,但这不一定是最优的收敛时间策略。
这篇论文的核心问题是:hypernetwork 学习常常不稳定、难调参,作者试图解决其中一个被低估的根源——权重幅值不受控导致的优化病态。过去很多工作把注意力放在 hypernetwork 容量或条件输入设计上,但忽略了“生成参数的参数化方式”本身会决定梯度尺度和学习动力学,因此模型经常能拟合但很难高效训练。
这篇论文要解决的是:扩散模型里的 Transformer 去噪器成本太高,能否通过参数共享把模型做小很多,同时尽量不牺牲生成质量。以往扩散模型通常沿用每层独立参数的标准 Transformer,这在图像建模里效果好但训练和部署都很重;如果时间步之间和层之间存在大量重复计算结构,那么参数共享可能是一个被低估的效率杠杆。
这篇论文要解决的是:如何从训练数据中识别出带后门的样本,而不是只在模型部署后被动检测触发器。过去后门防御多数集中在输入过滤、鲁棒训练或测试时检测,但如果训练集投毒已经发生,事后很难追溯具体脏数据;因此作者想直接做 data-level forensic,把污染样本从混杂语料中挖出来。
这篇论文要解决的是:Generative Flow Networks(GFlowNets)能否像神经网络一样先预训练再微调,而不是每个新任务都从头学采样策略。过去 GFlowNet 研究更多聚焦单任务训练和理论性质,但在实际组合空间搜索里,从零开始学往往样本效率差、任务迁移弱,因此作者尝试建立一套 pre-train / fine-tune 范式。
这篇论文的核心问题是:在各向异性梯度噪声下,随机 Heavy Ball 方法能否比已有理论预测得更快收敛。过去优化理论常用各向同性或统一上界噪声模型,这对分析方便,但和深度学习里的真实梯度噪声结构并不匹配;如果噪声在不同特征方向差异很大,那么动量方法的实际优势与风险都需要重新刻画。
解决事后(post-hoc)分布外(OOD)检测中,现有基于密度估计的得分函数往往无法准确反映真实数据密度或施加了不切实际约束的问题。
这篇论文要解决的是:如何把自然语言里“人类可解释的高层状态/子任务描述”变成可学习、可复用的状态抽象,从而让智能体在新任务上更快泛化,而不是每次都在原始观测空间里从头学表示。以往做法要么依赖手工定义抽象,要么用无监督抽象但很难对齐人类语义,导致迁移时抽象不稳定或不可控。
这篇论文要解决的是:如何自动化评估模型输出质量,并让评估器对分布外样本和对抗性输出更稳健,而不是依赖人工打分或脆弱的启发式指标。传统自动评估(如基于相似度或单一判别器)常出现“看起来合理但被轻易骗过”的问题。
这篇论文要解决的是:如何在不显著牺牲画质的前提下,把大规模文生图扩散模型做得更高效,尤其是降低训练/采样的计算与显存成本。传统 latent diffusion 在高分辨率与大模型规模下,UNet 主干的计算开销和多步采样会成为主要瓶颈。
这篇论文要解决的是:如何在深度模型里做更可靠的不确定性量化(uncertainty quantification),尤其是在重尾噪声或分布偏移下避免“过度自信”。常见高斯假设或简单 dropout 近似在重尾场景会系统性低估风险。
这篇论文要解决的是:让目标检测模型像“视觉助手”一样理解并执行自然语言指令(例如“找出左边穿红衣的人”),而不是只能输出固定类别框。传统检测的标签空间固定,和人类指令的开放词汇存在结构性不匹配。
这篇论文要解决的是:如何用“行为基础模型(behavior foundation models)”实现更快的模仿学习,让机器人/智能体在新任务上用更少示范就能学会,而不是每个任务都从零训练策略。传统 imitation learning 往往缺少跨任务可复用的行为先验。
这篇工作要解决的是:现有 VLM 在回答视觉问题时经常抓不住问题里的视觉落点,导致模型会语言上“会答题”,但没有真正把问题和图像区域对齐。过去很多方法默认问题本身已经足够清晰,或只在答案端做推理增强,较少显式改写问题并补充视觉 grounding 信号,因此在复杂指代、多跳属性和细粒度定位上容易出错。
这篇工作要解决的是:现有 embodied AI 仿真平台通常只支持机器人或静态场景,难以同时建模人、虚拟角色和机器人共处、协作和干扰的环境,因此对多主体感知、规划和语言交互的研究支撑不足。过去这类问题常被拆成单体导航、操控或人机交互任务分别做,导致评测环境和真实部署场景脱节。
这篇工作要解决的是:单张图像生成高质量 3D 物体时,纯 2D diffusion prior 往往多视角不一致,纯 3D prior 又容易细节不足、优化困难。过去很多方法在 2D 质量和 3D 一致性之间二选一,因此生成结果要么好看但转一圈就崩,要么几何稳定但纹理粗糙。
这篇工作要解决的是:在联邦学习场景下为 VLM 生成有效 prompt 很难,因为数据分散在各客户端、文本分布异质且存在隐私约束,无法像中心化训练那样直接收集所有文本来调 prompt。过去很多 prompt learning 方法默认可访问全局数据,因此在 federated setting 下不适用或效果明显下降。
解决现有的文本驱动视频扩散模型由于训练帧数限制,无法在推理时生成高保真长视频,且不支持随时间变化的多文本条件输入的问题。
现有人工神经网络的激活机制采用静态响应阈值,未匹配生物神经元随环境和激活状态动态调整响应条件的特性,导致模型对复杂输入的拟合能力存在瓶颈,此前的激活函数设计均未落地生物动态响应的核心逻辑。
对抗训练普遍存在鲁棒过拟合问题,训练后期测试集鲁棒精度随迭代下降,阻碍模型泛化,此前的缓解方法多依赖正则项或数据增强,未借鉴生物主动遗忘的机制。
现有图像分类模型的失败模式提取方法先对错误样本做隐空间聚类再生成文本描述,聚类得到的簇不保证携带可解释属性,导致描述和真实失败模式不匹配,此前的工作均将聚类作为前置步骤,未优先考虑可解释性要求。
这篇论文要解决的是:在优化器比较中,很多结论依赖“全序排名”(谁第一谁第二),但在噪声、超参敏感和任务差异下,全序往往不稳且误导;作者提出用“部分排序”来表达哪些优化器在统计上可区分、哪些其实等价。过去常见做法是报告单点最优或平均排名,但这会把不显著的差异硬排出先后。
这篇论文要解决的是:在不改动 VLM 主干参数或只做轻量适配时,如何让 prompt 学习更稳、更可泛化,而不是对某个数据集的 prompt 过拟合。以往 prompt tuning 往往依赖少量标注数据直接优化 prompt,但容易出现跨域掉点和对初始化敏感。
这篇论文要解决的是:物理约束机器学习(尤其 PINNs)训练难、收敛慢、对尺度敏感的问题,能否用“算子预条件”(operator preconditioning)的视角统一解释并给出改进。以往很多技巧是经验性的调 loss 权重或改采样,但缺少统一的数值分析框架。
这篇论文聚焦一个很具体但长期困难的问题:世界模型能否真正掌握需要长期记忆的任务,而不只是拟合短期动力学。以往世界模型在像素控制、规划和 imagination 上表现不错,但一旦任务奖励依赖远距离历史信息,latent state 很容易只保留短期可预测内容,导致记忆任务表现差。
这篇论文要解决的是:神经机器翻译里“模型利用了上下文”这一说法到底有多可信,以及现有上下文依赖评估有多少是假阳性。以往工作常通过给模型加文档级上下文并观察指标变化,或构造对照样本来看输出是否变化,但这并不能区分模型是真的依赖了语义相关上下文,还是被位置、格式、主题重复等表面信号带偏。
这篇论文要解决的是:在没有动作标签的情况下,能否学到可执行的行为策略。传统 imitation learning 或 offline RL 往往默认数据里有显式 action,或者至少能从环境接口拿到动作监督;但现实里大量视频、观测序列和日志只有状态变化,没有动作,这让可利用数据规模被严重限制。
这篇论文研究的是更强的一类后门攻击:能否构造通用触发器,让模型在广泛输入上稳定中招,而不是只对某一任务或某一输入模式生效。过去很多后门工作依赖特定样本分布、固定位置触发或任务专用数据投毒,因此攻击强但泛化差;这篇工作关注的是后门的可迁移性和普适性。
这篇论文要解决的是:如何让模型学到真正模块化、可组合的解法,而不是在训练分布上记住表面模式。组合泛化长期困难的原因不在于模型容量不够,而在于标准端到端训练更容易学到纠缠表示;训练任务换了排列组合,模型就失效。
这篇论文关注一个在多模态数据里常被忽略的问题:图像中嵌入的文字会不会让模型学到投机路径,从而损害真正的视觉-语言对齐。很多图文数据里的图片本身就带字幕、标题、海报文字或水印,模型可能直接读这些文本完成任务,而不是学会从视觉内容理解语义。
现有扩散模型做姿态引导的人像生成时,源和目标姿态差距大的情况下生成内容一致性差,此前的方法均采用单阶段对齐姿态和外观,未通过分阶段设计降低大姿态差的对齐难度。
现有锐度感知最小化(SAM)仅通过降低参数空间的损失曲面曲率提升域泛化,但微调阶段的泛化更依赖函数空间的表征迁移性,单独使用SAM无法保留预训练的通用表征,此前的工作未统一参数空间和函数空间的低曲率正则目标。
现有多模态预训练模型的模态融合策略依赖显式交互结构,无法捕捉输入数据的多维度语义关联,零样本场景下细粒度分类和抽象理解性能差,此前的工作未用四元数空间建模多模态的正交语义关联。
这篇论文要解决的是:MAE(Masked Autoencoder)和对比学习各自学到的表征互补但训练目标割裂,导致要么重建强但语义弱、要么语义强但细节弱,缺少一个“可控地把两者连起来”的统一蒸馏路径。
这篇论文要解决的是:传统多视角对比学习通常把“视角”限定为两种增强或两种模态,导致信息利用率低且对视角噪声敏感,难以在多源、多粒度视角下稳定学习一致表征。
这篇论文要解决的是:在某些学习设定下“过参数化是否必然导致过拟合”这一经典直觉与现代现象(double descent 等)冲突,理论上缺少对“无限过参数化何时反而最优、且过拟合不可避免”的刻画。
这篇论文要解决的是:机器生成文本检测在 few-shot 场景下很难泛化,因为生成模型与写作域不断变化,基于表面统计或特定检测器的特征容易失效。
这篇论文的核心问题是:蛋白质语言模型只看氨基酸序列信息不够,如何把结构信息前置到 token 层而不是只在下游任务里补救。以往很多 protein LM 主要沿用文本 LM 的离散词表,把三维结构当额外监督或后融合特征;SaProt 认为这样会错过最关键的一步——表示单元本身没有把结构约束编码进去。
这篇论文要回答的是:LLM 能否不只是做高层规划器,而是真正作为可泛化的 embodied policy,在新任务和新环境里直接驱动行为。过去很多 embodied agent 系统把 LLM 用作语言接口或子模块,底层控制仍依赖专门 policy;作者想检验 LLM 是否能承担更完整的决策角色。
现有神经网络缩放方法(如 NAS 或 uniform scaling)在调整模型大小时对所有层均匀处理,忽略了不同深度层的重要性差异。本文探索在深度维度上进行异构缩放,即不同层分配不同的宽度/计算量,以在相同参数预算下获得更好的性能。
现有文本到图像生成模型在渲染真实文本(如标志、海报中的文字)时表现很差,生成的文字往往拼写错误或不可读。本文旨在让图像生成模型能准确合成包含真实可读文本的图像。
多任务模型融合(model merging)在合并多个微调模型时面临任务间干扰问题——不同任务的参数更新方向可能冲突,导致合并后性能下降。本文提出通过部分线性化(partial linearization)来缓解这一问题,同时保持参数高效。
模型校准(calibration)——即模型输出的置信度是否与实际准确率匹配——的评估方法和基准不统一,导致不同校准方法之间的比较不公平。本文提供一个系统性的校准基准研究。
嵌入空间(embedding spaces)的语义结构难以直接解释——我们知道嵌入向量编码了有用信息,但很难说清楚具体编码了什么。本文用 LLM 来解释和揭示嵌入空间的语义结构。
Neural ODE 的训练优化不稳定且效率低——反向传播通过 ODE solver 时梯度容易爆炸或消失,导致训练困难。本文提出一种更鲁棒的 Neural ODE 优化器。
这篇论文要解决的是:能否把“剪枝策略搜索/元剪枝”从大量启发式与昂贵搜索,变成一个有明确几何目标、可优化且可迁移的过程。以往剪枝常靠逐层打分或训练中逐步稀疏化,但跨模型/跨层的结构约束与“剪掉哪些连接才最不伤功能”之间缺少统一刻画。
这篇论文要解决的是:扩散模型生成的数据增强,什么时候真的提升下游模型泛化,什么时候只是引入分布偏移导致“看起来多了数据但更难学”。传统增强依赖手工变换或简单生成模型,而扩散模型虽然逼真,但生成分布与标签保持、覆盖长尾的关系并不自动成立。
这篇论文要解决的是:扩散模型里的“概念移除/遗忘”(concept removal)方法到底有多可靠,是否真的移除了目标概念,还是只是把触发方式换了个壳。以往很多遗忘方法用少量提示评测,容易被提示改写、组合概念或不同采样设置绕过。
这篇论文要解决的是:视觉提示(visual prompting)方法与模板太多、调参成本高,能否用自动化框架在不同任务/模型上稳定找到有效提示,并给出可比较的基准。过去很多视觉提示工作依赖人工设计或在单一数据集上调到好看,迁移性与可复现性不足。
这篇论文要解决的是:混合精度(mixed precision)用于神经算子(neural operators)时,能否给出可证明的近似误差界,从而把“为了省显存/带宽而降精度”的风险变成可控量。以往混合精度更多是经验工程,出了数值问题只能靠试错。
这篇工作聚焦 MoE 训练里一个很实际的问题:expert-token matching 做不好时,MoE 的容量和计算优势都兑现不了。过去很多讨论把重点放在 load balancing loss 或路由器结构上,但训练不稳定、专家塌缩和 token 分配失衡,往往首先就是匹配机制出了问题。
这篇工作关注的是 text-to-image diffusion model 的训练数据可追责性:当模型疑似未经授权使用了某些文本数据或样本时,能否检测出来。过去数据治理更多依赖外部审计或数据集声明,但 diffusion model 的训练过程黑箱且生成分布间接,导致 unauthorized data usage 很难证明。
这篇工作研究的是一个优化理论问题:在带 L2 正则的线性深度网络里,SGD 为何会表现出从高秩解向低秩解的单向跳变。过去人们知道 SGD 有隐式偏置,会偏向某些简单解,但具体到 rank 动力学,尤其是在深层线性网络和显式正则共同作用下,机制并不清楚。
这篇工作要解决的是 continual learning 领域长期碎片化的问题:不同方法依赖不同任务假设、记忆机制和参数更新规则,导致方法之间难以统一比较,也难以系统设计新算法。以前很多工作是在某一子设定里做局部最优,但缺少一个足够一般的总框架。
这篇工作针对的是一个很具体但常被低估的问题:training-free 的 CLIP adaptation 还有没有强 baseline,还是大家把太多精力花在复杂技巧上却没把简单方法做扎实。过去很多 test-time 或 prompt-based adaptation 方法报告增益,但比较对象往往不够强,导致很难判断真实进步来自方法本身还是 baseline 太弱。
在小学习率 SGD 的设定下,动量(momentum)到底还有没有用?实践中大家默认加动量,但理论上对于小学习率场景,动量的边际收益并不清楚,甚至可能可以忽略。
将 LLM 生成的高层语言计划落地为机器人可执行的低层动作时,计划往往因为缺乏物理环境的 grounding 而失败。之前的方法要么需要大量标注数据,要么依赖手工设计的 grounding 函数。
后门攻击(backdoor attack)的成功机制缺乏严格的统计理论解释——为什么少量投毒样本就能让模型学到后门?之前的分析多是经验性的,缺乏对投毒比例、模型容量、数据分布之间关系的定量刻画。
用生成模型(如扩散模型)合成的数据来增强对比学习,是否总是有效?直觉上更多数据应该更好,但实际中生成数据的分布偏移可能反而损害表示质量。之前缺乏对这个问题的系统性分析。
这篇论文要解决的是:对比学习里“负样本/负项”带来的训练不稳定与表示偏置,能否在不依赖显式负样本的前提下仍保持判别性表示。传统 InfoNCE 一类目标把大量梯度预算花在“推开负样本”上,遇到假负样本(语义相近却被当负)时会直接伤害表征质量,且在小 batch 或分布偏移时更明显。
这篇论文要解决的是:多模态大模型做“个性化推荐/生成式推荐”时,如何把用户偏好、历史交互与图文内容统一进一个可生成、可对话、可迁移的模型,而不是把推荐系统拆成召回/排序/重排的多阶段管线。传统推荐的监督信号强但表达受限,VLM 的生成能力强但个性化与长期偏好建模薄弱。
这篇论文要回答的是:标准 Transformer 在视觉或场景理解里是否真的学到了“物体间空间关系”,还是只是在利用纹理与共现统计做捷径。过去很多 VLM/ViT 报告在下游任务上表现好,但很难区分它们是理解了相对位置/拓扑关系,还是记住了数据集偏差。
这篇论文要解决的是:扩散模型会记忆训练数据并在采样时泄露近似复现,如何系统地检测、解释并缓解这种记忆化风险。以往对生成模型的记忆研究更多集中在 LLM 或 GAN,扩散模型由于采样链长、输出连续,导致“复现”更难定义也更难测。
这篇论文要指出的是:生成式模型能产出看似合理的内容,但这种“可生成性”并不等价于“可理解性”,两者之间存在系统性错位。过去评测常把生成质量当作理解能力的代理指标,导致我们高估模型在语义、因果或世界模型层面的掌握。
这篇论文要解决的是:扩散模型采样过程中会出现发散或伪影(divergence artifacts),尤其在少步采样或高 guidance 下更明显,如何在不显著增加步数的情况下稳定采样轨迹。传统采样器(DDIM/ODE/SDE)更多关注速度-质量折中,但对“数值发散样式的伪影”缺少专门抑制机制。
这篇论文要解决的问题是:机器人操作数据贵且稀缺,而互联网级视频生成预训练积累了大量视觉动力学先验,但两者长期是分开的。过去机器人学习更多依赖小规模 demonstration 或任务特定策略学习,视频生成模型虽然见过丰富世界动态,却很少被系统地转成可用于控制的表示。
这篇论文要解决的问题是:现有视觉概念推理基准大多封闭词表、概念固定,不能真正测试模型对开放世界自由概念的 few-shot 抽象能力。过去 Bongard 类任务强调概念归纳,但数据往往过于人工化;现实世界图像和自由形式概念一进来,难度和研究价值都上去了。
这篇论文要解决的问题是:安全强化学习里同时优化回报和约束本来就难,离策略 off-policy 设置又进一步带来分布偏移和估计偏差,导致 primal-dual 方法不稳定。过去很多安全 RL 方法依赖 on-policy 更新,样本效率低;而直接把 primal-dual 套到 off-policy 上,经常出现约束违背或收敛差。
现有检索增强方法通过把检索结果和输入拼接来提升性能,会增加输入长度大幅提升注意力计算开销,且仅在知识密集型任务有效,非知识密集型任务收益低,此前的工作未提出不增加输入长度的检索增强范式。
现有视频扩散模型多在2D图像扩散基础上补充时序操作,3D操作过于简化导致时空建模能力不足,生成视频的时序一致性和可控性差,此前的工作未对时空卷积做多路径增强。
深度神经网络后门攻击的现有事后防御要么依赖模型训练过程信息,要么检测精度不足,无法独立于后门植入方式精准识别后门输入。
这篇论文要解决的是:foundation model 在新任务上 few-shot 适配时,单任务微调容易过拟合且迁移不稳,而纯 in-context learning 又受限于上下文与示例质量。过去很多工作在“更大模型”或“更强提示”上兜圈子,没有系统利用多任务信号来改善少样本适配。
这篇论文要解决的是:在简单可控的数据分布上,ReLU 网络为何会出现 benign overfitting(训练误差为零但泛化仍好)与 grokking(先记忆后突然泛化)这两类看似矛盾的现象。以往对这些现象的解释常依赖经验观察或特定设置,缺少可分析的最小例子。
这篇论文要解决的是:LoRA 微调在不同任务/数据质量/超参下鲁棒性差,工程上经常需要反复试错才能不掉基座能力或不崩训练。过去的次优解是手工调参或套通用 recipe,但对“何时会不稳、怎么自动修”缺少系统框架。
这篇论文要解决的是 code-to-code translation 在生成后仍然保留大量可定位、可修复错误的问题。以往做法通常依赖更大模型、更多平行数据或黑盒 reranking,但这些办法很难解释错误来源,也不利于在真实开发流程里做可控修复。
这篇论文研究的是 multi-modal contrastive learning 在分布偏移下到底稳不稳,以及稳健性来自哪里。过去很多图文对比学习工作主要报告 in-distribution 检索或零样本分类结果,对真实部署中常见的模态偏移、语义偏移和相关性断裂分析不够细。
这篇论文要解决的是 XAI 评估常常被高分但不忠实的解释方法“刷榜”的问题。过去很多解释评估协议容易被后门式信号或数据集偏差利用,导致方法看起来能解释模型,实际只是命中了评测漏洞。
这篇论文解决的是 conformal prediction 在追求 provable robustness 时往往计算过重、推理过慢的问题。以往鲁棒 conformal 方法通常需要对扰动集合做保守校准或重复求解,虽然能给覆盖率保证,但效率差到难以上线。
这篇论文要解决的是 world event prediction 对上下文检索高度敏感,但很多系统依赖训练好的 dense retriever,领域迁移差且维护成本高。作者试图回答:在零样本条件下,能否用更轻的 ranking-based context retrieval 提升事件预测质量。
这篇论文要解决的是 unsupervised RL 学到的 skills 往往难以高效迁移到下游任务,原因不是技能数量不够,而是技能表示和下游任务需求没有对齐。过去不少工作通过增加 skill diversity 或 mutual information 来鼓励覆盖,但这些目标并不直接优化 task adaptation,所以会出现‘技能很多,但不好用’的情况。
这篇论文解决的是 test-time adaptation 在多模态场景下容易受到 reliability bias 影响:模型会过度依赖当前看起来更稳定的模态,从而在另一模态恢复信息或分布变化时做出次优更新。过去很多 TTA 方法默认各模态误差是独立或可平均的,没有显式处理‘哪一模态在当前样本上更可信’这一动态偏置。
现有大规模文生视频模型多为闭源黑盒不开放权重,无法通过微调适配机器人、动画等垂直领域,此前的prompt工程适配效果不稳定,无法覆盖跨域分布偏移。
现有生成模型只能生成静态或非交互内容,无法响应智能体动作输出符合真实物理规则的交互体验,此前的模拟器要么是手工建模物理规则泛化性差,要么是数据驱动但无法支持开放域交互。
表格数据的类别不平衡问题中,现有过采样方法在少数类样本量极低时生成的样本真实性差,此前的生成式过采样方法未利用大语言模型的通用先验知识。
无监督域适应(UDA)模型的性能评估依赖目标域标注,现实场景中目标域无标注时无法判断模型是否发生负迁移,此前的无监督评估指标准确率低,无法区分正负迁移。
现有多任务模型合并的任务算术方法直接相加不同任务的微调模型会因为任务冲突导致性能大幅下降,此前的合并方法要么需要原始训练数据,要么需要调整模型权重。
现有多模态模型对单模态扰动、模态缺失的鲁棒性差,此前的鲁棒性优化方法都是经验性的,没有理论指导。
这篇论文要解决的是:约束文本生成(constrained generation)任务长期缺少系统化定义与可复用基准,导致方法比较常常“各写各的约束、各测各的指标”,难以判断模型到底会不会遵守约束。现有做法多把约束当成提示词里的自然语言要求或临时规则实现,覆盖不全且不可控。
这篇论文要解决的是:VLM 在 test-time prompt tuning(测试时提示调参)时容易过拟合少量测试样本并产生校准偏差,导致看似提升但泛化不稳。以往 TPT 多直接最小化熵或对齐某个伪标签目标,缺少对“置信度分布形状”的约束。
这篇论文要解决的是:用共享内存(shared memory)来做注意力分解/因子化(attention factorization)在实践中会遇到训练与表达能力上的困难,导致理论上省算的结构并不一定好训或好用。过去很多高效注意力工作更强调复杂度分析,较少系统解释“为什么某些分解会坏”。
这篇论文要解决的是:图文生成模型往往是单向的(文生图或图生文)且训练目标与对齐目标割裂,导致生成质量与跨模态一致性难同时优化。以往常见做法是 CLIP 式对比对齐 + 单向生成器,或者分别训练两个方向。
这篇工作解决的是带噪标签训练里的一个硬问题:没有干净验证集时,如何判断该在什么时候 early stopping。传统早停依赖验证集监控泛化误差,但在弱监督、网页数据或自动标注场景里,验证集往往也不干净或根本没有,因此训练很容易在后期记住噪声标签。
这篇工作要解决的是 rationalization 常常不忠实:模型给出的解释看起来合理,但并不真正反映决策依据。过去很多解释生成方法优化的是人类可读性或与标注 rationale 的相似度,却没有充分处理 shortcut,也就是模型实际依赖的表面线索,因此“解释好看”和“解释可信”经常是两回事。
现有基于码本的模型量化方法要么每个张量用单个码本精度低,要么用多个码本但映射表内存开销大,梯度优化时容易陷入局部最优。
现有视觉语言模型(VLM)在无正则长时微调后会严重过拟合训练集已知类别,导致预训练习得的开放域未知类别(OOD)泛化能力退化;此前的微调方法如提示学习仅尝试同时提升分布内(ID)和OOD精度,未针对性解决该过拟合问题。
现有推理模型无法有效结合长时历史记忆和当前输入完成复杂关系推理,此前的记忆增强模型要么未区分工作记忆和长时记忆的层级结构,要么记忆更新机制容易产生不同记忆条目的信息混淆。
现有基于偏好的强化学习(PbRL)理论研究仅聚焦 regret 最小化,和实际用于大语言模型对齐的PbRL框架不匹配,无法解释现有算法的样本效率优势,存在理论与实践的gap。
离线基于偏好的强化学习(PbRL)缺少可证明的收敛性和样本复杂度保证,此前的离线PbRL方法仅能在受限奖励形式下保证效果,无法适配奖励定义在完整轨迹上的通用场景。
这篇工作要解决的是“多智能体具身协作很难端到端训练且难以复用”的问题,因为把感知、规划、沟通、执行揉成一个大策略往往数据需求大、调试困难、迁移差。
这篇工作要解决的是“GNN 表达能力评估长期停留在 WL(Weisfeiler-Lehman)同构测试的粗粒度结论”问题,因为 WL 只能给出能/不能区分的二值判断,难以量化不同 GNN 之间的差距。
这篇工作要解决的是“用预训练视觉模型做鲁棒性评测时,现有基准与协议容易失真”的问题,因为 foundation model 的预训练分布、数据泄漏与提示/适配方式会让传统鲁棒性结论不再可比。
这篇工作要解决的是“few-shot 分类基准经常被伪相关(spurious correlation)‘刷分’,导致我们高估模型的快速泛化能力”的问题,因为模型可能只学到背景/纹理等捷径。
这篇工作要解决的是“扩散模型做可控生成时,语言控制往往代价高、跨任务扩展慢”的问题,因为常见做法要么在每个任务上重训控制器,要么在时空维度上采样成本过大。
这篇工作要解决的是“dropout 的训练动态缺少可解释的连续时间近似模型”的问题,因为我们常用经验调参,但很难预测 dropout 在不同学习率/批大小下对收敛与泛化的影响。
这篇工作要解决的是“在计算受限且标注稀疏的流式数据上做持续学习”的问题,因为传统 continual learning 往往假设能频繁回放/重训或有充足标注,这在真实在线系统里不成立。
这篇工作聚焦文本相似度建模中的一个实际问题:怎样同时做到鲁棒和高效。传统文本相似度系统常在双塔检索和交叉编码器重排之间取舍,前者便宜但对噪声、拼写变体和分布偏移更脆弱,后者准确但推理成本高。
这篇工作解决的是多模态对话中的意图识别和越界检测缺少大规模、现实化 benchmark 的问题。过去很多数据集规模小、类别封闭、场景单一,导致模型在论文里看起来会做,但遇到真实开放场景时很容易把 out-of-scope 输入误判成已知意图。
这篇工作解决的是深度学习推理时 activation memory 过高的问题,尤其在大模型和长序列场景,显存瓶颈经常比算力更先到来。过去 activation checkpointing 更多用于训练,推理阶段则常依赖人工分块或算子级优化,但这些方法要么不自动、要么对模型结构依赖很强。
神经网络参数空间存在对称性(如 permutation symmetry),导致损失面上有大量等价点,但现有优化器完全忽略这些结构。本文要利用参数对称性来改善收敛速度和泛化性能。
长时视频动作预测(long-term action anticipation)传统方法依赖视觉特征和时序模型,本文探索 LLM 能否通过理解高层语义来辅助这一任务。核心问题是如何将视频时序信息有效传递给 LLM。
知识蒸馏的理论基础问题:在有限离散域上,从教师模型到学生模型的知识迁移,其信息论极限是什么?以前的蒸馏工作大多是经验性的,缺乏对迁移效率上界的刻画。
知识蒸馏中,教师和学生的输出分布差异大时,直接 KL 匹配效果不佳。本文提出对教师输出做变换后再匹配(Transformed Teacher Matching),缓解容量差距导致的蒸馏困难。
要点是把“开放式NER(实体类型集合不封闭)”从依赖大模型提示的高成本方案,压缩成可部署的小模型,同时尽量保留LLM在长尾实体类型上的覆盖。以往常见做法要么做封闭集NER(类型固定、评测友好但不贴近真实),要么直接用LLM抽取(效果强但慢、贵、不可控)。
核心问题是从“证明文本”中自动抽取可复用的定理陈述,让形式化数学或证明检索不必完全依赖人工标注定理库。以往证明数据往往只有证明过程或最终结论,缺少中间可复用的lemma,导致训练信号稀疏、复用性差。
核心是用“代码执行+自验证”提升大模型解数学应用题的可靠性,而不是只靠自然语言推理。以往直接让LLM写推导容易在中间计算出错且难自纠,尤其在多步算术与条件分支上。
核心是用可解析的二次模型(quadratic models)解释神经网络训练中的“catapult dynamics”(损失先剧烈上冲再快速下降的弹射式动态),并给出它何时发生、为何与泛化/稳定性相关。过去对catapult多是经验观察,缺少能推导条件的简化理论模型。
这篇工作要解决的是:静态 benchmark 很难真实衡量大语言模型的推理能力,因为一旦题库被污染、模板被记住或 prompt 被过度适配,分数会高但能力判断失真。过去常见做法是不断换数据集或人工出新题,但更新慢、覆盖窄,而且仍然容易被模型或评测流程过拟合。DyVal 试图把评测从‘固定题库打分’改成‘动态生成并控制难度的推理测试’。
这篇工作要解决的是:剪枝模型常常在稀疏化后精度下降明显,而单独做一次剪枝往往容易卡在较差的稀疏解上。过去模型 soup 主要用于 dense finetuned 模型平均,帮助平滑损失景观;但在稀疏模型场景,参数掩码不同、连接结构不同,直接平均并不自然。Sparse Model Soups 试图回答:模型平均能否反过来帮助剪枝,而不是只服务于 dense 集成。
这篇工作的核心问题是:音频生成长期被自回归建模主导,但 AR 在长序列上推理慢、错误累积重,而且多层离散音频 token 之间存在强依赖,导致生成成本很高。过去非自回归方法往往需要多阶段生成、多个网络或质量明显下降,因此很难真正替代 AR。本文尝试证明:只用一个非自回归 Transformer,也可以通过 masked generation 做高质量音频生成。
这篇工作要解决的是:Transformer 训练的瓶颈并不只在某一个层面,而是同时存在于算子、并行、内存和系统调度多个层级;单点优化通常只能拿到局部收益。过去很多加速工作要么改 attention kernel,要么改并行策略,要么做算子融合,但彼此之间往往没有协同。本文提出 multi-level framework,目标是从多个层级一起压缩训练成本。