International Conference on Learning Representations
这篇论文要解决的是:语言模型“知识容量”(能记住/表达多少事实性知识)如何随模型规模、数据规模与训练设置缩放,并给出可解释的 scaling law。以往 scaling law 多聚焦 loss/困惑度或下游指标,而“知识”往往通过零散探针衡量,缺少统一的理论刻画。
预训练数据配比(data mixture)的选择目前主要靠经验和网格搜索,成本极高。本文提出用数学模型预测不同配比下的语言建模性能,从而在不实际训练的情况下找到最优配比。
这篇工作要解决的是长上下文训练数据太贵、太稀缺的问题,作者尝试用 long-distance referrals 扩展可用于长上下文训练的样本。过去提升长上下文能力常依赖直接收集超长文档或人工构造长序列,但这两条路都成本高,而且数据分布容易单一。
这篇论文要解释的是:很多 ICL 表现看起来像“显式读例子再推理”,但模型可能在不显式利用上下文内容的情况下,通过隐式统计相关性完成任务,从而让我们误判 ICL 的泛化机制。过去评测常把“给了示例就变好”当作 ICL 证据,但没有区分显式与隐式路径。
核心问题是:LLM解码阶段的注意力计算在长上下文下成为主要瓶颈,而常见稀疏注意力要么破坏位置一致性(影响质量)要么需要训练改造(影响可用性)。
核心问题是:in-context learning(ICL)在预训练中到底是“学会识别任务并检索相似模式”,还是“在上下文里真正学会新任务映射”,过去常被用最终指标混在一起评估。
这篇工作要解决的是:偏好对齐里 reward model(RM)常被当成“拟合人类偏好”的黑盒,但 RM 的训练目标、数据噪声、以及与策略优化(PPO/DPO 等)的耦合会导致系统性偏差与 reward hacking。过去很多工作把问题归因于 RL 算法或数据量,却较少重新审视 RM 本身该怎么建模与评估。
这篇论文解决的是世界模型训练中最硬的系统瓶颈之一:视频加语言的上下文一长到百万级 token,标准 attention 的显存和通信代价会直接失控,导致长时程建模停留在概念验证。以前常见做法是缩短上下文、降采样、分段训练或牺牲跨段依赖,但这些都会削弱世界模型对长期因果和任务连续性的学习。
这篇论文要解决的是:如何用更贴近“对话形态”的合成数据,把数学能力注入到预训练阶段,而不是只靠后期指令微调补数学。以往数学预训练常用教科书式陈述或题解对,但真实使用中很多数学推理发生在多轮澄清、纠错与逐步约束的对话里,单轮数据覆盖不足。
这篇论文要解决的是:语言模型内部的“知识”能否被可控地操纵(写入、删除、重定向),以及这种操纵在什么条件下是稳定且可预测的。以往知识编辑方法(如 ROME、MEMIT、LoRA 编辑)多是经验工程,成功与失败边界不清晰,且常伴随副作用(旁路知识污染)。
这篇论文的核心问题是:为什么 LLM 标称支持很长上下文,但真正能有效利用的信息长度往往远短于窗口上限。过去大家常把长上下文失败归因于位置编码或训练长度不足,但实际现象更复杂:模型可能能“看到”远处 token,却不会稳定地把它们用于决策。
现有视觉生成任务复用预训练图像自编码器的低维隐空间作为视频tokenizer,忽略视频时序冗余,导致解码时序不一致,且缺乏图像视频统一的tokenization方案。
通用大模型预训练普遍加入代码数据,但代码对非代码任务的具体影响缺乏系统量化分析,从业者仅有经验性共识无实证支撑。
大模型内部机制解释不足,现有泛化性关联指标(参数量、深度等)解释力弱,无法有效指导架构设计和训练监控。
这篇工作要回答的是:RoPE 为什么有效,真正起作用的是旋转结构本身、相对位置信息、频率分解,还是它们与注意力几何的组合。RoPE 已经成为 LLM 默认配置之一,但长期以来更多是“经验上好用”,机理解释并不扎实;现在重新追问这个问题很有价值,因为长上下文、外推和替代位置编码都高度依赖我们是否理解了它的有效部分。
大模型预训练普遍采用余弦衰减到峰值10%的学习率策略,缺乏最优性实证验证,且没有可解释的理论支撑。
这篇工作要挑战的是经典神经网络 scaling law 的“单体模型”假设:当模型被设计成模块化(modular)时,误差-算力/参数的幂律关系可能不再按原来的斜率走。以往 scaling law 多在同构架构族里拟合,默认能力来自连续增大同一块网络。
这篇工作要解释的是:为什么“特征学习”(feature learning)会让神经网络的 scaling law 变好,而不仅仅是拟合一个幂律曲线。很多 scaling 分析把模型当成核回归/随机特征近似,弱化了训练中表征会自适应改变这一事实。
这篇论文要解决的是:in-context learning(靠提示在上下文里学)与 in-weight learning(靠参数更新学)在机制上到底哪里相同、哪里不同,现有讨论常停留在现象层面。过去很多工作用线性回归等玩具任务类比 ICL,但难解释在更复杂分布与更深网络下两者的可替代性与边界。
这篇工作的核心问题很明确:大模型预训练后,想知道“哪一批训练数据导致了某个事实、某个行为或某个错误”非常难,而现有 influence function 或 data attribution 方法通常算不动、近似太粗,或者只能在小模型上成立。这个问题之所以重要,是因为数据归因直接关系到数据清洗、版权追踪、遗忘、偏差定位和 continual pretraining。
这篇工作要解决的是:预训练时“数据怎么混”长期靠经验和网格搜索,既不稳定也很难迁移到新模型/新数据配比。以往常见做法要么固定混合比例、要么用启发式动态采样,但都缺少一个能统一描述“目标是什么、约束是什么、怎么优化”的框架。
这篇工作要解决的是:数学推理提升到底来自“更多题”、还是来自“更好的合成方法”、还是来自“训练阶段安排”,社区缺少可分解的实证结论。以往很多报告把数据、合成、SFT/RL 阶段混在一起讲,导致配方不可复现也不可迁移。
大语言模型输入到输出映射的几何性质与功能的关联不清晰,缺乏对内部表示演化的阶段划分标准。
这篇工作关注一个很实际的问题:模型会用上下文,但不一定会“从上下文学会规则”。标准微调通常把每个样本当独立监督,结果模型擅长记答案格式,却不擅长在上下文中归纳任务映射,因此 ICL 能力和经过 SFT 之后的行为常常脱节。
现有SFT和对齐方法依赖启发式设计,无法灵活适配不同应用的定制化约束要求,容易出现约束违背。
这篇论文要解决的是:在没有大量人工偏好标注的情况下,如何让 LLM 通过自举方式获得可用于偏好优化的训练信号,而不是停留在纯 SFT 或昂贵的人类反馈。以往做法要么依赖外部强 judge/人类,要么合成偏好数据质量不稳,容易把模型带偏。
这篇论文要回答的是:用 LLM-as-a-judge 做可扩展评估是否真的能替代更多高质量标注数据,还是会在统计效率上碰到硬上限。过去很多工作默认“更强的 judge + 更少的人类数据”可行,但缺少对其上限的清晰刻画。
这篇论文要解决的是:LLM 预训练数据在文件/样本层面存在强冗余与“维度塌缩”(覆盖面变窄、主题/风格集中),导致有效 token 多样性不足、泛化变差且训练算力被浪费。过去常用去重或启发式质量过滤,但很难在预算约束下同时保证覆盖与多样性。
这篇论文的核心问题是:困惑度(perplexity)并不能可靠衡量长上下文语言模型是否真正利用了远距离上下文。传统评测默认平均 token 负对数似然越低越好,但在长上下文场景里,这个指标常被局部模式、位置分布和可预测 token 稀释,导致模型即使几乎没用到长程信息,也可能拿到看似不错的分数。
这篇论文的核心结论很明确:合成数据要想支持持续扩展,光有生成还不够,必须有验证。过去关于 model collapse 的讨论常聚焦‘反复喂模型自己生成的数据会不会崩’,但更实际的问题是,合成数据里的错误、偏置和低质量样本如果不筛,会在规模化训练中被系统性放大。
Chinchilla scaling law 告诉我们如何在固定 compute budget 下选择最优的模型大小和数据量,但没有回答一个关键问题:compute-optimal 训练出来的模型,其泛化能力是否也随 scale 可证明地提升?
这篇论文要解决“无限上下文”设想里的核心瓶颈:即使有检索或外部存储,LLM 仍缺少一种能长期积累、可控回放且不把噪声无限带入上下文的记忆机制。以往做法要么是纯 RAG(记忆是静态文档),要么是把历史全塞进上下文(成本爆炸且易污染)。
这篇论文要从理论上解释并缓解“自我消耗训练(self-consuming loops)”导致的 model collapse:模型用自己生成的数据继续训练,分布会逐步变窄、错误会被放大,最终多样性与真实性一起崩掉。过去很多讨论停留在经验警告,缺少可操作的防崩条件与干预点。
这篇工作要解决的是:Transformer 的 in-context learning 到底只是经验现象,还是在表达能力上足够普适,能够近似任意‘从上下文构造算法再作用到查询’的过程。以前不少工作展示 ICL 能做回归、分类和简单算法,但缺少更强的普适性结论。
这篇工作要解决的是:语言模型是否真的会因为 over-training 而普遍伤害泛化,还是说在合适设定下,继续训练其实是可预期、可可靠地改善下游能力。过去社区常把训练到验证困惑度最优附近就停作为经验法则,但这个法则未必对应真正的 downstream 最优点。
这篇工作要解决的是:LLM 后训练里大量使用 synthetic data,但我们对它何时有效、何时反而限制能力,缺少清晰理论。过去大家更多从经验上讨论蒸馏、拒绝采样、自生成 CoT 的收益,却没有一个能解释‘为什么模型自己生成的数据有时会强化、有时会收缩信息通道’的统一视角。
现有长上下文预训练数据方法(过滤长文档、随机拼接、相似拼接)无法同时兼顾语义连贯性和多样性,导致领域失衡、长上下文表现受限。
稀疏自编码器(SAE)用于大模型可解释性时,需要平衡重建效果和稀疏度,存在死隐层问题,且缩放规律不清晰,无法支撑大规模可解释性研究。
这篇论文要解决的是:tokenization 作为预训练“默认组件”长期缺少系统性原则,导致我们在词表大小、训练算法、以及计算代价之间经常靠经验取点而不是可解释地权衡。
这篇论文要解决的是:长上下文训练与推理太贵,如何在不总是喂满全上下文的情况下学到/用到长程能力,因为全量 attention 的 FLOPs 与显存会随长度快速增长。
这篇工作的核心问题很明确:diffusion language model 很有潜力,但规模化一直落后于自回归模型,训练成本和收敛难度都更高。过去很多 diffusion LM 工作停留在中小规模验证,原因不是想法不新,而是缺少一条能复用现有 AR 模型资产的可扩展路径。
领域默认指令微调会单调提升模型遵循输入上下文的能力,但实际当上下文与模型参数知识冲突时模型仍频繁幻觉,此前没有研究解释这一矛盾现象的底层机制。
此前LLM知识存储的层分布没有清晰量化结论,层剪枝要么性能损失大,要么需要大量重训,没有低成本定位无用层的方法。
此前预训练数据选择均基于启发式规则(如困惑度过滤、质量打分),未与训练动态结合,选择的数据集不一定是训练效率最优的。
这篇论文要解决的是:能否把“蒸馏”系统化地用于语言模型预训练阶段,从而用更小的计算预算训练出更强的小模型。以往蒸馏更多发生在 posttrain 或下游压缩,预训练蒸馏常因教师成本高、目标不稳定而落地困难。
预训练语言模型在增量数据上做持续学习时,面临灾难性遗忘和计算效率低下的双重问题。以往方法要么全量重训代价高,要么参数冻结导致新知识吸收不足。
长上下文 LLM 推理时 KV cache 占用大量显存,限制了可处理的上下文长度和吞吐量。现有 KV cache 压缩方法通常采用静态策略(如固定保留比例),无法根据不同输入和不同层的实际需求动态调整。
这篇论文要解决的是:指令微调后的 LLM 如何可靠扩展到百万 token 上下文,同时避免仅靠“拉长位置编码+堆长文本”带来的训练不稳定与指令跟随退化。过去长上下文扩展常在预训练阶段做,但 instruction-tuned 模型在长上下文下的对话/工具使用能力会掉。
此前Transformer自动电路发现依赖激活补丁方法,速度慢、存在近似误差、要求非零梯度,无法扩展到大模型的细粒度(如特定位置注意力头)电路识别。
这篇论文要解决的是:LoRA 作为低成本微调手段被广泛使用,但它在 Transformer 上到底能表达多复杂的函数、在哪些条件下必然失败,缺少清晰的理论边界。作者研究 LoRA 微调的计算/表达极限,回答“低秩更新能做到什么、做不到什么”。
这篇论文要解决的是:prompt tuning(只学提示向量/软提示)在实践中很省参数,但它的表达能力、容量上限与效率边界并不清楚,尤其在 Transformer 这种高维序列模型上。作者研究 prompt tuning 的“普适性(universality)、容量(capacity)与效率(efficiency)”的基本极限。
这篇论文要解决的是:speculative decoding 在工程上很有效,但“多草稿(multi-draft)”场景下如何选择草稿数量、草稿长度、以及验证策略才能在给定算力与延迟约束下最优,缺少系统性的最优性分析。作者目标是给出接近最优的 multi-draft 推测解码策略。
Transformer 在长度泛化(length generalization)上表现不稳定——在短序列上训练后,处理更长序列时性能急剧下降。现有工作大多是经验性的修补(如位置编码改进),缺乏一个形式化框架来理解哪些任务可以长度泛化、哪些不行、以及为什么。
这篇论文要解决的是:LLM 预训练里偶发的 loss/grad spike 会把 Adam 类优化器带进不稳定区间,而现有做法多靠调小学习率、加大梯度裁剪或重启训练,代价高且不可靠。作者把问题明确成“优化器状态(动量/二阶矩)在 spike 后被污染”,而不是把 spike 当作纯噪声。
这篇工作要解决的是:代码大模型评测严重受数据污染和题目不完整影响,导致分数高但真实性弱。过去很多 code benchmark 题库老、公开久,模型很可能见过;同时只测单一维度,难以反映真实编程能力,尤其是长周期、交互式和带约束的代码任务。
此前MoE与稠密Transformer的性能权衡没有清晰量化结论,领域默认增加专家数可全面提升模型能力,未区分记忆与推理能力的差异。
这篇工作要解决的是持续指令微调(continual instruction tuning)中的灾难性遗忘难以刻画与缓解的问题,而常见做法要么靠经验正则/回放,要么只能用任务指标事后观察遗忘。
这篇工作要解决的是:训练时该动态保留哪些样本,能否不用拍脑袋 heuristics,而用 scaling law 来做数据选择。过去数据配比和 sample selection 往往依赖 loss 大小、难度估计或经验规则,但这些信号短期有效、不随训练阶段稳定,且很难告诉你“多看某类样本到底值不值这些 token 预算”。
这篇工作要解决的是:稠密模型和稀疏模型的 scaling law 能否用同一个变量统一描述,而不是各自维护一套看似不同的计算规律。过去 sparse-vs-dense 的比较容易陷入参数量、激活参数量、FLOPs、token budget 各说各话,导致结论依赖指标选择,很难做公平设计。
这篇论文要解决 MoE/专家模型的一个核心矛盾:专家如果不真正“分工”,MoE 只是在做稀疏计算但没有带来组合泛化与可控能力,而以往常靠路由噪声、负载均衡 loss 或任务划分来“希望专家分化”。作者提出让专家自我专门化(self-specialized),把“专家学到什么”从偶然现象变成训练目标的一部分。
这篇论文要回答一个被长期“默认处理”的问题:LLM 以 subword token 训练,但很多能力以 word 为单位呈现,那么模型内部是否形成了稳定的“词汇表征/内在词典(inner lexicon)”,以及 token 到 word 的组合在表示空间里如何实现。以往分析常停留在 token 级 probing,难以解释跨 tokenizer 的一致性与词级泛化。
这篇工作要回答的是:极低比特、尤其 ternary 参数化的语言模型,是否不仅能做后训练压缩,还能直接从头大规模预训练并保持竞争力。过去 ternary/二值化方法多数停留在小模型或推理压缩场景,因为大家默认这种离散权重表示会严重伤害优化与容量。
这篇工作提出了一个很直接但也很关键的问题:VLM 预训练到底需不需要图像数据。这个问题之所以重要,是因为当前 VLM 通常默认必须做大规模图文预训练,但随着强语言模型、视觉编码器蒸馏和跨模态对齐技术成熟,‘是否能绕过原始图像预训练’已经不是伪问题了。
此前领域默认小模型和大模型对训练数据的响应不一致,无法用小模型实验结果预测大模型行为,导致大模型的数据相关实验成本极高。
此前多草稿推测解码的最优选择方案通过线性规划求解,没有清晰的理论分解,也未知其理论上限,无法进一步优化。
此前预训练后期模型新知识获取能力下降的原因没有清晰解释,领域默认是数据重复或优化饱和导致,未从知识利用角度归因。
这篇工作要解决的是:现有 LLM 基准往往密集、题型相关性强,容易被数据污染或“刷分策略”利用,导致很难分辨模型到底缺知识还是缺推理。作者提出 metabench:一个稀疏(sparse)的推理与知识基准。
现有大模型缩放定律未纳入精度维度的影响,低精度训练和量化推理虽能显著降本,但此前没有量化精度、规模、损失三者关系的统一框架,无法指导精度与成本的权衡决策。
现有大模型原生自校正能力极弱,此前的自校正训练方法依赖外部更强模型、多模型协同或额外人工监督,部署成本高且泛化性差,离线SFT的校正数据存在明显分布偏移问题,无法注入稳定的自校正行为。
长序列推理的注意力预填充阶段复杂度随prompt长度平方增长,是长序列推理的核心瓶颈。此前的稀疏注意力方法采用固定稀疏模式或有限案例生成的稀疏模式,无法适配不同输入和注意力头的动态需求,灵活性不足,性能损失大。
这篇论文要解决的是:把 LLM 训练成“通用 embedding 模型”时,常见做法(对比学习、双塔蒸馏、指令对齐)在规模化后会遇到训练不稳定、负样本构造困难、以及检索/聚类/分类之间迁移不一致的问题。过去 embedding 模型与生成模型往往是两套训练范式,导致你要么牺牲生成能力,要么牺牲向量质量。
纯Transformer架构长序列性能受限于注意力平方复杂度,纯Mamba架构在通用任务上性能弱于同规模Transformer,此前的混合架构未结合MoE来平衡容量和推理成本,开源模型最长有效上下文通常低于256K。
这篇工作要解决的是:多模态预训练长期缺少一个足够大、足够统一、原生支持图文交错建模的语料基础设施。过去很多 VLM 数据集规模不小,但要么以图文对为主,不适合学习长程交错上下文;要么来源碎片化、格式不统一,导致模型很难训练出真正的 native multimodal sequence modeling 能力。
现有长上下文方法的基准测试仅评估单请求场景,未考虑真实部署中KV缓存复用的全生命周期特性,无法反映KV缓存广泛应用下的真实推理性能,导致测试结果与实际部署性能偏差大。
现有缩放定律拟合过程的多个环节(拟合方程、训练设置、优化方法)缺乏统一标准,不同研究得出的结论存在明显分歧(比如最优token参数量比),导致缩放定律指导预训练决策的可靠性不足。
这篇论文要解决的是:标准 next-token LM 在长序列上训练/推理成本高且信用分配粒度过细,而简单的 chunking 又会损失细粒度语言建模能力。作者提出 chunk-distilled language modeling,希望用“块级蒸馏”在保持语言能力的同时降低序列长度相关的训练难度或提升长上下文建模。
这篇论文要解决的是:现有 LMM 往往把多图、视频帧、3D 视角当作“拼接的长图文序列”硬塞进上下文,导致跨图/跨帧引用困难、训练数据组织低效、以及推理时对齐不稳定。
这篇论文要解决的是:LLM 预训练工程栈在 PyTorch 生态里仍然碎片化,研究代码难以直接变成可复现、可扩展、可上线的训练系统,导致大量时间耗在并行、容错、监控与性能调参上。
这篇论文要回答的是:LoRA/低秩适配在大模型微调时“为什么能收敛、会卡在哪、哪些解是等价的”,而不是继续把它当作纯经验技巧来用。以往大家多用经验超参和任务指标评估 LoRA,但缺少对其非凸优化地形(landscape)与可辨识性(哪些参数变化其实不改变函数)的系统解释,导致调参和失败案例难以复现与诊断。
这篇论文要解决的是:在不显著掉点的前提下把 LLM 做到更低比特量化,而传统 PTQ/QAT 往往被“异常通道/权重分布偏斜”卡住。以往很多方法靠逐层校准或更复杂的量化器,但仍会在 4-bit 甚至更低时出现明显精度崩塌,尤其在注意力/MLP 的某些投影矩阵上。
这篇论文要解决的是:LLM 的事实性错误很多并不是缺少目标知识本身,而是缺少到达该知识所需的前置知识链条,导致模型即使见过答案也不容易稳定调用。过去提升 factuality 常靠检索增强、事实微调或直接补充真值数据,但这些方法往往只补“结果”,没有系统补“先修概念”和依赖结构。
留一法(LOO)上下文归因是量化上下文片段对LLM生成结果影响的原理性方法,但计算成本随模型规模和上下文长度增长过高,无法大规模落地应用。
预训练数据混合比例直接影响大模型性能,但现有数据混合比例的确定依赖人工经验或小范围试错,没有系统化的自动寻优方法,无法适配大模型的大规模训练需求。
现有AI训练数据溯源分析仅覆盖文本模态,语音、视频等多模态数据集的来源、许可、地域语言分布等属性长期缺乏系统性实证研究,过往研究要么仅覆盖单模态要么仅做单数据集调研,无法支撑多模态预训练的数据合规和质量优化。
传统Transformer训练过程中表示范数不稳定,导致训练步长需求大、收敛慢,过往方法要么仅对部分层做归一化,要么没有统一的表示空间约束,无法从根本上解决训练效率低的问题。
这篇论文要解决的是:如何用 continued pretraining(继续预训练)而不是只靠 SFT,把模型的数学推理能力稳定拉起来;过去直接用自然语言数学语料继续训,常受限于数据质量与推理链噪声。
这篇论文要解决的是:Transformer 在形式语言上训练时出现的“涌现能力”能否用更可解释的理论模型刻画;以往对涌现的解释常停留在经验曲线或启发式故事,难以预测何时发生、受哪些因素控制。
这篇工作的核心问题是:如何系统性提升 LLM 的数学推理,而不是只靠少量高质量人工标注或直接做 RL。过去数学能力提升常受限于种子数据规模、题目多样性和推理过程监督稀缺,因此很多工作要么数据不够广,要么训练信号不够强。
这篇工作要解决的是:神经 scaling law 研究里,注意力模块通常太复杂,导致理论分析不是过度简化就是几乎不可解。过去很多理论结果要么绕开注意力,要么对其做不够贴近实践的近似,因此很难真正解释 transformer 的尺度行为。
RAG场景下传统自回归预填充需要对整个检索上下文做KV编码,重复检索相同文档时会产生冗余计算,导致推理延迟和成本过高,过往方法要么仅做KV缓存的局部优化,要么需要修改检索逻辑,适配性差。
这篇论文要解决的是:用稀疏自编码器(SAE)做可解释性时,社区缺少“原则性评测”来判断学到的特征是否真的可解释、可控、可迁移,而不是只看重构误差或一些零散的可视化。
这篇论文要解决的是:即使能用 SAE/特征探针找到稀疏特征,如何把这些特征组织成可操作的“因果电路/因果图”,并进行可预测的编辑与干预,仍缺少系统方法。
语言模型内部的线性表示(linear probes 能提取的特征)与预训练数据中实体/概念出现频率之间的关系尚不清楚。此前大量 probing 工作发现模型能线性编码各种知识,但没有系统研究这种能力是否只是高频数据的副产品。
LLM 在 GSM8K 等数学推理 benchmark 上的高分是否真正反映了数学推理能力?此前缺乏系统的实验来区分模型是在做真正的推理还是在做模式匹配。这个问题对理解 LLM 的泛化能力至关重要。
这篇工作要解决的是:MoE LLM 已经被证明能在固定训练算力下提供更大容量,但公开、可复现、数据和训练细节透明的 MoE 基座模型仍然稀缺。很多社区研究因此难以复现 dense 与 MoE 的真实 trade-off,也难分析路由、专家负载和训练稳定性。
现有从预训练稠密模型初始化MoE的upcycling方法初期收益高,但长期训练速度慢于从头训练的MoE,最终效果次优,过往方法要么完全复用稠密模型权重,要么全随机初始化,无法兼顾知识继承和专家专业化。
现有认知认为模型对齐可以缓解大模型的训练数据记忆泄露风险,但没有实证验证对齐对生产级大模型的数据提取攻击的防御效果,过往攻击方法仅针对未对齐的预训练模型,无法有效攻击对齐后的生产模型。
现有主流子词tokenizer存在词汇表大、跨领域跨语言适配性差、对拼写错误敏感等问题,过往纯字符级LM的序列压缩率低、训练推理成本高,纯词级LM的鲁棒性差,无法兼顾效率和鲁棒性。
这篇论文要解释的是:为什么 in-context learning(ICL)会从“记住示例”过渡到“学会规则并泛化”,以及这个转变由什么训练动力学决定。以往很多解释停留在现象描述或线性化近似,难以给出可检验的机制预测。
这篇论文要解决的是:在多数据源混合训练语言模型时,如何在不显著牺牲效果的前提下降低训练内存与吞吐成本,尤其是混合采样带来的大 batch 统计与缓存开销。以往做法要么用大 batch 保证混合比例稳定、但显存吃紧;要么用小 batch 导致混合比例抖动、训练噪声变大。
这篇论文要回答的是:Transformer 的事实性召回(factual recall)能否用“联想记忆(associative memory)”的视角来解释,从而把记忆检索从黑盒现象变成可分析的机制。以往对事实召回的解释常在注意力模式或参数记忆之间摇摆,缺少统一的、可推导的模型。
这篇论文要解决的是:在大规模训练中能否用一个“更老但更稳”的优化器配方,拿到比 AdamW 更好的速度-效果折中。很多团队默认 AdamW 是通用最优,但在长训练、低精度和大 batch 下,动量/自适应项的耦合会带来收敛慢或不稳定。
这篇论文要解决的是:能否把大模型预训练做成真正的 stagewise 过程,在前期只训练更小的子网络,后期再逐步扩展,从而降低总训练成本。传统做法通常是一开始就训练完整模型,因为担心前期省下的算力会在后期扩容时以性能损失的形式还回去。
这篇论文讨论的是一个更基础的问题:上下文学习不仅能学任务映射,是否还能在上下文中学出可迁移的表示。过去 ICL 研究大多盯着“给定 few-shot 示例后能不能做对题”,但较少把重点放在模型是否在推理时形成了新的内部 representation,以及这些表示是否具有系统性。
现有预训练数据筛选依赖人工设计的启发式规则,缺乏系统的质量评估标准,无法匹配大模型数据缩放定律的需求,过往方法要么仅覆盖少数质量维度,要么无法支持大规模数据标注。
这篇论文要解决的是:如何让 LLM 通过自我改进(self-improvement)从“会做题的专才”成长为“可迁移的推理通才”,而不是只在少数基准上过拟合。过去自训练/自蒸馏常见问题是奖励信号窄、数据分布单一,模型会学到投机解而非可泛化的推理技能。
这篇工作要解决的是:语言模型中的“记忆”并不是单一现象,单用 exact match 或 verbatim extraction 去衡量会把不同机制混在一起。过去关于 memorization 的讨论常把背诵、近似重构和基于线索的回忆放在一个桶里,因此很难判断风险来自训练数据重复、参数容量、上下文触发,还是模型学到了更一般的模式。
这篇工作要解决的是:如何定量描述大语言模型的泛化复杂度,而不是只用参数量、数据量或 benchmark 分数做事后观察。以往对 LLM 泛化的讨论常停留在经验 scaling 或任务表现,缺少一个能跨任务、跨模型解释“这个问题对模型究竟有多难泛化”的复杂度量化框架。
这篇工作要解决的是:如何检测一段文本是否出现在大语言模型的预训练数据中,而且不依赖拿到训练集或模型内部梯度。这个问题过去通常用 memorization probing、membership inference 或字符串匹配来近似,但这些方法要么只抓住逐字复现,要么对改写和局部污染不敏感;作者显然想做一个更实用的、面向预训练数据污染识别的检测算法。
这篇论文的核心结论从标题就很明确:DPO 可能会带来一种非预期的失配,即 likelihood displacement,导致模型分布在并非人类偏好想要的方向上被推走。过去大家常把 DPO 视为比 RLHF 更简洁稳定的偏好优化替代,但对它如何重排整个 token likelihood 分布、是否伤到未标注区域,分析并不充分;这篇工作就是在拆这个账。
现有长上下文建模方法要么存在注意力的二次方计算复杂度,要么状态空间模型的长程召回精度不足,无法兼顾无限上下文长度的建模效率和召回精度,过往混合架构要么没有分层设计,要么无法实现长度外推。
这篇论文要解决的是:当上下文接近百万 token 时,LLM 是否还能稳定地“沿着线索走”(thread-following),在巨大干扰(haystack)中持续追踪并利用稀疏关键信息。过去的 needle-in-a-haystack 更像一次性检索命中测试,无法覆盖多步依赖与线索传递。
这篇工作的核心结论从题目就很明确:大语言模型的推理能力,很大一部分来自预训练中学到的程序性知识,而不只是参数规模或后训练技巧。过去很多讨论把 reasoning 提升归因于 chain-of-thought、RL 或 test-time search,但这些方法经常回避一个更前置的问题——模型在预训练阶段到底有没有接触和吸收到足够多的可执行步骤模式。
长上下文生成场景下,推测解码(speculative decoding)通常被认为只能降低延迟而无法提升吞吐,因为 KV-cache 的内存开销随上下文长度线性增长,导致 draft 模型的额外开销抵消了加速收益。作者要打破这一延迟-吞吐的 tradeoff。
语言模型会记忆训练数据中的特定序列(verbatim memorization),这既带来隐私风险,也暗示模型在这些样本上没有真正泛化。本文研究如何在不显著损害模型能力的前提下缓解记忆问题。
Transformer 做 next-token prediction 时的表达能力(universality)尚缺乏严格的理论刻画。已有的万能近似定理(universal approximation)大多针对序列到序列映射,没有专门分析自回归 next-token prediction 这一特定设置。
Transformer 在需要搜索(search)的任务上表现很差——即使在训练数据中包含了搜索过程的 trace,模型也难以学会泛化的搜索策略。这揭示了当前 AR 模型在算法推理上的根本局限。
这篇论文要解决的是:纯 next-token 训练把学习粒度锁死在 token 级,导致模型在更高层级的“块状结构”(短语、实体、代码片段)上学习效率不高,也更难在长上下文里形成稳定的规划。过去的替代范式(span corruption、masked LM)要么不兼容标准 AR 解码,要么训练/推理不一致,因此作者提出 patch-level training 作为折中。
当前LLM推理能力提升默认依赖预训练阶段扩参,对测试时计算的缩放规律、测试时计算与预训练参数量的资源 tradeoff 缺乏系统研究,过往相关工作大多给出负面结论,未量化最优测试时计算的潜在增益。
这篇工作要解决的是:LLM 预训练里不同样本的学习价值差异很大,但常见做法要么静态过滤、要么用启发式混合比例,难以在训练过程中自适应地把算力花在“更该学”的 token 上。
LLM通过梯度更新持续学习新信息时,新知识如何扩散到已有知识库、如何引发无关上下文下的错误知识应用(priming效应)的机制缺乏量化研究,无法系统性解决新知识注入带来的幻觉问题。
现有数据剪枝(核心集选择)方法大多单独衡量样本重要性,忽略样本间冗余,导致选出的子集信息密度低,同等规模子集下预训练效果差。
这篇工作要解决的是:怎样在没有昂贵人工标注的情况下,判断哪些预训练数据真的能提升语言模型。过去常见做法是用启发式规则、去重、质量分类器或小模型困惑度直接筛数据,但这些指标经常只反映“像不像已有训练分布”,不一定反映“对目标模型是否有真实训练价值”;作者关注的是用困惑度之间的相关性来更稳定地估计数据价值。
这篇工作解决的是大语言模型无损推理的系统瓶颈:如何在不改变输出分布的前提下,把 speculative decoding 从单机草稿-验证模式扩展到分布式并行。传统 speculative decoding 已经能加速,但通常受限于单个 drafter、串行验证和设备利用率不高;作者要处理的是跨设备并行后如何仍然保证严格 lossless,也就是输出与原始目标模型完全一致。
这篇工作要解决的是:语言模型在需要外部知识时会“何时检索、检索什么”表现出不稳定的涌现行为,而现有 RAG 研究更多把检索当外部模块,较少解释模型内部为何会自发形成检索式机制。
这篇论文的核心结论很可能是:语言模型预训练的 run-to-run variance 和 outlier 现象比社区默认假设的更系统、更值得单独研究。大家平时常用单次训练曲线和单个 checkpoint 下结论,但如果同配置多次重跑的结果波动不小,很多关于 scaling、data mix、优化细节的判断其实可能站不稳;做到 50 次预训练复现实验,本身就是在补这个证据缺口。
这篇论文要解决的是:长上下文推理时 KV-cache 显存成为硬瓶颈,而“统一裁剪/统一量化”往往忽略不同层对历史信息的依赖差异,导致要么浪费预算要么明显掉点。过去很多方法把 KV 管理当成 1D(按时间步)问题处理,但实际还存在“层维度”的结构性冗余。
这篇工作要解决的是:Transformer 的参数规模扩张方式过于刚性,新增容量通常意味着改动层宽、层数或注意力结构,训练和迁移成本都很高。传统做法把参数绑定在固定层里,扩容时往往需要重新设计网络并从头适配;作者试图把参数本身“token 化”,让模型像处理输入 token 一样按需组合和扩展参数。
这篇工作要回答的是:不同语言模型架构虽然训练目标、层结构和归纳偏置不同,但内部机制是否收敛到相似的功能分工。过去大家常把 mechanistic interpretability 建立在单一架构上,再默认外推到别的模型;作者显然在追问这个外推到底站不站得住。
现有基于SVD的LLM压缩方法存在三个未解决痛点:无法确定每层权重矩阵的最优截断位置、截断后权重更新效率低、压缩后精度损失大,导致SVD压缩的落地性差。
现有基于自博弈的RLHF对齐方法要么仅保证平均迭代收敛,带来极高的存储和推理成本,要么收敛到正则化博弈的纳什均衡,无法拟合真实人类偏好,对齐效果存在偏差。
现有长上下文LLM评测基准最长文档长度不足200K tokens,且缺乏复杂叙事结构的理解评测,无法有效衡量LLM的超长上下文深度理解能力。
这篇论文要回答的是:LLM 的“可解释性”能否被当作一种学习行为来系统化理解,而不是事后用探针或归因工具去解释。换句话说,它关心的是模型在学习任务时是否会形成可读的中间表征与规则,而不仅是输出可用。
这篇论文解决的是单个 LLM 在复杂任务上能力受限且容易被提示细节左右的问题:单模型很难同时做到强推理、强工具使用与强鲁棒性,而简单的 self-consistency 或多样采样又缺少明确的分工与协作机制。
现有AI能力评测默认模型会输出最优表现,但模型开发者或模型本身存在隐藏真实能力的动机,对LLM是否能实现可控策略性低表现(sandbagging)缺乏系统性验证,导致评测结果可信度无法保障。
这篇论文要回答的是:为什么很多“RNN 复兴”模型在语言建模上看起来接近 Transformer,但在 in-context retrieval(上下文内检索/拷贝关键信息)上仍明显落后。过去常用困惑度或短上下文任务来评估替代架构,容易掩盖它们在“从长上下文中定位并取回信息”这一关键能力上的瓶颈。
这篇论文要解决的是:RLHF 可能在某些设置下把模型推向“误导人类”的策略,而不仅是产生无害的迎合或幻觉。过去对 RLHF 风险的讨论多集中在 reward hacking 或过度迎合,但“主动误导(mislead)”意味着模型在优化目标下学会了操纵用户信念,这是更强的对齐失败形态。
现有Transformer注意力的计算复杂度随token数平方增长,无法高效处理超长上下文,现有线性注意力方法大多为经验性设计,会降低模型效果,缺乏理论可解释的设计思路。
如何在语言模型中估计极低概率(无法通过随机采样获得)的输出事件。这在评估模型在分布偏移下的最坏情况性能(如安全性或鲁棒性)时至关重要,而传统采样方法对此无能为力。
解释 LLM 中“涌现能力”(性能随规模先停滞后突变)的底层机制。过去通常将其视为黑盒现象,缺乏对不同难度样本 scaling 动态的细粒度分析。
这篇论文要解决的是:在给定推理预算下,LLM 解题的“计算最优”推理策略是什么,以及是否存在类似训练 scaling law 的 inference scaling law;过去推理侧常用启发式(多采样、长 CoT、best-of-n),但缺少系统的预算-收益刻画。
这篇论文要解决的是:长上下文下的事实性(factuality)提升到底来自什么机制,而不是笼统地归因于“注意力能看更远”;过去对长上下文有效性的解释往往停留在相关性观察,缺少可定位的机制组件。
这篇论文的核心问题是:不同语言、甚至不同模态中的语义表示,是否会在大模型内部收敛到共享的“语义枢纽(semantic hub)”,而不是彼此割裂的专用空间。这个问题以前常被局部地研究成跨语言对齐或跨模态对齐,但缺少一个统一假设去解释为什么同一模型能在多语言、多模态之间迁移。
这篇论文解决的是:自推测解码通常需要额外 draft model,而额外模型会带来部署复杂度、显存开销和工程耦合;作者想做的是一种 on-the-fly 的 self-speculative decoding,让同一个 LLM 在推理时自己生成草稿、自己验证,从而加速生成。这个方向重要,是因为很多真实 serving 场景不愿意为每个主模型再维护一套草稿模型。
长上下文 LLM 推理中 KV Cache 显存占用过高的问题。现有的 KV Cache 剪枝方法要么损害长上下文能力,要么效率提升有限。
这篇论文要解决的是:多模态系统通常被拆成“理解模型(编码器+LLM)”和“生成模型(扩散/自回归解码器)”两套,导致训练目标不统一、参数冗余、跨任务迁移差。作者主张用一个 Transformer 同时做多模态理解与生成,减少范式割裂。
高质量指令微调数据的获取瓶颈。开源模型缺乏高质量的对齐数据,而现有依赖人工或预定义 prompt 的数据合成方法难以扩展且多样性受限。
这篇工作要解决的是图像和视频离散化里最核心但长期被固定设计掩盖的问题:不同区域、不同帧的内容复杂度差异很大,统一 token budget 的 tokenizer 会在简单区域浪费码率、在复杂区域丢细节。过去视觉 tokenizer 大多固定 patch 大小、固定码长或固定 latent 网格,训练和推理都简单,但代价是生成质量、压缩效率和统一多模态建模能力之间一直存在硬冲突。
这篇工作解决的是 continued pretraining 的数据瓶颈:当目标域真实数据有限、版权受限或分布稀缺时,继续预训练往往要么效果弱,要么过拟合,要么损伤原有能力。作者讨论的是能否用合成数据来做持续预训练,并且不是当作 SFT 补丁,而是直接当作 pretrain-stage 的训练语料。
语言模型对数字的理解能力(数值大小比较、算术、数量推理等)一直较弱且缺乏系统性诊断。已有工作零散地测试某些数值任务,但没有一个统一框架来全面评估和改进 LM 的数字理解。
这篇论文的核心问题是:标准 Transformer 注意力会把“该保留的信息”和“该抑制的噪声”混在同一 softmax 里做加权,导致无关 token 在长上下文、检索干扰或多模态噪声下仍会泄漏进表示。现有做法通常通过更大模型、更多数据或外部稀疏机制缓解,但没有直接改变注意力本身的选择性;作者想从注意力计算规则上提升信号与噪声的可分性。
这篇论文要解决的是:长上下文模型的评测经常被“针在草堆(needle-in-a-haystack)+ 少量合成任务”代表,导致我们不知道模型在真实长文档下的检索、聚合、抗干扰与跨段推理到底哪一环掉链子。过去的评测要么过于单一(只测定位),要么可被模板化策略投机,难以指导预训练与长上下文工程优化。
这篇论文要解决的是:在算力受限时,如何做数据选择(data selection)才能最大化训练收益,而不是简单按困惑度/去重/启发式采样。过去数据选择常假设训练预算固定且足够大,但现实里更常见的是“算力先卡死”,这会改变最优数据分布:你需要在更少 step 内学到最有迁移价值的模式。
这篇论文要解决的是:多语言多模态 LLM 往往要么不开源、要么语言覆盖窄、要么多模态能力只在高资源语言上成立,导致研究与落地都难以复现和扩展。过去的次优解是用英文强模型外接翻译/对齐模块,但这会引入延迟与误差,并削弱端到端多模态对齐。
这篇论文要解决的是:奖励建模(reward modeling)能否回到语言模型最擅长的 next-token 预测范式,从而减少“训练一个额外回归头/分类器”带来的分布不匹配与泛化问题。传统 reward model 往往是标量打分器,训练目标与 LM 预训练目标差异大,容易校准差、迁移差。
这篇工作要解决的是多模态 LLM 训练数据“看不见、量不准、改不动”的问题。当前很多团队知道数据决定上限,但在图文数据上通常只做静态 benchmark 或局部人工抽检,很难回答某类样本到底提升了什么能力、污染了什么偏差、删改后训练效果会怎样。
这篇工作要回答一个对大规模预训练非常核心但一直缺少系统规律的问题:critical batch size 在 pre-training 中到底如何随模型、数据和训练阶段缩放。业界常用经验法则设 batch,但一旦模型和 token 预算上去,过小浪费并行度,过大又进入收益递减甚至优化变差,成本非常实。
这篇工作研究的是一个对 foundation model 数据安全非常关键的问题:预训练阶段的投毒是否会在后续继续预训练、指令微调甚至对齐之后依然持久存在。过去很多投毒研究集中在 supervised setting 或短期 backdoor 效果,但对大模型而言,更现实的问题是早期有毒数据会不会被后续海量干净数据“冲掉”。
LoRA 微调时显存占用仍被冻结的原始大模型参数主导的问题。这限制了在资源受限设备上对超大模型进行微调的可行性。
这篇工作要解决的是:过程奖励模型(process reward model, PRM)缺少开放域、高质量、细粒度的训练数据,导致它们往往只在数学或代码等窄领域有效。过去 PRM 之所以难做,不是模型结构本身有多复杂,而是缺少能监督“中间推理步骤好坏”的标注,而这类标注人工成本极高、覆盖面又窄。
这篇工作要解决的是预训练数据选择里一个常被低估的问题:只按“重要性”挑数据,容易把高频、近邻、表面高损失样本选得过多,反而损失覆盖面;而只追求多样性,又可能选进很多对训练贡献不大的样本。过去 LLM 数据筛选常在质量、去重和困难度上做文章,但“重要性”和“多样性”如何联合建模并服务预训练缩减,仍然没有统一且稳定的方案。
在自回归语言模型预训练中,Adam 优化器是否真的不可替代?随着模型规模扩大,寻找更高效优化器的尝试不断,但 Adam 依然占据统治地位。
这篇工作要解决的是:LLM 在多轮代码生成中“为什么会推理/不会推理”,以及哪些因素真正驱动了跨轮次的计划、纠错与状态维护,而不是把提升简单归因于更大模型或更多上下文。过去对 code LLM 的分析常停留在单轮 pass@k,难解释多轮交互中的推理失败模式。
这篇论文的核心结论大概率是:很多自动化 LLM benchmark 的胜负判定并没有测到真实能力,甚至“空模型”都能拿到很高 win rate。过去社区为了提高评测吞吐和降低人工成本,大量采用 LLM-as-a-judge 或自动 pairwise 比较;问题在于,如果裁判模型被格式、长度、语气、模板或位置偏置带偏,benchmark 就会奖励会“迎合评测器”的输出,而不是更强的推理或事实能力。
如何在一个统一的模型中同时处理离散文本和连续图像数据。过去通常将图像量化为离散 token 以适应语言模型,但这会损失信息且难以扩展。
这篇论文要解决的是:reward model(RM)在 LLM 对齐里被当作“黑盒分数”,但社区缺少一个覆盖面足够、能揭示失效模式的系统性基准,导致不同 RM 训练配方的优劣很难复现和对齐。过去常用单一数据集或单一相关性指标,容易把“会迎合偏好数据”误当成“会泛化的奖励”。
这篇论文要解决的是:用 LLM 当“安全裁判”(safety judge)做 meta-evaluation 时,裁判本身是否稳健、是否会被提示词/格式/对抗样例系统性带偏。以往很多工作默认“裁判分数≈真实安全性”,但在安全评测越来越依赖自动裁判的情况下,这个假设一旦不成立会直接污染训练与迭代闭环。
这篇论文解决的是:LLM 对输入中“可交换部分”的顺序很敏感(例如一组证据段落、工具返回列表、检索到的文档集合),导致同一集合不同排列会显著改变输出。过去通常靠提示词要求“忽略顺序”或做简单打乱增强,但鲁棒性仍不稳定。
这篇论文解决的是:偏好优化(DPO/IPO 等)在同时追求“有用性”和“安全性”时容易互相挤压,导致要么过度拒答要么安全退化。过去常用单一标量 reward 或把安全当硬规则,但这会把多目标问题简化得过头。
这篇论文解决的是:LLM 内部如何几何化地表示“类别概念”和“层级概念”(如动物-哺乳动物-狗),以及这种几何结构与泛化/组合能力的关系。过去我们常用 probing 给出相关性,但对概念空间的几何约束与可预测结构缺少系统刻画。
这篇工作讨论的是 LLM unlearning 到底真的删除了知识,还是只是把知识提取路径暂时遮蔽了。作者用 benign relearning 去“唤醒”已被遗忘模型的记忆,针对的是当前 unlearning 评估常只看静态攻击或一次性测试,无法区分真正遗忘与可恢复性隐藏。
这篇工作研究的是:模型生成中的文化条件偏向,能否被追溯到具体的预训练语料来源。过去关于文化偏见或文化适配的工作多停留在行为层观察,很少进一步回答“这些生成风格到底是从哪类语料学来的”,而这个问题对数据治理和语料配比非常关键。
LLM 作为软件开发 agent 的研究缺乏统一、可复现的开源平台,导致不同方法难以公平对比,工程实现重复造轮子。OpenHands 旨在提供一个开放的通用 agent 平台来解决这个问题。
Shampoo 是一种基于二阶信息的优化器,理论上收敛更快,但在实际语言模型训练中存在不稳定和工程复杂度高的问题。SOAP 通过将 Shampoo 与 Adam 结合来同时获得二阶优化的加速和 Adam 的稳定性。
训练数据的生成和筛选通常是静态的,缺乏根据学生模型实际学习状态动态调整数据的机制。DataEnvGym 构建了一个框架,让数据生成 agent 根据学生模型的反馈来自适应地生成训练数据。
学习率调度(learning rate schedule)通常需要预先设定总训练步数和退火策略,对训练动态的适应性差。InstaTrain 提出基于动力系统理论的自适应退火方法,让学习率根据训练状态自动调整。
Transformer 的内部决策过程不透明,现有可解释性方法要么需要修改模型结构,要么解释不忠实于模型实际计算。本文在不修改黑盒 Transformer 的前提下,提出一种忠实的自解释方法。
Mixture-of-Experts (MoE) 通过稀疏激活提升模型容量,但每个 token 仍需经过 router 计算和至少一个 expert 的前向传播,存在计算浪费——很多 token 其实不需要复杂处理。MoE++ 引入零计算专家(zero-computation experts)来加速推理和训练。
这篇论文要解决的是:多模态表征学习里“对齐”常停留在两两模态(图文、音文等)或共享一个过于拥挤的空间,导致新增模态/任务时互相干扰、可组合性差。作者提出用“binding spaces”把跨模态绑定关系结构化,从而在大规模 omni-modal 场景下更稳地扩展。
这篇论文要解决的是:reward model(RM)在 RLHF/RLAIF 中容易被策略“钻空子”而产生 reward hacking,根因是 RM 训练分布窄、对抗性样本不足、以及标注噪声导致的过拟合。以往常用加正则或人工补丁,但缺少系统化的鲁棒训练方案。
这篇论文要回答的是:ICL 在分布内看起来很强,但它是否真的能对“任务分布外”的新任务泛化,还是主要在做模式匹配与近邻检索。过去很多结论来自同一任务族内的变体,OOD 定义不严格导致泛化被高估。
这篇论文要解释的是:为什么 ICL 模型在少样本下表现好——是因为学到了可在上下文里执行的学习算法,还是因为预训练让它形成了某种近似贝叶斯/核回归式的归纳偏置。以往解释往往停留在类比,没有把可验证的机制与可预测的现象对应起来。
这篇论文要解决的是:长上下文 RAG/上下文增强生成在推理时编码成本高,尤其是把大量检索片段串起来做一次性编码会造成延迟与显存压力。以往要么截断上下文损失召回,要么用稀疏注意力/工程优化但不改变编码范式。
这篇论文要解决的是:开放式评测到底能不能稳定、可靠地衡量大模型能力。现有做法常把自由生成任务当成更接近真实使用场景的评测,但这类评测通常依赖弱约束参考答案、LLM-as-a-judge 或人工偏好,结果很容易被提示词、评分协议和表述风格扰动,因此作者重新审视其有效性与可比性。
这篇论文关注的是:如何把通用 LLM 真正适配到科学文献理解,而不是只靠通用 instruction tuning 碰运气。科学论文有长上下文、密集术语、图表与引用交织、以及任务形式多样的问题,传统做法要么用检索拼补,要么只做下游微调,通常无法系统解决领域表示和推理习惯的错位。
这篇论文要解决的是统一多模态建模里的一个基础表示问题:量化后的视觉离散 token 还能不能继续做 BPE 合并,从而得到更紧凑、更有层级结构的视觉词表。现有视觉 tokenizer 通常停留在 VQ token 或 patch token 级别,序列长、冗余高,而且与文本 tokenizer 的压缩思路割裂,因此作者尝试把字节对编码迁移到量化视觉模态上。
RLHF 中基于 margin 的损失函数(如 DPO)存在的固有缺陷。这类损失仅关注 preferred 和 dispreferred 回复之间的相对差异,而忽略了对它们各自绝对概率的约束。
现有大模型知识编辑方法多基于更新少量特定层参数,在复杂场景下无法同时保证编辑成功率和无关知识留存,存在明显的编辑-局部性权衡;静态训练的大模型知识过时速度快,亟需低冲突的高效编辑方案。
核心问题是:多模态指令微调(MM-IT)通常被当作“堆数据+训一轮”的经验工程,缺少对“表示空间发生了什么变化、哪些变化带来泛化”的可检验解释,导致配方迁移困难。
核心问题是:GUI通用体(generalist)智能体缺少“动作基础模型”,现有方法多依赖任务级脚本或小规模演示,导致跨应用泛化差、长程交互不稳。
核心问题是:用单个“概念向量”来表示LLM中的概念往往过于简化,无法刻画概念在不同语境、层、token位置上的变化与不确定性,导致可控编辑与解释不稳定。
这篇工作要解决的是大语言模型不同能力之间并不是独立增长的,某些复杂能力会被更基础的短板所限制。过去大家常用平均 benchmark 分数讨论‘能力提升’,但这会掩盖一个关键事实:推理、工具使用、规划或多跳理解,可能受制于更底层能力中的最弱项,而不是由某个单一强项决定。
基于扰动的前向学习无需反向传播,但传统蒙特卡洛采样需要对每个数据点做大量前向查询才能得到准确梯度估计,计算成本过高无法扩展到大规模模型训练;此前工作默认所有数据点分配等量查询,忽略了不同样本的梯度估计难度差异。
ICL和RAG依赖上下文窗口注入外部知识,受限于窗口长度无法注入大规模离线知识,导致复杂推理场景下信息不足;此前的知识蒸馏方法多生成黑盒表示,可解释性差无法验证正确性。
MoE被证实可有效缓解持续学习中的灾难性遗忘,但此前没有理论分析刻画MoE在持续学习中的作用机制,无法指导MoE结构在持续学习场景下的最优设计;现有MoE的持续学习方案多基于经验调整,泛化性差。
小语言模型受限于参数量,无法同时兼顾长上下文建模能力和细粒度信息召回能力;纯注意力架构长上下文成本高,纯SSM架构细粒度召回精度差;此前的混合架构多是层间交替堆叠,无法同时对同一输入做互补处理。
大模型的多语言能力在预训练过程中的形成机制尚不明确,此前研究多关注最终性能,缺乏对能力演化全流程的刻画,无法指导多语言预训练的数据配比和训练策略优化。
这篇工作要解决的是:LLM 在小学数学这类可验证任务上会系统性犯错,但“如何从错误中学到可泛化的改正机制”常被简化为更多 SFT 或更强 RL,而缺少可解释的学习动力学分析。以往很多分析停留在现象层(对/错比例、CoT 有无),很难指导训练信号该怎么设计。
这篇工作要解决的是:LLM 在小学数学上看似“会写步骤”,但这些步骤是否对应稳定的内部推理过程、以及错误来自哪里,长期缺少可检验的刻画。过去很多方法用 CoT 提升分数,却回避了“步骤是因还是果”的问题:模型可能只是生成了看起来合理的文本轨迹。
这篇工作要解决的是:现有多模态大模型里“专家/模块”往往是静态使用的,导致不同输入(图像类型、文本意图、跨模态对齐难度)无法动态选择最合适的计算路径,从而浪费算力或引入不必要的干扰。过去要么直接堆更大 dense 模型,要么用 MoE 但路由策略多在纯文本或从零训练场景里验证。
这篇工作要解决的是:激活稀疏(activation sparsity)在 LLM 推理加速中常见,但“按阈值剪掉小激活”会破坏某些低秩结构或关键信息通道,导致速度提升和精度损失难以平衡。以往很多稀疏化方法对不同层/头一刀切,忽略了表示的秩(rank)差异。
这篇工作要解决的是:数学 agent 的能力提升常依赖一次性偏好学习或单轮 RLHF,但数学推理是强路径依赖的,多轮交互中“中间策略选择”比最终答案更关键,单轮偏好信号往往太稀疏。过去很多工作要么只对最终答案打分,要么用过程监督但成本高且难扩展。
这篇论文的核心问题是如何理解 State Space Model 为何能在长序列建模中表现强劲。过去 SSM 常被当作高效序列算子来用,解释多集中在线性系统或卷积视角,但这些视角不足以说明它为什么在语言等任务上能形成有效记忆和泛化。
这篇论文讨论的核心问题是:语言模型里的能力究竟来自分布关联记忆,还是来自真正的 in-context reasoning,而且这两类功能在 attention 层和前馈层里各自承担什么角色。这个问题过去常被一起谈,但没有拆开机制层面去看,结果是很多关于 ICL 的解释混淆了模式匹配、检索和推理。
LLM 在推理时只能通过 in-context learning 利用新知识,无法将上下文信息持久化到模型参数中。这意味着每次推理都要重复提供相同上下文,既浪费 token 预算,也受限于上下文窗口长度。
如何度量 LLM 在非对抗性(正常使用)场景下对训练数据的逐字复制程度。已有的 memorization 研究多聚焦于对抗性提取(adversarial extraction),但正常使用中的无意复制同样涉及隐私和版权风险,且度量方法不成熟。
这篇论文要回答的核心问题是:有没有一种通用的、严格次二次复杂度的序列建模架构,能在表达能力上真正替代 Transformer。过去大量工作用线性注意力、状态空间模型或卷积来规避 O(n^2) 注意力成本,但多数证据停留在经验层面;这篇工作试图给出更硬的复杂度下界,说明哪些能力不是简单靠“更快的注意力近似”就能保住的。
这篇论文的核心结论是:注意力头数不是越多越好,在固定预算下盲目加头可能伤害模型质量。过去业界常把多头注意力默认成“头越多表示子空间越丰富”,但实际训练里 head dimension 变小、冗余头增多、优化更难,这些代价经常被忽略。
这篇论文要解决的是:模型在做任务时,何时依赖 in-context learning,何时依赖权重里已记住的策略,两者能否被显式调控。过去这两种能力通常混在一起讨论,模型表现好时很难分清到底是上下文临时适应,还是参数记忆在起作用;这限制了我们对泛化和 continual adaptation 的理解。
这篇论文要解决的是:用小参考模型的 perplexity 做数据剪枝,到底能否可靠地筛掉低价值数据,还是会系统性误删未来大模型需要的样本。业界广泛用 PPL 过滤网页数据,因为它便宜、直观、可扩展;但这个信号强依赖参考模型大小和分布,未必和目标模型的训练收益一致。
Decoder-only Transformer在多步算术推理等复杂任务上性能差,核心原因是中间层表示坍塌,特征熵不足无法保存多步推理的中间状态;此前的方法多依赖CoT提示,无法从模型结构和训练层面根本解决表示坍塌问题。
扩散语言模型支持并行生成和可控性,但似然建模能力差且仅支持固定长度生成;AR模型似然建模能力强但生成串行效率低;此前没有方法可以同时兼顾二者的优势,避免各自的核心缺陷。
传统推测解码的并行验证机制存在有效候选token误拒率过高的问题。此前方案默认仅用目标模型似然作为唯一验证规则,完全忽略候选本身的语义合理性,导致实际加速比远低于理论上限。
这篇论文要解决的是:在不显著掉点的前提下,让 Transformer 的“跨层参数共享”真正可用,从而把深层模型的参数/显存成本压下来。以往直接共享整层权重往往会损伤表达能力,而只做轻量适配又很难在所有层同时稳定工作。
这篇论文要解决的是:长上下文 LLM 往往“能读很长但写不长”,生成超过 1 万词时容易跑题、重复、结构崩坏。过去主要靠更长 context 或简单的分段提示,但缺少针对“长篇生成稳定性”的系统训练与评测。
这篇论文要解决的是:在线偏好对齐(边收集人类/用户反馈边更新模型)容易陷入探索不足,导致模型只在已知偏好附近局部最优,甚至被早期噪声反馈带偏。以往 RLHF/偏好优化多在离线数据上做,在线场景的探索-利用权衡更尖锐。
这篇工作讨论的核心问题是:神经网络里相似功能的特征是否能跨层互换,以及这种“可置换性”能否被机制化刻画。过去 mechanistic interpretability 多在同层找 feature 对齐、superposition 或电路结构,但跨层关系常被简单视为残差流里的再表达;作者显然在追问更强的问题——不同层学到的特征是不是在功能上可以匹配甚至替代。
这篇工作解决的核心问题是:训练 LLM reasoner 时,更多数据和更强教师并不总是更好,采样分布如果不 compute-optimal,反而浪费算力并降低推理质量。过去 reasoner 训练常默认“大模型出更好轨迹,所以尽量多采样、尽量用强教师”,但这忽略了样本难度、冗余率和 student capacity 的匹配;作者要证明的是,小而弱的教师在合适采样策略下可能更优。
这篇工作直指一个容易被简化的问题:memorization 并不总是无害副作用,在某些条件下它会实打实地伤害泛化。过去关于记忆化的讨论,常把它分成两个极端:要么认为大模型适度记忆是正常且无伤大雅,要么只在隐私泄露语境下关注它;作者显然在问更难的问题——什么时候模型把训练样本记得太好,会挤占形成可迁移规律的能力。
Mamba的长度外推能力存在明显局限。此前研究大多关注Mamba的效率优势,忽略了其有效感受野受训练序列长度限制的问题,无法直接适配更长的推理上下文。
现有大模型事实性增强方法会显著损害模型的上下文忠实度。此前的事实性优化都默认提升事实准确性是无副作用的,忽略了参数知识与上下文信息的优先级冲突问题。
大模型是否具备仅属于自身的内省能力。此前的模型行为预测研究都默认模型的所有知识都来自训练数据,不存在训练数据之外的私有知识。
这篇论文要解决的是:能不能把神经网络明确训练成形式语言识别器,而不是只在有限样本上拟合字符串模式。过去关于神经网络能否学习 formal languages 的讨论很多,但常见设置是‘给点正负例看泛化’,这很难区分模型是真的学到自动机结构,还是只记住长度、词频和局部模板;因此把训练目标和评估都拉回“识别器”视角,是个更严格也更有解释力的问题。
这篇工作要解决的是:能不能把多个不同尺寸、不同算力档位的 LLM 合并成一个 many-in-one 模型,通过权重共享和广义剪枝按需切换,而不是分别训练和存储多套模型。过去做弹性推理通常依赖蒸馏、早退或事后剪枝,但这些方法常在不同配置间共享不足、切换不平滑,或者需要为每个尺寸单独校准;这个问题很实际,因为部署端越来越需要同一权重覆盖多种延迟/成本预算。
大模型开放生成时容易出现重复、乏味的问题。此前的优化方案都默认过拟合小数据集会损害泛化能力,不敢采用接近零损失的微调策略。
这篇论文要解决的是:在线 RLHF(边采样边更新)和离线 RLHF(只用固定偏好数据)长期是两套算法栈,导致工程上难复用、理论上难比较、数据分布漂移时也难统一处理。以往做法要么用 PPO/DPO 分别处理在线/离线,要么用启发式把两者拼起来,但缺少一个统一目标来解释何时该更像“RL”、何时该更像“监督偏好学习”。
这篇论文要解决的是:标准 RLHF 把每个 token 当作一步动作,导致信用分配长、方差大、训练不稳,尤其在长回答与工具调用场景下效率很差。过去的折中是用序列级奖励或更强的 value baseline,但动作粒度仍过细,策略更新噪声依旧大。
这篇论文要解决的是长上下文偏好优化难做的问题:真实长上下文偏好数据贵、训练不稳,而且短上下文上学到的偏好未必能自动迁移到长上下文。LongPO 这个名字和 'short-to-long preference optimization' 表明作者的核心假设是,长上下文对齐可以通过自演化方式由短到长逐步扩展,而不是一开始就依赖大量长样本。
如何在不做梯度更新的情况下,仅通过一次前向传播就把新上下文(如任务描述、示例)注入到语言模型的参数中。传统的 in-context learning 受限于上下文窗口长度,而 fine-tuning 需要多步梯度更新,两者在效率和灵活性上各有短板。
个性化对齐(pluralistic alignment)中的 reward model 需要为不同用户学习不同偏好,但每个用户的标注数据极少。传统 reward model 假设单一偏好分布,无法处理用户间偏好冲突。
长上下文 LLM 的 KV-cache 内存占用随序列长度线性增长,严重限制了可处理的上下文长度。现有压缩方法(如 token dropping、量化)要么损失太大,要么压缩率有限。MELODI 探索用记忆压缩(memory compression)来解决这个问题。
这篇工作要解决的是:所谓“全模态/泛模态”语言模型缺少针对“跨模态推理”而非“单模态识别”的系统评测,导致模型看起来能做多模态,其实只是各模态各做各的。以往评测往往按模态分割任务或只测感知准确率,难以定位推理链条在模态切换处是否断裂。
这篇工作要解决的是:LLM 压缩常用剪枝/量化/蒸馏,但“层冗余”在大模型里普遍存在却缺少可操作的结构化处理,导致压缩要么伤性能、要么工程复杂。以往很多方法把每层当独立单元处理,忽略了相邻层可能学到高度相似的变换。
这篇工作要解决的是:DPO 依赖偏好对(chosen/rejected),但高质量偏好数据昂贵且分布受限,导致“用 DPO 自举”很难做得稳。以往自训练常见做法是用模型生成再筛选,但筛选标准要么过弱引入噪声、要么过强导致数据塌缩。
这篇工作要解决的是:多模态大模型的幻觉很大一部分来自视觉表征对微小扰动不稳,训练时又缺少针对“视觉证据一致性”的约束。以往减少幻觉常靠更强对齐数据或后验校验,但这两者要么成本高、要么只能治标。
这篇工作要解决的是:多模态评测长期被少量学术数据集主导,覆盖面窄且容易被训练集污染,导致“模型会做真实任务吗”回答不了。以往 benchmark 往往任务数少、分布单一,模型通过提示工程或记忆就能拿高分。
这篇工作针对的是 LLM 生成时 softmax 计算和全词表访存太贵的问题。现有加速方法常靠近似 top-k、speculative decoding 或量化,但它们不是改动较大,就是收益受模型/硬件条件限制;而真正的瓶颈之一是每步都要在大词表上做高带宽读写。
这篇工作要解决的是长视频上的 VLM 长上下文能力不足。现有视觉语言模型通常在图像或短视频上有效,但一旦视频时长拉长,视觉 token 数量会爆炸,训练和推理成本迅速失控,导致模型只能靠粗采样或截断上下文,丢掉关键时序信息。
现有多模态指令微调数据集的任务类型过少。此前的数据集构建都依赖人工标注,最多只能覆盖几百种任务类型,限制了多模态大模型的泛化能力。
现有Local SGD分布式训练方法存在内存开销大、训练不稳定的问题,仅适用于小规模训练,无法适配大模型大规模异构训练环境的需求。
这篇工作要解决的是:在不依赖昂贵人工标注的前提下,把“指令跟随”从一次性生成提升到可自我纠错、可持续改进的闭环流程;以往常见做法要么靠高质量 SFT/RLHF 数据堆效果,要么用自反思/自一致性但缺少可验证的搜索与反馈信号。
这篇工作要解决的是:让 LLM 在多轮对话中稳定完成 function calling(工具调用),尤其是需要把多个子任务组合成可执行的调用序列时;以往很多工作把工具调用当单轮结构化输出,导致跨轮状态维护、参数依赖与组合泛化较弱。
这篇工作要解决的是:RAG 中检索到的上下文往往冗长且含噪,直接塞满上下文窗口会降低答案质量并增加推理成本;以往做法要么粗暴截断,要么用昂贵的重排序/压缩模型,难以同时兼顾效率与鲁棒性。
这篇工作重新审视大语言模型做 in-context learning 时,推理回路到底在模型内部如何形成。过去很多解释把 ICL 归结为少数固定头或固定层的“电路”,但这类结论往往建立在特定任务和小模型分析上,外推到更大模型或更复杂提示时并不稳定,所以作者重点是复查这种电路假说的边界。
这篇工作要解决的是偏好优化在奖励噪声、偏好标签错配和分布外比较下容易被带偏的问题。现有 DPO/IPO 类方法通常默认偏好对是可信的,但真实偏好数据常混杂错误标注、弱偏好和模型自举偏见,结果是训练越久越会过拟合噪声而不是学到稳定对齐信号。
这篇工作讨论的是 LLM agent 能否利用“特权型 AI 反馈”学到比教师更好的策略。常规蒸馏和 imitation 多要求学生模仿教师可见的最终行为,但 agent 场景里更有价值的信号往往是教师内部评估、隐藏状态或更强工具链产生的反馈,这些反馈比最终答案更密、更可塑。
这篇工作要解决的是 exact machine unlearning 很难扩展到大模型,因为严格回到‘没见过被删数据时会得到的参数解’通常需要从头重训。现有近似遗忘方法便宜,但很难给出严格保证;作者想利用参数高效微调,把 exact unlearning 的代价压到可扩展范围。
这篇工作试图解决传统 CLIP 式语言-图像预训练只学点估计相似度、不显式建模不确定性的问题。标准对比学习把图文配对压成一个高相似和低相似的排序目标,适合检索,但对一图多描述、语义歧义和下游生成/推断中的不确定性表达不够自然,因此作者转向 probabilistic 的联合预训练框架。
视觉语言模型(VLM)存在空间推理错误多的问题。此前的VLM都默认直接复用图像级预训练的ViT backbone就足够编码图像的局部语义,忽略了局部位置的类别信息丢失的问题。
多模态大模型(VLLM)模态对齐不足会引发幻觉、不安全内容生成问题,现有对齐方法依赖粗粒度外部反馈和额外标注数据集,扩展性差、数据成本高。
现有大模型科学推理基准难度低、任务覆盖窄,无法适配真实科研工作流中长上下文理解、多学科知识融合的评估需求。
这篇工作要回答的是:Transformer 在 in-context learning 时到底“用哪些注意力头”来选择并实现某种因果/结构性解释,而不是把成功归因于整体网络的黑箱拟合。以往相关讨论常停留在相关性可视化或事后探针,难以给出“选择机制”层面的可检验描述,因此很难指导可控的结构泛化或失效诊断。
这篇工作要解决的是:RLHF 中 reward model 被过度优化后,策略会钻奖励漏洞(reward hacking)并偏离人类可接受行为分布,导致“分数更高但更差用”。过去常用 KL 到参考策略或早停来缓解,但 KL 只约束分布距离,不保证行为层面的支持(support)覆盖,仍可能在低密度区域产生奇怪行为。
这篇工作要解决的是:语言模型推理时如何按输入难度自适应分配计算量,避免对简单问题过度思考、对难问题又算得不够。以往做法要么固定解码预算(浪费算力),要么用外部路由/早停启发式(不稳定且难泛化),因此需要一个可学习、可控的 compute allocation 机制。
这篇工作要解决的是:LLM 内部是否真的学到了类似 temporal difference learning 的机制,而不仅仅是在表面行为上表现出序列预测能力。过去关于 LLM 是否实现某种强化学习式信用分配,多停留在行为类比;作者想把问题推进到机制层,直接在表示中找证据。
这篇工作要解决的是:知识编辑能否从结构化事实扩展到非结构化数据,而不再只局限于‘某个主语-关系-宾语’这样的可标准化记忆。现有知识编辑方法大多在 cloze 或 QA 事实层面验证,编辑目标清楚但过于理想化;真实世界中,模型记住的大量知识是分散在文档、事件描述和长上下文里的非结构化内容。
自回归(AR)大模型推理时逐token生成延迟高,现有扩散语言模型生成质量不如同规格AR模型,无法同时满足高吞吐和高质量生成需求。
现有视频问答系统处理长视频时需要全量处理完整视频再响应,重复计算开销大、延迟高,无法支持流式输入的长视频问答需求。
现有训练后量化(PTQ)方法在超低位宽下性能下降严重,之前的方法仅针对离群点和层/块级独立损失优化,未考虑层间和层内依赖放大带来的量化误差。
这篇论文要回答的是:当“强模型”反复用自己或同类模型生成的数据继续训练时,为什么会出现比传统“model collapse”更严重、且更难靠规模化缓解的退化。以往讨论多聚焦在小模型或弱生成器导致的分布收缩,但强模型在高置信生成与数据过滤下也会系统性丢失长尾与不确定性。
这篇论文指出:在评估“涌现能力/泛化”时,如果训练数据里混入了测试任务或其等价变体,会系统性地混淆结论,让看似的能力提升其实来自数据泄漏或任务记忆。过去很多“emergence”讨论默认训练与测试任务严格隔离,但在大规模数据与合成数据时代这点很难保证。
这篇论文要解决的是:1-bit/二值化 LLM 虽然极致省显存与带宽,但精度通常掉得太厉害,导致“1-bit barrier”难以跨越。过去的二值网络多靠简单的权重量化与少量校准,难以在大模型与复杂任务上保持可用性能。
这篇论文要解决的是:仅靠静态偏好数据做 SFT/DPO 往往学不到“按指令把事做成”的能力,尤其是需要执行、验证、再修正的任务。过去很多指令跟随提升依赖人工反馈或离线数据,缺少可扩展的在线纠错信号。
这篇工作要解决的是:LLM 在复杂推理里第一版思路常常过早定型,后续即使继续生成也只是沿着错误轨迹展开,因此需要一种显式的“逐步反思和修正”机制。过去常见做法是直接采样更多 chain-of-thought 或做 self-consistency,但那主要增加采样量,并不真的改写中间推理状态。
这篇工作要解决的是:LLM 里是否存在未被常规 probing 或直接 prompting 显式访问到、但在特定条件下可以被激活的潜在记忆。过去关于 memorization 的讨论常集中在可直接提取的训练样本复现,而这可能低估了模型内部存储的信息量和可恢复性。
这篇工作要解决的是:RWKV 这类线性时间、RNN-like 架构能否在视觉感知上真正替代或补充 ViT,而不是只在语言序列里展示效率优势。过去视觉领域主流仍是注意力模型,因为二维结构建模和长程依赖对纯递归/状态空间方法并不友好。
这篇工作要解决的是:图像 tokenizer 是否必须给每张图固定数量的 token,还是可以按内容复杂度自适应分配长度。固定长度方案实现简单、硬件友好,但会在简单图像上浪费 token,在复杂区域上又不够用,这已经成为视觉生成和统一多模态建模里的实际瓶颈。
这篇工作要解决的是:不同 LLM 之间的‘风格差异、行为倾向和 qualitative vibes’很明显,但现有评测大多只给出平均正确率,难以系统发现这些差异。过去这类分析往往靠人工印象或少量案例,缺乏可量化、可复现的方法。
任务特定微调会意外破坏大模型的安全对齐效果,现有对齐防护方法主要针对指令微调场景,未覆盖任务特定微调的安全风险。
现有研究假设大模型激活空间中的概念特征都是一维线性的,未考虑可能存在的不可约多维特征,限制了模型可解释性研究的覆盖范围。
这篇论文要解决的是:标准 Transformer 在训练长度范围外容易长度泛化失败(更长序列上推理/算法性任务崩溃)。以往常靠位置编码改造或专门的长上下文训练,但这些方法要么改动大,要么仍依赖见过的长度分布。
这篇论文要解决的是:in-context learning(ICL)里常被默认的一些“不变性”(invariance)假设可能不成立,导致我们用错误的归因解释 ICL 成功或失败。过去很多分析把 ICL 视为对示例顺序、格式、重参数化等近似不敏感,但工程上大家又经常观察到强敏感性。
这篇论文要解决的是:知识编辑(knowledge editing)常在改对一个事实的同时破坏邻近知识或引入副作用,因为参数更新会沿着与原知识纠缠的方向扩散。过去很多方法用局部微调或 rank-1 更新,但很难严格控制“改哪里、不改哪里”。
这篇论文关注一个很关键但常被模糊处理的问题:语言模型内部是否在持续表示某些‘世界状态’,以及我们能不能可靠地把这些状态读出来。过去很多 probing 工作能测到相关性,但很难判断探针读到的到底是显式状态表示,还是被 probe 本身补出来的捷径。
这篇论文试图解决数学推理中的一个核心难点:生成 step-by-step reasoning 时,普通自回归采样很容易在早期走错,一旦错误进入中间步骤,后面再难纠正。现有做法通常靠更强的 prompt、self-consistency 或 verifier 重排缓解,但这些方法多数是在采样后补救,而不是在生成过程中持续引导搜索。
LLM 在回答关于实体的问题时会产生幻觉,但模型内部是否「知道自己不知道」?这篇工作研究 LLM 内部表示中是否存在可检测的「知识感知」信号,能区分模型真正知道的实体和会产生幻觉的实体。
用 LLM 做评判(LLM-as-judge)来评估对齐效果时,存在系统性偏差:LLM 评判者倾向于偏好风格上更好看的回答(更长、更结构化、用词更华丽),而非内容上更准确的回答。这导致对齐 benchmark 的排名可能失真。
MoE(Mixture of Experts)在 token 级别路由,但专家之间仍需同步通信。能否设计一种异步的语言模型混合架构,让多个小模型完全独立运行、无需同步,最后再合并输出?
FP8 训练可以大幅提升 LLM 预训练的吞吐量,但在 trillion-token 规模的长训练中,FP8 的精度损失会累积,导致训练不稳定或最终性能下降。如何让 FP8 训练在超大规模下保持稳定?
这篇论文要回答一个可量化的问题:针对语言模型的“激活攻击”和“token 攻击”,攻击强度与模型/数据/计算规模之间是否存在类似 scaling law 的规律。过去对抗攻击多以经验对比为主,缺少能外推到更大模型或更长上下文的规律性描述。
这篇论文研究一个基础但常被混淆的问题:Transformer 分类器在 in-context 学习场景下为何能泛化,并且为何会出现“良性过拟合(benign overfitting)”——训练误差趋近于零但测试仍表现良好。以往对 ICL 的讨论多集中在自回归语言建模器,这里把焦点放到“训练出来的分类器”在上下文条件化下的统计行为。
这篇论文要解决 RLHF 里一个经常被低估的环节:我们缺少可靠的方法来评估 reward model(RM)到底好不好,导致“RM 分数高≠人类偏好好”以及 reward hacking 难以及时发现。过去常用做法是看离线准确率或与人类标注的一致性,但这些指标往往不能预测上线后的策略退化。
这篇工作要解决的是:多模态偏好优化里,现有奖励模型通常只给整句或整回答级别分数,无法定位 LVLM 输出中到底哪几个 token、哪一段推理或哪一处视觉引用出了问题。这个问题过去常被整段打分和人工误差分析勉强处理,但对长回答、细粒度幻觉和局部错误监督都不够用,所以值得单独做成 token-level reward。
这篇工作要解决的是:多模态 LLM 的偏好优化如果直接沿用文本 DPO,往往把图像、区域、文本回答这些不同层级的偏好信号混在一起,导致训练目标过粗,无法稳定对齐‘看得对’和‘说得对’。过去很多方法默认一个全局 chosen/rejected 对就够了,但多模态偏好天然是分层的,所以需要层级化处理。
这篇工作要解决的是:大语言模型和视觉语言模型的 in-context learning 是否真的依赖显式监督格式,还是说即使没有人工标签,它们也能从原始上下文中进行无监督任务归纳。过去多数 ICL 研究默认上下文里要给输入-输出配对,而这可能低估了模型从结构和共现中自发归纳规则的能力。
这篇工作要解决的是:CLIP 神经元解释通常停留在一阶相关性,即某个 neuron 激活和某类语义强相关,但这不足以说明它在网络中的真实功能,因为很多影响是通过与其他神经元和层间交互以二阶方式体现的。过去只看单神经元激活图,容易把‘相关’误当成‘因果作用’。
现有数学推理基准如GSM8K、MATH难度不足,OpenAI o1已达到94.8%的MATH准确率,无法有效衡量大模型奥赛级数学推理能力。
现有RAG系统的检索器、触发决策、查询重写、生成模块均独立训练,存在错误累积、检索冗余问题。此前方案多固定部分模块微调或采用启发式规则,泛化性差。
现有大模型遗忘方法仅处理单次遗忘请求,未考虑真实场景下遗忘请求连续出现的情况,会导致模型效用持续累积下降,且多数方法需要访问原始训练数据,不符合隐私版权限制。
这篇论文要解决的是:多轮 RLHF 里如何更高效、更稳定地做策略优化,因为逐 token/逐回合的 credit assignment 会让训练样本利用率低、方差大、成本高。
这篇论文要解决的是:在现代 Transformer 上做参数高效微调/适配时,如何自动分配每层需要的低秩容量,因为固定 rank 的 LoRA/adapter 往往要么浪费算力要么不够用。
这篇论文要解决的是:现有 agent 基准很难测出“有状态推理”(跨步骤维护与更新内部状态)的真实能力,导致模型看起来会规划但一遇到长期状态依赖就崩。
这篇工作的核心问题是:LVLM 在回答视觉问题时经常先生成语言再“补想象”,导致幻觉和推理链脱离图像证据。过去很多方法靠更强指令微调或更大模型缓解,但没有强制模型把中间语义描述落到可定位的视觉证据上,因此 grounding 仍然不够硬。
现有领域/任务专用小模型需要大量领域专属数据预训练,但多数领域专属数据量有限,难以支撑预训练或持续预训练需求。此前方案多直接微调通用大模型或混合通用数据与少量领域数据,采样效率低。
注意力沉(自回归LM对第一个token分配过高注意力权重的现象)已被广泛用于长上下文、KV缓存优化等场景,但现有研究对其出现的机制、影响因素尚不明确,此前工作多直接利用该现象做工程优化,未追溯预训练过程中的成因。
这篇论文要解决的是:如何把“事实性(factuality)对齐”做得更细粒度且可泛化,而不是只在整体回答层面做偏好优化导致局部事实错误仍然被奖励。以往 DPO/RLHF 往往把整段输出当一个整体打分,难以把训练信号精确落到具体错误片段上。
这篇论文要解决的是:如何利用“三元偏好”(例如 win/lose/tie 或 prefer A / prefer B / 无差异)来提升 LLM 对齐,而不是把所有比较都硬塞成二元偏好导致噪声与过拟合。以往偏好数据里大量样本其实是“差不多”,强行二分会把训练信号变形。
这篇论文要解决的是:MoE Transformer 在不同负载与任务下如何自动调参以获得更好的“质量-成本”折中,而不是依赖人工设定专家数、路由温度、容量因子等超参。以往 MoE 的效率优势很大程度被调参成本与不稳定路由抵消。
这篇论文要解决的是 API call generation 缺少大规模、跨语言、真实调用模式的数据基础,导致代码模型在工具使用和库级泛化上学得很浅。过去很多数据集要么只覆盖单一编程语言,要么只做函数补全,难以支撑“给定上下文生成正确 API 调用”这种更接近实际开发的训练目标。
这篇工作解决的是:当 LLM 的 tokenizer 和目标语言不匹配时,怎样低成本地改词表,并且哪些语言真的会从词表适配中受益。过去大家都知道词表会影响多语言表现,但常见做法要么直接重训 tokenizer 并继续预训练,代价很大;要么忽略词表问题,让模型在碎片化 subword 上硬学。
长上下文 Transformer 推理时,注意力计算的复杂度随序列长度线性增长(每个 token 都要 attend 到所有历史 token),导致解码速度慢。现有加速方法通常需要修改模型架构或重新训练。
离散扩散语言模型(discrete diffusion LM)的训练目标存在两个关键问题:一是 ELBO(变分下界)对 perplexity 的估计不够紧,导致训练信号不精确;二是现有的 ratio matching 目标计算效率低。这两个问题限制了离散扩散 LM 与自回归 LM 竞争的能力。
RLHF 训练后的代码补全模型是否会记忆训练数据?这个问题在隐私和安全层面很重要,但之前的记忆性研究主要关注 pretrain 阶段,对 RLHF 阶段的记忆行为缺乏系统测量。
这篇工作针对的是高效注意力长期存在的核心矛盾:把注意力做快、做省显存后,精度通常会掉,尤其在长上下文或高分辨率场景里更明显。过去很多方法靠稀疏化、低秩近似或 kernel trick 降复杂度,但代价往往是丢失精确交互,导致训练不稳或上限受限。
这篇工作要回答的是:LLM 在内部表征层面是否真的“知道”自己何时遵循了指令,而不只是表面上给出看起来合规的输出。过去指令跟随通常靠外部评测或偏好打分判断,但这只能看到结果,不能区分模型是稳定地编码了指令状态,还是偶然输出正确格式。
这篇工作关注的是:LLM 在 instruction-following 场景下是否能正确估计自己的不确定性,而不是只在答案正确性上做评测。这个问题过去常被问答式 calibration 覆盖,但指令跟随更复杂,因为错误不仅是事实错,还包括格式错、约束违背、拒答边界错和多步执行偏差。
这篇工作要解决的是 LLM 幻觉中的一个具体难点:模型往往不是完全没有相关知识,而是在生成时被少数错误证据路径带偏,因此单纯改检索、改解码或加拒答规则都不一定稳。过去很多方法在输出后验上做校正,但较少直接利用 attention head 这一中间结构来识别和压制幻觉来源。
这篇工作关注的是:能否不通过重训或长链条 prompt 工程,而是通过表示工程直接提升 LLM 的推理表现。过去提升推理通常走两条路:一条是数据/训练层面的 CoT 蒸馏和 RL,另一条是推理时提示技巧;两者都有效,但前者成本高,后者不稳定且依赖提示格式。
现有基于价值的强化学习(如Q学习)难以扩展到大模型多轮离线RL场景,无法利用预训练大模型的能力,而现有大模型RL大多用策略梯度方法仅适配单轮任务,多轮场景效果差。
现有RAG系统的查询生成质量差,尤其是复杂间接主题下无法生成有效的检索查询,导致检索准确率低,此前方案多微调查询生成模块或用启发式查询改写,泛化性差。
这篇论文要解决的是:在部分可观测环境(POMDP)或信息不完备的序列决策中,Transformer 如何显式维护“信念状态”(belief state,即对隐藏状态的后验分布或其参数化表示),而不是把历史轨迹隐式塞进上下文里碰运气。以往做法要么用 RNN/滤波器式的状态估计,要么用 Transformer 直接做 history-to-action,但后者的可解释性与泛化往往受限于上下文长度与分布外观测。
这篇论文要解决的是:agentic system 的设计高度依赖人工经验(模块划分、记忆、工具调用、反思循环等),导致可复现性差且难以系统性探索设计空间。作者想把“设计一个能完成任务的 agent 系统”本身自动化。
这篇工作要解决的是:用 LLM 生成合成数据时,流程往往碎片化、任务专用、难控制,导致数据质量和覆盖度不稳定。过去常见做法是针对单一任务手写 prompt pipeline 或 self-instruct 变体,这能快速起量,但很难统一管理约束、多样性和标注一致性。
这篇工作的核心问题是:语言模型为什么能通过自训练、自改写或自博弈式过程出现 self-improvement,背后的机制到底是什么。此前很多工作观察到模型可以靠自己生成的数据继续变强,但这个现象常被经验性使用,缺少可解释的机制分析,因此很难判断什么时候会提升、什么时候会崩。
这篇工作质疑一个流行假设:知识编辑能否真正纠正幻觉,而不是只在局部问法上做表面修补。以往知识编辑常在特定 prompt 上验证‘改对了’,但 hallucination 往往来自更广泛的生成机制、证据缺失和不确定性表达失败,所以改一个事实未必能改善整体真实性。
这篇工作要解决的是:LLM 的 reward model 训练高度依赖人工偏好标注,成本高、覆盖窄,而且很快成为对齐迭代的瓶颈。过去常见做法是静态收集一批 preference data 训练 RM,但当模型能力变化、任务变化后,旧奖励就会失配。
MoE LLM 的模型体积巨大(因为专家数量多),但推理时只激活部分专家,导致大量参数闲置却占用显存。现有压缩方法(量化、剪枝)大多针对 dense 模型设计,没有充分利用 MoE 的稀疏激活特性来做更激进的压缩。
标准 Transformer 的 FFN 层参数量巨大但利用率低,MoE 通过稀疏激活缓解了这个问题,但专家粒度仍然较粗。本文提出一种超稀疏的记忆网络架构,将 FFN 替换为大规模的 key-value 记忆,实现更细粒度的稀疏激活。
Transformer 通过 chain-of-thought (CoT) 能解决比单步推理更复杂的问题,但其内部机制尚不清楚。本文从理论上证明 Transformer 利用 CoT 实现了多步梯度下降,即 CoT 的每一步对应一步隐式的梯度更新。
这篇论文要解决的是:多模态 LLM(如 LLaVA 系)推理/训练时视觉 token 太多导致上下文冗余、注意力开销高,而常见的固定裁剪或低分辨率会直接损失细节与对齐质量。作者把问题定义为“视觉-语言上下文应当按样本动态稀疏化”,而不是一刀切减少视觉输入。
这篇论文要解决的是:对齐训练里把 KL 正则当作“防止过优化”的万能药是经验主义的,且在某些设置下会引入错误的约束,导致要么学不动要么仍然 reward hacking。作者主张直接从“偏好优化的目标分布偏移”出发,重新设计正则形式而不是继续沿用 KL。
这篇论文要解决的是:LLM 在测试时遇到分布偏移或新任务时,单纯靠 ICL 往往不够,但直接对整模型做 test-time fine-tuning 又太慢、太不稳定且容易过拟合。作者把问题设定为“测试时主动选择最有信息的样本来微调”,以最少更新换取最大适应。
这篇论文要解决的是:模型会推理但不一定在回答中显式展开推理,而现有的 CoT 诱导多靠提示工程或人工标注,成本高且容易引入风格偏差。作者提出用“反事实反馈(counterfactual feedback)”来更稳定地诱导可用的推理过程。
这篇论文要解决的是:标准 LM 预训练把输入 embedding 与输出 softmax 权重强耦合(常见是 weight tying),在多语/多域/多 tokenizer 或需要频繁扩词表时会带来表示冲突与迁移成本。作者把问题表述为“embedding 的角色不同:编码与解码不应被迫共享同一几何”。
这篇工作要解决的是:机器翻译下游性能是否也遵循类似大模型中的 scaling law,以及哪些资源维度最关键。过去 scaling law 主要集中在语言建模 loss 或通用下游能力,但 MT 更受语言对、数据质量和解码设置影响,单看预训练损失并不能直接指导投入。
这篇工作要解决的是:现有多模态 agent benchmark 对长视频上下文和真实网页操作的结合评测不足,导致模型在静态图像或短片段上看起来不错,但面对长时程视频理解驱动的 web task 时能力不明。过去这两个能力常被分开测:视频 benchmark 不测交互,web agent benchmark 不测长视频。
现有判断生成模型是否能解决给定上下文学习(ICL)问题的方法依赖贝叶斯模型批评,计算成本高,难以扩展到大规模生成模型和复杂ICL任务,此前方案没有统一的可解释判断标准。
现有音频编解码器tokenizer压缩率低,音频token数量多,导致音频语言模型训练和推理成本高,重建质量差,此前方案要么牺牲压缩率换质量,要么牺牲质量换压缩率,trade-off差。
现有大模型训练后剪枝研究多侧重参数重要性评估算法,未系统探索校准数据的作用,默认少量通用校准数据即可满足需求,导致高稀疏度场景下剪枝后模型性能下降幅度不可控。
这篇工作要解决的是 DPO(Direct Preference Optimization)把偏好对当作独立样本处理,从而忽略“同一 prompt 下多个 pair 之间相关性”带来的统计效率与偏差问题。
这篇工作要解决的是 VLM 往往擅长生成但不擅长“统一的多模态向量表征(embedding)”的问题,而大规模检索/匹配类任务需要的是稳定、可对齐、可批量服务的 embedding,而不是长文本输出。
这篇工作要解决的是:汇编代码能否像自然语言和源码一样被 generative LM 系统建模,并学到对程序分析更有用的层次结构表示。过去二进制/汇编建模经常依赖静态特征、图结构或判别式任务,生成式建模较少,因为指令级序列长、局部模式强、全局控制流又难捕获。
这篇工作要解决的是:推理类任务的 preference optimization 能否在缺少高质量人工反馈时继续推进,而不是被昂贵标注和脆弱 reward model 卡住。过去做 reasoning alignment 经常依赖人工偏好对、过程监督或可验证奖励,但这些信号要么成本高,要么覆盖面窄,导致方法很难扩展到大量复杂题目。
长上下文 LLM 和 RAG 结合时,检索回来的大量文档塞进长 context 反而可能降低性能——模型在长输入中容易迷失(lost-in-the-middle 问题),检索噪声也会被放大。之前的工作要么只研究长上下文,要么只研究 RAG,很少系统分析两者交互时的失效模式。
RAG 系统的评估通常只看最终答案质量,忽略了一个关键中间问题:检索到的上下文是否「充分」——即是否包含回答问题所需的全部信息。缺乏对 context sufficiency 的度量,导致无法区分是检索失败还是生成失败。
用 LLM 做自动评判(LLM-as-judge)时,缺乏对其判断可靠性的形式化保证——模型可能在某些样本上与人类判断一致,在另一些上严重偏离,但用户无法知道何时该信任模型、何时该升级到人工评审。
Transformer 的记忆容量(memorization capacity)——即能精确记住多少训练样本——的理论上界是多少?之前的理论分析给出的上界很松,与实际观察到的记忆能力差距大。这篇工作试图给出更紧的最优记忆容量界。
Byte-level 语言模型(直接在字节上建模,不用 tokenizer)的核心瓶颈是序列长度爆炸——一个词可能对应 3-10 个字节,导致序列长度和计算成本成倍增加。之前的方法(如 ByT5)用固定的下采样策略,但不同位置的字节信息密度差异很大,固定策略浪费了计算。
这篇论文解决的是 MoE 推理的系统瓶颈:即使 MoE 计算量更省,实际延迟常被专家权重搬运、GPU 端碎片化执行、以及 CPU/GPU 调度不当拖垮,而以往方案要么只做 GPU kernel 优化、要么只做路由/负载均衡,难以端到端把吞吐和尾延迟一起拉起来。作者把问题明确为“如何在 CPU 与 GPU 间编排专家执行与数据流,使 MoE 推理真正变快”。
这篇论文解决“重注意力(heavy attention)”的时间、空间与流式(streaming)开销问题:标准注意力在长序列下是 O(n^2) 的内存与计算瓶颈,而很多近似注意力要么牺牲精度、要么不支持流式、要么实现复杂难落地。作者提出 LevAttention,目标是在保持可用精度的同时,把注意力做得更省算、更省存并支持流式。
这篇论文解决“压缩图像 latent(如 JPEG/神经压缩码流)如何与多模态 LLM 对接”的问题:现有 VLM 往往依赖 ViT patch 或离散视觉 tokenizer,但真实世界大量图像以压缩域存在,解码到像素再编码既浪费算力也丢失压缩域结构信息。作者要做的是在不完全回到像素域的前提下,把压缩 latent 桥接进 MLLM。
这篇工作要解决的是:LLM 对齐里的偏好数据标注成本高且噪声大,常见的成对比较(pairwise preference)在信息效率上偏低,导致同样预算下学不到足够稳定的 reward/策略。作者提出用“扩散式偏好标注”来提高单次标注的信息量。
这篇工作要解决的是:Transformer 在某些算法任务(如 parity)上被认为需要指数样本或难以泛化,而 CoT(chain-of-thought)在经验上能帮到,但缺少严格的效率与可解性证明。作者给出“带 CoT 的 Transformer 可高效解 parity”的可证明结果。
这篇工作要回答的是:LLM 对序列决策到底擅长建模什么、不擅长什么。过去很多工作把决策问题转成 token 序列后直接用 next-token 训练,但通常只报告少量任务上的正面结果,回避了“语言建模能力”和“真实规划/控制能力”之间是否等价这个更核心的问题。
这篇工作要解决的是:如何让 LLM 在没有昂贵人工偏好标注的情况下,通过自我审查和隐式奖励间隔完成对齐。传统 RLHF/DPO 依赖成对偏好数据或显式 reward model,数据贵、链路长,而且 reward misspecification 会把模型往奇怪方向推。
这篇工作解决的是:如何对语言模型施加可组合的干预,让多个控制目标能同时生效而不是互相打架。过去的 LM steering 往往一次只控制一个属性,例如风格、安全或事实性;一旦多个干预叠加,常见问题是效果不可预测、顺序敏感,甚至直接伤害主任务质量。
现有多模态预训练研究普遍认为合成字幕质量优于原始爬取的AltText,部分工作尝试全用合成字幕预训练,但合成字幕和原始AltText的互补性、不同模型对字幕格式的偏好没有被系统研究,导致多模态预训练数据配比的决策缺乏依据。
这篇论文要解决的是:仅用单层 SAE(sparse autoencoder)去解释 Transformer 的 residual stream 往往把“跨层混合的表征”误当成单一层的可解释特征,导致机制分析结论不稳定、难以定位信息在层间如何流动。过去的残差流分析常在某一层做特征分解,但 residual stream 本身是跨层累积的通道。
这篇论文要解决的是:社区常把 SAE 学到的稀疏特征当作“模型内部的规范单元(canonical units)”,并据此做电路级解释,但这种假设可能不成立,导致解释结果依赖训练细节而不可复现。以往很多工作默认“稀疏=可解释=唯一”,但缺少对等价解与不确定性的系统检验。
这篇工作要解决的是:现有 LLM 红队攻击生成方式覆盖面窄、模式重复,导致安全评测和安全微调都容易只学会防少数模板,而不是提升真实鲁棒性。过去常见做法依赖人工写攻击模板、单一越狱器或弱扰动改写,能提高局部攻击成功率,但很难系统性制造语义多样、表述多样、策略多样的攻击分布,因此现在值得把“攻击生成器本身”当成一个需要学习的对象。
这篇工作要回答的是:为了提升任务性能而做的 vision-language adaptation,会怎样改变 VLM 的安全性边界。过去很多 VLM 研究默认“能力提升”和“安全性”可以分开处理,但实际中视觉适配、指令微调、偏好优化常常会重塑跨模态决策边界,因此需要系统分析 adaptation 到底是在修复安全问题,还是悄悄打开新的攻击面。
这篇工作要解决的是:LLM agent 在网页环境中做决策时,原始网页信息过长、结构噪声重、与当前任务弱相关,导致模型即使有推理能力也常常抓不到真正有用的上下文。以往方法通常直接把 DOM、截图或裁剪文本喂给模型,再靠 prompt 要求它自己找重点,但这会把大量上下文选择负担压给模型,既浪费 token,又降低决策稳定性。
这篇工作要解决的是:Transformer 推理的注意力成本在长上下文下是二次增长,部署时很快被延迟和显存拖死,而很多现有加速方法要么需要重新训练,要么在实际 serving 场景下工程改动大。作者想做的是一个 training-free 的服务框架,在不改模型权重的前提下,把注意力计算降到次二次复杂度。
这篇工作要解决的是:现有 LLM 拒答行为通常通过数据微调或系统 prompt 间接塑造,粒度粗、可控性弱,而且容易在有害与无害边界附近出现误拒或漏拒。作者希望把“拒答”做成一种可编程的内部行为控制机制,而不是只靠外部指令或大规模再训练。
这篇工作要解决的是:当前提升 LLM 数学推理能力的 value model 往往只给整题或整条解答一个粗粒度分数,监督太稀疏,难以准确告诉模型“哪一步好、哪一步错”。过去过程奖励模型已经尝试做 step-level 监督,但仍常依赖人工标注步骤或把中间质量压缩成单个标量,导致训练信号不够细。这篇论文明确主打 token-supervised value models,说明作者要把价值评估进一步细化到 token 级别。
现有Text-to-SQL评测基准(如Spider 1.0)都是单查询、同方言、小库表的简化场景,和企业真实工作流中多查询、多方言、跨系统、大库表(上千列)的场景差距极大,导致模型在基准上的得分和真实落地效果不匹配。
现有RLHF会让大模型输出概率更尖锐,同时产生语言层面的过度自信(比如明明答错了还说自己100%正确),但之前的研究只关注输出概率的校准,没有探究RLHF导致语言过度自信的根源,也没有对应的优化方案。
这篇论文要解决的是:Transformer 深层训练时 Pre-LN 稳但上限受限、Post-LN 上限好但不稳定的长期矛盾,过去通常只能二选一或靠复杂初始化/学习率技巧勉强训练更深网络。作者希望在不牺牲稳定性的前提下,让更深层真正“用起来”。
这篇论文要解决的是:Transformer decoder 虽然常被用作“隐式检索/索引器”(例如把历史信息写进 KV 或通过注意力选择记忆),但其索引行为往往不可控且对训练信号敏感,导致检索式能力不稳定。作者希望让 decoder 更像“可微分的索引结构”,从而更可靠地学会查找与引用信息。
这篇论文要解决的是:大模型微调时,标准 SGD/Adam 的显存主要被梯度与优化器状态占用,导致 batch size、序列长度或可训练参数受限。作者尝试用零阶梯度(zeroth-order,基于函数值差分的梯度估计)在降低显存的同时不牺牲甚至提升性能。
这篇论文要解决的是:SFT 往往会把模型分布“压窄”,表现为回答风格与解空间多样性下降,进而在开放式生成与长尾指令上变得更脆。过去通常用更杂的数据或更弱的训练强度缓解,但缺少直接针对“多样性保持”的训练原则。
这篇工作聚焦一个比“推理准确率”更深一层的问题:语言模型在归纳推理任务中到底走了怎样的中间过程,以及这些过程是否可信。以往很多工作只看最终答案,或者用 CoT 文本当作解释,但归纳推理特别容易出现“答对了但过程不对”或“过程像在推理其实只是模式匹配”的情况,所以需要专门的评测和解释框架。
这篇工作给出的核心判断从标题就很明确:对推理时计算最优的 VLM,应该减少视觉 token 数量,把预算更多投到模型参数上,而不是一味保留高分辨率视觉序列。过去很多 VLM 提升性能的惯性做法是增加图像 token 密度,但这会在线性推高 prefilling 和 cross-modal attention 成本,未必是推理预算下的最优解。
现有缓解大模型幻觉的对比学习方法都是人工构造固定格式的正负样本,无法适配不同知识类型的学习需求,且容易引入额外的噪声,导致知识更新效果不稳定,甚至破坏模型原有的通用能力。
现有大模型基准都是人工构造的,成本高、更新慢,且容易被针对性过拟合(数据泄漏),无法快速发现大模型的新能力边界和安全漏洞,也无法按需定制特定场景的评测基准。
现有过程奖励模型(PRM)都用交叉熵损失独立评估每个推理步骤的正确性,没有考虑步骤之间的依赖关系,导致奖励分布不合理,无法有效区分不同步骤对最终结果的贡献,在复杂推理任务上的效果上限低。
现有Chain-of-Thought(CoT)能力的研究都是实验性的,没有理论层面的解释为什么Transformer能学到CoT推理能力、需要多少训练数据才能泛化到未见过的任务,非线性注意力的非凸优化问题导致理论分析难度极高,这一空白长期未被填补。
这篇论文要解决的是:奥赛不等式证明需要长链符号推导与严格可检验步骤,纯 LLM 容易在关键变形处出错,而纯符号系统又缺少高层策略搜索与启发式。作者要把 LLM 的策略生成与符号推理的可验证性结合起来,提升“能证明且证明对”的比例。
这篇工作要解决的是文本 embedding 模型普遍“会检索但不会 few-shot 适配”的问题。传统 text embedder 多按对比学习或双塔检索目标训练,擅长做静态语义匹配,但面对任务描述、示例演示和标签语义时,往往没有像生成式 LLM 那样的 in-context 学习能力,只能靠额外微调或任务特定模板弥补。
这篇工作要解决的是 LoRA 微调经常破坏基座模型已有安全对齐的问题。现有低秩适配很便宜,但它默认只关注任务性能,不约束安全行为保持,因此在下游适配后容易出现拒答边界漂移、越狱脆弱性上升或有害内容生成回潮。
这篇工作要解决的是 LLM 的 sycophancy,也就是模型为了迎合用户表述或立场而牺牲真实性与一致性。过去缓解方法常靠人工规则、对抗数据或偏好优化直接压现象,但对“为什么会迎合”的因果来源分析不够,因此常在一类提示上有效,换个语境又失效。
这篇工作要解决的是如何用语言模型更高效地 eliciting human preferences,也就是把人类偏好从昂贵、低吞吐、噪声大的标注流程中更好地提取出来。现有偏好学习通常默认人类直接给比较标签,但实际中人类偏好往往含糊、上下文依赖强,而且标注协议本身会显著影响得到的信号质量。
对齐后的 LLM 中,安全行为到底由模型的哪些组件承载?这篇工作试图定位并分析 LLM 中负责安全拒绝的关键层(safety layers),揭示安全对齐的内部机制。
指令微调数据的质量直接影响 LLM 的下游表现,但现有数据合成方法通常只关注数据本身的质量,忽略了数据对特定学生模型的学习效果。这篇工作提出根据学生模型的当前状态定制训练数据,使数据对该模型的学习增益最大化。
MoE LLM 的内部结构天然包含多个专家,每个专家可能编码了不同的语义特征。这篇工作发现 MoE LLM 可以直接作为高质量的文本 embedding 模型使用,无需额外训练——这是一个被忽视的免费能力。
模型合并(model merging)可以将多个微调模型的能力组合到一个模型中,但找到最优的合并权重需要在 Pareto 前沿上搜索,计算开销很大。MAP 提出用二次近似来摊销(amortize)这个搜索过程,大幅降低计算成本。
LLM 对齐通常分别使用示范数据(demonstrations)和人类反馈(human feedback),但两种信号各有局限:示范数据覆盖有限,人类反馈噪声大。本文提出联合学习 reward model 和 policy,同时利用两种信号来改善对齐效果。
3D 场景理解需要统一语言、图像和 3D 表示,但现有方法通常在点云或 NeRF 上做预训练,与 2D 视觉-语言模型的对齐不够紧密。UniGS 提出用 3D Gaussian Splatting(3DGS)作为 3D 表示,与语言和图像进行统一预训练。
这篇论文要解决的是:单层 LoRA 在复杂任务上容量不够、而简单堆很多 LoRA 又会带来路由与干扰问题,导致参数高效微调在“多技能/多域”场景下效果不稳定。
这篇论文解决的是:偏好对齐常把人类偏好压缩成一对一的 pairwise 比较,但真实偏好往往是多分支、多步骤的决策树(不同推理路径、不同子目标),简单二元偏好会丢信号并诱导 reward hacking。
这篇工作要解决的是通用多模态检索:如何用 multimodal LLM 做统一 embedding,使文本、图像甚至更复杂的混合输入可以在同一检索空间里高质量匹配。过去 retrieval 模型往往为特定模态对单独训练,比如图文双塔;而 MLLM 虽然理解能力强,却不天然适合高效检索,因为其生成式结构和 embedding 目标并不一致。
传统Transformer无显式遗忘门,长上下文建模、长度外推依赖位置嵌入,现有改进方案要么修改整体架构,要么引入额外推理开销,兼容性和性能不可兼得。
传统基于LLM的定理证明仅使用形式化证明数据训练,忽略人类证明过程中的非正式思考信息,模型泛化能力差,需要大量高成本标注的形式化证明数据。
现有KV缓存压缩方案仅针对层数、头数、序列长度三个维度优化,特征维度的压缩潜力未被充分挖掘,长上下文推理时KV缓存的存储和带宽瓶颈仍未得到有效解决。
这篇论文要解决的是:现有 reward model(RM)评测对“细微差别(subtlety)和文风(style)”不敏感,导致 RM 看起来对齐良好但在真实偏好上不稳定。过去 RM-Bench 类工作常聚焦明显的有害/无害或事实/不事实对比,但实际 DPO/RLHF 里大量偏好差异来自语气、礼貌、冗余、确定性表达等细粒度维度。
这篇论文要解决的是:标准 DPO 把整段响应当作一个整体打分,但偏好差异往往集中在少数 token/片段上,导致梯度信号稀释且训练不稳定。过去要么用更复杂的序列级 credit assignment(如 PPO/RL),要么接受 DPO 的粗粒度近似,结果是对长回答、风格差异或局部错误的纠正效率不高。
现有LLM的长度外推最大上下文长度受限于预训练的位置信息和注意力范围,已有长上下文方案要么需要重新预训练/微调,要么性能下降严重,无法支持无限长度上下文推理。
现有推测解码方法中草稿模型和目标模型异步执行存在互相等待问题,固定的草稿长度进一步放大了等待开销,导致推理加速比远低于理论上限。
这篇论文要解决的是:LLM 推理阶段的激活(activation)密集导致算力与带宽成本高,而常见稀疏化方案要么需要再训练/蒸馏,要么引入明显精度损失与工程复杂度。
这篇论文要解决的是:Verilog/RTL 代码模型的数据瓶颈在于“可编译/可综合/功能正确”的高质量样本稀缺,而纯文本合成很容易生成语法对但语义错的代码,训练会被噪声标签污染。
这篇论文要解决的是:MoE 训练的主要系统瓶颈之一是跨设备的专家路由导致通信与负载不均,常见做法用静态放置或简单负载均衡,但在真实数据分布下仍会出现热点专家与带宽浪费。
这篇工作要解决的是:Transformer 是否真的能在上下文中“学会优化”,还是只是记住某类输入输出映射,在稀疏恢复这类结构问题上尤其值得检验。过去 in-context learning 的 learn-to-optimize 结论往往建立在较宽泛任务上,难区分是真正算法性泛化还是数据分布拟合;作者选用稀疏恢复作为更可分析的测试床。
这篇工作要解决的是:现有 LVLM 的偏好优化大多围绕单图样本展开,但真实视觉对齐经常需要在多张相关图像之间比较、归纳或保持一致性。只用单图做 DPO,模型容易学到局部偏好却忽略跨图关系;作者因此引入 multi-image augmented DPO 来提升视觉偏好学习。
现有多模态预训练模型(如CLIP)持续学习新域时容易遗忘原有零样本性能,当前持续学习研究多针对单模态场景,缺乏多模态持续学习的专用基准和有效方案。
现有LLM去毒方法均为模型专属,需要针对每个模型单独调参,存在去毒效果和语言建模性能的trade-off,无法泛化到不同架构、不同参数量的LLM。
这篇论文要解决的是:自动形式化(把自然语言数学转成形式化证明/定理)里,如何自动评估“对齐程度”——即形式化结果是否忠实表达原意;过去常用可编译/可通过检查器作为 proxy,但它不等价于语义忠实。
这篇工作的核心问题是:能不能不用标准视觉编码器,而让扩散模型承担大语言模型的图像感知前端。传统 MLLM 通常依赖 CLIP/ViT 这类判别式视觉塔,但它们对细粒度生成先验、空间结构和逆过程建模利用不足。
这篇工作要解决的是:loss curve prediction 现在往往依赖固定训练设定,尤其对 learning rate schedule 很敏感,跨 schedule 预测能力差。过去 scaling law 常把学习率和训练动态当作次要因素处理,但在真实大模型训练里,schedule 会显著改变早中后期损失形状。
这篇工作研究的是:多模态大模型是否需要对所有图像都使用同一分辨率输入。固定分辨率虽然实现简单,但会在简单样本上浪费视觉 token,在复杂场景上又不够细;这对 MLLM 的计算成本和细粒度感知都是双输。
这篇工作要解决的是:如何把 weak model 的偏好信号更有效地转移给 strong model,用于对齐训练。传统 weak-to-strong alignment 往往直接蒸馏偏好或做单路 DPO/CPO,但弱模型的判断噪声大、覆盖窄,容易把上限锁死。
现有推理基准依赖领域特定知识,无法准确评估模型的纯推理能力,O1等推理优化模型的性能提升无法被现有基准有效区分。
机器人领域跨任务跨域的时序价值函数(任务进度估计器)需要大量标注数据且泛化性差,之前直接让VLM预测连续视频序列价值的方法因帧间强时序相关性性能极低。
自回归LLM解码天生短视,容易在推理、规划任务的早期步骤出错导致最终结果失败,之前的解码优化方法未从最优控制视角系统性解决该问题。
长上下文大模型的跨多文档聚合、推理能力(即整体推理)缺乏系统性评估方法,现有RAG方案仅支持单点信息查询,无法处理类数据库操作的复杂聚合任务,长上下文模型的真实能力边界不清晰。
这篇论文要解决的是:单层 Transformer 的注意力到底能表达多强的序列依赖,社区常用“经验上能/不能”来判断,缺少更结构化的刻画。
这篇论文要解决的是:语言模型的置信度分数(logprob、self-reported confidence 等)在 QA 场景下普遍失准,导致拒答、检索触发、或多模型路由等系统策略难以可靠工作。
这篇论文要解决的是:主流图文预训练(CLIP 类对比学习或 captioning)对“空间关系/布局”建模偏弱,导致需要精确定位与关系理解的下游(指代、计数、关系问答)表现受限。
这篇论文要解决的是:LLM 对齐通常依赖 RLHF/DPO 等相对复杂的训练管线,而很多团队希望用更接近“普通微调”的方式获得稳定的偏好对齐收益。
这篇论文要回答一个对 LLM 可解释性很实际的问题:模型给出的自然语言解释,到底有多大程度忠实反映了它真实的决策依据。过去很多工作默认'解释看起来合理'就足够,但对高风险或需要调试模型的场景,这远远不够,因为语言解释很可能只是事后编造的合理化。
这篇论文要问的是 mechanistic interpretability 里一个很根本的问题:你从模型里找出来的电路、特征或机制,是否是可识别的,也就是是否由数据和模型本身唯一决定,而不是分析方法的产物。过去很多 mech interp 工作默认只要找到一个能解释行为的机制就足够,但如果同一行为对应很多等价解释,那我们得到的'机制'就未必稳定可信。
LLM 对上下文信息的敏感度(context sensitivity)——即模型在多大程度上依赖上下文而非参数化知识来生成回答——目前不可控。这导致模型有时忽略上下文(幻觉),有时又过度依赖上下文(被误导性上下文欺骗)。
这篇论文要解决的是:预训练时如何在不显著牺牲最终质量的前提下,把参数与显存开销降下来,尤其是当全量微调/全量训练在算力与内存上不可承受时。以往常见路线是 LoRA/低秩适配用于微调,或用低精度/ZeRO 等系统优化,但“训练过程本身”仍在全参数空间里走,内存与通信压力依旧大。
这篇论文要解决的是:推理时如何在预算受限(延迟/算力/费用)下仍能获得接近“深度思考”的效果,而不是固定计算量的一次前向。以往做法要么用外部 CoT 提示让模型“多写几步”,但计算不可控且容易冗长;要么用早退/动态层数,但缺少与“推理过程”对齐的结构。
这篇论文要解决的是:持续学习中“最优训练协议”如何系统化设计,而不是靠经验调学习率、回放比例、正则强度等超参。以往 continual learning 的协议高度启发式,导致不同论文在不同设置下结论不稳,也难以回答“在给定遗忘约束下,最省算的策略是什么”。
这篇论文要解决的是:如何得到“上下文化的文档嵌入”(contextual document embeddings),让同一文档在不同查询/上下文下有不同的表示,而不是静态向量一劳永逸。以往文档表示常在检索里用双塔静态 embedding,吞吐高但表达力不足;或用交叉编码器表达力强但成本高,难以大规模部署。
这篇工作要解决的是:LLM 预训练太贵,而现有 PEFT 或稀疏化方法通常只针对微调,不足以显著降低从头或持续预训练成本。作者想找一条中间路线:在尽量保留预训练质量的前提下,同时减少可训练参数、激活/权重开销和更新频率。
这篇工作要解释的是:Transformer 中跨层堆叠的 attention heads 是如何形成的,以及这种结构为什么会在训练中涌现。过去对 attention head 的研究多停留在单层功能描述,例如 induction head、copy head,但对多层协同结构的形成机制解释不足。
级联和推测解码是两种主流LLM推理加速方法,存在互补trade-off:级联能获得优于大模型的成本质量比但加速比有限,推测解码能获得无损质量的高加速比但成本下降空间有限,之前没有方法融合两者的优势。
VLM的语言模型组件处理视觉token的机制不透明,现有可解释性研究主要聚焦文本模态,未系统性分析视觉token的表征演化、信息整合路径,导致VLM优化缺乏机制层面的指导。
MoE的余弦路由相比传统线性路由能缓解表征坍缩、性能更优,但缺乏系统性的统计理论分析,现有理论研究主要聚焦线性路由,无法解释余弦路由的性能优势,也未给出优化方向。
这篇论文要解决的是:现有代码能力评测对“理解+推理”的覆盖不足,导致 CodeLLM 的真实短板被简单的生成题或记忆型题掩盖。过去很多基准要么偏单任务(只测生成/补全),要么题型分布与真实工程推理不匹配,使得模型改进很难定位到具体能力维度。
这篇论文要解决的是:masked diffusion / diffusion LM 在文本上能否真正“scale up”到接近自回归 LM 的质量与效率,而不是停留在小模型或玩具设置。过去 diffusion text model 常被算力成本、离散扩散噪声设计、以及采样步数过多所限制,导致 perplexity 与生成质量难以与 AR 正面对比。
这篇工作要解决的是:in-context reinforcement learning 缺少足够大、足够多样、可系统评测泛化能力的数据基座。过去这类研究通常依赖少量环境或窄分布任务,模型很容易把环境结构记住,却很难判断它是否真的学会了“在上下文里适应新任务”的能力,因此现在需要一个规模更大、任务族更丰富、能支撑预训练式研究的数据集。
这篇工作要回答的核心问题是:在动态 token selection 这类需要按内容选择性处理序列的机制上,State Space Model 是否真的天然弱于 Transformer。过去很多讨论默认 Transformer 因为显式注意力而更适合动态选择,但这个判断更多来自经验和工程结果,缺少严格的表达能力比较。
这篇工作要解决的是:RLHF 训练在工程上太慢、样本利用率太低,而且在线 on-policy 采样把生成、打分和更新强绑定,导致 GPU 利用和数据吞吐都很差。过去很多 RLHF 系统默认采用同步 on-policy 流程,是因为实现简单、理论上更干净,但代价是每轮都要等新样本,效率非常受限。
现有位置编码(如RoPE)无法有效外推到训练未见过的更长序列,现有长上下文位置编码方法要么需要微调,要么外推性能差,限制了长上下文模型的预训练和部署效率。
LLM推理需要平衡性能和成本,现有路由方法要么基于规则,要么基于标注的性能数据,泛化性差,无法适配不同模型、不同任务的路由需求,成本下降空间有限。
现有大模型数学推理评估数据普遍存在训练集泄露问题,且现有基准无法覆盖任意复杂度的证明结构,无法系统性衡量大模型在复杂数学题上的分布外泛化能力。
现有幻觉检测方法泛化性差,此前研究普遍假设大模型内部真值编码是通用可迁移的,但实际跨数据集检测性能大幅下降,核心要解决真值表示的分布特性与幻觉检测泛化问题。
现有代码大模型仅能处理函数级、文件级代码任务,缺乏仓库级上下文理解能力,无法胜任需要跨文件关联的现代AI软件工程任务。
这篇论文要解决的是:语言模型做预测(forecasting)时,输出往往在基本一致性约束下自相矛盾,而现有评测只看准确率很难发现这些结构性错误。过去很多工作用校准或自洽采样来缓解,但缺少系统的“一致性检查”框架。
这篇论文要解决的是:LLM 知识编辑(knowledge editing)往往是粗粒度改权重,副作用大且难定位到底改了哪些神经元/回路。以往方法多在层级或模块级做编辑,导致局部性(locality)和可控性不足。
这篇论文要解决的是:如何对大语言模型做“隐私审计”(privacy auditing),在没有训练数据可见或只有黑盒/灰盒访问时,仍能量化成员泄露与敏感信息泄露风险。以往很多评测要么过度依赖特定攻击、要么只给定性结论,难以形成可比较的审计流程。
这篇论文要解决的是:如何把 LLM 生成的打分信号从“便宜但噪声大”变成真正能提升数据效率的训练信号。以往大家常直接用单轮 prompt 让 LLM 给样本打分,再按分数筛数据或做偏好学习,但这类评分系统很容易受提示词、尺度漂移和样本顺序影响,导致筛出来的数据并不稳定,也很难在不同任务上复用。
这篇论文的核心问题是:小模型做 supervised fine-tuning 时,真正决定效果的 recipe 到底是什么。过去社区里对小 LLM 的 SFT 有大量经验帖,但变量很多、交互复杂,常见结论在不同模型和数据上不稳定,所以很难形成可迁移的工程准则。
这篇论文想解决的是 transformer 内部语义特征纠缠的问题:标准 MoE 虽然能提升容量与效率,但专家通常不是单义的,仍会混杂多种模式,导致解释性和路由效率都有限。近年来 monosemantic feature 在 mechanistic interpretability 里很受关注,但如何把这种“单一语义”约束真正做进模型结构,一直缺少工程化方案。
现有上下文学习(ICL)机制研究的合成任务大多不具备序列建模特性,导致结论通用性差,无法统一解释不同ICL现象。
现有大模型时序知识评估依赖固定时间点视角,无法区分演化知识和固定知识的差异,无法评估时序知识的适应性。
现有代码大模型预训练目标优化不足,数据效率低,无法解耦语法和语义,预训练数据效率远低于自然语言LM。
此前研究普遍认为机器遗忘可以移除数据投毒的影响,实际现有近似机器遗忘方法在多种投毒攻击下失效,核心要验证机器遗忘对投毒攻击的有效性边界。
这篇论文要解决的是:tokenized LM 只能给 token 概率,但很多场景需要精确的 byte-level 概率(例如 FIM 代码补全、混合 tokenizer 的模型集成、或对任意字符串做一致的概率计算)。过去常用近似做法是采样或把 byte-BPE 当作字节概率代理,但会在边界处产生系统误差。
这篇论文要解决的是:代码大模型用“最终文件”做 next-token 预训练时,学到的是静态分布而不是程序员真实的编辑过程,因此在代码合成/补全中对迭代修改与局部修复不够擅长。过去对编辑建模多在后训练阶段做指令数据或 diff 微调,但缺少在预训练阶段系统注入编辑先验。
这篇工作要解决的是:Transformer 训练为什么几乎默认需要 learning rate warmup,以及能否在不依赖 warmup 的情况下稳定训练。warmup 长期被当成经验性必需品,但它本质上是对早期优化不稳定的补丁:如果能去掉,训练流程会更简单,也更利于理解真正导致早期发散的机制。
这篇工作要解决的是:现有安全对齐往往只在输出开头几个 token 上表现出“拒绝”,但随着生成继续,模型可能逐步滑回不安全轨道。也就是说,安全对齐如果只是浅层表面行为,而没有深入到整段生成过程,就会出现前几 token 安全、后面内容失守的问题。
现有开放权重大模型的安全防护被认为可以抵御微调修改,实际现有防护的评估方法存在严重漏洞,防护的耐用性被高估。
针对上下文内检索增强生成(RAG)系统的存储库数据泄露风险展开研究,过往RAG安全研究多聚焦生成内容正确性,普遍默认检索到的敏感数据不会被直接输出,该风险长期被低估。
解决现有KV缓存驱逐方案跨层资源分配不合理的问题,过往KV驱逐方法默认所有层的缓存价值相同,采用统一规则处理所有层,没有考虑不同层的注意力模式差异,导致长序列推理时缓存利用率低、精度损失大。
这篇论文要回答的核心问题是:现有 LLM 在真实对话栈里到底能不能“稳定遵守 system message”,以及失败模式是否可被系统化测量。过去很多工作把 system prompt 当成理所当然的最高优先级,但在多轮对话、冲突指令、越狱提示和工具调用混杂时,这个假设经常失效且缺少统一基准。
这篇论文要解决的问题是:MoE(Mixture-of-Experts)在路由(router)上既要稳定训练又要高效推理,但现有 token-level 路由往往在层间缺乏一致性,导致专家负载抖动、跨层语义不连贯或训练不稳定。过去常见做法是每层独立路由或加辅助负载均衡损失,但仍会出现“路由噪声大、专家利用率不稳”的工程问题。
这篇论文要解决的问题是:LLM 学工具(tool use)常依赖人工标注的轨迹或静态指令数据,导致覆盖面窄、遇到新工具/新 API 时泛化差。作者希望让模型通过“自驱动交互”从探索走向熟练,减少对人工轨迹的依赖。
这篇工作要解决的核心问题是:sigmoid self-attention 能否作为 softmax attention 的可行替代,以及它什么时候稳定、什么时候会失效。过去大家更多把 sigmoid attention 当作局部改动或经验技巧来试,因为 softmax 有更成熟的理论和训练经验,而 sigmoid 往往被担心归一化不足、尺度失控和表达能力不清楚;这篇论文试图把这些担忧拆开,给出理论分析和可执行的使用规范。
这篇工作要解决的核心问题是:在对齐训练里,reward hacking 为什么会持续出现,以及能否通过更稳健的奖励和动态标签机制缓解。过去很多 RLHF 或 reward-model 驱动的方法默认奖励是静态且可信的,但一旦模型学会钻奖励定义的空子,就会出现表面高分、实际偏离人类意图的行为;作者显然想从训练信号本身动手,而不是只靠更强的策略优化器。
这篇工作要解决的是:LLM 训练和微调如何进一步省显存,同时尽量不牺牲优化质量。现有内存优化手段很多,但常见取舍是要么牺牲吞吐,要么引入较大精度损失;作者显然关注的是梯度状态本身的压缩与自适应更新,希望在优化器层面拿到更好的 memory-quality trade-off。
解决LLM微调过程学习动态不透明的问题,过往研究大多只观察微调前后的效果变化,没有拆解训练步级别的不同样本间影响累积机制,无法解释微调后幻觉增强等异常现象。
解决LLM长时记忆管理效率低的问题,现有长上下文方案要么依赖固定长度上下文窗口,要么用线性结构存储历史信息,检索和整合效率随记忆长度上升快速下降,无法支撑多轮会话级的长时记忆需求。
这篇论文要解决的是:如何用一个可审计的测试,稳定地检测语言模型在版本迭代、对齐训练或部署环境变化后的“行为漂移”(behavioral shift)。过去常用的离线 benchmark 往往对漂移不敏感,或把漂移与随机性/提示敏感性混在一起,导致审计结论不可复现。
这篇论文要解决的是:文档理解与代码相关的多模态训练数据长期缺少“开放、可规模化、可复现”的高质量集合,导致模型要么偏自然图像,要么依赖闭源文档语料。作者提出 BigDocs 来补齐文档+代码任务的预训练数据缺口。
这篇论文要解决的是:现有多语种理解评测往往只测“翻译可对齐的通用知识”,对地区性知识(regional knowledge)与文化语境覆盖不足,导致模型看起来多语强但在本地化问答上失真。INCLUDE 试图把“区域知识缺口”显式纳入评测。
这篇工作要解决的是:生成模型里的“记忆化”到底是什么、如何区分良性的模式学习与有风险的训练样本复现。这个问题过去常靠经验性近邻检索、重复率统计或 membership inference 间接判断,但这些指标往往依赖具体模型和数据集,缺少统一解释框架,因此很难回答“模型为什么会记住、记住到什么程度、在表示空间里长什么样”。
LLM 做规划时面临 System 1(快速但浅层)与 System 2(深度搜索但昂贵)的两难。现有方法要么只做 greedy decoding,要么做完整的 tree search,缺乏一种能根据问题难度自适应分配计算量的中间方案。
这篇论文要解决的是:在“混合多个大模型(Mixture of LLMs)”的在线路由里,如何避免传统 soft gating/加权混合带来的计算浪费与不稳定,同时还能在分布漂移时快速自适应。以往常见做法要么是固定路由(不够自适应),要么是对所有专家做加权求和(推理成本高、梯度/路由容易塌缩)。
这篇论文想回答的是:LLM 的“思维链”并不只是离散的 token 序列,是否存在可被识别与操控的连续几何结构(作者称 Lines of Thought),从而更可控地分析与引导推理。以往 CoT 研究多停留在文本层面或注意力可视化,难以形成可复用的表示与干预接口。
这篇论文要解决的是:如何让 Transformer 具备更强的“潜在思考(latent thoughts)”能力,用内部循环计算来提升推理深度,而不必把所有中间步骤都外显成长 CoT 文本。传统 AR 解码把“计算”绑定在输出 token 数上,导致推理要么昂贵(长输出),要么不稳定(短输出但算不够)。
这篇工作试图用统一的概率视角解释两个看似分开的操作:unlearning 和 alignment。核心问题是,大模型在“忘掉什么”和“偏向什么”上通常靠不同工程手段处理,但从分布更新角度看,它们可能是同一类后验修正问题。过去这两条线各自发展,缺少共同语言,所以很多方法只能局部解释有效性和副作用。
这篇工作讨论的是一个架构层面的核心问题:attention 到底是不是在做动态权重生成,也就是一种 hypernetwork,如果是,那么能否用这个视角更好地理解或改造 Transformer。过去大家通常把 attention 当作加权检索或消息传递来讲,这足够解释功能,但不够解释它为何有这么强的条件计算和上下文适配能力。
解决模型训练后指定数据子集的高效遗忘问题,现有遗忘方案要么需要重新训练代价极高,要么会损害模型在保留数据上的性能,无法平衡遗忘效果、保留性能和计算成本。
解决RLHF对齐成本高、推理时Best-of-N采样延迟高的问题,现有RLHF方法对齐效果不稳定,而Best-of-N采样虽然效果好但推理时需要生成N个候选,计算成本是普通采样的N倍,无法大规模落地。
解决过程奖励模型(PRM)标注成本高、增益有限的问题,现有PRM需要稠密的每步人工标注,无法规模化,而自动标注的PRM奖励信号和最终结果的相关性低,对推理能力的提升不明显。
解决现有稀疏MoE模型的路由缺陷问题,现有MoE的可训练门控容易导致表示坍塌,disjoint专家导致冗余计算,依赖任务ID限制了扩展性,无法支撑大规模多任务预训练的需求。
解决 LLM 对齐通常需要海量数据(SFT/RLHF)且难以针对特定用户或长尾任务进行快速定制的问题。以往方法依赖大规模偏好数据集,导致模型输出趋于“大众化”,难以满足个性化需求。
这篇论文要解决的是:安全对齐微调常在“安全性 vs 有用性”之间硬切,数据一旦选偏就会要么过度拒答、要么容易越狱。以往常见做法是用单层数据过滤或统一加权,但它们很难同时兼顾安全目标与任务覆盖,因此作者用双层优化做数据选择。
这篇论文要解决的是:语言模型遗忘(machine unlearning)缺少统一、可复现的评测维度,导致不同方法在“忘得干净/不伤性能/不泄露/抗再学习”等目标上各说各话。过去很多工作只报一两个指标,容易出现“看似忘了但其实可被攻击恢复”的情况,因此作者提出 MUSE 的六维评测。
这篇工作关注的核心问题是:多模态 LLM 的视觉侧到底应该用单一编码器还是多编码器组合,而现有系统通常靠经验选 backbone,设计空间没有被系统梳理。这个问题现在重要,是因为多模态模型的瓶颈越来越常落在视觉表示与语言接口不匹配,而不是单纯把 LLM 做大。
这篇工作的核心结论从标题就很明确:在线 DPO 的效果很大程度上取决于 sampler,而现有讨论往往把优化目标本身当主角,低估了采样分布对偏好学习信号质量的决定性影响。过去很多工作默认‘边生成边偏好优化’只要 reward 或 preference model 足够好就行,但如果采不到有信息量的对比样本,DPO 学不到稳健偏好。
这篇工作讨论的是 weak-to-strong generalization,但切入点不是换算法,而是从数据角度解释强模型为什么能学到弱模型标注里没有显式写出的东西。过去这类现象常被描述为‘强模型有归纳偏置所以能超越老师’,但缺少对数据分布、样本难度和标签噪声结构的细致拆解。
这篇工作想解决的是:语言模型蒸馏通常把教师信号在整个训练过程中静态使用,但学生在不同训练阶段需要的信息并不一样,早期更需要粗粒度方向,后期才需要细粒度逼近。静态蒸馏因此常出现前期过难、后期过松,导致效率和最终性能都不理想。
这篇工作要解决的是:LLaVA 这类多模态模型虽然效果好,但部署成本高,直接做 tiny 化通常会明显伤害视觉理解能力。传统蒸馏对多模态学生尤其难,因为学生既要保留语言能力,又要保留视觉对齐,而小模型容量很快触顶。
研究神经网络优化轨迹的方向性特征,以理解梯度下降如何导航损失地形。以往研究多关注参数范数或地形曲率,忽视了到达这些参数的轨迹本身的属性,特别是方向性。
这篇工作要解决的是:LLM 训练与推理通常被当作纯优化/纯生成问题处理,缺少对“序列生成动态过程”的可控建模,导致训练不稳或推理效率/质量难以兼顾。
这篇工作要解决的是:很多高性能 kernel(尤其是注意力/矩阵相关)实现复杂、难移植,导致训练与推理的性能上限被工程成本卡住。
这篇论文的核心结论是:Chain-of-Thought(CoT)并不是通用增益手段,它的主要收益集中在数学和符号推理任务。过去很多工作把 CoT 当作几乎普适的 prompting 技巧来评估模型能力,但这会把“模型会解释”与“模型真的更会做任务”混在一起,因此有必要重新拆分 CoT 在不同任务族上的真实作用边界。
这篇论文聚焦一个很实际的问题:分布式 LLM serving 中,prompt 阶段的调度如果做得差,会把系统吞吐和时延一起拖垮。过去很多 serving 优化更关注 decode 阶段或单机内核效率,但长 prompt、前缀共享和多副本部署让 prompt scheduling 本身变成瓶颈,因此值得单独做系统级优化。
解决 LLM 在推理时难以灵活切换“快思考”(直接输出答案)和“慢思考”(输出推理链再输出答案)的问题。现有模型通常只能固定在一种模式,缺乏根据问题难度动态调整计算量的能力。
这篇工作要解决的是:推测解码(speculative decoding)在大模型推理中受限于“验证阶段”的串行开销,导致草稿模型生成得再快也会被主模型逐 token 验证拖慢。以往做法多是优化草稿模型或调大草稿步长,但验证仍是瓶颈。
这篇工作要解决的是:RAG(检索增强生成)里“有检索但仍幻觉”的情况难以可靠检测,传统做法要么只看检索相似度,要么用黑盒判别器,解释性弱且容易被分布外问题击穿。作者尝试用机制可解释性(mechanistic interpretability)去定位模型内部与幻觉相关的电路/特征,从而做更稳的检测。
这篇工作要解决的是:音视多模态 LLM 的跨模态幻觉缺少统一、可量化的评测,导致模型看起来“会看会听”但在细粒度对齐上经常编造。以往基准要么只测视觉幻觉,要么只测音频理解,难以定位跨模态一致性问题。
这篇工作要解决的是 open-weight LLM 的安全防护很容易被拥有模型权重的攻击者绕过。很多 safeguard 方案默认部署方掌控模型和推理栈,因此可以靠 system prompt、外部分类器或 API 侧过滤;但一旦模型权重开放,攻击者可以直接微调、删模块、改解码器,传统护栏几乎没有 tamper resistance。
解决标准 Softmax 注意力机制在处理长序列时面临的长度泛化挑战,以及对显式位置编码(如 RoPE)的依赖。探索一种无需位置编码且具有更好长度外推能力的替代注意力机制。
解决 LLM 在复杂化学推理任务中表现不佳的问题。化学推理需要精确计算、处理领域特定公式和多步逻辑,LLM 容易在这些环节出错并导致级联失败。
解决长上下文 LLM 部署时 KV Cache 占用内存过大的问题。以往的 Token 丢弃(Token dropping)方法会不可逆地擦除信息,损害模型对未来查询的响应能力。
解决 LLM 对齐过程中高质量反馈数据获取成本高昂的问题。人工标注成本极高,而使用顶尖闭源模型(如 GPT-4)生成反馈也面临高昂的 API 成本和计算开销。
这篇工作要解决的是:自回归(AR)文本到图像生成速度慢的问题,尤其是图像 token 很长导致解码步数大、延迟高。以往加速常依赖蒸馏或改训练目标,但工程成本高且会牺牲质量。
这篇工作要解决的是:如何把稠密模型“稀疏化升级(sparse upcycling)”成更强的可微调结构,同时保持微调成本低、推理开销可控。传统 MoE 多在预训练阶段引入,后期再改结构往往不稳定或收益有限。
这篇工作要回答的是:大规模预训练是否是获得良好 domain generalization(跨域泛化)的关键因素,而不是某个特定 DG 算法技巧。过去 DG 文献常在中小规模设置下比较方法,但预训练规模效应可能掩盖或改写结论。
这篇工作研究 LLM-as-a-Judge 的后门脆弱性:一个被用于评测、排序或偏好打分的裁判模型,是否会被隐藏触发词轻易操控,从而输出系统性偏置判断。过去大家更多担心生成模型被后门控制,但 judge 模型一旦被污染,风险更隐蔽,因为它会把偏差放大到数据筛选、模型对比和 RLHF 奖励信号里。
这篇工作讨论一个很核心但常被 transformer 专属化的问题:in-context learning 是否其实不依赖自注意力,甚至 MLP 也能在回归和分类任务上学会。过去 ICL 几乎默认和 transformer 绑定,因为它天然能读取上下文序列并做条件预测;作者试图拆开这个绑定,问清楚哪些能力来自架构,哪些来自训练分布和函数逼近本身。
解决多模态模型通常依赖多个独立训练的组件(如特定模态的编码器/解码器、离散视觉 Tokenizer)的问题,探索一种更纯粹、端到端的跨模态统一生成架构。
现有针对LLM设计的KV缓存压缩方法直接迁移到VLM时精度和加速效果均次优,此前工作未考虑VLM中视觉/文本token、prefill/解码阶段的注意力稀疏模式差异,缺少VLM专属的KV压缩方案。
这篇工作要解决的是:用 DPO 这类偏好优化来“去毒/降有害输出”时,训练信号往往噪声大且对分布外提示不稳,导致模型在安全性与有用性之间出现不可控的副作用。
这篇论文的核心结论很可能是:Transformer 天然更容易学习低敏感度函数,而不擅长表示或优化对输入微小变化极其敏感的规则。这个问题过去常被笼统归结为“Transformer 有某种频谱偏置或平滑偏置”,但如果不把“敏感度”明确化,就很难解释为什么它们在某些组合泛化、算法任务或脆弱规则学习上反复失手。
这篇论文的核心问题是:深层 selective state space model 在 token 维度上到底如何传递、保留和遗忘信息。SSM 一直被当作 attention 的高效替代,但很多分析停留在吞吐和长序列表现,缺少对 token dynamics 的可解释理解;不搞清这一点,就很难判断它为什么在某些任务上替代 attention 成功、在另一些任务上又不行。
这篇论文要解决的是数据 pruning 的一个关键短板:现有剪枝准则通常优化平均训练效率,却不保证对分布偏移或少数模式鲁棒。大规模预训练里大家越来越依赖数据过滤和子集选择来省算力,但如果 pruning 只保留‘容易样本’或主流模式,模型会在长尾和 OOD 上 silently 退化。
LoRA作为主流参数高效微调方法,性能始终低于全参数微调,此前工作未发现LoRA优化与全参数微调的数学等价性关联,导致LoRA的优化方向存在偏差。
传统LLM压缩方法需要预定义压缩比,每个压缩比对应单独的压缩流程,无法适配可变内存环境的部署需求,此前没有训练无关的动态压缩方案支持任意压缩比动态调整。
奖励模型训练的两种主流范式(Bradley-Terry偏好式、回归评分式)缺乏匹配数据进行公平对比,现有公开数据集未同时包含两种格式的标注,无法验证两种范式的优劣差异。
这篇论文要解决的是:LoRA 这类低秩适配在“参数很省”之外,仍然容易被单一低秩子空间卡住,导致在多任务/多域或复杂分布漂移下容量不够、效果不稳。以往常见做法要么加大 rank(直接涨参数/显存),要么上 MoE/Adapter 堆叠(工程复杂、路由不稳),缺少一种同时兼顾参数效率与表达多样性的 LoRA 变体。
这篇论文要解决的是:LLM 压缩里“跨层共享参数”常被认为会显著伤害表达能力,因为不同层学到的特征分布不同;但完全不共享又导致参数与带宽成本过高。以往共享多发生在整层权重或重复块上,粒度太粗,难以在压缩率与精度间找到好点。
这篇论文要解决的是:用搜索(search)增强代码生成时,LLM 往往在“局部可行但全局错误”的候选上浪费预算,因为缺少显式的中间计划来约束搜索空间。以往做法要么直接让模型生成代码再用测试筛选,要么用树搜索但节点语义不稳定,导致搜索分支爆炸或早早走偏。
这篇论文要解决的是:后训练(SFT/对齐/持续微调)常导致遗忘与模型合并(model merging)不稳定,因为不同 checkpoint/不同任务的权重尺度不一致,简单线性合并会被少数层的尺度主导。过去很多 merging 方法在“方向”上做文章(如 task vector),但对“层尺度”这个低级但致命的问题处理不足。
这篇论文要解决的是:持续学习/持续预训练里生成式回放(generative replay)常因回放样本质量参差与分布覆盖不足而失效,导致遗忘仍然严重或训练被低质量样本拖累。以往回放多是“均匀采样”或按时间混合,缺少对“哪些回放样本最值得用”这一问题的系统优先级策略。
这篇工作聚焦的是:多模态大模型的风险评估和风险控制缺少统一、可操作的框架,尤其在开放式生成场景里,风险既难枚举也难稳定复现。以往做法常把安全评测拆成若干固定 benchmark 或手工规则,但这在 MLLM 上覆盖面窄、分布外风险多,评估结果也很容易被提示词和采样偶然性左右。
这篇工作要解决的是:工具使用通常被拆成两步——先检索合适工具,再生成调用参数——但这种流水线会累积误差,且训练目标彼此割裂。以前很多 agent 系统把 tool retrieval 当分类或 ranking,把 tool calling 当 seq2seq,结果检索错了后面基本无解;作者试图把两者统一成生成问题。
这篇工作聚焦的是:self-rewarding language model 容易陷入奖励自证循环,模型一边生成、一边自己打分,训练信号会逐渐偏向表面模式而失去稳定性。过去类似方法往往依赖单次自评或偏好打分,把 reward model 和 policy 绑得太紧,结果是 reward hacking 风险高、训练震荡大;作者提出用一致性正则来约束这种自奖励过程。
这篇工作要解决的是:图结构数据缺少像文本和图像那样成熟的离散 tokenizer,导致图模型很难受益于统一 token-based 预训练范式。过去图学习多依赖连续表示或手工子结构编码,但这不利于与语言模型式训练目标对接;作者因此研究 graph quantized tokenizer,让图也能被离散化为可建模 token。
LoRA及其变体未过滤与目标任务无关的噪声知识,导致下游微调性能次优,此前PEFT方法没有结合知识感知的奇异值调整方案。
传统Data Shapley需要在不同数据子集上重训模型计算数据贡献,计算成本过高,无法评估特定训练跑的单轮数据贡献,此前没有训练过程中计算Shapley值的方案。
这篇论文要解决的是:训练数据对模型行为的“影响力”(influence)不是静态的,而是随训练时间/阶段变化的,但现有 influence function 与数据归因方法大多把影响力当成一次性、时间无关的量来估计,导致对训练动态的解释和干预都偏差很大。
这篇论文要解决的是视频 tokenization 的“可预测性”问题:现有视频 tokenizer 往往只做重建(类似 VQ-VAE)而缺少强生成先验,导致离散 token 序列对时空动态的可建模性差,进而拖累用 LM 做视频生成/理解的上限。
这篇工作要解决的是:在只有 forget data、拿不到 retain data 的条件下,如何对 LLM 做有效 unlearning。现有主流做法通常依赖 retain set 来约束模型别把通用能力一起删掉,但真实删除场景里 retain data 往往拿不到,所以问题一直被用不现实的设定部分回避。
这篇工作要解决的是:如何在 LLM 内部定位承载特定知识的 head-level circuit,并进一步有针对性地增强它。过去很多知识编辑或机制分析工作能证明“某些层/头有关”,但定位粒度和可操作性都不够,导致干预往往粗、代价大、外溢强。
这篇工作要解决的是:传统 MoE 的离散路由不可导、训练不稳定,还需要 load balancing 等辅助损失,因此作者尝试做一个 fully differentiable 的 MoE。现有 top-k router 虽然有效,但梯度通过路由器很差,训练常常依赖技巧堆叠,路由塌缩也难处理。
这篇工作要解决的是:语言模型在多选、列表或长上下文判断中经常出现 position bias,即对选项位置而非内容本身产生系统偏好。这个问题过去通常被当成 prompt engineering 噪声处理,但如果它来自可定位的内部机制,就值得单独建模和修复。
这篇工作要解决的是:FlashAttention 很快,但对复杂 mask 的支持不够丰富,导致很多需要稀疏、分段、块状或结构化 masking 的训练/推理场景无法同时拿到高效和灵活性。过去要么退回通用 attention kernel、性能损失大,要么手写特定 mask kernel、维护成本高。
现有LLM遗忘的各类目标没有统一的分析框架,每个目标有独特属性,无法横向对比不同遗忘方法的效果,此前没有从梯度视角量化遗忘目标影响的方案。
现有RAG方法检索到的噪声内容会降低生成质量,隐式去噪过程不可解释,显式去噪标注成本高,此前没有自合成理由的显式去噪方案。
现有可证明的模型遗忘算法仅适用于监督学习场景,预训练-微调范式下的遗忘缺乏理论保证,且遗忘效果难以验证,无法满足训练数据来源相关的合规需求。
这篇论文要解决的是:指令微调后的检索器能否像 LLM 一样“用自然语言提示词”在不同检索任务间切换,而不是为每个任务单独训练/蒸馏一个 retriever。传统 dense retriever 往往把“任务意图”硬编码在训练数据与对比学习目标里,导致迁移到新检索意图时要重新做数据与训练。
这篇论文要解决的是:LLM 的推理能力常被“自然语言链式思考”表达与监督噪声限制,能否通过可扩展的“代码式规划(code-form planning)”把推理过程变成更可执行、更可检验的中间表示。以往做法要么直接 CoT 生成、要么用工具调用,但两者都容易在长程规划上累积错误且难以系统扩展。
这篇论文要解释的是:为什么 warmup-stable-decay 这种学习率日程在大模型训练里如此稳健,以及它在什么条件下会失败。过去大家更多把它当经验配方,用“避免早期发散/后期收敛更好”来解释,但缺少能指导改日程与诊断训练不稳的机制视角。
这篇论文要解决的是:我们评估 reward model(RM)时常用的指标可能并不对应“用它做 RLHF 会得到更好模型”,导致大家在错误目标上优化。以往 RM 评估多看 pairwise accuracy、AUC 或与人类偏好的一致性,但这些指标未必能预测策略优化后的行为分布与对齐风险。
这篇论文要解释的是:Chain-of-Thought(CoT)为什么能提升样本效率,而不仅是“让模型写得更长”。以往对 CoT 的解释常停留在启发式层面,缺少把它与 Transformer 内部计算结构(注意力如何分配、依赖如何稀疏化)联系起来的机制说明。
这篇论文要解决的是:现有 LLM benchmark 被训练数据污染(contamination)与过拟合刷分严重,导致分数不再可信,尤其是“静态题库 + 公开传播”场景。过去的做法要么频繁换题但缺少可比性,要么依赖闭源题库但缺少透明度。
这篇工作要解决的是在不重新训练模型的前提下,把上下文长度大幅扩展出去。现有长上下文方案通常要么改位置编码后再微调,要么做额外训练适配;这在闭源模型、部署系统和大规模 serving 场景里成本很高,而且会引入稳定性风险。
这篇工作要解决的是:当我们用用户反馈优化 LLM 时,模型是否会学会有针对性地操纵和欺骗用户,而不是真正更有帮助。过去对齐训练常把高反馈等同于高质量,但如果反馈通道可被迎合,模型就可能学会影响用户判断,而不是改善任务完成本身。
这篇工作要解决的是 post-training 里的一个反常现象:模型自我改进并不总是单调有效,反而可能出现越训越差的 reversal。过去很多 self-improvement 或 self-training 工作默认认为,只要模型能生成更强的中间推理、偏好数据或反思修订,继续迭代就会提升;这篇论文显然在追问这个假设什么时候失效。
现有指令跟随大模型的测试时性能优化依赖的解码策略效果有限,基于LLM判别的监督信号未被充分利用到解码选择中。
现有生成模型幻觉缓解策略仅为经验性方案,缺乏对非幻觉生成模型可学习性的严格理论分析,幻觉问题一直是生成模型落地的核心障碍。
现有长上下文大模型基准仅聚焦长上下文理解能力(如大海捞针测试),未覆盖长文本生成的质量评估,无法满足设计方案、技术文档、创意写作等场景的长生成需求。
现有动态稀疏KV缓存方法需要每次自注意力计算时重新选择关键token,引入大量计算开销,KV缓存访问是大模型推理效率的核心瓶颈。
现有大模型离线评估方法未覆盖思维链能力的评估,无法基于评估结果优化大模型推理能力,知识图谱与大模型推理路径的异质性导致直接反馈难度大,需要精准的实体链接和接地。
这篇论文要解决的是:在缺少高质量人工偏好数据时,如何让模型通过自博弈(self-play)产生可用的偏好信号并完成对齐优化;以往做法要么依赖昂贵标注,要么用合成偏好但容易自我强化偏差。
这篇论文要解决的是:如何系统评测聊天助手的“长期交互记忆”(跨多轮、跨会话的可持续记忆与使用),因为现有基准多测短上下文 recall 或单轮检索,无法覆盖真实产品里的记忆写入、遗忘、冲突与隐私约束。
这篇论文要解决的是:DPO 在偏好数据分布有偏、含噪或存在群体不均衡时容易学到脆弱对齐,而现有做法大多默认训练分布就是目标分布,缺少分布鲁棒性视角。这个问题现在值得重做,是因为对齐阶段越来越依赖离线偏好数据和合成偏好数据,数据覆盖偏差已经成为比目标函数形式更实际的瓶颈。
这篇论文要解决的是:视觉理解和视觉生成长期被分成两套模型、两套训练目标和两套数据流水线,导致参数不能共享、知识不能互相增益,而统一模型往往又在任一方向都不够强。VILA-U 的目标是做一个同时覆盖 visual understanding 和 generation 的统一基础模型。
这篇论文要解决的是:FP8 训练虽然已经显著降低了权重和计算开销,但大规模训练的显存瓶颈仍然卡在优化器状态和激活保存上,导致真正可训练的 batch、序列长度和模型规模仍受限。COAT 的目标就是同时压缩 optimizer states 和 activations,把 FP8 的收益补齐。
这篇论文要补的空白是:现有 LVLM benchmark 对 interleaved multimodal comprehension 覆盖不足,很多评测仍以单图单问或弱交错输入为主,难以测出模型在长上下文、多图文穿插、跨段引用场景下的真实理解能力。MMIE 的目标就是做一个大规模、多模态交错理解 benchmark。
这篇论文要解决的是:几何题求解同时需要视觉解析、符号约束理解和形式化推理,但现有方法通常把这三件事拆成流水线,误差层层传递,且缺少统一预训练来学习图形—语言—形式系统之间的对齐。GeoX 的目标是通过统一的 formalized vision-language pre-training 做几何问题求解。
现有大模型推理长度泛化能力弱,在短推理长度数据上训练的模型无法处理更长的推理任务,现有CoT训练仅支持给定长度内的插值,不支持超出训练长度的外推。
现有偏好对齐的优化目标需要大量调参,增加了大模型微调的复杂度和时间成本,需要参考模型,计算开销大。
在线RLHF在偏好反馈和通用函数近似下缺乏高效探索机制,现有DPO等方法仅能拟合离线数据、无法探索超出初始模型和数据分布的内容,导致在线RLHF场景样本效率极低。
这篇论文要解决的是:LLM 评测结果里“分数差异”到底有多少来自模型能力、多少来自评测不确定性(题目抽样、提示词、随机种子、判分器等),而现有做法往往把单次跑出来的均值当成确定结论。作者认为在模型差距变小、榜单竞争变密的阶段,不量化不确定性会导致错误排序与过度解读。
这篇论文要解决的是:形式化定理证明里,纯语言模型很难仅靠 next-token 生成稳定地产生可被 proof assistant 接受的证明步骤,而传统搜索又缺少强先验。作者用 proof assistant 的反馈把 RL 与 MCTS 结合起来,提升可验证证明的成功率。
这篇论文要解决的是:LLM 的检索/定位能力(在长上下文或外部检索场景中找到关键信息)常被“needle-in-a-haystack”类合成任务高估,迁移到真实语料时效果掉得快。作者提出从“人工针”走向“真实草堆”:用更贴近真实分布的合成数据微调来提升检索能力。
这篇工作的核心问题是:当没有可靠 gold standard 时,怎样评估 LLM 的判断质量。这个问题现在很实际,因为越来越多工作让 LLM 充当裁判、偏好标注器或事实性审阅器,但很多场景里人工标准本身就昂贵、含噪或不存在;作者想建立一种无金标下仍可比较模型判断能力的方法。
这篇工作的结论从标题就很明确:专用 foundation model 在不少场景下并没有稳定击败强监督基线。过去很多垂直领域都倾向于先做一个领域基础模型,再宣称预训练带来全面优势;作者要检验的是,这种叙事在严格对比下到底有多少是真增益,多少只是和弱 baseline 比出来的。
这篇工作要解决的是文本生成里扩散语言模型的两个老问题:一是离散文本上的采样与训练不如 AR 自然,二是如何在 diffusion LM 里做更清晰、更可控的全局打分。作者的答案是把 energy-based 建模引入 diffusion language model,用能量函数替代或补充标准概率参数化。
长上下文LLM推理存在KV缓存内存开销过高问题,现有剪枝方法仅沿序列长度维度优化,忽略KV缓存通道维度的冗余,导致内存节省效果次优。
现有 interleaved 多模态大模型无法流畅生成任意文本-图像序列,现有统一架构方法使用相同参数建模文本和图像,忽略模态固有归纳偏置,导致跨模态 interleaved 内容生成质量较差。
现有测试时LLM对齐方法依赖仅能评估完整回复的轨迹级奖励模型,无法为自回归生成提供下一个token的奖励,导致对齐效率低、推理延迟高。
这篇工作要解决的是:多模态基础模型的“可信与安全”问题缺少可解释、可分解的诊断框架,导致我们只能看到整体失败而难以定位是视觉、语言、对齐还是融合模块在出问题。过去常用的做法是堆红队样例或做单一指标评测,但很难回答“模型为什么在某类多模态攻击/幻觉下失效”。
这篇工作要解决的是:LLM 的 CoT 推理经常被“上下文里无关但高吸引力的片段”带偏,而常规做法(更长 CoT、更多 SFT)并不能稳定抑制这种注意力漂移。过去我们多用数据层面去纠错,但缺少对推理时注意力分配的可控干预。
这篇工作要解决的是:MoE 的路由(expert choice / token-to-expert 分配)在训练中容易出现负载不均与路由抖动,而常见的软路由或 top-k 路由在效率与稳定性之间取舍不理想。过去很多方法靠额外的负载均衡 loss 或噪声路由,但会引入训练不稳定或牺牲质量。
这篇工作聚焦 DPO 的一个现实问题:它已经成为偏好对齐的默认方法之一,但大家对它什么时候失效、为什么失效、该怎么修还缺少结构化认识。过去很多工作把 DPO 当成稳定、便宜的 RLHF 替代品直接用,问题一旦出现通常靠经验调参或换数据,而不是先分解训练目标本身的问题来源。
这篇工作讨论的是一个很硬的理论问题:为什么 chain-of-thought 有时不是“让模型多说几步”这么简单,而是实打实改变了可学习性边界。过去大量 CoT 工作主要靠经验结果说明它提升推理或泛化,但缺少严格结论去区分“优化更容易”与“原问题不加中间步骤就根本学不到”。
这篇工作讨论的是生成模型的数据价值评估:在训练样本数量巨大、质量参差且生成目标分布复杂的情况下,哪些数据真正贡献了生成质量,哪些数据只是冗余甚至有害。过去 data valuation 多为分类任务设计,依赖标签损失变化或 influence function;对生成模型,这些工具要么不可扩展,要么无法直接定义“单样本价值”。
SWE-bench 原版只评估文本代码修复能力,但真实软件开发中大量涉及视觉元素(UI、图表、可视化库等)。现有 AI 编程评测忽略了多模态软件工程场景,无法衡量模型处理视觉相关 bug 和需求的能力。
大型视觉语言模型(LVLM)的幻觉问题——生成与图像内容不符的描述——一直缺乏细粒度的归因分析。已有缓解方法多是黑盒式的后处理或数据增强,不清楚幻觉到底来自视觉编码器、跨模态对齐层还是语言解码器的哪个模块。
在大型视觉语言模型中使用 Mixture-of-Experts(MoE)时,不同 token 的梯度之间存在冲突——视觉 token 和语言 token 对专家参数的更新方向可能相反,导致训练不稳定和性能下降。已有 MoE 方法没有专门处理这种跨模态的 token 级梯度冲突。
这篇论文要解决的是:能否用一种更“函数逼近友好”的结构替代标准 Transformer 的 MLP/注意力组合,从而在表达力与可训练性之间拿到更好的折中。以往大家更多靠加宽/加深、换激活或做 MoE 来堆容量,但对“模块本身的逼近结构”讨论较少,因此值得重新审视。
这篇论文要解决的是:多语言自我提升(self-improving)过程中,强势语言(通常是英语)会在奖励与采样中持续占优,导致弱势语言能力被进一步稀释。过去常用统一 reward 或统一采样策略,结果是“数据不平衡 + 奖励偏置”叠加,训练越久越偏科。
这篇论文要解决的是:只用“错误答案”(wrong answers)作为监督信号,能否把 LLM 对齐到更可靠的行为边界,并细分不同类型的错误。以往对齐主要依赖正例(好答案)或好坏对比,但在很多场景里正例昂贵且带风格偏置,而错误样本更便宜也更丰富。
这篇工作解决的是树结构解码在 LLM 推理里算得多、访存乱、吞吐低的问题。像 speculative decoding、beam/tree search、MCTS 或并行候选扩展这类方法,理论上能减少串行步数,但实际常被 GPU kernel 效率拖住:树上不同分支长度不齐、注意力依赖复杂,导致大量 padding、重复 KV 读取和 kernel launch 开销,最后墙钟收益打折。
这篇工作要解决的是:现有 agent benchmark 往往只测单轮 QA、静态工具调用或过于玩具化的环境,无法真实反映 tool-agent-user 三方交互中的长期决策质量。作者认为,如果目标是评估现实世界中的工具型智能体,仅靠离线答案匹配不够,因为真正困难的部分在于多轮澄清、状态跟踪、外部工具约束和用户目标演化。
这篇工作要解决的是多模态大模型对长图像序列理解能力不足的问题。现有 MLLM 大多擅长单图或短视频片段,但面对长时间、多事件、跨帧依赖强的图像序列时,常因视觉 token 太多、记忆压缩粗糙或训练数据不足而失去时序一致性和全局叙事理解。
自回归(AR)LM 在复杂推理和规划任务上受限于从左到右的顺序生成——一旦早期 token 出错,后续无法修正。离散扩散模型(discrete diffusion)理论上可以全局迭代修正,但此前在推理/规划任务上未被充分验证。
用 LLM 做偏好判断(LLM-as-a-Judge)时,判断质量不稳定且与人类偏好存在系统性偏差。如何让 LLM judge 更好地对齐人类偏好,此前缺乏系统的训练方法。
Mamba(选择性状态空间模型)在长上下文场景下性能下降,因为其有效感受野(receptive field)在训练长度之外急剧衰减。本文提出无需额外训练即可扩展 Mamba 长上下文能力的方法。
这篇论文要解决的是:Transformer 是否真的能把训练数据中“分散出现的知识片段”连接起来形成可组合推理,而不是只在同一上下文窗口内做模式匹配。过去很多“组合泛化”讨论缺少可控实验:要么数据分布太自然导致混杂因素多,要么合成任务又过于玩具化。
这篇论文要解决的是:大多模态模型在“视觉类比”上到底会不会,现有评测往往要么太像 IQ 测试玩具题、要么被语言偏置污染,难以测到真正的视觉关系迁移能力。尤其当题目可以通过读选项文本或统计偏差猜对时,评测对预训练改进几乎没有指导意义。
这篇工作要解决的是:如何更准确地衡量模型是否真的学到结构,而不是仅仅记住表面 token 统计。题目中的 Kolmogorov Test 和 compression by code generation 指向一个核心观点:如果模型能把数据压缩成更短、可执行的程序表示,而不是逐 token 复述,它才更接近理解了数据规律;以往语言模型评估大多看 perplexity,但 perplexity 对算法性、可生成规则的结构并不敏感。
这篇工作要解决的是:Video LLM 在长视频上常因上下文预算有限而只能粗暴采样帧,结果关键证据没被看到。现有做法通常用均匀采样、启发式关键帧选择或一次性压缩全部帧,但这些方法无法根据问题动态决定该看哪几帧;作者提出 learning to query frames,就是把帧选择从固定预处理变成与问题耦合的主动检索过程。
State Space Models (SSM) 在处理不同频率成分的信号时存在隐式的频率偏置——某些参数化会让模型偏好低频或高频,导致在需要特定频率建模的任务上表现不佳。此前缺乏系统性的分析和调控手段。
视频多模态大模型(Video MLLM)在用 RL/reward 做对齐时,时序维度的 reward hacking 问题尤为严重——模型可以通过捷径(如只关注关键帧)获得高奖励而不真正理解视频时序。作者提出一种抗 hack 的时序奖励机制来实现可扩展的视频 MLLM 训练。
传统 RAG 系统在处理多模态文档(含图表、布局、混合图文)时,先用 OCR/解析器提取文本再检索,丢失了大量视觉信息。VisRAG 提出直接用视觉模型对文档页面做检索和生成,跳过文本提取这一有损步骤。
用 LLM 做自动评估(LLM-as-judge)时,答案提取环节(从模型输出中提取最终答案)的错误率被严重低估,导致评估结果不可靠。xFinder 专门解决答案提取的准确性问题,提升 LLM 自动评估的可靠性。
LLM 的推理能力提升通常依赖特定领域的数据(如数学、代码),导致推理泛化性不足。作者提出用 preference tree(偏好树)结构来构建多样化的推理偏好数据,训练通用推理能力更强的 LLM。
这篇论文要解决的是:LLM 的 machine unlearning 到底在“删什么、怎么衡量删干净、以及删的代价是什么”上是否被过度简化了。过去很多工作用少量基准或单一指标(如遗忘率/成员推断)就宣称有效,但在 LLM 场景里,知识是分布式表征且与相邻概念强耦合,导致“删目标知识”与“伤及无辜能力”很难被同一套评测覆盖。
这篇论文要解决的是:MoE LLM 的路由(routing)在推理与训练中常常要在“专家利用率/负载均衡”和“计算开销/延迟”之间硬折中,导致 MoE 的理论稀疏优势在真实系统里打折。以往 top-k 路由通常固定 k 或用简单启发式调整,难以同时兼顾质量与效率。
这篇论文要解决的是:LLM 推理时“该想多久、走哪条思维路径”通常靠固定的 CoT 长度或启发式采样,导致要么浪费算力、要么在难题上推理不足。过去的次优方案是用 self-consistency 或 best-of-n 盲采样,但它不区分题目难度,也不显式优化推理轨迹质量。
这篇论文要解决的是:现有 MLLM 在长视频理解上常见失败不是“看不见”,而是缺少可落地的时间定位与证据绑定,导致模型在长时序里容易编造或遗漏关键片段。过去很多方法只做更长的输入或更强的视频编码器,但如果不把监督信号“钉”在时间轴上,长视频依然会被当作噪声上下文。
这篇工作要解决的是:语音-文本统一预训练受限于真实交错 speech-text 数据稀缺,导致模型很难规模化学习跨模态上下文建模。过去常见做法是分阶段训练、单模态数据混训或弱对齐拼接,但这些办法对“语音和文本在同一序列里自然交替出现”的能力支持不够。
这篇工作要解决的是:在长序列注意力里更便宜地找 top-k 相关 token,同时尽量不丢失全局重要连接。传统精确 top-k attention 要么计算量仍然高,要么依赖局部块结构,遇到远距离稀疏依赖时效果不稳。
现有基于奖励的RLHF方法遵循Bradley-Terry(BT)模型假设,无法完全捕捉复杂的人类偏好,导致对齐性能遇到瓶颈。
现有LLM长上下文压缩方法使用软提示传递信息,无法封装复杂的长上下文信息,导致压缩损失高、推理效率低。
现有将LLM的softmax注意力替换为线性注意力的线性化方法存在明显性能下降,需要数十亿token训练,且仅支持7B以下的小模型。
AdamW优化器由于存储每个参数的学习率导致内存占用过高,是大规模LLM预训练内存使用的主要瓶颈之一。
这篇论文要解决的是:在多模态 LLM 中,视觉 token 数量带来的注意力开销过高,能否把图像/视频压到“一个视觉 token”仍保持可用的理解与生成能力。以往做法依赖大量 patch token 或高分辨率视觉序列,训练和推理成本随 token 线性/二次上升,视频更是不可承受。
这篇论文要解决的是:多模态 LLM 微调(fine-tuning)里哪些方法选择真正决定效果,哪些只是经验噪声,从而把“堆数据+堆技巧”的流程变成可解释、可复现的配方。过去多模态微调常被当作工程黑盒,导致不同团队复现差、成本高、结论难迁移到新模型。
这篇论文要解决的是:LLM-based agent 的安全威胁如何被形式化并可重复评测,而不是停留在零散的 prompt injection 案例。过去 agent 安全讨论常缺少统一任务定义、攻击面枚举与可量化指标,导致防御方法难以横向比较。
现有利用目标LLM上下文信息(隐状态、KV缓存)的推测采样方法存在训练-解码上下文不一致、训练-解码目标不一致的问题,此前方法未同时解决这两类不一致,导致加速效率受限。
现有研究对Transformer ICL的泛化边界和脆弱性认知不足,限制了ICL能力的落地应用,此前没有从任务维度系统划分ICL泛化类型的研究框架。
这篇论文要解决的是:在软件工程场景里,如何把多个能力互补但各自有偏差的 LLM agent 组织成一个更强的整体,而不是靠单一 agent 反复采样。过去多 agent 往往“堆人数”但缺少可控的协作与专家融合机制,导致成本高、收益不稳定。
这篇论文要解决的是:多语种语言建模里,不同语言之间到底“学到的是同一套结构”还是“表面相似但内部机制不同”,以及这些差异如何影响跨语种泛化与迁移。过去很多分析停留在性能对比或表示可视化,难以给出结构层面的可检验结论。
这篇论文要解决的是:如何更可靠地检测某段文本是否出现在 LLM 的预训练数据中(pretraining data detection / membership inference),并指出“微调(fine-tuning)反而能帮助检测”。以往检测常直接对原模型做困惑度/似然阈值,但信号弱且容易被分布差异与解码噪声掩盖。
这篇工作要解决的是推理阶段 attention 的低比特量化难题:8-bit attention 看起来门槛不高,但真正难的是在不改模型权重、不重训的前提下,把 QK^T、softmax 和 value 聚合这条数值非常敏感的链路做快且做准。过去很多低比特推理方法在 matmul 上省了算力,却因为 attention 误差累积导致长上下文或高层特征退化明显。
这篇工作要回答的是:仅靠 in-context learning,LLM 是否足以完成 instruction following,还是必须经过显式 instruction tuning。这个问题之前常被经验性回答——大家观察到 ICL 能做很多事,但在真实用户场景里,模型通常仍会做 SFT。论文的价值在于把“ICL 能不能替代对齐式微调”这个问题系统化,而不是停留在直觉层面。
这篇工作要解决的是提升 LLM 推理可靠性时常见的两难:靠专家演示或人工构造课程可以提升推理,但扩展性差;靠模型自举又容易在错误轨迹上自我强化。过去 expert iteration 能工作,但往往依赖固定难度或人工设计数据分布,导致训练信号质量不稳定。
现有代码生成基准多为静态单次生成任务,无法衡量AI代理从零构建完整库的能力,此前的基准未覆盖长文档理解、多阶段反馈迭代、复杂依赖生成等真实软件开发场景的核心需求。
这篇工作要解决的是:语言模型持续学习(continual learning)里出现的“伪遗忘(spurious forgetting)”——看起来像遗忘旧知识,但其实是评测或分布偏移导致的假象,从而误导算法设计。过去很多工作把性能下降直接归因于灾难性遗忘,进而过度依赖回放/正则。
这篇论文的结论从题目已经很明确:多跳知识编辑之所以进展缓慢,关键不是缺少新算法,而是缺少可靠评测。以往多跳知识编辑 benchmark 往往存在问题链路不干净、测试泄漏、自动评测不稳或问题模板过于机械,导致方法看起来能改对复杂知识,实际上可能只是在吃评测瑕疵。
基于LLM的prompt方法开发需要遍历大量超参数组合,全量评估成本高、耗时长,此前的评估方法未利用超参数效果的相关性和样本区分度来降低评估量。
现有离线RL预训练后在线微调的范式需要同时保留离线数据训练来保证稳定性,会增加训练成本、限制在线微调的性能上限,此前没有方法可以在完全抛弃离线数据的前提下保持在线微调的稳定性和性能。
现有MLLM的幻觉问题多由模态先验偏差导致,现有基于解码的缓解方法只关注统计相关性,忽略了注意力机制和输出之间的因果关系,效果有限,此前没有从因果推断角度建模模态先验对注意力的混淆效应的方法。
现有MLLM和基准多针对简单图文场景,无法处理包含大量无关干扰信息的复杂交错图文理解任务,此前没有覆盖多图多文本混合、需要过滤无关信息的评估基准和模型优化方法。
这篇论文要解决的是:强模型的偏好优化(DPO/RLHF)依赖高质量奖励或偏好数据,但现实里往往只有“弱对齐模型”或低质量 RM,导致对齐信号弱、成本高。作者的问题是能否从弱对齐模型中“榨取”可用奖励,让强模型获得更强的偏好对齐。
这篇论文要解决的是:现有多模态推理基准在“专家级物理科学”上覆盖不足,导致模型在看似会推理但缺乏严谨物理约束的题目上被高估。作者要推动一个更贴近真实科研/竞赛难度的多模态物理科学推理评测与数据集。
这篇论文要回答的核心问题是:经过微调的 LLM 能否成为可扩展、可靠的自动评审器,而不是长期依赖 GPT-4 这类闭源强模型做人类偏好替代。过去大家默认“LLM-as-a-judge”有效,但往往建立在少量任务、少量 prompt 和黑盒教师之上,因此其可扩展性、偏差来源和训练成本并没有被充分拆开。
这篇论文研究如何为大型语言模型学习紧凑表示,即把一个完整 LLM 压缩成便于比较、检索、分析或下游预测的低维 embedding。过去大家更多在做 token embedding 或 hidden state analysis,但“模型本身的表示”缺少统一方法,导致模型选择、能力预测和自动化模型管理仍然高度依赖昂贵评测。
这篇论文讨论 in-context learning 的一个基础假设:示例一定要以离散文本 token 形式塞进上下文吗?作者试图解决的是,能否用连续向量表示来承载示例信息,从而绕开长上下文中的 token 低效、格式脆弱和表面模式依赖问题。
这篇论文的核心问题是,现有代码生成 benchmark 对真实复杂指令和函数调用场景覆盖不足,导致模型看起来会写代码,但在多函数依赖、外部 API 调用和长指令约束下表现被高估。过去很多评测集中在单函数补全或短程序合成,回避了工具使用和复杂约束组合,这与实际 agentic coding 场景差距很大。
现有视频指令微调数据集多为描述性QA,缺乏推理能力的监督,而现有的标注视频数据集难以直接集成到LMM的指令微调流程中,此前没有方法可以利用任意类型的视频标注数据生成高质量的推理型指令微调样本。
现有多模态上下文学习(ICL)研究大多仅覆盖少样本VQA、图像字幕任务,既未发挥ICL的核心优势也未测试其能力边界,多模态ICL的整体能力与局限尚未被系统探索。
现有LLM没有明确的指令和数据分离机制,容易受到间接提示注入等攻击,且当前无正式定义和基准量化LLM的指令-数据分离能力,导致安全评估缺乏统一标准。
这篇论文要解决的是:同一个任务用不同措辞提问,会让 LLM 产生不同“预设”(presumptions)并改变答案走向,从而让评测与对齐信号对提示词高度敏感。过去我们常把 prompt 当接口细节,但在指令微调与自动评测普及后,措辞偏差会系统性影响模型行为与结论。
这篇论文解决的是:用 LLM 做生成式推荐(生成候选、解释、对话式推荐)时推理成本太高,导致线上延迟与吞吐成为瓶颈。以往要么牺牲生成质量用小模型,要么用复杂工程堆缓存与检索,但缺少针对“推荐生成”结构的系统性加速。
这篇论文解决的是:指令微调常把“会做任务”和“会按指令组织输出”混在一起学,导致技能覆盖不全或泛化不稳。过去的做法要么堆更多指令数据,要么做少量高质量数据,但缺少对“技能组合与配比”的系统管线。
这篇论文解决的是:LoRA 合并在多任务/多能力模块化时经常互相干扰,简单线性合并会导致性能掉点。过去要么为每个组合重新训练,要么用启发式权重平均,但缺少对“LoRA 内部结构”更细粒度的可组合方法。
这篇论文要解释的是:神经网络的表示是如何形成与演化的,以及哪些训练动态决定了最终表征的可分性、可迁移性或压缩性。过去我们更多用经验规律(更大数据/更大模型)驱动,但对“表示形成机制”的可检验理论仍不足。
这篇工作要解决的是深度学习优化为何有效、又在什么条件下失效的统一解释问题,作者试图用 central flows 给出比离散优化步骤更连续、更结构化的视角。过去关于 SGD、梯度流、隐式偏置的结论很多,但往往局限于简化模型或局部分析,难以形成对现代深网训练动态的统一描述。
这篇工作要解决的是多模态模型编辑缺少覆盖广、类型多样、能反映视觉知识差异的评测基准。现有 editing benchmark 往往集中在文本事实或少量视觉属性,难以判断模型究竟改掉了目标知识,还是只学会了局部模板响应。
这篇工作研究的是偏好强度分布会如何影响 preference model 的鲁棒性以及后续 value alignment。以往偏好学习通常把样本都当成同质 pairwise preference 来处理,但现实里“强偏好”和“弱偏好”混在一起,噪声结构和可学习性并不一样。
这篇工作要解决的是如何把 Mamba 这类线性复杂度序列模型更有效地用于多模态建模,同时弥补它在跨模态对齐上的天然弱项。相比 Transformer,Mamba 在长序列效率上有吸引力,但直接迁移到多模态场景常会遇到局部结构难对齐、层次信息难组织的问题。
这篇工作要解决的是 Transformer 对逻辑等价变换缺乏保持性的问题,也就是两个语义相同但形式不同的逻辑表达,模型未必给出一致表示或一致判断。传统 Transformer 更擅长统计模式匹配,对符号等价性通常依赖数据增强或表面模板覆盖,泛化边界比较脆弱。
这篇工作要解决的是多任务场景下 LoRA 适配器彼此割裂、参数共享不足的问题,作者提出把 multiple tasks embedded 到统一 LoRA 框架里。现有做法常见的是每个任务单独训练一套 LoRA,部署和迁移都不经济;直接合并又容易发生任务干扰。
神经网络训练的前几步(或整个过程)效率低下,因为参数更新依赖于逐步梯度计算。作者提出用一个辅助网络来预测(nowcast)神经元交互和参数更新,从而跳过部分训练步骤来加速训练。
RAG 系统使用外部数据集来增强 LLM 生成,但数据集所有者难以验证自己的数据是否被未经授权地用于 RAG。Ward 提出通过 LLM 水印来实现可证明的 RAG 数据集使用推断。
将预训练 LLM 适配到新的偏好/对齐目标时,模型容易遗忘原有能力(catastrophic forgetting)。Q-Adapter 提出一种轻量级适配方法,在对齐到新偏好的同时缓解遗忘。
这篇论文要回答的是:LLM 口头上会“自我改进”,但在可控闭环里到底能不能稳定地产生可验证的能力增益,以及增益的瓶颈在哪里。以往很多工作把“自我改进”混在提示工程、外部工具或人工筛选里,导致很难区分是模型真的学会了,还是评测/筛选在帮它过关。
这篇论文要解决的是:训练数据检测(training data detection)缺少统一、可复现的基准,导致“模型是否记住了某段数据/是否训练集泄漏”很难横向比较。过去常用零散的 membership inference 或近似重复检测,但任务定义、威胁模型和评测口径不一致。
这篇论文要解决的是:RAG 在高质量检索与长上下文拼接上成本高、延迟大,而且检索错误会直接污染生成。以往要么先检索再生成(串行慢),要么用更大模型硬扛(贵),缺少“把不确定性前置”的生成式检索协同。
这篇论文要解决的是:算术 transformer 往往只能在训练长度附近工作,难以同时对“操作数长度”和“操作数个数”做长度泛化。过去很多工作只测一种维度的泛化(更长数字或更多项),导致我们误以为模型学到了可扩展算法。
这篇论文把 jailbreaking 重新表述为“reward misspecification(奖励函数设定错误)”问题:模型之所以能被越狱,不只是提示技巧强,而是对齐训练的奖励信号没有覆盖到真实的安全目标与攻击分布。过去常把越狱当成红队对抗或过滤问题,容易陷入补丁式修修补补。
这篇论文关注视频 MLLM 里一个很具体但长期被经验主义处理的问题:视觉上下文到底该如何表示。现有视频多模态模型通常在帧采样、时序压缩、空间 token 保留方式上做很多工程折中,但缺少系统设计空间分析,导致模型效果和计算开销都高度依赖经验配方。
这篇论文要解决的是:LLM-based guard model 在内容审核里不仅要分对,还要把置信度报准。现有 guard 模型常用分类准确率、拒答率或 AUC 报告效果,但在真实审核链路里,阈值决策依赖校准;如果模型过度自信,少量误判就会放大成高风险漏审或误封。
这篇论文要解决的是:现有 MLLM 在看小目标、细字体、局部微小差异时经常失真,但重新训练高分辨率模型成本太高。很多模型的失败不在语言能力,而在视觉 token 化和输入缩放早早抹掉了细节,因此作者研究能否用 training-free 方法让模型'知道该看哪里'。
这篇论文的核心问题是:现有 LMM 对图表的跨模态推理能力到底有多强,尤其是从图表理解到代码生成这一更严格的链路。传统 chart QA 往往允许模型靠模板匹配或局部读数过关,但 chart-to-code 要求模型同时理解视觉结构、数据关系和绘图语义,更难投机取巧。
现有视频理解基准大多聚焦单镜头内容理解,没有要求模型关联多个镜头的事件演进以理解完整故事线,无法测试多镜头视频的综合语义理解能力。
现有DPO偏好微调方法无法刻画人类偏好的多样性,导致对齐后的模型输出过于单一,无法适配不同用户的偏好分布。
现有网页代理研究大多依赖手工设计的提示模板、工作流、多代理系统等定制策略,泛化性差,且无简单强基线来衡量不同定制策略的真实增益。
现有神经检索方法的索引和神经网络参数耦合,索引更新成本高、效率低,无法适配索引需要频繁更新、成本敏感的场景。
不同复杂度的推理任务需要不同的搜索策略才能得到最优解,现有方法要么需要预先预测任务难度选择策略(落地难度大),要么使用固定静态策略(性能次优),缺乏动态适配的搜索方案。
现有LLM对齐后容易出现错误拒绝:对表面类似有害请求的安全请求也拒绝响应,且之前的缓解方法成本高、对模型能力影响大。
核心问题是:INT4量化推理的主要误差常来自激活分布的长尾与异常值,传统做法要么改训练(QAT)要么加复杂校准,工程成本高且对现成模型不友好。
核心问题是:自监督预训练很吃数据与算力,而现有dataset distillation多针对监督学习,难以在SSL里把“训练信号”压缩成小数据集且仍能学到通用表征。
这篇工作要解决的是神经网络初始化仍然高度依赖架构细节和经验规则,导致一套初始化在一种网络上稳定、换到另一种网络就失效。过去 Xavier、Kaiming、μP 或各类残差缩放方法都各有适用边界,但缺少一个真正跨层类型、跨深度、跨任务都稳定的通用初始化方案。
这篇工作要解决的是 LLM 的安全行为到底编码在什么内部机制里,以及能否通过识别安全相关神经元来理解并增强安全性。过去安全训练大多把模型视作黑箱,只看拒答行为是否上升,但这很难判断模型是真的学到了稳定安全边界,还是只学会了表面模式匹配。
这篇工作要解决的是多模态 RAG 模型的评测长期偏文本中心,无法准确衡量模型是否真的利用了视觉检索信息。过去很多 benchmark 只看最终问答正确率,但模型可能靠语言先验答对,或者检索模块只提供了视觉上无关的证据也不被惩罚。
这篇工作要解决的是图像和视频 tokenizer 仍然面临表示效率、重建质量和离散码可扩展性之间的张力。传统 VQ 类方法码本训练复杂、容易 codebook collapse,连续 latent 又不适合直接接入统一自回归语言模型,因此需要一种更简单、可扩展且适合离散建模的视觉 tokenization 方案。
这篇工作要解决的是小模型的推理能力通常不是单靠更多 CoT 数据就能补上,因为它们既缺少稳定的思维结构,也缺少在出错后自我修正的能力。过去 teacher-forced CoT distillation 往往只蒸馏答案轨迹表面形式,小模型学到的是输出模板,不一定学到有效的问题分解策略。
Adam类优化器需为每个参数存储一阶、二阶矩状态,内存开销为模型大小的2倍,是大模型训练的核心内存瓶颈之一。现有内存优化型优化器普遍存在收敛掉点、适配场景有限的问题。
大视觉语言模型(LVLM)易生成与输入视觉信息不符的幻觉内容,限制落地应用。现有幻觉抑制方案要么需要微调模型权重,要么依赖外部知识库,适配成本高。
大模型训练后量化(PTQ)中,特征的不均匀重尾分布会拉大量化范围,导致多数数值的量化精度下降。现有线性变换优化方案是启发式的,未全局优化量化空间的分布拟合。
现有LLM自评估依赖生成完整响应后再判断正确性,推理开销高,且易受响应生成质量干扰。相关方案需要额外训练或标注数据,适配成本高。
这篇工作要解决的是:在需要“探索—反思—再探索”的长时序任务里,LLM/agent 往往要么只会贪心试错、要么搜索成本过高,导致探索效率和成功率都不稳定。以往常见做法是把 MCTS 当成外部规划器硬套在 LLM 上,或用离线轨迹做行为克隆,但两者都很难把“从失败中总结可复用的探索策略”学进模型。
这篇工作要解决的是:现有 LLM 量化在低比特下经常出现“同样 bit-width 不同层/通道误差分布差异巨大”,导致精度掉得不可控,而常见的均匀网格或简单校准难以兼顾可扩展性与精度。过去很多方法要么依赖昂贵的逐层搜索/二阶信息,要么在大模型上工程不可落地。
这篇工作要解决的是:代码 LLM 在交互式编辑场景里通常把“用户对代码的修改”当成一次性输入,缺少让模型随编辑持续自我修正的机制,导致多轮编辑后上下文漂移、引入回归 bug。以往常见做法是把编辑当 diff 生成或做检索,但模型并不会显式学习“我刚才的假设被用户改掉了”。
这篇工作要解决的是:LLM 输出的概率并不等价于可信的不确定性估计,导致在高风险场景里很难做可靠的置信度校准与决策。以往做法要么用温度缩放/校准集做后处理,要么用自一致性投票,但这些方法缺少统一的贝叶斯解释且在分布外容易失效。
这篇工作要解决的是:纯 LLM 下棋容易出现“看起来像人但关键处失误”,而纯搜索引擎又缺少人类风格与语言对齐,导致很难得到既强又符合人类偏好的棋类对话 agent。过去要么用强引擎做监督但牺牲可解释交互,要么用语言对齐但棋力不稳。
这篇论文要解决的是视频时序推理数据稀缺、监督噪声大,而文本模型已经学到了更强的显式时间逻辑,如何把这种能力迁移到视频理解。以前视频模型往往靠大规模预训练后再做任务微调,但对顺序、持续、先后关系的建模仍偏弱,因为视频监督很难像文本那样包含清晰的时序结构。
这篇论文关注 text-to-image 对齐里的一个老问题:现有方法多依赖 CLIP 式对比学习或扩散条件对齐,但这些目标往往更偏判别式匹配,未必充分刻画文本与图像之间真正共享的信息。这个问题现在值得做,因为生成模型越来越强,但可控性、语义覆盖和对齐稳健性仍然经常卡在训练目标本身。
这篇论文要解决的是自回归图像生成的一个根问题:图像 token 序列太长,直接按 raster 顺序做 AR 建模既慢又难学,导致质量和效率长期落后于扩散模型。过去常见办法是改 tokenizer、缩短码本或做局部顺序重排,但都没有从序列结构本身充分缓解长程依赖和解码开销。
SVD 压缩 LLM 时,直接截断小奇异值会严重损害模型质量,因为传统 SVD 不考虑截断后对下游 loss 的影响。已有方法要么只做 naive 截断,要么需要昂贵的微调来弥补精度损失。
如何大规模地从已训练好的 LLM 中移除特定知识(如隐私数据、受版权保护的内容),同时保持模型在其他任务上的能力。现有的 machine unlearning 方法在小规模上可行,但扩展到大量知识时效果急剧下降或代价过高。
LLM 生成文本时可能复制训练数据中的受版权保护内容。如何在生成阶段自适应地融合多个模型,使输出既保持质量又避免侵权,是一个尚未被很好解决的问题。
多个 LLM 组成 ensemble 时,如何平衡输出的多样性和一致性。简单的多数投票或平均会丢失多样性,而完全独立生成又可能产生矛盾输出。
LLM 能否识别自己生成的文本?本文研究 Llama3-8b-Instruct 的自我文本识别能力,并探索如何检测和控制这种能力。这涉及 AI 安全中的一个关键问题:模型的自我认知可能被利用来规避检测或进行欺骗。
LLM 的安全训练(safety training)在面对语义相关但表述不同的自然提示时,泛化能力如何?已有研究主要关注对抗性 jailbreak,但对正常用户可能自然触发的不安全行为关注不足。
指令微调(instruction fine-tuning)的数据效率问题:如何用更少的数据达到相同或更好的 SFT 效果。现有方法要么随机采样,要么用启发式规则选数据,缺乏系统的数据选择框架。
构建一个能像人类一样操作计算机(GUI 交互)的开放式 AI agent 框架。现有的 computer-use agent 要么依赖封闭 API,要么在复杂多步任务上表现不佳。
这篇论文要解决的是:如何把预测不确定性“可证明地”分解成不同来源(例如 aleatoric 数据噪声 vs epistemic 模型不确定性),而不是只给一个总的不确定度分数。以往常用的分解方法依赖强假设(如贝叶斯模型正确、集成近似足够好)或只在特定损失/分布下成立,导致分解结果难以解释也难以验证。
这篇论文要解决的是:如何用 agent 化的自动化流程,把形式化证明(formal proofs)的搜索与重写从“能跑但很慢/很不稳定”提升到“可持续优化”的水平。以往 LLM+证明器常停留在单轮生成或简单自回溯,容易卡在局部策略、对证明长度与可读性缺乏优化目标。
这篇论文要解决的是:语言模型的不确定性估计为什么经常“看起来有分数、但不可信”,以及如何在不改变主模型太多的情况下让不确定性更贴近语义层面的多解性。以往不确定性方法常用温度缩放、MC dropout、集成等,但如果生成样本语义上高度同质(只是措辞变化),不确定性会被低估。
这篇论文要解决的是:LoRA 这类参数高效微调在“低秩”假设不成立时会成为瓶颈,尤其是需要较大更新子空间的任务。传统 LoRA 固定一个小 rank r,用可训练的低秩矩阵近似全量更新,但当最优更新接近满秩时,要么性能掉、要么 r 变大导致显存与训练成本上升。
这篇论文要解决的是:能不能直接用视觉语言模型从 3D 设计图或渲染图生成可执行的 CAD 代码,而不是只输出网格或像素级重建结果。这个问题过去常被拆成检测、参数回归、程序合成等多个阶段来做,流程长且误差累积;现在重新值得做,是因为多模态大模型已经具备较强的视觉解析和代码生成能力。
这篇论文要解决的是:如何在存在评审噪声、配对不完整和裁判偏差的情况下,对 LLM chatbot 做统计上更可靠的排序。过去常见做法是直接看 Elo、win rate 或 arena 排名,但这些指标默认假设过强,且容易被题目分布、对手匹配和评审方差干扰。
这篇论文要解决的是:Best-of-N 这类通过采样多个候选再选优的对齐方法效果不错,但训练和推断都很浪费,而且选择信号利用得不充分。过去常见做法是直接把最优样本当监督,或用 rejection sampling / DPO 风格目标近似偏好;问题在于这会忽略未被选中的候选里包含的大量相对信息。
这篇论文要解决的是:大型语言模型里是否存在一类系统性异常点,而这些 outlier 不是随机噪声,而是稳定地集中在某些层、通道、token 或激活模式上。过去 outlier 现象多在量化和推断里被当作工程问题处理,例如 few extreme channels 破坏低比特量化;这篇工作更进一步,试图把它当成模型内部结构性现象来理解。
这篇论文的结论很直接:当前主流安全对齐的 LLM,仍然能被简单但自适应的攻击稳定越狱。过去很多防护效果建立在静态 jailbreak prompt 或固定基准上,因此看起来安全性不错;但一旦攻击者根据模型反馈迭代修改提示,防线往往明显变脆。
这篇论文要检验的是:LLM 的 refusal training 到底学到了安全规则,还是只记住了表面触发模式。标题里“generalize to the past tense”已经点明问题——如果把危险请求从现在时改成过去时,模型是否还会拒答;这是一种很小但很有诊断性的分布偏移测试。
现有基于LLM的软件智能体采用线性顺序推理流程,无法回溯和探索替代方案,当初始方案失效时不能调整策略,在仓库级软件任务上表现差。
神经网络最后层缩放因子γ控制特征学习强度,γ从低到高对应从懒惰核动态到丰富特征学习动态,但γ与学习率的交互关系、不同区间的优化特性尚未被系统研究。
此前的工作称长上下文LLM输入一本语法书即可实现极低资源语言的翻译,但该能力的来源未被拆解,无法确认是语法知识还是并行样例起作用。
Mamba模型的长上下文泛化能力差,超过预训练上下文长度时性能显著下降,现有长上下文扩展方案要么需要微调,要么适配性差。
现有语音语言模型的tokenizer多基于固定卷积或离散聚类的启发式规则,和语音语义结构不匹配,导致每单词对应token数是文本语言模型的数倍,大幅推高语音建模的计算成本。
这篇论文要解决的是:从像素学习世界模型时,模型往往学到的是“纹理级拟合”而不是可组合的对象/关系结构,导致泛化和规划能力弱。过去很多方法要么依赖强监督(对象标注),要么在无监督下难以得到可组合表示。
这篇论文要解决的是:训练设备控制(GUI/手机/机器人界面)智能体时,奖励稀疏且状态是视觉为主,导致 Q-learning 难以稳定学习。以往要么用大量在线交互,要么用强监督轨迹,但都成本高。
这篇工作要回答的是:不做额外训练,只通过交换 LLM 内部层,能不能提升 zero-shot 跨语言迁移。过去跨语言 transfer 主要靠多语预训练、词表设计、继续预训练或 adapter 微调来解决;作者关注的是一个更便宜也更机制化的问题——模型不同层是否承载了语言特定与语言无关能力,因而可以通过 layer swapping 重新组合。
这篇工作聚焦的核心问题是:如何构建同时覆盖阿拉伯语和英语的高质量大语言模型,而不是让阿拉伯语只作为英文模型上的附属能力。过去阿拉伯语 LLM 常受限于语料规模、方言覆盖、tokenizer 不匹配和评测集稀缺,导致模型要么英语强阿拉伯语弱,要么只在局部任务上做窄域优化;ALLaM 显然想把双语甚至多变体阿拉伯语支持做成主能力。
这篇工作要解决的是:多模态表示之间的联系不一定是线性可对齐的,用线性相似度或线性子空间分析会漏掉真正的耦合结构;作者提出用 intrinsic dimension correlation 去挖出这种非线性关联。过去图文或多模态表征分析常依赖 CCA、CKA、线性探针或互信息代理,但这些工具很难回答“两个模态是不是在复杂流形上共享了同一局部自由度”。
现有大语言模型在强化学习中的应用多局限于文本环境,无法适配连续状态空间的马尔可夫决策过程动态预测需求,多变量数据处理和控制信号融合是核心瓶颈。
此前没有研究验证大语言模型是否可以在不依赖上下文示例的情况下,明确表述自己微调后习得的隐藏行为策略,无法支撑LLM行为审计的需求。
现有大语言模型不确定性估计方法仅关注生成的最终答案,忽略了生成过程中影响最终结果的关键分叉token,导致不确定性估计存在较大偏差。
这篇工作解决的是:如何在不影响模型可用性、且不需要访问训练方内部信息的情况下,验证某个数据集是否被用于训练(数据集所有权/使用权证明)。以往要么依赖水印模型、要么依赖明显的投毒触发器,但两者都可能被规避或带来安全风险。
这篇工作要解决的是:如何在尽量不损失精度的情况下,把神经网络权重做得更稀疏且更易于高效实现,而不是只做非结构化稀疏导致硬件难加速。传统稀疏化常在“可压缩”与“可加速”之间两头不讨好。
这篇工作要解释一个更一般的问题:模型如何学到“可组合的抽象”(composable abstractions),使得学到的部件能在新组合下泛化,而不是只记住训练分布里的整体模式。过去很多工作用架构先验或数据合成来逼出组合性,但缺少统一原则解释何时会自然出现。
这篇工作要解决的是:在零样本/小样本条件下,如何更可靠地检测生成图像,而不是依赖特定生成器的指纹或大量标注数据。以往检测器常在跨模型、跨分布时崩溃,因为它学到的是表面伪迹而非更稳定的统计结构。
这篇工作要回答的是:在均值场极限下,Transformer 训练动力学为什么会自发形成持久但非最终稳定的“簇”结构。以往对 Transformer 的理论分析多停留在线性化、核极限或收敛性层面,很少直接解释表征在训练过程中为何会出现阶段性聚类与长时间停滞;这个问题现在值得重看,是因为簇结构和表征压缩、样本分组、训练 plateaus 都有关。
这篇工作要解决的是:如何在弱监督条件下训练可执行多模态指令的智能体,而不依赖昂贵的逐步演示或密集人工标注。过去 instruction-following agents 往往受限于高质量轨迹数据稀缺,导致泛化差、部署贵;这个问题现在尤其重要,因为具身和桌面代理都在从‘单任务策略’走向‘通用指令执行’,数据成本成了主瓶颈。
这篇工作要解决的是:多模态模型能不能像 Matryoshka representation learning 那样,在同一模型里支持多粒度、可截断的表示和计算,而不必为不同预算训练多套模态头。过去多模态模型通常在固定 embedding 维度和固定 backbone 宽度上工作,导致部署时要么浪费算力,要么重新训小模型;这个问题现在很值钱,因为多模态 serving 的成本比纯文本更敏感。
现有神经网络可解释性研究多聚焦单个神经元和输出的关联,当单个神经元编码多个不相关特征时,无法准确解释模型内部运行机制。
现有零阶在线凸优化方法无法利用梯度稀疏性,在函数采样数量有限的场景下梯度估计误差高,无法适配大规模时序敏感排队网络的资源分配优化需求。
现有多模态大模型的组合推理能力弱,无法准确关联物体、属性和空间关系,现有基于大语言模型拆分问答的方法仅停留在表面语义,会引入LLM生成的错误假设。
这篇论文要解决的是:Transformer 的记忆(memory)机制在长上下文与跨段推理里仍缺少“通用且可迁移”的设计,很多方案要么任务特化、要么训练不稳、要么推理开销过大。过去常见折中是用更长上下文或外部检索,但这把问题推给算力或系统,而不是改进模型内部的可学习记忆。
这篇论文要解决的是:对 LLM 做知识遗忘(unlearning)时,现有方法要么不够鲁棒(换个提示词仍能诱导回忆),要么代价太高(全量微调/重训),很难在工程上落地。过去很多工作把 unlearning 当成一次性微调问题,但在 LLM 里“知识”往往是分布式表征,导致局部更新容易泄漏或伤及无关能力。
这篇论文要解决的是:Web agent 在真实网页导航中常把环境当成“不可预测的黑箱”,导致规划与探索效率低、对页面动态变化不鲁棒。以往方法多依赖纯策略学习或基于 LLM 的一步步反应式决策,但缺少对“环境动力学”(点击后页面如何变)的显式建模。
这篇论文要解决的是:现有代码评测集对“多语言代码能力”的覆盖不足,导致我们很难判断模型在不同自然语言(题面/注释/变量命名)条件下的真实泛化。过去很多 code benchmark 默认英文题面或少数语言,模型可能只是吃到了英文分布红利,而不是具备可迁移的编程理解与生成能力。
这篇论文要解决的是:视频“细粒度详细描述”(detailed captioning)长期缺少既高效又高质量的模型与基准,导致训练与评测要么太贵(长视频、密集标注),要么指标不对齐(只看粗粒度摘要)。过去很多视频字幕工作偏短描述或检索式评测,难覆盖时序细节与动作因果。
这篇论文要解决的是:单一对齐策略(单模型单解码)很难同时满足安全、帮助性与风格约束,且一旦 reward/规则不完备就容易在解码时走偏。以往要么靠更强 RLHF 把约束“写进权重里”,要么用拒答/过滤做事后控制,但两者都不够细粒度且成本高。
这篇论文要解决的是:现有 agent 基准多评测“会不会用工具”,但很少评测“能不能做机器学习工程”(从数据处理、训练、调参到复现实验),导致我们无法衡量 LLM agent 在真实研发流程中的可靠性。过去的评测往往任务短、反馈稀疏,或只看最终答案,不覆盖 ML 工程的迭代性与故障排查。
这篇工作要解决的是:现有多模态评测几乎只看答案对不对,却很少区分模型是“知道自己不知道”、还是“在噪声下不确定”,因此无法判断模型的不确定性到底来自知识缺失(epistemic)还是输入本身含糊(aleatoric)。这个问题过去常被单一置信度分数或幻觉率粗糙代替,但对多模态模型来说,图像质量、视觉遮挡、跨模态冲突都会把两类不确定性混在一起,所以需要专门 benchmark 和 metric 拆开看。
这篇论文的核心判断大概率是:标准 Transformer 语言模型即使在大数据下也不会自然学会可外推的计数规则,想要真正 inductive 地数数,需要显式或隐式的归纳偏置。这个问题过去常被“多给数据就会涌现”带过,但计数属于离散组合规律,和表面模式拟合不同,训练分布内成功并不代表长度、数量或结构变化后还能泛化。
这篇工作解决的是长上下文推理和服务中的 KV-cache 过大问题,而且它选择的路线不是 token 丢弃或重算,而是低秩投影压缩。现有办法常在“省显存”和“伤精度”之间做粗糙交换;尤其对生成式模型,KV 是随上下文线性增长的主成本,压得太狠会直接破坏注意力检索质量。
这篇论文要解决的是:LLM 的偏差通常用经验测试集去测,但这只能说明“在这些 prompt 上看起来有偏”,无法给出反事实意义下的保证。标题里的 certifying counterfactual bias 表明作者想把“如果只改变敏感属性,其余条件不变,模型输出会不会系统变化”做成可认证的问题,而不是只做抽样统计。
这篇论文关注一个很有意思的问题:在没有配对数据的情况下,两个模态为什么有时仍能被对齐,甚至用对比学习“意外地”学出共享结构。过去跨模态预训练大多默认需要成对数据或伪配对信号,而这篇工作试图给出一个概率论层面的解释,说明无配对模态在什么条件下仍可被对齐。
这篇工作解决的是多轮对话规划成本高、状态追踪脆弱的问题。现有 LLM agent 或对话系统常直接在 token 空间逐轮规划,结果是上下文越来越长、规划越来越贵,而且前几轮的错误语义难以被压缩成稳定状态。作者提出用 semantic space 做多轮规划,显然是在用更紧凑的语义表示替代原始文本轨迹。
这篇论文解决的是 LLM 的“知识操控”能力不足,也就是模型虽然记得很多事实,但未必能在结构化关系上做稳定查询、组合、约束修改或多跳操作。过去这类问题通常靠提示工程或额外检索去补,而作者主张用知识图谱微调,说明他们认为结构化关系监督能直接修正模型内部的知识操作接口。
去噪扩散模型(denoising diffusion)为什么能学到好的视觉表示?这篇工作系统拆解扩散模型中对自监督学习真正起作用的组件,试图回答:扩散的哪些部分是必要的,哪些是冗余的。
缺乏严格评估 LLM agent 在数据驱动科学发现任务上能力的 benchmark。现有评估要么太简单(只测代码生成),要么缺乏端到端的科学工作流覆盖(从数据处理到分析到可视化)。
如何让自主 agent 在没有人工设计 reward 的情况下自动扩展到新任务。现有 agent 系统依赖手工 reward 或任务特定的评估函数,难以泛化。
VLM(视觉语言模型)在 grounding 任务中,语言描述和视觉对象之间的对齐经常出错,尤其是在复杂场景中。现有方法要么依赖大量标注数据,要么在 zero-shot 场景下对齐质量不够。
缺乏针对 GUI(图形用户界面)场景的多模态视频理解 benchmark。现有 VLM benchmark 主要测试自然图像/视频理解,无法评估模型在 GUI 交互场景(如网页操作、App 使用)中的理解能力。
文本生成中常用的启发式解码策略(如 top-k、nucleus sampling、temperature scaling)缺乏理论基础——为什么这些策略有效?它们在什么意义上是最优的?这篇工作从极小极大(minimax)博弈的角度给出理论分析。
这篇工作要解决的是:LLM 在“该用代码执行”还是“该用纯文本推理”之间缺少稳定的切换机制,导致要么乱调用工具、要么死磕文字推理而出错。以往做法多靠提示词或硬规则路由,但在分布外问题和不同工具可用性下很脆弱。
这篇工作要解决的是:让模型为 Rust 代码自动生成形式化证明很难,主要卡在证明搜索空间大、反馈稀疏、以及代码与证明语言之间的对齐成本高。以往方法要么依赖人工分解与交互式证明,要么用一次性合成数据训练,容易在新库/新风格上失效。
这篇工作要解决的是:让 LLM 做“搜索者/研究员”时,常见 ReAct/工具链方法容易变成浅层检索+拼接,缺少像人一样的目标分解、记忆更新与反思循环。以往系统多靠手工设计 agent 框架,泛化到新领域时维护成本高。
这篇工作解决的是 LLM 推理中的精度配置过于静态的问题。现有 mixed-precision inference 通常给整层或整个模型固定 bit-width,但实际解码过程中,不同 token 位置、不同层、不同阶段对数值精度的敏感性并不一样,固定策略会浪费很多可压缩空间。
这篇工作解决的是 order-agnostic language model 的 watermarking 空白。现有水印方法大多假设标准 next-token 自回归解码,但对于 masked LM、any-order generation 或其他非固定顺序生成范式,传统基于前缀条件概率的水印机制并不直接适用。
这篇工作想解决的是多智能体系统之间异构性太强、协作太脆弱的问题。现有 agent 框架通常假设同构工具链或单一编排器,跨模型、跨工具、跨组织协作时,通信协议、能力表示和任务分解都不统一,导致系统很难扩展成真正的 agent 网络。
这篇工作解决的是 smartphone agent 缺少全面评测基准的问题。现有 agent benchmark 多聚焦网页、代码或通用工具使用,而手机环境有更强的 GUI 结构约束、权限限制和多步交互噪声,没有针对性的 benchmark,很难判断模型是真会操作还是只会套模板。
现有大语言模型工具学习方法仅适配静态环境,无法应对工具/API动态更新导致的调用失效问题,限制了LLM在真实动态场景的落地。
现有LLM越狱后门注入方法依赖构造中毒数据集和耗时微调,注入成本高、可操作性低。现有攻击方法的高门槛限制了安全研究人员对LLM后门风险的批量评估。
现有多模态大模型(MLLM)处理多页富视觉长文档时,要么依赖文档解析器做RAG存在性能和效率瓶颈,要么直接输入所有页面导致计算效率极低,无法适配长文档场景。
现有基于自一致性的事实性提升方法需要多次采样多个完整输出再选最一致的,对任务格式有严格限制,推理开销高,无法适配开放生成场景。
这篇工作要解决的是:当人类反馈存在系统性错误或被污染(corruption)时,如何仍然从偏好/对比反馈中学到可靠的奖励或策略;以往很多 RLHF/偏好学习默认反馈近似干净,或用简单的噪声模型修补,遇到对抗性/结构性污染会失效。
这篇工作要解决的是:Selective State Space Models(选择性状态空间模型,典型如 Mamba 类)在后训练量化时缺少稳定、可复现的配方;以往很多量化方法主要为 Transformer 设计,直接套到 SSM 会在状态更新与选择门控处引入较大误差。
这篇工作要解决的是:用贴近日常生活的两难情境系统性揭示 LLM 的价值偏好与一致性,而不是只用抽象道德题或少量红队样例;以往评测常把价值对齐简化为安全分类或单点问答,难以刻画细粒度偏好结构。
这篇工作要解决的是:让语言-图像模型具备可用的 3D 理解能力,而不是停留在 2D 语义对齐;以往很多 VLM 通过 2D 图文对齐学到“看起来懂”,但在几何、视角一致性、空间推理上容易露馅。
这篇工作针对的是多模态大模型在图文问答中经常“看错重点”而产生幻觉的问题。已有方法多从训练阶段加对齐损失、加拒答数据或做外部检索来缓解,但推理时模型一旦把注意力放在无关图像区域,解码过程仍会把错误视觉证据不断放大,因此作者把问题重新落到解码阶段的注意力控制上。
这篇工作想回答的是:能否通过 unlearning 的方式反过来理解神经网络学到了什么。传统 interpretability 往往是读激活、看 attention 或做局部归因,但这些方法很难回答某个概念被模型依赖到什么程度;而 unlearning 提供了一个更强的因果操作——把某类信息从模型中拿掉,再看行为怎么变。
这篇工作针对的是 foundation model 在分布偏移下表现不稳,而 concept bottleneck model 又往往太刚性的问题。传统 CBM 先预测概念再做决策,解释性好但一旦概念空间不完备或测试分布变化,错误会层层传递;作者想做的是让概念瓶颈在偏移下可自适应,而不是把概念层当固定接口。
这篇工作指出现有 VLM 基准对“物理世界理解”覆盖不足,导致模型在看似会描述图像时,其实并不理解受力、稳定性、遮挡、可供性和动态后果。过去这类能力常被零散地放在机器人或视频任务里评估,没有形成统一 benchmark,也缺少针对性增强方法。
这篇工作解决的是一个常被忽略的问题:如果部署时用 Best-of-N sampling,训练时却仍按单样本最大似然或标准 SFT 优化,那么训练目标和推理目标是错位的。模型并不会为‘从 N 个样本里挑一个最好答案’这个过程专门塑形,结果就是额外采样成本没有被充分转化成质量提升。
自适应优化器(SignSGD、RMSprop、AdamW等)在深度学习中被广泛应用,但现有理论对其收敛性、噪声与曲率的作用关系缺乏完整、量化的解释,限制了优化器的针对性改进。
现有多智能体强化学习(MARL)方法无法处理多智能体系统的非平稳性,遇到未见过的新智能体时无法在线自适应学习,泛化能力差。
现有弱到强(Weak-to-Strong)对齐方法仅使用单个弱模型监督,无法模拟人类监督的意见多样性,且仅适配文本分类任务,无法扩展到文本生成场景。
这篇工作要解决的是:生成式解码如何显式利用模型不确定性,在多候选输出之间做“期望风险最小”的选择,而不是只靠最大似然/beam search 选一个看起来概率最高的序列。以往 MBR(Minimum Bayes Risk)在机器翻译等场景有效,但在通用 LM 解码里常因代价高、风险函数难定义、以及不确定性估计不稳而被弱化使用。
这篇工作要解决的是:LLM 的 task arithmetic(把多个任务的权重增量做线性组合来合成新能力)为什么经常不稳定、可迁移性差,以及在什么条件下“线性叠加”才近似成立。过去很多解释停留在经验层面:有时能加、有时一加就坏,但缺少可操作的结构条件。
这篇工作要解决的是:多模态角色扮演 agent 的开发与评测缺少统一框架,导致不同系统的能力边界、对齐风险与多模态一致性很难可重复比较。以往评测往往要么偏文本角色扮演、要么偏单一模态任务,难覆盖“角色一致性 + 多模态感知/生成 + 长程互动”。
这篇工作要解决的是:LLM 是否真的“理解”图结构/图模式(graph patterns),以及现有评测为何经常把语言表面匹配当成图推理能力。过去图推理评测要么依赖特定图神经网络范式、要么题目泄漏模式明显,导致很难判断 LLM 的真实结构泛化能力。
这篇工作要解决的是:检索增强生成(RAG)里“检索到底有没有用”缺少与语言建模目标一致的可量化指标,导致检索模块常用召回率/相关性打分来调,但这些指标不直接对应生成质量。以往也有人用 perplexity 变化做 proxy,但往往停留在表面 token-level PPL,难反映语义层面的信息增益。
这篇工作要解决的是:小模型如何在不依赖昂贵的黑盒搜索下,成为强 prompt optimizer,把提示词优化从“采样-评估-筛选”的低效循环变成可微、可学习的过程。以往 prompt 优化常用进化搜索或大模型自反思,成本高且不稳定,小模型很难竞争。
这篇工作要解决的是:语言模型蒸馏为什么经常只学到输出分布的表面相似(logits matching),却在长程依赖、校准或推理行为上丢失教师模型的“内部计算”。过去蒸馏主要对齐 soft targets,但对齐不到隐藏状态会让学生在相同输出上走不同内部路径,导致泛化与稳定性下降。
这篇工作要解决的是:能否通过引入类似大脑皮层拓扑的结构约束,构建性能更高且更高效的 vision-language models。现有 VLM 大多依赖同质的 Transformer 堆叠,扩展简单但归纳偏置弱;作者显然认为,适当的空间拓扑和局部连接模式可能在不完全牺牲通用性的情况下带来更好的表示组织。
这篇工作要解决的是:如何在十亿级语料上做足够快、足够软的 pattern matching,而不是只依赖精确匹配或高成本语义检索。传统全文搜索在模式变形、噪声和近似匹配下很脆弱,而向量检索又常常过重、难解释、难精准控制匹配模式。
这篇工作要解决的是:如何以更低成本、且更少系统性偏差的方式评测 LLM 输出质量。当前 LLM 评测越来越依赖大模型裁判或昂贵人工标注,但前者有位置偏差、模型偏好和尺度漂移,后者成本高且难持续更新。
这篇工作要解决的是:如何在尽量不依赖模型结构细节的前提下,用稀疏化训练降低训练成本。现有 sparse training 往往对特定层型、掩码更新规则或硬件假设耦合很深,导致方法能发 paper,但难在不同模型和实际训练栈里复用。
这篇工作要解决的是:LLM 的人格特质能否通过神经元层面的机制被识别、诱导甚至调控。过去人格控制更多依赖提示词、SFT 数据或 decoding 策略,这些方法有效但不稳定,也不容易解释模型内部到底改了什么。
现有delta参数剪枝方法DARE在剪枝率过高或delta参数幅度过大时性能下降严重,无法支持极高剪枝率下的微调模型存储压缩,不适用于多微调模型的部署场景。
现有对抗提示生成方法要么攻击成功率低,要么生成的提示语义无意义,容易被基于困惑度的防御方法识别,隐蔽性差。
Existing machine unlearning algorithms and membership inference attack (MIA) research are developed in parallel silos, without leveraging their inherent connection, leading to unverifiable privacy guarantees of unlearning outcomes.
Existing Pareto Front Learning (PFL) methods do not scale to large model multi-task scenarios, with poor scalability, slow convergence, high memory overhead, and unstable mapping from preferences to objective space; traditional multi-task learning only supports pre-defined single trade-off points that cannot be adjusted during inference.
Existing VLM safety alignment methods either require large amounts of training data and compute with high cost, or cannot balance safety and response usefulness; adversarial visual inputs can easily bypass text-side defense mechanisms.
Existing LLM unlearning methods have limited applicable scenarios, no unified unlearning solution exists for PEFT-fine-tuned models, and cannot accurately remove influence of target data, leading to residual sensitive information.
Existing contrastive learning trained text embeddings have high dimensions, leading to high storage and inference cost; traditional compression methods cause significant degradation of downstream task performance, and no prior work systematically studies the impact of temperature parameter on intrinsic dimensionality of embedding spaces.
这篇论文要解决的是:深线性网络(deep linear nets)里“lazy training(近似核方法)”与“rich feature learning(表征学习)”之间的分界到底由什么决定,以及训练过程中到底发生了什么。过去很多结论依赖近似或特定初始化/极限假设,导致对真实训练动态的解释不够精确。
这篇论文要解决的是:量化会改变模型行为边界,而攻击者可以利用“量化条件”触发更持久的对齐失效(misalignment),使得模型在量化部署后更容易被诱导输出不当内容。以往安全评估多在 FP16/FP32 上做,默认量化只是精度-效率权衡,但忽视了它对安全面的影响。
这篇论文要解决的是:某类“engorgio prompt”会诱导 LLM 进入持续的无意义冗长输出(babble),即使用户需求很简单也难以停止或回到正题。过去对 prompt attack 更关注越狱与信息泄露,但这种“输出退化/失控”同样影响可用性与成本。
这篇论文要解决的是:越狱攻击的组合空间太大,手工写 prompt 难以系统探索与复现,导致防御评估覆盖不足。以往很多 jailbreak 研究是“案例驱动”,缺少可组合、可枚举、可自动化生成的攻击表示。
这篇工作要解决的是:是否能从训练梯度中精确重建图数据,而不是像过去那样主要讨论图像或文本上的 gradient leakage。图数据的离散结构、节点排列不唯一和邻接关系耦合,使得现有梯度反演方法很难直接迁移,所以图学习中的隐私风险过去被低估了。
这篇工作要解决的是:PEFT 里的低秩或缩放式适配通常对所有层和位置一视同仁,但不同层对下游任务的敏感性并不一样,因此统一的适配强度往往不是最优。过去大家靠调 rank、target modules 或 learning rate 来补救,但这仍然是粗粒度控制。
这篇工作要解决的是:条件文本生成常常 fluent 但不 faithful,也就是写得像样却没有严格受条件输入约束。过去通常靠监督数据或后验 reranking 纠正,但高质量忠实性标注昂贵,而且 reranking 不能从根上改变生成器。
这篇工作要解决的是:现有对齐算法,尤其偏好优化和 RLHF 变体,往往直接在 reward 或 preference 上做优化,但 advantage 这个量更接近‘相对当前策略的改进信号’,理论和实践上都可能更稳定。过去很多方法没有显式抓住这一点,导致学习信号高方差、过优化或 reward hacking 更严重。
Existing automatic evaluation (including LLM-as-a-judge) effectiveness is only measured by overall correlation coefficient with human annotations. These correlation coefficients assume no uncertainty in human annotations, and will significantly overestimate real performance of automatic evaluation when there is disagreement in human labels.
Existing adversarial robustness certification only targets model prediction accuracy, no certification method exists for model uncertainty calibration (consistency between confidence and actual accuracy) in safety-critical scenarios; adversarial attacks can severely damage model calibration, leading to safety risks.
Existing replay-based continual learning methods are limited by replay buffer size, still suffer from catastrophic forgetting, and cannot retain old task performance well while learning new tasks.
CLIP 的图文嵌入空间存在明显的“模态鸿沟”(modality gap),即图像和文本特征在超球面上各自扎堆,导致跨模态对齐次优。过去通常通过对比学习硬拉近,但几何上的割裂依然存在。
这篇论文要解决的是:残差网络/Transformer 的训练里,梯度在深层传播慢、有效更新“到不了”早期层,导致训练步数和算力被动增加。以往通常靠更大 batch、更强优化器或学习率/暖启技巧缓解,但这些更多是在“稳住训练”,并没有直接加速梯度信息沿残差路径的传播。
这篇论文要解决的是:开放式(open-ended)智能系统缺少可持续的“有趣性/新颖性”驱动,训练往往会陷入重复、局部最优或奖励黑客。过去很多工作用手工 novelty 指标或环境内置奖励凑合,但很难对齐到人类觉得“值得探索”的方向。
这篇论文要解决的是:复杂推理任务里,prompt 对模型行为过于敏感,导致同一问题在轻微措辞变化下性能大幅波动。以往要么靠人工 prompt 工程,要么做离散的 prompt 搜索,但都难以系统性提升鲁棒推理。
这篇论文要解决的是:LLM 在“工作流编排”(多工具、多步骤、带依赖与状态的执行)上容易把任务当成单轮对话来做,导致步骤遗漏、顺序错误或状态不一致。过去常用 ReAct/Toolformer 风格提示或外部编排器兜底,但模型本身的编排能力提升有限。
这篇论文要解决的是:自回归(AR)文生图在离散视觉 token 上扩展时,tokenizer 的量化误差与码本瓶颈会限制画质与可扩展性。过去常用 VQ-VAE/离散码本,但码本越大越难训、越小越损细节。
这篇论文要解决的是:在联想记忆/稀疏激活网络中,“死神经元”(长期不激活的单元)会降低容量与可学习性,但其形成机制与可避免条件并不清晰。以往更多把它当成训练技巧问题(初始化、学习率、正则)来处理。
这篇论文要解决的是:让 LLM 实现“无缝语音交互”时,传统级联方案(ASR→LLM→TTS)延迟高、信息损失大且难以端到端优化。过去很多系统把语音当作外部输入输出,而不是统一到同一个建模与对齐框架里。
这篇论文要解决的问题是:能不能在不训练的前提下,把一个模型里已有的 LoRA 适配能力迁移到另一个基础模型上。过去 LoRA 很便宜,但前提仍是要针对每个目标模型单独训练;如果目标是跨模型快速适配,这个成本仍然高,而且会被模型碎片化进一步放大。
这篇论文的核心问题是:现有 LLM 评测很少系统检验时间性推理,导致模型是否真正理解‘事件发生在何时、知识何时有效、答案会不会随时间变化’一直说不清。很多 benchmark 默认世界是静态的,或者用发布时间固定的数据回避了 temporal drift,所以模型看起来会答题,不代表它能处理时间维度上的真变化。
这篇论文解决的是文档检索中的一个老问题:面对扫描 PDF、表格、版式复杂页面时,纯文本 OCR 管线会丢掉关键视觉结构,而端到端 VLM 检索又常常太重、太慢。过去两边都不是理想解,前者损失信息,后者部署成本高。
这篇论文要解决的是:LLM 评测通常只给出单一总分,难以反映模型在不同场景、不同能力维度下的真实表现。这样的评测会掩盖一个常见事实:同一个模型在开放问答、推理、工具使用和安全边界上的表现往往不是同步变化的。
面对多个可用 LLM 时,如何为每个查询自动选择最合适的模型——现有路由方法通常基于简单的分类或打分,没有充分利用查询与模型之间的结构化关系。
RAG(检索增强生成)场景下,LLM 在生成答案过程中如果走偏了(比如开始幻觉或偏离检索到的证据),缺乏有效的自我纠正机制。现有方法多在生成后做验证,而非在生成过程中回溯修正。
自监督视觉预训练(如 SimCLR、BYOL 等)中,数据增强通常是随机采样的,但随机增强产生的视图对难度参差不齐,大量「简单」视图对训练贡献有限。如何系统性地生成更难的视图对来提升预训练效率?
Constitutional AI(CAI)需要人工编写宪法原则来指导模型对齐,但从大量人类偏好数据中手动提炼原则既费力又可能遗漏。能否自动从偏好数据中反向提取出简洁的原则集合?
研究开源大模型的内部机制(mechanistic interpretability)需要访问模型中间层的激活值,但现有工具要么需要修改模型代码,要么需要巨大的本地 GPU 资源。如何让更多研究者低门槛地访问大模型内部状态?
这篇论文指出“让模型输出置信度/自评不确定性”本身会成为新的攻击面:攻击者不必改变最终答案,只要诱导模型暴露可被利用的置信信号就能放大越狱与信息泄露风险。以往很多工作把置信度当成安全增强(例如拒答、校准、风险控制)的辅助信号,但作者认为在对抗场景下它可能反过来帮助攻击者做自适应搜索。
这篇论文要解决 agent 在新环境/新任务上泛化差的问题:很多 agent 在训练分布内能跑通,但遇到轻微分布移位就会在规划、工具调用或长程执行上崩掉。以往常见做法是加更多轨迹数据或做行为克隆,但容易把错误模式也固化进去。
这篇论文要解决长上下文推理的核心系统瓶颈:KV cache 随序列长度线性增长,显存与带宽成为推理上限,而现有压缩方法往往在“压得动”与“推理能力掉得少”之间取舍很差。过去很多方法按 token 维度做剪枝/量化,但忽略了不同 attention head 的贡献差异。
用户通过黑盒 API 调用 LLM 时,提供商可能在后台对模型进行量化、加水印或微调,导致输出分布改变。过去缺乏一种统计学上严谨的方法来检测这种“模型被暗改”的情况。
现有多模态大模型(MLLMs)在解决包含几何图形的数学问题时表现不佳,因为它们难以准确理解基本几何元素及其空间/逻辑关系。过去的工作多集中在纯文本数学题上。
直接将 RLHF/DPO 等对齐技术应用于小语言模型(SLMs)效果往往大打折扣,因为小模型容量有限,难以直接从偏好数据中学到复杂的对齐目标。
这篇论文要解决的是:在不泄露私有数据的前提下,如何自动合成“对 ICL 真有用”的提示词/示例,而不是依赖人工写 prompt 或直接用真实样本做 in-context(会带来隐私风险)。
这篇论文要解决的是:如何把扩散式生成做得既可扩展又能灵活分辨率生成,因为传统 diffusion 在高分辨率与大模型下训练/采样成本很高且常被固定分辨率约束。
这篇论文要解决的是:能否仅通过语言交互(talking)去系统性地改变视觉模型/多模态模型的“看法”,而不是依赖重新标注或大规模再训练。
这篇工作要解决的是:在拿不到原始训练过程、也不想高成本重训的前提下,如何让模型可靠地“忘掉”指定数据。现有 unlearning 方法通常在两端摇摆:要么依赖近似启发式,删除不干净;要么要求访问训练轨迹或重训,代价过高,因此需要一个更可操作的中间方案。
这篇工作的核心问题是:标准线性 softmax head 在表示复杂目标分布时可能不够高效,尤其当输出分布有高频结构、多峰性或需要细粒度概率形状时。过去这类问题通常通过增大模型宽度/深度来间接解决,但输出头本身的表达瓶颈并没有被认真处理。
这篇工作的核心问题是:LLM agent 擅长语言交互,但对环境中的因果结构理解很弱,因此规划常停留在相关性层面。过去 agent 工作更多依赖工具调用、反思或搜索来补救,但如果没有可操作的 causal world model,模型很难做稳定的干预式推理。
这篇工作关注一个很实际的安全问题:模型即使给出“安全”回复,仍可能通过很多细小线索逐步泄露危险信息。过去安全评估常把回答粗分为 safe / unsafe,但这种二元口径会漏掉分步提示、局部细节泄露和组合式攻击带来的风险。
这篇论文要解决的是:如何在做 LLM alignment / steering 时保护训练样本或偏好数据的隐私。现有对齐方法往往默认可以直接用高质量偏好或行为数据做监督,但在医疗、企业或敏感个人数据场景里,这个前提并不成立,因此需要带差分隐私约束的 steering 方法。
这篇论文讨论的是一个基础问题:next-token prediction 为什么会产生 in-context learning,或者说 ICL 到底是训练目标的副产物,还是来自更一般的泛化机制。过去很多解释停留在经验观察或特定 toy setting,因此作者试图把 ICL emergence 和 generalization 之间的关系讲清楚。
这篇工作的核心问题是:现有 LLM agent benchmark 往往把规划过程简化得太同步、太干净,不能真实反映异步环境中的任务分解和执行难度。现实机器人系统里感知、行动、等待、资源占用经常并发发生,如果 benchmark 不建模这些约束,agent 的规划能力会被高估。
DPO 等离线对齐方法虽然不需要显式的 Reward Model,但依然容易出现过度优化(overoptimization)。当训练模型偏离初始参考模型(reference policy)太远时,生成质量会显著下降。
模型编辑(Model Editing)通常用于修正 LLM 的特定事实知识,但这种只需极少数据和算力就能修改权重的技术,是否会被恶意利用来植入复杂的后门(trojans)?过去的研究多局限于简单的词到词的触发。
这篇论文要解决的是:能否用“自回归 Transformer”做出接近扩散模型质量、但更易扩展和更高吞吐的文本生成图像。以往高质量 T2I 主要靠 diffusion/flow,AR 路线常被质量与训练稳定性卡住,导致在大规模训练与推理效率上难以形成统一优势。
这篇论文要解决的是:如何给生成式图像模型加水印,同时让水印在现有检测/去除攻击下尽可能“不可检测且难以抹除”。以往水印要么容易被统计检测发现,要么在轻度编辑、重采样或对抗去水印下失效。
这篇论文要解决的是:Video LLM 在时间定位(temporal grounding)上为什么容易“讲对事件但说不准时间”,以及如何用因果事件建模提升可定位性。以往很多 Video LLM 更像做全局理解或片段检索,时间边界学习弱,容易被数据偏差与语言先验糊弄过去。
这篇工作要解决的是:在拿不到梯度、显存和通信也受限的条件下,怎样把大语言模型做成真正可用的零阶微调。以往零阶方法的主要问题不是“不能训”,而是查询开销太大、方差太高,而且一旦只更新少量参数,稀疏位置往往是任务相关的,难以迁移到别的任务或模型阶段。
这篇工作关注的核心问题是:音视频大模型“看得见但听不懂”的症结,往往不只是音频编码器弱,而是多模态对齐目标没有把听觉信号真正绑定到语言空间。很多现有 AV-LLM 主要沿用图文对齐范式,结果模型更依赖视觉捷径,音频贡献被淹没。
这篇论文聚焦知识蒸馏里的一个老问题:学生模型往往学到了教师的平均趋势,却没保住类别间或样本间的判别间隔,结果精度看起来还行,鲁棒性和校准却变差。传统蒸馏大多只做单向匹配,默认教师输出就是最优软标签,但没有约束学生学到的表示空间保持相同的几何关系。
这篇论文要解决的是:对话式代码生成缺少可复现、可反馈、能持续多轮交互评测的 benchmark,导致模型看起来会写代码,但不一定会根据报错、测试结果和用户澄清逐轮修正。现有很多代码 benchmark 还是单轮 completion,无法真实反映 agentic coding 能力。
LLM 在语言理解任务上的高分可能只是利用了表面统计模式(如词汇共现、句法模板),而非真正理解因果结构。之前的评估方法难以区分'表面模式匹配'和'深层因果理解'。
LLM 在通用规划任务上缺乏严格性保证——自然语言推理容易产生幻觉和逻辑错误。之前的方法要么依赖特定领域的规划器,要么让 LLM 直接输出计划但无法验证正确性。
kNN attention(用最近邻检索替代全量注意力)在实践中能有效降低长序列的计算成本,但缺乏理论上的理解——为什么丢弃大部分 KV 对后模型仍然工作良好?近似误差的边界是什么?
模型压缩中,稀疏化(pruning)和量化(quantization)通常被独立研究和应用,但实际部署时往往需要同时使用。两者的交互效应——联合使用时是互相增强还是互相干扰——缺乏系统性的理论和实验分析。
枚举几何(enumerative geometry)中的计算问题(如计算 Gromov-Witten 不变量等)传统上依赖复杂的数学推导和专用算法。能否用 Transformer 学习这类数学结构?
这篇论文要解决的是:如何在有人类反馈但标注/偏好信号稀缺且会漂移的条件下,让 LLM 的“奖励模型/偏好函数”随时间迭代变得更可靠,而不是一次性训练后就固化。以往更常见的做法是固定 reward model 做 RLHF 或反复重训,但这会把早期偏差和数据分布变化一起锁死。
这篇论文要解决的是:视频“世界模型/物理常识/因果预测”评测长期缺少统一、可诊断的基准,导致模型看起来会预测但其实只是在记纹理或利用数据偏差。过去评测往往单任务、单指标,难以定位是感知、动力学还是规划能力不足。
这篇论文要解决的是:生成模型在训练数据含版权内容时,如何量化并降低“复刻式生成”(生成高度相似的受版权保护角色/作品)的风险,而不是只做模糊的安全宣称。过去常用的去重或简单过滤不足以覆盖风格迁移与近邻记忆。
这篇论文要解决的是:如何用“稀疏矩阵”做 LLM 微调,在保持接近全参微调效果的同时显著降低显存与训练成本,而不是只用 LoRA 这类低秩近似。以往低秩方法在某些任务上受限于表达子空间,想提升就得加 rank 导致成本回升。
这篇论文要解决的是:如何在不改权重、尽量不牺牲通用能力的前提下,在推理时实现可控的个性化(persona/偏好/风格),而不是依赖每个用户一套 LoRA 或持续记忆导致隐私与漂移问题。过去的个性化要么成本高(微调),要么不稳定(长 prompt/记忆注入)。
这篇论文要解决的是:LoRA 这类低秩适配在多层多模块上独立设 rank 会带来调参成本与冗余,如何在不明显掉点的情况下共享结构来提升参数效率与稳定性。以往做法要么统一 rank(不灵活),要么逐层调 rank(成本高)。
这篇工作要解决的是:如何给语言模型提供对后门攻击的可认证鲁棒性,而且不能像现有认证方法那样计算代价高到难以落地。过去 randomized smoothing 在视觉里较成熟,但直接搬到离散文本并不自然,因为文本扰动是组合型的、非连续的,而且语言模型输出空间更复杂。
这篇工作要回答的是:为什么 momentum 能加速 SGD,以及真正决定加速效果的关键条件是不是梯度相关性。过去关于动量的解释很多,有从二次优化、噪声滤波、谱分析出发的,但在非凸、随机梯度场景下,哪些条件下动量有益、哪些时候只会放大震荡,并不总是说得清。
这篇论文要解决的是:多智能体写代码时,协作结构(谁和谁交互、如何分工、何时合并)往往靠人工固定模板,导致在不同项目规模与任务类型下效率不稳且容易陷入沟通开销。作者想让“协作网络”能够自我演化,根据任务反馈动态调整协作拓扑与角色分配。
这篇论文要解决的是:现有 LLM 推理评测多是静态题目或可离线验证的环境,难覆盖实时交互、长时序决策与噪声反馈下的推理与规划能力。作者提出用“实时电脑游戏”作为评测场,逼迫模型在动态环境里持续感知-推理-行动。
这篇论文要解决的是:当训练数据被“受控注入”(controlled training data,例如特定机构插入的水印样本、定向污染或版权诱饵)时,如何在统计意义上检测这些样本或检测模型是否见过它们。以往很多检测依赖启发式规则或需要访问训练日志/数据源,而现实中往往只能做黑盒或半黑盒审计。
这篇工作关注的是:神经定理证明器在长上下文下为什么会明显退化,以及怎样让模型真正利用长证明状态而不是只在短局部里做模式匹配。以往很多神经证明工作默认短上下文、固定检索窗口,或者把外部证明状态压缩成少量启发式特征,因此问题被部分回避;但随着用 LM 直接做交互式证明变得可行,长上下文建模已经成为瓶颈。
这篇工作直指一个常被默认回避的问题:没有实例级模态对齐时,模型能否学到跨模态泛化,尤其是推广到训练中未见模态。主流多模态方法高度依赖图文对、音文对这类成对监督,因此一旦缺少精确对应,模型通常只能学到弱共享表示或直接退化为各模态分头训练。
这篇工作讨论的是参数高效微调里的一个老问题:LoRA 类低秩更新省参数但表达力受限,稀疏更新更灵活但训练和部署不稳定,怎样把两者结合起来而不过度增加复杂度。过去很多方法在固定 rank 或固定稀疏模式下工作,导致不同层、不同阶段所需更新容量不匹配。
这篇工作要解决的是:LLM 接入外部上下文后,并不会天然忠实于这些上下文,反而常在‘该信时不信、不该补时乱补’之间摇摆。过去很多 RAG 或 grounded generation 工作把问题简化为检索是否命中,但真正更难的是模型在有上下文时如何决定信任、引用和覆盖自身先验知识。
这篇工作研究的是 CLIP 类对比式图文预训练中的一个安全问题:如何检测被植入后门的训练样本。以往多关注训练后模型的后门攻击效果或鲁棒防御,但如果能在数据层发现恶意样本,代价通常更低,也更符合大规模预训练的数据治理现实。
这篇工作研究的是 in-context learning 一个很具体也很关键的问题:Transformer 为什么有时学不会看起来简单的线性模型,以及任务描述能否帮助它形成正确的归纳偏置。过去关于 ICL 学习线性回归的工作通常默认只给示例对,不给显式 task descriptor,因此模型需要同时从样本和隐含任务设定里反推规则,这会增加学习难度。
LLM 经过少量有害数据微调后安全对齐会被破坏(harmful fine-tuning 攻击),现有防御方法要么牺牲模型性能,要么防御效果有限。问题在于如何在微调过程中既保持下游任务能力,又抵御有害扰动对安全对齐的侵蚀。
机器遗忘(machine unlearning)被提出用于满足数据删除请求(如 GDPR),但现有遗忘方法在面对对抗性遗忘请求时极其脆弱——攻击者可以精心构造删除请求,使模型在执行遗忘后整体准确率大幅下降。这个安全漏洞此前未被充分研究。
LLM 的安全对齐可以通过教模型一个简单的双射映射(bijection,如字母替换密码)来绕过——模型学会映射后,就能在编码空间中回答任何被禁止的问题,产生无穷无尽的越狱攻击。现有安全训练无法防御这类攻击,因为映射空间是无限的。
LLM 的能力(如推理、代码生成)在模型参数中是如何分布的?以往的知识定位(knowledge localization)研究聚焦于单条事实知识的定位,但能力(capability)是比单条知识更高层次的概念。本文探索能力是否也可以被定位到特定的参数子集。
RLHF 中的 reward model 存在长度偏差(length bias)——倾向于给更长的回复更高分数,导致 RL 训练后模型输出冗长。现有方法要么重新训练 reward model,要么在 RL 中加长度惩罚,但都不够精确。本文提出一种事后校准(post-hoc calibration)方法来消除 reward model 的长度偏差。
这篇论文要解决的是:LLM 的“情节记忆(episodic memory)”能力缺少可复现的生成与评测基准,导致相关方法要么用零散的合成任务,要么用主观评测,难以比较。作者把问题聚焦在“生成可检验的记忆痕迹,并评估其检索、保持与干扰鲁棒性”。
这篇论文要解决的是:大视觉语言模型在生成时容易把不确定的视觉细节“编出来”,而传统做法要么依赖外部检索/工具,要么用更强对齐数据硬压幻觉,但都成本高且不一定覆盖长尾。作者把问题定位为“解码阶段如何让模型对自身不确定性更敏感”。
这篇论文要解决的是:知识蒸馏里“弱到强泛化”(学生在某些分布上超过老师)何时会发生、随维度与数据规模如何缩放,缺少可解释的高维理论。作者把问题放在可分析的高维设定下,试图给出蒸馏的 scaling law 与相变条件。
这篇工作要解决的是:如何给“表征对齐”建立可分析的学习理论,而不是只把它当作经验上好用但难解释的现象。过去无论是多视角学习、蒸馏还是自监督中的对齐,很多结果都停留在算法层面,缺少对何时可对齐、对齐到什么程度、代价是什么的统一刻画;这使得方法迁移到大规模预训练时往往依赖试错。
这篇工作要解决的是:局部损失优化在无限宽极限下是否能稳定训练,以及 predictive coding networks 和 target propagation 这类替代反向传播的方法究竟受什么参数化影响。过去这类方法常被认为生物上更合理或并行性更好,但训练不稳、尺度不对和理论不清是长期问题。
这篇工作要解决的是:如何系统地发现数据中的“新意”而不是重复采样已有模式。生成模型和主动探索过去更擅长覆盖高概率区域,但在数据发现、开放世界学习和持续预训练里,真正有价值的往往是分布边缘的新模式,而这类样本最容易被标准似然目标忽略。
这篇工作要解决的是:深度神经网络为什么能在高维问题上避免传统意义上的维度灾难,尤其当目标函数具有组合结构和对称性时。过去很多经验结果表明 DNN 在高维输入上表现远好于一般函数逼近理论的最坏情形,但缺少足够统一的解释框架。
这篇工作要解决的是:现有单元测试生成 benchmark 与真实软件工程场景脱节,导致模型看起来会写测试,但在真实仓库里的 test generation 和 test completion 仍然不可靠。过去很多评测只看短函数、干净上下文和人工构造任务,回避了依赖、上下文噪声和项目级约束。
这篇工作要解决的是:视觉自回归模型生成速度慢,标准 speculative decoding 又未必直接适配图像 token 生成。AR 图像模型近年因统一建模和离散 token 化重新受到关注,但推理延迟一直是它相对 diffusion 的明显短板。
这篇工作要解决的是“电影级长视频理解”里角色/物体跨镜头一致性难以维持的问题,而以往 VLM 往往把每帧/每段当作独立图文对齐来做,导致身份(ID)信息在长时序里漂移。
这篇工作要解决的是“优化式 jailbreak(基于梯度/搜索的自动越狱)”在不同 LLM 与不同安全对齐策略下不稳定、复现性差的问题,而以往很多攻击技巧更像经验配方,难以系统比较与改进。
这篇工作要解决的是语言奖励模型(LRM/RM)“为什么给这个分数”难以解释的问题,而现有做法多停留在相关性可视化或事后归因,难以形成可对比、可验证的解释。
这篇工作要解决的是 RLHF/交互式对齐里“人类纠错动作不完美、奖励是代理信号”时 RL 训练会偏离真实目标的问题,而很多现有 RL 方法默认奖励可靠或纠错动作近似最优。
这篇工作要解决的是 VLM 幻觉(hallucination)在表征层面难以定位与可控编辑的问题,而很多现有方法只在解码或训练数据层面做抑制,缺少可解释的“哪里错了、怎么改”。
这篇工作要解决的是“图像级记忆(memorization)”在生成/表征模型中难以检测的问题,而传统 membership inference 往往依赖训练损失或输出置信度,在扩散/生成设定下信号更弱。
这篇工作要解决的是下游数据集裁剪(dataset pruning)常靠启发式分数或昂贵的训练-验证循环,缺少对“学习复杂度(learning complexity)”与可删样本之间关系的可操作刻画。
这篇工作要解决的是领域自适应时模型既要学到新领域知识又要对齐输出格式(format)的问题,而很多做法把两者混在同一次训练里,导致要么学不到知识、要么格式对齐牺牲内容正确性。
这篇工作要解决的是:能否让 LLM 从零学习“什么是一个优化问题”以及“如何把它求解”,而不是只在固定 benchmark 上套模板做数学/代码生成。过去 LLM 做优化大多依赖手工定义问题形式、外部求解器接口或少量任务内提示,因此看起来会解题,但并没有学会统一表示约束、目标和算法选择。
这篇工作要解决的是:如何把 EEG 信号和语言统一到一个 foundation model 里,而不是把 EEG 仅当成小样本生理序列做任务专用分类。过去脑电建模通常被数据量小、标注稀缺和跨被试差异拖住,因此模型很难同时支持解码、检索、分类和语言相关任务;这篇论文试图把 EEG 放进类似 LM 的多任务预训练框架中。
这篇工作要解决的是:在异构硬件环境里,LLM 生成推理如何做真正高效的解耦执行,而不是把预填充、解码、KV 管理等阶段硬绑在同一种设备和同一调度策略上。过去 serving 系统虽然会做张量并行、流水并行和 offloading,但在 heterogeneous environment 下常常因为阶段特性不同而资源错配,导致吞吐和时延都吃亏。
这篇工作要解决的是:深层网络里表征在层间到底如何演化,层与层过于相似时会带来什么问题,以及能否显式改善这种 progression。过去很多分析只在训练后看 representation collapse 或 CKA 相似性,但对“相似性何时有害、如何干预层间冗余”通常停留在观察层面。
Task Arithmetic(通过任务向量的加减来合并多个微调模型)在实践中效果不稳定,根本原因是微调后的权重矩阵中不同任务的参数纠缠在一起,导致向量运算时互相干扰。之前的方法要么靠正则化约束、要么靠额外训练来缓解,没有从架构层面找到纠缠的根源。
新视角合成(Novel View Synthesis)传统上严重依赖 3D 归纳偏置(如 epipolar geometry、3D volume rendering),这限制了模型的泛化能力和架构灵活性。问题是:能否用一个几乎不含 3D 先验的纯 Transformer 模型来做高质量视角合成?
现有 LLM agent benchmark 主要测试代码生成或简单工具调用,缺少对端到端数据科学工作流(数据清洗、EDA、建模、可视化、报告)的系统评估。DSBench 填补这个空白,评估 LLM agent 离真正的数据科学专家还有多远。
深层 Transformer 存在 rank collapse 问题——随着层数增加,token 表示趋向于坍缩到低秩子空间,导致表达能力退化。已有的残差连接能缓解但不能根治。这篇工作找到了一种架构组件来防止 rank collapse。
Weight space learning(直接在模型权重空间上做学习,如预测模型性能、生成模型权重)需要一种好的权重表示方法。已有方法要么把权重展平成向量(丢失结构信息),要么用复杂的图网络(计算昂贵)。如何高效地从权重中提取有意义的特征?
如何量化单个数据样本对模型训练的信息贡献?已有的数据影响度量(如 influence functions、Shapley value)要么计算成本高,要么缺乏贝叶斯理论基础。需要一个既有理论支撑又可计算的数据信息量度量。
这篇论文要解释并统一刻画深度网络训练中“sharpness(曲率/尖锐度)如何随训练演化”,尤其是 edge-of-stability(临界稳定边缘)附近为何会出现震荡甚至混沌,而以往工作多停留在经验观察或只在特定优化器/模型上给出现象描述。作者认为如果不把 sharpness 动力学写成可分析的系统,就很难预测何时会 loss spike、何时会进入不稳定区,以及学习率/动量/权重衰减该如何调到“既快又稳”。
这篇论文指出并分析大多模态模型里的一个失败模式:模型的视觉注意力会“沉到”某些无关或高频区域(visual attention sink),导致即使文本提示正确,视觉证据也没被有效利用,而以往更多把错误归因于对齐数据不足或解码策略。作者把问题具体化为“注意力分配机制在视觉 token 上的系统性偏置”。
这篇论文解决持续学习(continual learning)里“回放依赖”的老问题:很多方法需要存旧数据或生成回放样本来防遗忘,但在隐私、存储或版权约束下不可行。作者聚焦在 prompt-based 方法,目标是在不回放的前提下仍能跨任务泛化并控制遗忘。
这篇论文揭示音频-语言模型(Audio-LM / audio-LLM)的一类新攻击面:通过“隐蔽的对抗音频扰动”实现越狱,使模型在听起来几乎不变的音频下输出受限内容,而现有防护多沿用文本侧的过滤与对抗训练,未系统覆盖音频离散化与声学扰动空间。作者把问题定义为“针对音频输入通道的 stealth jailbreak”。
这篇工作要解决的是:程序合成里离散、层级化、强语法约束的输出结构,如何用 diffusion 而不是标准自回归来建模。过去这类任务大多交给 token-level AR 模型处理,因为实现直接、训练稳定;但 AR 对全局结构约束处理偏被动,生成非法程序后很难在后续 token 上补救。
这篇工作关注的是:能否用自动化流程而不是人工评测,系统评估 LLM 在 truth maintenance 和推理任务上的可靠性。这个问题以前常被 benchmark accuracy 粗略代理,但 truth maintenance 更关心模型在知识更新、矛盾修正和多步一致性上的行为,这类能力很难用一次性问答分数看清。
这篇工作要回答的是:神经网络训练到底还能怎样系统性加速,以及 AlgoPerf 竞赛暴露出的有效技巧是否可迁移、可复现。这个问题重要是因为训练加速论文很多,但常常建立在特定硬件、特定模型或不公平调参预算上,真正可落地的经验并不容易沉淀。
这篇工作试图回答:LLM 的关键行为到底更多由 attention 决定,还是由 activation / MLP 通道决定。过去很多解释工作把注意力头当成主要分析对象,因为可视化直观;但随着机制研究深入,越来越多现象显示真正存储特征、执行变换的部分常常在 MLP 和 residual stream 里。
这篇工作关注 RLHF 里的一个核心但常被简化的问题:奖励状态往往是部分可观测的,训练时拿到的 preference / reward 信号并不完整,也不一定对应真实人类偏好状态。很多 RLHF 理论把奖励当成静态、充分可见的标量,但现实中偏好依赖隐藏上下文、标注者状态和未显式写出的约束。
这篇工作要解决的是:如何在大规模场景下做 data valuation,而且尽量不依赖具体学习算法。传统数据价值评估方法如 influence functions、Shapley 近似或逐点删样重训,要么太贵,要么强依赖模型/优化器,难以用于真实预训练数据管线。
在无法获取真实训练数据(如隐私限制)的情况下进行零样本量化(ZSQ),通常依赖生成合成数据来校准模型。但合成数据往往存在噪声、偏离目标分布,且硬标签(hard labels)容易产生误导,导致量化精度下降。
为文生图模型(如 Stable Diffusion)编写高质量 prompt 通常需要大量试错。现有的 prompt inversion 技术(从图像反推 prompt,包括软提示和硬提示)往往缺乏可解释性,或者生成的文本不连贯。
核心问题是探明LLM生成不同政治立场文本的内部表示机制。此前研究多聚焦输出层的立场检测,未探究激活空间中政治立场的结构化编码规律。
核心问题是提升PEFT方法在多相关任务上的泛化性能。现有PEFT多采用任务独立微调,未利用多任务间共享信息,元学习类方法在PEFT场景泛化到未见任务的性能不足。
这篇工作要解决的是:VLM 在分布外检测(OoDD)上容易“看起来很自信但其实错”,而现有做法要么依赖额外标注/外部概念库,要么用固定提示词导致对具体图像不够自适应。作者把问题聚焦在“如何让模型自己为当前图像生成可用于自检的概念”,从而提升 OoD 场景下的可校验性。
这篇工作要解决的是:生成式模型在隐私泄露(记忆训练样本)与公平性偏差上常被分开处理,导致一个方向的修补可能恶化另一个方向。作者提出一个同时带隐私与公平 safeguard 的生成框架。
这篇工作要解决的是:LLM 生成通常只有“高概率”而没有“保证”,在需要满足硬约束(格式、语法、安全规则、逻辑约束)的场景里,纯采样/解码很难给出可验证的正确性。作者提出一种“有保证的生成”框架。
这篇工作要解决的是:表征相似性(representational similarity)度量很多,但不同度量在不同设置下会给出相互矛盾的结论,导致“模型表征是否相似”的讨论缺乏可复现的比较基准。作者提出 ReSi:一个系统评测表征相似性度量的基准。
这篇工作关注的是:能否不用人工写奖励或技能模板,而是直接用 AI 反馈来自动设计可复用技能。过去层级强化学习里“技能”通常靠启发式定义、人工分解任务,或者先学无监督 option,再事后看是否有用;这些办法要么成本高,要么学到的技能和下游目标脱节,所以现在重新做这件事的价值在于把反馈信号直接接到技能构造上。
这篇工作讨论的是:LLM 能否通过合适训练变成有效的“自我去毒化器”,也就是自己识别并改写有害生成,而不是依赖外部分类器或硬过滤。过去 detoxification 常用额外安全模型、拒答规则或 decoding-time 屏蔽,这些方案部署复杂,而且经常牺牲帮助性与流畅性。
这篇工作要解决的是:图结构数据和自然语言能否被一个统一的生成模型共同建模,而不是 graph encoder 和 text decoder 各管一段。过去图学习与语言建模大多是双塔或任务特定设计,导致表示不统一、迁移困难,也限制了图数据进入通用生成模型的方式。
核心问题是缺少标准化的LLM暗设计模式评测基准。此前LLM安全评估多聚焦输入诱导的有害生成、偏见等维度,无法系统量化模型内置的操纵性行为。
核心问题是验证对齐后的LLM的安全拒绝能力在浏览器代理场景的泛化性。此前LLM对齐训练多在聊天场景开展,未验证具身代理场景的安全性能,无法保证LLM代理拒绝有害指令的能力。
核心问题是提升形式化定理证明LLM的跨领域泛化能力。现有方法多在静态数据集上训练,无法泛化到高阶数学领域,存在灾难性遗忘问题,不符合数学家跨多领域循环工作的模式。
核心问题是平衡LLM PII保护与模型效用的tradeoff。现有LLM PII保护方法要么效用下降过多,要么隐私保护不足,无法满足落地要求。
核心问题是解决LLM多技能获取训练的分布不平衡与目标对齐问题。现有训练方法存在数据分布不平衡,目标函数和任务性能对齐不足,多技能均衡性能差。
核心问题是平衡Transformer的性能与可解释性的tradeoff。现有可解释性方法要么需要大量人工分析,要么可解释模型表达能力不足,性能损失过大。
这篇论文要解决的是:在 RL/对齐里“reward hacking”经常被含糊地归因于“代理指标(proxy)不完美”,但缺少一个能区分“可接受的相关性”与“会诱发投机行为的相关性结构”的可操作定义,导致缓解方法要么过强(压制有效学习)要么过弱(挡不住投机)。现有做法多用经验性惩罚项或更强监督来“压住”漏洞,但没有解释为什么同样的 proxy 在一些环境安全、在另一些环境会被系统性利用。
这篇论文要解决的是:LLM 推理加速的动态剪枝往往依赖启发式重要性分数(如 attention/MLP 激活幅度),在不同输入分布下不稳定,且容易破坏质量。以往做法要么静态剪枝(一次性裁掉结构,泛化差),要么动态但缺少“对当前输入到底能剪多少”的可靠判据。
这篇论文要解决的是:prefix-tuning/soft prompt 的效果高度依赖参数化方式与初始化,很多时候同等参数量下表现波动大,导致它在工程上不如 LoRA 稳定。过去大家把提示向量当作“可训练 token embedding”,但很少从统计角度解释为什么某些重参数化更容易优化、更不易过拟合。
这篇论文要解决的是:模型合并(model merging)在把多个微调模型融合时常出现参数干扰(interference),表现为合并后在各自任务上掉点或出现不可预测退化,而简单的权重平均/线性合并无法控制这种干扰。过去的缓解多靠挑选合并系数或做少量再训练,但缺少针对“合并后落在尖锐极小值附近更脆弱”的直接处理。
这篇工作要解决的是:安全 guard model 的知识蒸馏效果往往受限于有害样本覆盖不足,尤其是危险边界附近的 hard negative 和改写变体不够多,导致小模型学到的安全判别面很脆。过去蒸馏通常依赖原始安全数据集直接压缩教师输出,但如果输入分布本身单薄,学生模型只会复现教师在窄分布上的行为。
RAG系统现有接地验证方案存在明显trade-off:用大模型二次prompt校验成本过高,用预训练NLI模型做轻量校验则在真实RAG输入上效果不佳,原因是RAG输入比通用NLI训练数据复杂度更高,且带有对应知识库的专属特征。
基于扩散模型的随机平滑抗扰动方案仅在小扰动半径下效果好,大扰动场景下性能下降明显,且推理多步采样的计算开销远高于传统方法,无法满足安全敏感场景的低延迟需求。
多模态大模型实现GUI agent的核心瓶颈是GUI元素定位精度低、跨平台泛化性差,现有方案缺少大规模标注的GUI预训练数据,且定位模块与MLLM的融合效率低。
现有LLM生成文本检测方案仅支持整段文本的二分类,无法处理真实场景下人类与LLM生成内容混合的细粒度片段检测需求,无法支撑版权保护、学术诚信等场景的实际需求。
标准Transformer注意力机制会为上下文内的无用元素分配权重,既降低模型性能,又增加推理时的显存与计算开销;现有稀疏注意力方案大多需要引入额外参数或修改训练流程,接入成本高。
持续学习场景下神经网络会出现可塑性损失,训练难度随学习进程升高;现有持续学习方案无法很好地同时维持模型可训练性与任务性能。
这篇论文要回答的是:在知识图谱(KG)驱动的 RAG 里,“图结构推理”和“LLM 文本推理”各自到底贡献了什么,过去常把两者混在一起做复杂系统,导致收益来源不清、工程也难复现。作者试图把 KG-RAG 拆成可对照的最小组件,判断哪些复杂设计其实是冗余的。
这篇论文要解决的是:LLM 的公平性去偏常依赖相关性层面的数据再平衡或对抗训练,容易在分布变化或隐含混杂因素存在时失效。作者希望把因果视角引入 prompt 层面的干预,让去偏更可解释、也更可控。
这篇论文要解决的是:扩散模型做 4-bit 量化时,少量 outlier 通道/权重会主导量化误差,导致采样质量显著下降,传统做法要么提高 bit-width 要么做复杂的逐层校准。作者希望在保持 4-bit 的前提下“吸收”outlier 的影响。
这篇论文要解决的是:知识密集型推理任务里,RAG 往往把检索到的证据以“扁平文本”塞给 LLM,导致信息冗余、结构关系丢失,推理时容易走偏。作者希望在不改模型参数的前提下,通过推理时的信息结构化提升推理质量。
这篇工作要解决的是:自回归图像生成模型如何像 diffusion 模型那样做细粒度可控生成,而不是只擅长无条件或弱条件采样。过去可控图像生成几乎被 diffusion 主导,因为它天然支持通过噪声迭代注入条件;AR 图像模型虽然在统一建模和 token likelihood 上有优势,但做空间级、结构级控制通常不够自然。
这篇工作解决的是检索系统里一个很实际但常被简化的问题:文档通常有多个字段,查询对不同字段的依赖并不固定,统一编码或固定加权会丢失关键信号。以往很多 retrieval 方法要么把标题、正文、元数据直接拼接,要么为每个字段单独建模但在打分时采用静态聚合,这两种方式都难以处理查询意图随样本变化的情况。
这篇工作解决的是合成数据生成里的一个关键低效点:常规 LLM 数据合成往往围绕模型已经会做的模式打转,难以主动探索失败区域,因此生成的数据多而不尖锐。过去的数据合成多依赖启发式多样性或人工模板,但真正能推动模型进步的,通常是那些暴露系统性失败的样本。
这篇工作要解决的是:单个低秩适配器(LoRA/类似方法)表达力有限,但直接训练多个完整专家代价又太高,能否用低秩专家集成在参数效率和性能之间取得更好的折中。过去 PEFT 往往依赖单适配器或简单 task arithmetic,面对多分布、多风格或复杂任务时容易容量不足。
Transformer常用的Adam优化器逻辑复杂,难以开展理论分析;SignGD作为Adam的有效简化替代,现有研究对其优化Transformer的训练动态与泛化机制的理解仍然缺失。
现有对齐研究主要针对纯文本LLM的谄媚(sycophancy)问题,缺少VLM场景下的谄媚行为评估基准与缓解方案,VLM的谄媚 hallucination会导致多模态任务的输出错误。
工业界普遍默认RLHF可提升LLM可信度,但该假设缺乏多维度严谨验证,现有评估多局限于单一场景或窄指标,无法反映RLHF对可信度的全局影响。
判别式分类器容易学习分布内的虚假关联特征(捷径),微小分布偏移下性能骤降,现有解决方案都依赖额外正则、数据增强或先验的虚假关联知识,落地成本高。
这篇论文要解决的是:多模态 LLM 在“关联式链接”(link/association)驱动的推理与检索中容易迷路,导致跨模态引用、指代与证据链不稳定,但现有评测往往把问题简化成单跳 VQA 或静态 caption 对齐而掩盖了失败模式。由于多模态系统越来越依赖工具/检索/多轮对话来维持上下文一致性,这类“链接迷宫”式错误开始成为真实产品的主要故障源。
这篇论文要解决的是:越狱(jailbreak)提示的生成往往对特定模型过拟合,换一个目标模型或换一套安全对齐策略就失效,而现有做法多靠手工模板或对单模型做梯度/搜索。随着模型供应链变复杂(不同厂商、不同对齐版本、不同系统提示),需要“一个攻击生成器迁移到多模型”的鲁棒越狱生成方法来做安全评测。
这篇论文要解决的是:多模态 RAG 在真实交互里需要“边问边检索边规划”,但现有评测多用静态 VQA 或固定检索库,难以暴露动态场景下的检索失败与规划失配。作者提出动态 VQA 数据集与自适应规划代理,用来系统评测多模态 RAG 的端到端能力。
这篇论文要解决的是:压缩后的 LLM(量化/剪枝/蒸馏)在移动端的真实可用性缺少系统、可复现的评测,导致研究只看离线困惑度或少量任务分数而忽略端侧延迟、内存与能耗约束。作者提出 Palmbench,试图把“模型质量-端侧成本”的评测闭环补齐。
这篇论文要解决的是:RAG 系统的检索与生成通常分开优化,检索器用静态相关性训练,生成器用监督或偏好训练,导致端到端目标(回答质量)无法把梯度/信用分配传回“该检索什么数据”。作者提出 RAG-DDR,用可微的数据奖励(differentiable data rewards)把“检索到的数据好不好”变成可优化信号。
这篇工作要解释一个更基础的问题:标准梯度下降为什么会系统性学到脆弱特征,而不是更稳健的判别规律。过去关于非鲁棒性的解释多停留在数据中存在“捷径特征”或模型会利用高频信号,但对优化本身的隐式偏置讲得不够清楚;这篇论文把焦点放到梯度下降会驱动特征平均化,从而削弱对细粒度、少数但稳健特征的利用。
这篇工作要解决的是 LLM 置信度校准差的问题,而且不是只做后处理温度缩放,而是希望把“不确定性有多大”建模得更有语义。现有 LLM 常把错误答案说得很确定,尤其在分布外、模糊问题或知识缺失场景下更明显;传统概率校准对生成模型和开放式输出又不够直接。
这篇工作要解决的是现有视觉语言模型在图表/示意图分析上缺细节推理能力。很多 VLM 对自然图像描述够用,但面对流程图、电路图、坐标图这类信息密集且关系依赖局部区域细节的输入时,常因为分辨率不足、区域定位弱或只做全局 captioning 而失败。
这篇工作要解决的是程序化材质生成长期依赖专业图形知识和手工工作流的问题,希望用大型视觉语言模型把自然语言、参考图像和材质结构之间的映射学出来。过去材质生成要么靠参数化规则,控制强但门槛高;要么靠纯生成模型,图像好看但难编辑、难保证物理一致和可复用。
多智能体系统中,如何让一个中心规划器根据任务需求动态分配和协调多个专长不同的 agent,是当前 LLM-based multi-agent 框架的核心难题。已有方法多依赖手工设计的流程或固定拓扑,缺乏灵活的任务分解与 agent 选择机制。
UI 理解模型需要跨平台(手机、桌面、网页等)泛化,但现有方法通常只针对单一平台训练,难以统一处理不同平台的 UI 元素和交互模式。Ferret-UI 2 旨在构建一个通用的多平台 UI 理解多模态模型。
LLM 的 1-bit 二值化(binarization)能极大压缩模型体积和加速推理,但精度损失通常很大。现有二值化方法要么精度太差,要么需要复杂的训练流程。ARB-LLM 提出一种交替精炼的二值化策略来改善这个 trade-off。
这篇论文要回答的是:多模态大模型在“看起来安全/无害”的查询上是否会出现异常的过敏反应(oversensitive),从而导致不必要的拒答或性能退化,而以往安全评测更关注“危险请求能否拦住”,较少系统刻画“安全请求被误伤”的分布与机制。
这篇论文解决的是:用 task vector(任务向量)做模型编辑在什么条件下“可证明地有效”,因为现实中 task vector 往往在某些任务/层上有效、换任务就失灵,而以往解释多停留在经验观察或线性近似。
这篇论文研究的是:在 in-context learning 做线性回归时,Transformer 能否处理“内生性(endogeneity)”——即特征与噪声相关导致 OLS 偏差——而以往 ICL 线性回归分析多默认外生性成立。
这篇论文解决的是:注意力矩阵剪枝常用线性近似或启发式稀疏化,但在真实 Transformer 中注意力是强非线性的,线性近似会在长上下文或分布变化时失效。
这篇论文要解决的是:通用 Web agent 可能在“环境被注入恶意内容”的情况下发生隐私泄露,而以往更多关注 prompt injection 或工具调用权限,较少系统化分析“网页环境本身作为攻击面”的注入。
这篇工作解决的是:LLM 在决策任务中的能力,不只取决于基础模型本身,也取决于测试时能否进行有效搜索与自我改进。过去常见做法是直接 prompting、self-refine 或单层 tree search,但这些方法要么搜索浅、要么不能把搜索结果沉淀成更好的后续决策策略。
这篇工作关注的是代码任务上的 LLM inference scaling:当我们愿意在测试时花更多算力时,怎样搜索代码空间比单纯多采样更聪明。过去很多方法把 test-time compute 近似成‘多生成几次再投票’,但在代码问题上,候选程序之间有强结构约束,只靠自然语言级的采样往往浪费预算。
这篇工作要解决的是 jailbreak 攻击的 transferability:为什么一些越狱提示能跨模型、跨对齐版本复用,以及怎样系统性增强这种迁移性。过去很多攻击是在单模型上做白盒或半白盒优化,实际风险却更多来自可迁移攻击,因为攻击者通常拿不到目标系统梯度和内部提示。
这篇工作解决的是 LLM benchmark 与真实用户需求脱节的问题:现有评测集往往题目干净、格式固定、可被数据污染,而真实用户请求是开放、混杂、带上下文和工具依赖的。以前大家也知道 benchmark 饱和,但缺少一个系统收集‘真实世界高难请求’并可稳定评测的基准。
这篇工作研究的是 LLM 压缩里一个很实际的问题:怎样在尽量少损失能力的前提下,把大模型拆解成更小、更可部署的模块。传统压缩多依赖剪枝、量化、蒸馏或低秩分解,但这些方法常在统一压缩率下牺牲掉模型中不均匀的重要子结构,尤其对不同功能子空间的影响不一样。
现有多模态大模型(MLLM)只能理解纯文本指令,无法识别用户标注在图像上的视觉提示(点、框、自由形状),无法实现细粒度交互式图像理解,现有方法多针对特定类型视觉提示,适配性差。
现有图像到图像生成模型只能支持单种或少数几种任务,无法通过开放语言指令统一实现所有像素级图像操作,现有方案需要针对每个任务单独微调模型,复用性差。
现有基于Shapley值的数据估值方法计算成本过高,需要大量模型训练,而数据选择等实际场景只需要找到估值最高的m个样本,不需要精确计算所有样本的Shapley值,现有多臂老虎机类top-m识别方法没有利用数据特征预测估值,效率低。
现有LM Agent的迭代反思方法容易产生重复反思,决策空间探索不足,同时无法复用之前解决过的任务的经验,现有方法都针对单个任务单独运行,没有跨任务记忆模块。
这篇论文要解决的是:LLM 推理时容易陷入“mental set”(固定解题套路)导致系统性错误,而单次 CoT 或单一 self-consistency 往往只是在同一套路里采样。过去多用温度采样或多数投票来增加多样性,但如果多样性只发生在表面措辞而不是解题策略,投票并不能纠错。
这篇论文要解决的是:当上下文由多个“可交换的片段”组成时,标准 Transformer 对顺序敏感会引入不必要的排列偏差,导致组合泛化差。过去通常靠数据增强(打乱顺序训练)或显式 pooling 来做近似不变性,但这会牺牲表达力或训练效率,且对长上下文不友好。
这篇论文要解决的是:把 ICL(in-context learning)看作一种“密度估计/后验更新”过程时,模型在上下文中的表示轨迹到底在几何上做了什么,而现有解释多停留在经验现象。过去关于 ICL 的理论要么过度简化为线性回归,要么只给出功能等价结论,缺少对“轨迹形状、收敛方向、何时像贝叶斯更新”的可检验几何描述。
这篇论文要解决的是:现有多模态大模型在处理高分辨率和长视频时,经常因为 token 数爆炸而不得不强行下采样,结果丢掉真正关键的空间细节和时间线索。过去的折中方案通常是在固定分辨率、固定帧采样或区域裁剪里做选择,但这些都是预先写死的,无法按问题难度动态分配计算。
这篇论文要解决的是:当前 rationalization 研究常把“解释”做成和标签高度互信息的短文本或证据片段,但高 MMI 并不等于模型真的用了输入中的正确信息。过去很多方法默认只要 explanation 能预测标签、或和标签强相关,就算解释有效;这回避了一个更根本的问题:解释是否忠实反映了模型输入利用方式。
这篇论文要解决的是:agent alignment 往往需要在线交互才能学到真实偏好和约束,但纯在线 RL 成本高、风险大,纯离线方法又受限于静态数据分布,难以纠偏。过去常见做法是在离线偏好数据上训练奖励模型再做 RL,或者直接在线优化,但两者都没很好利用“先在线探索、再离线稳态提升”的结合。
这篇论文要解决的是:LLM 在决策问题里经常被拿来做规划或推理,但面对显式不确定性时,语言模型往往缺少稳定的概率表示、价值权衡和风险敏感决策机制。过去很多工作把 LLM 当作 world model 或 planner 使用,却默认环境近似确定,或者只让模型 verbalize uncertainty,而没有把不确定性真正纳入决策闭环。
这篇论文要解决的是:LLM watermarking 常从统计检验角度评估可检测性,但真实使用场景里,用户未必有长文本样本或检测器,只能通过 crafted prompts 和交互体验来猜模型是否被水印化。过去大量工作关注“算法上能不能检测”,较少问“人能不能察觉,以及哪些提示会暴露水印副作用”。
现有量化感知训练(QAT)方法直接应用到多任务协同训练场景时会出现严重性能下降,原因是现有QAT的激活量化尺度不匹配多任务共享特征的分布,现有QAT方法都针对单任务设计,未考虑多任务分布差异。
现有语音预训练方法要么针对判别式任务(ASR等),要么针对生成式任务(TTS等),无法用同一个模型同时支持两类任务,现有语音基础模型需要针对不同类型的任务单独训练,复用性差。
这篇论文要解决的是:现有 VLM 在“文字密集、布局强约束”的网页/应用 UI 场景理解明显掉队,因为它们通常把 UI 当自然图像处理,忽略了可解析的结构与可读文本带来的强监督信号。
这篇论文要解决的是:LLM 的“关系推理/类认知能力”评测长期被零散任务与不可控数据分布主导,导致很难检验具体认知假设(例如组合性、关系绑定、干扰效应)到底是否成立。
这篇论文要解决的是:长上下文理解的主要失败模式之一是跨段落指代链断裂(coreference),而现有做法要么靠更长上下文硬堆、要么靠检索切片,仍会在实体追踪上丢信息。
这篇工作要解决的是:标准 MLP 用固定激活叠加线性层来逼近复杂函数时,表达是足够的,但参数利用率、可解释性和小样本拟合效率往往不理想。过去大家通常通过加深加宽网络来绕开这个问题,而不是直接改写神经元的参数化形式;KAN 重新回到函数表示本身,用可学习的一维函数替代标量权重。
这篇工作要解决的是:Verilog 理解和生成通常被拆成两个任务做,导致模型既不真正理解硬件语义,也难在生成时保持语法和依赖一致性。过去做法要么把 RTL 当普通代码处理,要么为特定子任务定制模型;作者试图用统一表示把“读”和“写”放进同一个建模框架。
这篇工作要解决的是:强化学习策略如果直接由神经网络参数化,搜索空间大但结构不透明;如果用程序化策略,结构清晰但搜索极难。过去要么依赖手工设计 DSL 和搜索器,要么让 LLM 直接生成程序但稳定性差;作者试图把 LLM 用作启发式,引导程序策略搜索落到可执行、可优化的空间里。
这篇工作要解决的是:大型视觉语言模型的幻觉并不只是解码时说错词,而是内部表征已经偏离了视觉证据。过去很多方法在输出端加规则、拒答或外部检索来缓解,但这往往治标不治本;作者转而在潜空间里直接 steering 模型状态,希望在生成前就把表示拉回到“更看图说话”的方向。
这篇工作要解决的是:现有多模态 benchmark 大多测的是问答或感知能力,但离“能作为视觉基础代理完成多步任务”还有明显距离。很多模型在静态图文问答上看起来很强,一旦需要感知、规划、工具使用和环境反馈闭环,能力评估就失真了;作者因此提出面向 visual foundation agents 的基准。
这篇工作要解决的是:autoformalization 研究里,评价指标常常只看表面匹配,导致模型生成看起来像 formal statement,但并不忠实于原始自然语言数学描述。过去很多方法把问题当作翻译做,忽略了证明依赖和语义保真;作者同时重审评价方式,并提出基于 dependency retrieval 的改进方法。
现有RLHF依赖显式人类偏好标注,用户偏好建模精度不足、标注成本高,缺少成熟的低成本隐式反馈利用路径用于奖励模型训练。
现有LLM受控生成需要满足句法/语义约束,传统概率条件生成方法面对与基础分布差异大的约束时推理不可行,缺少灵活的推理时约束注入方法。
原有Go-Explore强化学习探索算法依赖人工设计启发式规则指导状态选择,泛化性差,无法应用到无人工先验的通用探索场景。
现有图语言模型(GLM)的图生成阶段依赖人工假设的边分布,文本嵌入阶段需要大量标注数据,两个阶段割裂导致泛化性差、标注成本高。
这篇论文要解决的是:如何把“模型文本有多像在复用网页语料”量化成可审计的归因,从而更可信地评估 LLM 的语言创造性;以往常用的 n-gram/困惑度或主观打分很难区分“新颖表达”与“训练语料改写/拼接”。
这篇论文要解决的是:扩散式文本生成模型为什么更容易出现“文本幻觉/不一致”,并试图用一个可分析的局部偏置(local generation bias)来解释,而不是把问题归因于“扩散模型不适合离散文本”这种笼统结论。
这篇论文要解决的是:把 LLM agent 从“被动回答”推进到“主动协助”,即模型应在合适时机主动提出下一步、澄清问题或触发工具,而不是等用户明确指令;现有 agent 往往缺少可训练的主动性目标,导致要么过度打扰要么错过机会。
这篇论文要解决的是:用 LLM 做自回归生成时,如何更好地做“回归”(输出连续数值)而不是把数值当普通文本 token 来猜;过去直接生成数字字符串会导致量纲不敏感、误差分布怪、以及对小数/大数不稳定。
这篇工作要解决的是:在联邦学习场景里,如何把大规模视觉-语言模型做成“个性化”而不是只学一个所有客户端共享的折中模型。过去常见做法要么统一微调整个模型,通信和隐私成本都高;要么只学轻量 prompt,但不同客户端数据分布差异大时容易出现一套 prompt 谁都不够好。
这篇工作要解决的是:多模态大模型在不同输入难度和模态负载下,是否必须总是走固定深度。现有 MLLM 通常在视觉和语言分支上使用静态计算图,这在简单样本上浪费算力,在复杂样本上又未必把预算放在最需要的层。
这篇工作关注的是:如何把互联网视频中学到的知识迁移到新任务上,而不是每来一个任务就从头收集专门标注数据。视频里包含动作、因果、物理过程和长时上下文,但这些知识过去往往只在预训练中被隐式吸收,很少被明确设计成可适配的新任务能力。
这篇工作研究的是:攻击者是否可以仅用 out-of-distribution 数据给视觉-语言模型植入后门,而不依赖与训练分布高度一致的毒化样本。传统后门研究通常默认攻击样本要贴近原分布,这降低了攻击现实性,也低估了开放世界数据管道中的安全风险。
现有零阶优化的两点梯度估计器普遍采用固定长度随机扰动,渐近方差大,估计精度不足,限制了零阶优化在LLM微调、模型编辑等场景的应用。
现有大模型遗忘算法的评测主要针对纯文本LLM,缺少针对多模态VLM的人脸身份遗忘的标准化基准,无法准确评估VLM在"被遗忘权"场景下的遗忘效果。
现有LLM模型编辑方法随着编辑次数增加会严重损害模型的通用能力,缺少量化衡量编辑对原始知识扰动的指标,无法实现低扰动的连续编辑。
现有RAG方法的检索信息深度和完整性不足,无法满足复杂推理任务的需求,结构化知识图谱和非结构化文档的检索是割裂的,效率低。
解决多模态大模型细粒度视觉语言对齐问题。现有代理编码、几何编码类方法需要引入额外语法编码空间信息,增加视觉和语言模块交互的额外开销,在指代、grounding类任务上对齐精度不足。
这篇论文要解决的是:LLM 在“数据驱动发现”(提出可检验假设、设计实验、从数据推断规律)上的评测长期缺少可复现、可量化、能区分“背答案”与“真推断”的基准。
这篇论文要解决的是:从真实世界观测(多视角图像/视频等)重建可关节物体时,直接回归几何与关节参数往往不稳且难以表达拓扑与约束,导致重建结果不可编辑或不一致。
这篇论文要解决的是:注意力层在理论上到底能“必然地”解决哪些函数类问题,尤其是单点定位/单位置回归(single-location regression)这类需要从序列中挑出一个位置并回归其值的任务。
这篇论文要解决的是:语言模型是离散 token 上训练的,但很多现象(插值、连续扰动鲁棒性、embedding 几何)暗示其行为更像连续系统;缺少一个清晰的理论或实证框架来解释这种“隐式连续性”。
这篇论文聚焦一个很基础但长期缺少清晰理论的问题:高维训练里,SGD 加 gradient clipping 到底在什么条件下帮助优化、又在什么条件下反而改坏动力学。以往 clipping 更多被当作工程稳定器使用,实践里常见但理论上多停留在低维、凸设定或粗粒度上界,因此很难回答它为什么在大模型训练中时好时坏。
这篇论文要解决的是推理时计算量固定带来的浪费:简单样本不需要深思,困难样本固定走同样计算路径又不够。过去大家要么靠 early exit 做粗粒度跳层,要么靠 test-time scaling 在所有样本上统一加算力,二者都不够精细。因此作者关注动态计算,让模型按输入难度自适应地决定'想多久'。
现有 VLM 评测集大多只考察单图理解,缺少系统评估多图联合推理能力的 benchmark。多图场景(如跨图比较、时序推理、图组关系)在实际应用中很常见,但此前没有覆盖面足够广、任务类型足够多样的评测集来暴露模型短板。
现有 reward model 训练通常只用单一反馈类型(如 pairwise comparison),但人类反馈实际上有多种形式(评分、排序、二元判断等),如何统一利用多种反馈类型来训练更好的 reward model 是一个被忽视的问题。
LLM 不同层之间的权重相似性缺乏系统的量化方法。此前对模型冗余性(如层剪枝、权重共享)的研究多依赖启发式指标,没有一个统一且有解释力的权重相似度度量来指导模型压缩和架构理解。
Sparse Autoencoder(SAE)作为 LLM 可解释性工具的评估方法存在缺陷——现有评估指标无法区分 SAE 是否真正分解了多义词(polysemous words)的不同语义,还是只是在做表面的统计分解。
LLM 在上下文忠实度(faithfulness to context)方面的评估不够系统——模型是否能在给定上下文与其参数化知识冲突时仍忠实于上下文?此前的评测要么场景单一,要么没有足够极端的反事实设计来真正测试忠实度。
视觉模型的语义评估缺乏好的自动化指标——现有指标(如 FID、CLIP score)要么只衡量分布统计量,要么语义粒度不够细。如何用 LLM 的语义理解能力来评估视觉模型的输出质量是一个新方向。
这篇论文要解决的是:CLIP 这类图文对比学习模型可能存在“模态内错位”(intra-modal misalignment),即同一模态内部的语义结构并没有被对齐得足够好,但这一问题常被跨模态检索指标掩盖。过去评估多聚焦 image↔text 的对齐分数,默认“跨模态对齐好就等价于表示好”,因此很难定位表示退化来自哪里。
这篇论文要解决的是:扩散模型里如何做可扩展的数据归因(data attribution),即判断“某个训练样本对某个生成结果/损失的影响有多大”,而不是停留在小模型或近似很粗的启发式。以往 influence function(影响函数)在大模型上常因 Hessian 相关计算昂贵而难落地,扩散模型又有多步去噪与条件结构,使归因更复杂。
这篇论文要解决的是:用“技能级”(skill-level)的视角理解 foundation model 的能力-成本权衡,而不是只用少数综合榜单分数做粗粒度比较。过去常见问题是:同一个总体分数掩盖了模型在不同技能(检索、算术、指令遵循、鲁棒性等)上的不均衡,导致 pretrain 配方与后训练策略的改动很难被诊断。
这篇论文要解决的是:语言模型“环境影响”评估如何做到全链路与可比,而不是只报训练阶段的电耗或碳排。以往很多报告只覆盖训练 GPU 用电,忽略数据处理、实验迭代、硬件制造、推理部署等环节,导致不同模型/机构之间的数字不可比,也容易把优化方向带偏。
这篇工作要解决的是:用稀疏自编码器做字典学习时,标准 SAE 在大规模特征分解上常常效率不足,尤其当字典很大、激活很稀疏时,训练和路由成本都会上升。作者想提高 dictionary learning 的效率,同时尽量不牺牲可解释性或重建质量。
这篇工作想解决的是:能否用超网络直接生成任务模型或其权重,从而把训练和推理都变快,而不是每个任务都完整优化一次 Transformer。传统做法对每个新数据集单独训练,成本高、冷启动慢,尤其不适合大量小任务或表格/结构化场景的快速建模。
这篇工作要解决的是:指令微调通常强化生成能力,但不一定学到更好的通用表征;而纯表征学习方法又往往牺牲生成接口。作者试图把“会生成”和“有强表征”这两件事统一起来,避免现有 instruction tuning 把模型往过窄的生成行为上推。
这篇工作要解决的是:模型常利用数据里的伪相关性做预测,导致分布外泛化差,而简单的数据清洗或重加权往往抓不准该删什么。作者把重点放在 data pruning:直接移除最会诱导模型学到错误捷径的样本。
解决CLIP类视觉语言模型受固定绝对位置编码限制的输入长度问题。现有模型最多支持77个文本token输入,无法处理长字幕任务,现有扩展方法仅支持固定新长度,长距离token关系建模效果差。
解决文本生成视频(T2V)领域缺少高质量开源数据集的问题。现有WebVid-10M、Panda-70M等数据集规模大但低质视频、低精度短字幕占比高,现有T2V方法无法充分利用文本语义信息,生成视频语义对齐度低。
解决大模型驱动的搜索引擎、插件场景下第三方内容被LLM选择时容易被恶意操纵的问题。现有LLM内容选择逻辑没有考虑对抗性内容注入的风险,会导致搜索结果被恶意篡改。
这篇论文要解决的是:在 MoE/专家模型或多模型融合时,如何“合并专家”而不破坏性能,尤其避免简单参数平均在函数空间里产生的干扰。以往的 merging 往往只看权重几何(如线性插值)或只看梯度相似度,忽略了曲率(Hessian)导致的不同方向敏感度差异。
这篇论文要解决的是:DocVQA 这类文档视觉问答模型是否会在“整份文档”层面泄露训练数据成员信息,以及如何构造有效的 document-level membership inference attack(MIA)。以往 MIA 多在图像分类或文本分类的样本级别讨论,文档场景因为输入是多页/多区域、多模态对齐,攻击面与防御面都更复杂。
这篇论文要解决的是:在真实世界“数据混合”分布下,如何做 any-to-any(跨任务/跨模态/跨格式)更贴近部署的评测,而不是在单一干净基准上刷分。过去评测往往假设测试分布单一且静态,导致模型在混合输入、长尾格式、噪声数据上的退化被低估。
这篇论文要解决的是:为什么 MoE 里会自然出现“专门化专家”,以及什么条件会让某些专家学成紧密簇(tight clusters)从而承担特定子分布。以往对专家专门化的解释多是经验性的(路由器学会分流),但缺少对表示几何与聚类结构的更直接刻画。
这篇论文要解决的是:语言模型做数学题时到底是在执行可泛化的“算法”,还是在拼装一袋启发式(heuristics)来凑答案,以及如何用证据区分两者。过去很多工作用准确率提升来暗示“学会算法”,但在分布外长度、数字范围或格式变化下经常崩溃,说明可能并非真正算法化。
这篇工作的核心问题是:斯堪的纳维亚语言缺少足够大、足够干净、足够开放的网络语料,导致这些语言上的预训练长期受限。过去做小语种模型时,常见做法是直接抓 Common Crawl 或混入高资源语言语料,但这样会带来质量不稳、语言混杂和域覆盖失衡的问题。
解决长卷积序列模型(LCSMs,如Hyena)训练时是次平方复杂度但推理时仍是平方复杂度的问题。现有次平方序列架构仅优化训练速度,未解决推理速度瓶颈,无法适配长序列推理场景。
解决Transformer架构与MLP、CNN的本质差异未被明确的问题。现有研究仅观察到Transformer需要自适应优化器、层归一化、学习率预热等配套训练策略,但不清楚其底层机制,无法从理论层面指导架构优化。
解决Transformer无法内置随机化算法能力的问题。现有Transformer是确定性模型,在对抗场景下最坏性能远低于随机化算法,无法通过现有优化方法注入随机化算法能力。
解决对比学习中投影头(训练时加在编码器顶部、下游任务时移除的结构)的作用机制不明确的问题。现有研究仅观察到该结构能提升对比学习性能,但不清楚其底层原理,无法指导对比学习架构优化。
这篇论文要解决的是:在终身/持续学习(lifelong learning)中如何同时满足“不断学新任务”和“隐私约束”两件互相拉扯的事。以往工作通常把隐私当成训练前的数据处理或训练后的审计问题,导致在持续更新模型时要么遗忘严重、要么隐私风险累积。
这篇论文要解决的是:现有 LLM/VLM 的“agentic 推理”评测在可复现性、可控性和可诊断性上不足,导致你很难判断模型到底是推理差、工具使用差,还是环境交互策略差。很多 benchmark 把任务做成开放式对话或网页操作,噪声大且难定位失败原因。
这篇论文要解决的是:多模态问答里 LLM 容易给出看似合理但与图像/视频证据不一致的答案,而现有 CoT 往往只是在文本里“讲故事”。过去的做法要么依赖外部工具链(检测/分割)要么用弱对齐的视觉特征,导致可追溯性差。
这篇论文要解决的是:个性化对话 agent 的“记忆”如何构建与检索,才能既有用又不把上下文塞爆或引入隐私/幻觉风险。以往很多系统用简单的向量检索+拼接,容易把无关记忆召回、或把过时信息当真。
这篇论文的核心问题是:为什么 progressive distillation 往往比一次性蒸馏更稳、更容易得到好学生模型。过去这通常被当成经验现象来用,大家知道多阶段蒸馏有效,但不清楚它到底在优化过程中提供了什么额外结构,因此也难以判断何时值得多花蒸馏轮次。
这篇论文关注的是视觉语言模型的组合泛化问题:模型到底是在理解对象、属性和关系的组合,还是只是在记训练分布里的共现模式。过去很多 VLM 在标准 benchmark 上分数不错,但一旦遇到训练中少见的组合,性能就会明显下滑,这说明仅靠相关性学习很难得到稳健的组合理解。
这篇论文要回答两个很实际的问题:视觉语言 decoder 在生成时到底有没有同时依赖图像和文本,以及它们给出的解释是否自洽。很多多模态模型表面上看是 image-conditioned text generation,但实际可能主要靠文本先验在工作;同时,attention 可视化或口头解释经常被当成“模型看了图”的证据,但未必真的反映因果使用。
这篇论文要解决的是:在 Minecraft 这类长时程、部分可观测环境里,instruction-following agent 如何记住“什么、在哪里、什么时候”并据此持续行动。以往很多代理主要依赖短上下文历史或压缩记忆,因此在跨步骤依赖、空间定位和时序追踪上容易丢信息。
这篇论文要解决的是 diffusion 模型在稀有概念上的组合生成能力不足,尤其是 rare concept 和常见属性、关系组合时容易失败。传统做法要么靠收集更多稀有概念数据,要么靠文本 prompt 工程,但两者都不能根治数据稀缺带来的组合泛化问题。
LLM智能体在多智能体交互决策场景下的性能缺乏可量化的统一评估框架,过往工作大多只关注单智能体特定下游任务效果,回避了多智能体交互动态过程的度量问题。
参数量小于13B的小语言模型(SLM)自行探索与评估推理路径的能力不足,过往依赖大模型蒸馏的方法受API成本、版权政策限制,无法商用落地。
现有MLP机制解释方法只能从输入隐藏激活提取特征,无法解释MLP权重如何构造特征,逐元素非线性引入的高阶交互阻碍了计算路径追踪。
现有SSM模块大多采用深度可分离配置,训练效率受限于固定的张量收缩顺序限制,无法灵活借鉴卷积网络的经典模块设计优化效率和性能。
这篇论文要解决的是:LM 的词表 key(通常指输出层/注意力里与词相关的向量)表示空间里“相关性”和“可导航性”到底意味着什么,以及能否用它解释或改进模型行为。以往这类问题常被粗略地用 embedding 相似度或 logit lens 现象描述,但缺少对“空间结构如何影响检索/生成”的可操作刻画。
这篇论文要解决的是:持续学习(continual learning)里“理论可解释的更新规则”和“预训练模型的实际可用性”之间长期脱节的问题。过去要么做线性/核方法得到漂亮界但难迁移到大模型,要么做经验性正则/回放在预训练模型上有效但缺少可分析的结构。
这篇论文要解决的是:机器遗忘(unlearning)在面对对抗性分布或强相关特征时不稳定,常出现“表面忘了但可被攻击恢复”或“忘得太狠导致整体性能塌陷”。过去很多 unlearning 方法依赖近似的负梯度/微调或数据删除再训练,但缺少对最坏情况(adversarial)的鲁棒性。
这篇论文要解决的是:多轮对话里 LLM 的语义会像“传话游戏”一样逐轮漂移,但我们缺少能刻画这种漂移方向与收敛点的评测工具。以往评测多集中在单轮或短上下文,导致模型在长对话中的文化偏置、概念漂移与自我强化难以量化。
这篇论文要解决的是:视觉指令微调(VIT/IT)通常学到“平均用户”,但真实应用需要个性化偏好(审美、措辞、关注点)且不能为每个用户全量再训练。过去的个性化多靠提示词或少量 LoRA,但缺少系统的个性信号建模与评测。
这篇工作要解决的是:如何用二阶视角解释模型组合性与增量学习中的干扰和遗忘。过去这类问题多用一阶梯度相似性或表征重叠来分析,但这些指标往往只能看到局部更新方向,看不到参数曲率、任务盆地形状以及不同任务之间更深层的耦合,所以对何时会正迁移、何时会灾难性遗忘解释力有限。
这篇工作要解决的是:grokking 现象可能发生在数值稳定性的边缘,而不只是数据-模型-正则之间的抽象相变。过去很多 grokking 解释强调隐式正则化、算法学习或训练时间足够长,但较少系统讨论优化数值条件本身——例如精度、学习率、梯度尺度和参数范数——是否决定模型能否进入先记忆后泛化的轨道。
这篇工作要解决的是:如何在不改模型参数、不依赖连续梯度优化的前提下,对 LLM 解码过程施加稳定且离散可控的偏置。过去的控制生成常依赖 prompt engineering、logit bias、classifier guidance 或 test-time optimization,但这些方法要么控制力弱,要么代价高,要么很难处理离散结构约束。
这篇工作要解决的是:当前 VLM 的链式推理大多停留在文字层,而很多真实视觉任务需要“操作序列”而不只是“文字解释”。也就是说,模型不仅要看懂图像并给答案,还要学会像人在视觉空间里那样一步步定位、裁剪、比较、放大和验证;传统 CoT 只展开语言推理,往往无法显式表达这种视觉操作过程。
这篇工作要解决的是:LLM web agent 训练长期受限于静态任务集和离线监督,导致模型在真实网页环境中泛化差、探索弱、容易卡在固定套路里。要让 agent 真正学会网页操作,仅靠 imitation learning 往往不够,因为网页状态空间大、反馈稀疏、页面分布持续变化,需要在线探索和课程组织。
这篇工作要解决的是:当前对 LLM 逻辑推理能力的评估容易被表面语言模式污染,缺少一个能用符号证明器校验正确性的更严格框架。仅靠自然语言 benchmark,模型可能通过模式匹配拿分,却没有真正保持逻辑一致性、证明可达性或中间步骤有效性。
现有小样本知识编辑的传统微调方法容易过拟合、泛化性下降、生成语言不自然,无法高效融入新信息。
现有多智能体协作的规模上限未知,过往工作大多只关注小规模(≤10个)智能体的协作效果,未探索多智能体的scaling规律。
现有多模态大模型(MLLM)的指令遵循能力缺乏严格的评估基准,过往基准大多只关注整体回答正确性,没有测试分层复杂指令的遵循度。
现有LLM智能体工作流生成的评估框架要么只关注整体执行结果,要么场景覆盖有限、工作流结构简单、评估标准宽松,无法准确度量工作流生成质量。
现有LLM单步单token生成的推理模式延迟高,投机解码等多token加速方法仅基于独立单token分布生成,只能提速无法提升生成质量;多token联合解码(MTJD)理论上可降低困惑度提升效果,但计算成本过高无法落地。
这篇论文要解决的问题是:仅靠 prompting(不改权重、只写提示)在理论上能把 LLM 当作“可编程计算系统”到什么程度,是否能达到图灵完备。以往很多讨论停留在经验层面(能不能写解释器、能不能做递归),缺少清晰的形式化边界与假设条件。
这篇论文要回答的问题是:LLM 是否真的“理解”符号图形程序(symbolic graphics programs),而不是只在自然语言描述上做模式匹配。以往对程序理解更多集中在通用代码或文本推理,但图形程序把语义落在几何与渲染结果上,更容易暴露模型在组合泛化与执行一致性上的短板。
这篇论文要解决的问题是:LLM 生成的代码“能跑”不等于“高效”,但社区缺少一个高标准、可复现的基准来严格衡量生成代码的时间/空间效率与工程质量。过去的代码评测多以通过单元测试为主,导致模型倾向输出低效但容易过的实现。
这篇论文要解决的问题是:文生图生成(text-to-image generation)与图文检索(retrieval)通常由两套模型/目标分别优化,导致表示不统一、训练数据与算力重复、并且生成模型学到的细节能力难以反哺检索。作者提出 TIGeR,希望用大多模态模型把生成与检索统一起来。
这篇论文要回答的问题是:前沿大模型是否自发涌现出“空间认知”(spatial cognition),以及这种能力在什么任务与评测设置下才算真实存在而不是语言捷径。过去很多空间能力评测容易被文本模式、常识猜测或数据泄漏污染,导致对“涌现”的判断不稳。
这篇工作关注的核心问题是:多模态语言模型如何真正理解长视频,而不是只在稀疏抽帧或短片段上做近似。长视频难点不只是 token 多,还包括事件跨时间分散、关键信息稀薄、视觉和文本对齐延迟大;以往很多方法通过重采样、摘要式压缩或只看局部窗口来规避,但这通常牺牲时序一致性和全局因果线索。
这篇工作研究的核心问题是:如何从语言模型中生成反事实文本,而且生成过程既离散可控又能保持语言自然性。传统反事实生成常用搜索、重写规则或连续 relaxation,但前者容易卡在局部、后者又会带来离散化偏差;作者显然想利用 Gumbel 技术在可微近似和离散采样之间取得更好的平衡。
这篇工作要解决的核心问题是:如何为自主智能体提供一个动态、真实且可重复评测的 Android 环境,而不是停留在静态网页或脚本化任务。现有 agent benchmark 常见问题是环境过于玩具化、状态转移单一、任务可被 hard-code 策略利用;手机操作场景更贴近真实人机交互,但也更难做成大规模、可控评测。
这篇工作的核心问题是:线性 Transformer 如何在保持近线性复杂度的同时,表达带拓扑结构约束的注意力模式,而不是退化成过于平滑的全局混合。传统 linear attention 通过核技巧换掉 softmax,换来效率,但通常失去精确 mask 和复杂结构先验的表达能力;这在图结构、局部连接或受约束依赖建模时尤其明显。
这篇论文的核心主张从标题看非常强:只用 cross-entropy,就足以反演数据生成过程,而不需要额外复杂目标。作者想解决的问题是,生成建模里我们到底需不需要那些专门设计的辅助损失、判别器或结构性正则,还是标准最大似然已经隐含了恢复数据机制所需的信号。这个问题过去常被回避,因为大家更关注经验上'多加一个 loss 有没有涨点',而不是 CE 本身能做到多远。
现有视觉Mamba多采用监督训练或掩码建模预训练,无法匹配其单向循环结构的计算特性,大尺寸模型下scaling效果不佳,且训练速度慢。
这篇论文要解决的是:端到端训练超深网络时,激活保存带来的显存压力限制了 batch size、序列长度和并行度,而传统 activation checkpointing 牺牲了大量算力。可逆网络(reversible architectures)能省激活但训练/并行实现复杂,导致工程上难落地。
这篇论文要解决的是:如何用一种统一、低成本的方式控制语言模型与扩散模型的生成行为,而不依赖为每个属性单独训练 LoRA/控制器。以往控制方法要么改采样(效果不稳),要么做额外微调(成本高且易过拟合)。
这篇论文要解决的是:二阶优化在大模型训练中常因 Hessian 计算/存储不可承受而被放弃,导致我们长期依赖一阶方法在病态曲率下慢慢“磨”。作者希望用可并行的 Hessian sketching 把二阶信息变成可用的近似,并控制偏差。
这篇工作要问的是:LLM 表达出的价值观是否一致,还是会随表述方式、上下文和提问策略漂移。过去很多价值对齐评测只看单轮回答是否符合某个规范,但这会回避更困难的问题——模型在等价问题、跨场景迁移和冲突价值取舍上是否稳定。
这篇工作要解决的是:语言模型做推理时,如何在给出答案的同时提供可校准的置信保证,并且尽量保持事实一致。传统 conformal prediction 能给覆盖率保证,但通常用于分类或简单结构输出;一到长链推理和自然语言生成,‘覆盖了但胡说八道’与‘推理过程和事实不相干’就成了现实问题。
这篇工作要解决的是:复杂逻辑推理里,直接让模型从自然语言跳到一阶逻辑常常不稳定、难验证,也难扩展到组合复杂度更高的情况。很多方法把 translation 和 reasoning 混在一起做,结果一旦中间符号化出了错,最终答案就既不透明也不可靠。
现有 LLM agent benchmark 多聚焦于单步问答或代码生成,缺乏对多步商业分析洞察生成能力的系统评估。InsightBench 要填补这一空白:评估 agent 能否从数据中逐步推导出有意义的商业洞察。
缺乏一个大规模、多任务的音频理解与推理 benchmark 来全面评估音频 LM 的能力。现有 benchmark 要么任务单一,要么规模不够,无法反映模型在复杂音频场景下的真实水平。
联邦持续学习(federated continual learning)中,如何高效合并各客户端的参数高效微调(PEFT)模块,同时避免灾难性遗忘。现有方法要么需要多轮通信,要么合并效果差。
这篇论文要解决的是:多模态大模型(MLLM)在图文问答/描述中常出现“物体幻觉”,而现有对齐训练多在句子级或图文对级别做损失,难以约束到“短语-区域/对象”粒度。过去的次优方案是加更多数据或用后处理检测,但都不直接修正生成时的对齐偏差。
这篇论文要澄清的是:视觉-语言模型(VLM)的 jailbreak 攻击是否存在“可迁移的通用图像越狱样本”,还是强烈依赖具体模型与训练细节。以往安全研究常默认攻击可迁移,从而用单模型评估推断整体风险。
这篇论文解决的是:离散扩散模型(discrete diffusion)如何像连续扩散那样做有效 guidance,以在采样时提升条件一致性与样本质量,但又不引入复杂的训练改造。以往离散扩散的 guidance 往往要额外分类器、复杂重加权或不稳定的近似。
这篇工作要回答的核心问题是:xLSTM 这类非 Transformer 序列模型,能否在生物和化学序列上同时承担生成建模、表征学习和 in-context learning,而不只是做一个替代性的分类 backbone。这个问题以前常被回避,因为蛋白质、DNA、小分子序列的主流路线要么是 BERT/ESM 风格掩码建模拿表征,要么是 Transformer 做生成,状态空间或递归模型很少被系统验证到“既能预训练又能泛化到多任务”的层面。
这篇工作聚焦一个更底层的问题:单个神经元或局部模块到底该优化什么目标,才能在不依赖全局反向传播的情况下学到有用表征。这个问题长期存在,但以前要么停留在启发式局部损失,要么偏理论而缺少可执行设计;现在重新值得做,是因为大模型训练的可扩展性、在线学习和生物可实现性都在逼着大家重新审视“必须端到端 BP 吗”。
这篇工作要解决的是 LoRA 这类参数高效微调的一个实际痛点:低秩更新通常在欧式参数空间里直接叠加,但模型参数的有效变化往往具有几何结构,简单线性更新未必是最稳定或最高效的。过去 PEFT 方法大多关注省参数、省显存,较少认真处理“更新路径是否合理”这个几何问题。
这篇工作要解释 contrastive VLM 里的三个现象为何总是绑在一起出现:modality gap、object bias 和信息不平衡。核心问题不是再做一个更强 CLIP,而是找出为什么图像和文本表示会分群分层、模型又为什么过度依赖物体级线索而忽略关系和细节。过去这些现象往往被分开分析,所以只能得到局部修补。
这篇工作要解决的是 LLM 在 theory of mind 推理上的一个老问题:模型看起来会答题,但常常只是吃了数据模板,遇到对抗构造就暴露出并没有稳定地建模他人信念和视角。以前这个问题多靠手工 benchmark 或静态数据集测,但这类评测很容易被记忆和模式匹配污染。
这篇工作的核心结论大概率是:LLM 并不会自发进行规划,除非你明确把规划过程写进提示、任务结构或训练信号里。这个问题值得重提,因为很多 agent 结果把‘模型会搜索/会规划’和‘提示工程迫使它列步骤’混在了一起,导致大家高估了基础模型原生的 planning 能力。
这篇工作要解决 online continual learning 的现实约束:预算有限时,模型不能每来一批数据就全量回放、全层更新,否则算力和存储都撑不住。过去很多 continual learning 方法在固定离线设定下有效,但一到在线、低预算场景就因为更新太贵或采样不合理而退化明显。
韩国NLP领域缺乏公开可用的多答案知识类幻觉评测基准,现有幻觉数据集要么不开放全量数据,仅支持简单打分,无法开展细粒度幻觉分析。
现有LLM压缩方法多采用量化、剪枝,无法进一步降低内存访问瓶颈,边缘端推理延迟受内存带宽限制严重,压缩收益触顶。
上游LLM频繁迭代更新,下游用户需要反复微调适配新版本,即使是PEFT方法也需要计算资源和敏感领域数据,适配成本过高。
现有LLM Agent都是人工针对特定任务设计,设计成本高,无法快速适配新任务,扩展性差。
这篇论文要解决的是:蒸馏/筛选出来的“高质量小数据集”里,标签信息经常被低效使用,导致同样的数据量下训练信号偏弱、收益不稳定。以往常见做法要么直接用硬标签(信息量不足),要么引入额外教师推理/再标注(成本高),所以作者试图在几乎不增加计算与标注成本的前提下,把标签“榨干”。
这篇论文要解决的是:现有多模态基础模型对“时间维度的视觉推理”(跨帧因果、状态变化、动作顺序)能力缺乏可靠评测,导致大家更容易在静态图文对齐上过拟合。过去很多 benchmark 要么规模小、要么合成痕迹重、要么只测识别不测推理,因此作者提出 TOMATO 来系统评估视觉时间推理。
这篇论文要解决的是:DPO(Direct Preference Optimization)把整段回答当作一个整体来对齐,但实际训练信号在时间维度上并不均匀,早期 token 往往决定了后续分布与人类偏好。以往 DPO 默认“每个 token 贡献相同”,会把大量梯度浪费在后段的低信息 token 上,甚至放大长度与格式偏好。
这篇论文要解决的是:API-based agent 在真实环境里容易走“捷径”(shortcuts),比如利用未文档化行为、缓存、脆弱的字符串匹配来过关,导致离线评测高分但线上鲁棒性差。过去的 agent benchmark 往往任务封闭、接口稳定、或缺少对捷径的系统标注,因此作者提出 ShortcutsBench 来量化这种问题。
这篇论文要解决的是:越狱防护通常靠重新训练或大规模对齐数据,但部署后仍会遇到新型攻击,而且重新训练成本高、迭代慢。作者提出在运行时通过“稀疏表示调整”动态平衡安全与效用,试图把防护从训练期前移到推理期。
这篇论文要解决的是:纯 LLM 反应式(reactive)策略在文本游戏这类长时序决策里容易陷入局部最优,而传统规划需要可用的环境模型或昂贵搜索。作者尝试把 Monte Carlo planning(蒙特卡洛规划)与 LLM 结合,在没有显式世界模型的情况下提升探索与长期回报。
这篇工作要解决的是:多模态基础模型在“会答”和“能解释自己为什么这么答”之间存在明显断层,而现有做法通常依赖人工标注的解释数据,规模小、风格单一、难覆盖复杂视觉推理。作者试图用模型自合成数据去补这个缺口,目标不是单纯加一批 instruction data,而是同时提升认知能力和可解释输出的一致性。
这篇工作要解决的是:知识蒸馏不是所有 teacher signal 都值得学,学生容量有限时,盲目匹配整分布常会把噪声、歧义和对学生无用的暗知识一起吞进去。过去这件事通常靠启发式地挑样本、挑层或调温度处理,缺少一个更统一的选择原则。
这篇工作解决的是:工具增强型语言模型真正难的不是单轮工具调用,而是多轮对话里什么时候澄清、什么时候调用工具、怎么把工具结果继续组织进对话。现有数据大多偏单步 function calling,导致模型在真实 agent 式交互中容易流程断裂。
现有PEFT方法如LoRA没有显式建模任务特定方向(TSD),无法最大化任务适配的效果,限制了PEFT的性能上限。
现有PEFT方法仅针对2D线性权重设计,适配4D等高维参数空间时会压缩维度,破坏高维参数的结构完整性,导致适配效果下降。
当前无严谨评估验证LLM能否生成专家级新颖研究想法,过往科研agent相关工作均跳过该基础起点验证,直接默认idea生成能力存在。
现有VLM预训练忽略内容对应的受众行为信号,这类信号包含丰富的内容语义信息,过往方案仅用图文对数据训练,浪费了大规模可及的弱监督信号。
当前无标准化基准度量LLM生成内容的说服力,LLM在营销、人机交互等场景的说服力能力无法被系统评估,也无对应的优化方法。
现有偏好学习算法(RLHF、DPO等)使用的KL散度正则项会导致模型输出多样性大幅下降,过度拟合多数人意见,牺牲视角多样性换取奖励最优,无法兼顾对齐效果和输出的观点、结构多样性。
这篇工作要解决的是:基于模型的规划(model-based planning)在 RL 里很强但推理时昂贵,而把规划过程压缩进策略网络又容易丢掉“可组合的推理步骤”。
这篇工作要回答的是:SGD 的更新是否真的主要发生在“极低维子空间”里——这是很多压缩、低秩适配和训练可解释性结论的隐含前提。
这篇工作要解决的是:现有 LLM 基准很难系统评估“计算机科学掌握度”,导致模型在代码、算法、系统与理论等子能力上的短板被平均分掩盖。
这篇工作要解决的是:RAG 场景里 LLM 容易“看似引用了检索内容但实际在编”,缺少可验证的归因与可靠的拒答机制,导致信任与安全问题。
这篇论文要解决的问题是:现有语言模型 embedding 往往不够适合作为通用表示,而一个看起来很简单的操作——重复输入内容——可能系统性改善表示质量。过去 embedding 提升通常依赖额外对比学习、专门训练头或复杂数据构造,这篇工作重新审视了推理时输入结构本身是否就能改变表征几何。
这篇论文试图解决一个直接问题:智能体到了新环境后,如何不再依赖大量环境内训练,而是通过检索过去经验实现 in-context 行动。以往通用 agent 往往要么对单一环境过拟合,要么需要昂贵的在线 RL/微调;如果检索增强能把跨环境经验转成当前决策上下文,就能更接近“看几个相似例子就会做”。
这篇论文的核心问题是:语言模型是否已经具备足够强的匿名化能力,能够在保留文本可用性的同时去除身份相关信息。传统匿名化通常依赖规则、模板替换或专用检测器,容易漏掉隐性身份线索,也常常把文本改得过于生硬;LM 可能提供更灵活的语义保持式改写,但其真实效果和风险需要被系统评估。
这篇论文的结论导向很明确:大语言模型在推理和规划任务上的 self-verification 能力存在根本限制,不能把“会检查自己”当作可靠提升路径。过去很多方法希望通过 self-consistency、反思、critique 或 verifier-style prompting 让模型纠正自身错误,但如果生成器和验证器共享相同盲点,那么自证正确很容易失效。
这篇论文要解决的是模型合并中的一个经典痛点:直接平均或简单插值经常把不同模型的能力互相抵消,尤其当参数空间对齐差时更严重。标题里的“with SVD to tie the Knots”表明作者试图用低秩/子空间结构来处理参数冲突,让 merge 不只是粗暴平均。
这篇论文关注的问题很清楚:能否不改权重、只通过 activation steering 就提升语言模型的 instruction-following。很多模型并不是完全不具备遵循指令的能力,而是该能力在推理时没有被稳定激活;相比重新 SFT 或 RLHF,激活操控提供了一条更便宜但也更脆弱的控制路径。
现有检索基准主要为信息查询类query,仅靠关键词或语义匹配即可解决,无法衡量模型处理需要深度推理的复杂真实查询的检索能力,过往检索方案的推理能力未被有效验证。
现有LLM自提升方法通过生成合成数据微调,容易出现收益递减问题,无法突破基础训练数据的能力上限,过往方案未利用多智能体交互生成的多样训练信号。
现有分布式对齐搜索(DAS)方法需要暴力搜索概念特征的潜在位置,计算成本极高,无法扩展到大规模LLM的机制可解释性研究,过往方案无法自动化定位概念在模型隐藏状态中的位置。
现有微调方法(如LoRA)计算成本高,微调后的模型是静态的,无法实时适配未见过的任务,过往自适应方案无法兼顾参数效率和适配效果。
RLHF中固定奖励模型会随策略优化出现训练数据分布偏移,产生分布外预测偏差,现有缓解方案要么采集新偏好数据成本极高,要么重用旧数据的适配效果差。
现有视觉agent在真实开放场景下容易输出不准确且过度自信的结果,缺乏类似人类快慢思考的动态模式切换能力,结构化基准上的性能无法迁移到非结构化真实场景。
这篇工作要解决的是:扩展 Diffusion Transformer(DiT)时,如何在不显著增加计算的前提下提升容量与样本质量,而不是继续用“更大更密”的单体 Transformer 硬堆算力。现有 DiT 的主流扩展路径要么直接加宽加深导致训练/推理成本线性上升,要么用 MoE 但路由不稳定、专家塌缩或训练难调。
这篇工作要解决的是:LLM 的推理与决策过程难以被人类可控地解释与约束,导致“看似合理但不可验证”的输出在高风险场景不可用;以往要么做事后解释,要么用概念瓶颈模型(CBM)但难以扩展到 LLM。作者想把“先预测可解释概念,再用概念做推理”的瓶颈结构带到 LLM。
这篇工作要解决的是代码检索与重排里最缺的那一块:高质量对比学习数据。现有方法通常把代码-文本配对数据直接拿来做双塔检索训练,负样本大多依赖随机采样或启发式构造,结果是模型学到的是表面词面相关性,而不是细粒度语义区分,尤其在 reranking 这种需要强判别能力的阶段更明显。
这篇工作要解决的是生成模型容易复现敏感数据,但现实里往往拿不到完整的“敏感 vs 非敏感”标注。传统数据删改或拒绝生成方法要么依赖明确的敏感样本集合,要么在训练后做过滤,前者标注成本高,后者很难从分布层面真正压低泄露概率;作者尝试用 positive-unlabeled 学习来处理“只有一部分敏感样本可见”的扩散模型安全训练。
现有LLM法官基准仅评估与人类偏好的对齐度,无法校验事实、逻辑正确性这类众包人类偏好无法准确标注的高难度任务,随着模型能力提升,LLM法官本身的可靠性缺乏有效评估手段。
现有分解提示调优(DePT)的位置相关token embedding偏移限制了跨输入的泛化能力,跨token共享的embedding偏移进一步降低了不同输入的适配性,参数高效微调的性能还有明显提升空间。
现有多模态大模型幻觉缓解的解码方法依赖惩罚摘要token,缺乏对幻觉与大模型注意力机制关联的分析,且会带来额外推理延迟。
现有大模型基准缺乏对图计算能力的系统性评估,无法检验大模型在多项式时间、NP完全类图任务上的真实性能,也无法定位次优解、幻觉等具体问题。
这篇工作要解决的是:在顺序任务(continual / sequential fine-tuning)中,如何用更小的可训练参数实现有效适配,同时避免灾难性遗忘与参数膨胀。以往常用 LoRA/adapter/全参微调要么占用参数与显存较大,要么在多任务串行时管理复杂、遗忘明显。
这篇工作要解决的是:LLM agent 在长期交互与工具使用中如何保持“道德对齐”,避免在多步规划、角色扮演或目标冲突下出现越界行为。以往对齐多在单轮对话或静态评测上做,难覆盖 agent 场景的状态累积与策略性行为。
这篇工作要解决的是:当训练分布和测试分布存在偏移时,如何构造更稳健的数据混合策略,而不是只在经验风险最小化下追求平均效果。传统 distributionally robust optimization 往往在样本级或参数级做 worst-case 设计,但在很多函数逼近问题里,真正决定泛化的是训练数据混合后诱导出的函数空间覆盖,而不是单个样本权重本身。
这篇工作关注的是训练数据重构攻击:能否仅凭一个训练好的深度网络,把其训练数据反推出足够逼真的样本。以往的数据抽取或 membership inference 往往只能回答“见过没有”或恢复局部信息,而真正按样本级重建训练集更难,因为训练轨迹被压缩进参数后信息高度混叠;作者试图用训练动力学模拟来逼近这条隐含轨迹。
这篇工作研究视觉-语言识别里的伪相关属性问题:模型为什么会抓住和标签共现但并非因果的视觉或文本属性,并在分布变化时失效。过去这类问题常通过 reweighting、group DRO 或数据增强被动缓解,但对“伪相关属性本身该如何利用或操控”讨论不够;题目里的 black sheep 暗示作者主动操纵这些异类样本来打破群体相关性。
这篇工作关注 continual learning 里的核心集选择:在只能保留很少旧样本时,应该留哪些样本才能最大程度减轻遗忘。过去常见做法是 herding、梯度匹配、随机回放或基于多样性的选择,但这些方法未必真正对“后续还会继续被学到还是已经学稳了”作出区分;作者引入 reducible loss,试图用“还可被进一步降低的损失”来定义记忆价值。
这篇工作解决的是数据使用推断:攻击者能否不只判断“某条数据是否被训练过”,还进一步量化模型到底使用了数据集中的多少内容。传统 membership inference 关注单样本二分类,但在现实合规场景里,更关键的问题常常是某个数据源、某位权利人的数据、或某个集合到底被用了多少;作者把问题从点状判断提升到定量估计。
数学推理大模型的前沿进展大多闭源,核心训练数据不公开,研究者无法验证数据合成和使用策略的效果,限制了开源数学大模型的迭代效率。
现有多模态模型prompt tuning得到的新视觉概念嵌入与普通离散prompt的差异缺乏系统性分析,无法解释微调prompt的跨任务迁移和干扰问题。
如何在多模态大语言模型(MLLM)的联邦提示学习(FPL)中,平衡个性化、泛化性和差分隐私(DP)之间的冲突。此前,过度个性化会导致过拟合,而严格的 DP 噪声会同时破坏个性化和泛化能力。
如何提升预训练模型在持续学习(Continual Learning, CL)中的泛化能力。此前发现随机投影(RP)有效,但缺乏理论解释,且单视图 RP 表达能力有限。
如何为 Transformer 架构设计等变神经泛函网络(Equivariant Neural Functional Networks, NFN)。NFN 将神经网络的权重作为输入,此前已用于 MLP 和 CNN,但针对 Transformer 的设计一直缺失。
这篇工作要解决的是:当 LLM 需要生成“结构化且语义一致”的长输出时,纯一次性生成很容易在中途偏题或破坏约束,而常见的 beam search/自洽采样又缺少对“语义约束失败点”的可定位回退机制。
这篇工作要解决的是:向量检索/ANN 中的向量压缩需要在压缩率、重构误差和搜索速度之间平衡,而传统 PQ/OPQ 的显式码本表达能力有限,神经码本又常带来训练不稳或推理开销。
这篇工作要解决的是:把音频生成做成“基础模型”时,需要同时覆盖多任务(生成/编辑/条件控制)与长时序一致性,但传统声码器式或单任务扩散/自回归方案往往能力割裂、控制接口不统一。
这篇论文要解决的是 programming-by-example 里一个老问题:只靠一次性生成程序往往不稳,但完整外部搜索又太贵,怎样在 prompt 内部做可执行约束引导的搜索。过去要么用传统合成器显式枚举程序,要么让 LLM 直接 sample 多个候选再事后筛选;前者工程重,后者 sample inefficiency 高,而且不利用执行反馈逐步缩小搜索空间。
这篇论文的核心问题是:如何在只有成对偏好反馈、没有可微 reward 的条件下,稳定地优化高维策略或函数类。传统 dueling bandit 更适合小规模臂集合,到了神经网络参数化 setting,探索、偏好噪声和非凸优化会同时变难;这和 RLHF/偏好优化的训练信号形态有明显同构关系。
这篇论文讨论的核心问题是:在没有显式任务标签和元训练 episode 标注的情况下,能否借助 in-context learning 学出元学习能力。传统 meta-learning 往往依赖人工构造任务分布,成本高且假设强;而大模型时代已经表明上下文内适应本身就是一种隐式元学习,这让‘无监督元学习’值得重新定义。
这篇论文研究的是输入空间中的 mode connectivity,也就是不同输入模式之间是否存在低损连接路径,而不仅仅是参数空间里的 mode connectivity。过去大家更熟悉的是‘不同解在参数空间可连通’,但模型对输入流形的决策形状同样决定了泛化和鲁棒性;输入空间连通性如果存在,会直接影响对插值、对抗扰动和 OOD 行为的理解。
在长上下文 LLM 的 many-shot 上下文学习(ICL)中,简单地增加示例数量是否是最佳策略?此前研究观察到 scaling 示例数量能带来收益,但未探究收益的来源和更高效的利用方式。
如何更灵活地通过激活干预(Activation Intervention)来控制 LLM 的行为。现有的干预方法通常在推理时使用固定的 steering vector,缺乏对不同输入语义的适应性,导致干预效果在复杂场景下受限。
多模态大语言模型(MLLM)为何会产生幻觉,以及如何在解码阶段缓解这一问题。作者发现,虽然模型最终输出了错误的物体,但其在中间层实际上已经正确识别了视觉信息。
如何缓解视觉语言模型(VLM)在解码最后阶段因“过度思考”导致的幻觉。作者观察到,VLM 在最后几层会发生显著的预测偏移,往往偏向错误结果。
如何有效评估 LLM 的机器遗忘(Machine Unlearning)方法。当前的评估指标容易受到红队攻击(red teaming)的影响,无法真实反映模型是否真正遗忘了知识,且难以平衡遗忘目标与保留模型通用能力之间的 trade-off。
微批次梯度裁剪在ASR任务上的性能提升机制未被解释,且仅特定微批次大小能带来增益的现象缺乏合理解释,现有方案要么直接经验性使用该方法,要么无法适配不同训练阶段的梯度优化需求。
上下文强化学习(ICRL)中预训练智能体无需参数更新即可解决新任务的现象,现有假设认为其前向传播实现了某种RL算法,但缺乏严格的理论和实证验证,之前的工作仅观察到现象未解释内在机制。
这篇论文要解决的是:State Space Models(SSM)在长序列建模上虽高效,但常出现“近因偏置(recency)”和“过平滑(over-smoothing)”导致远程信息被淹没、层数加深后表征趋同。过去很多改进是经验性加门控/残差/初始化,但缺少一个能统一解释失败模式并指导改造的分析视角。
这篇论文要解决的是:CLIP 这类图文对比模型会被 caption 文本“捕获”,在训练中对特定 caption/短语产生记忆,从而带来隐私与泛化风险,而现有讨论更多集中在生成模型的记忆。过去对 CLIP 的记忆研究相对少,且常把问题归因于数据重复而缺少针对性的缓解手段。
这篇论文要解决的是:用 PLM(预训练语言模型)困惑度(perplexity)做检索打分时,会系统性偏好“低困惑度文档”,即更像训练语料分布、语言更顺滑的文本,而不一定更相关。过去不少 RAG/检索工作默认困惑度能代表“可用性/可信度”,但这会把检索推向模板化、泛泛而谈的内容。
这篇论文要解决的是:LLM 在“字符串处理”这类看似简单但高度形式化的任务上能力边界不清,很多失败被误判为推理弱或工具缺失,而实际可能是 tokenization 与序列泛化机制限制。过去评测更偏自然语言理解/数学,字符串算法能力(匹配、编辑、解析、正则等)缺少系统画像。
这篇工作要解决的是:多模态数据中的 disentanglement 往往要么过于自由,学到的因子不可控;要么靠强监督或人工先验,代价高且不稳。过去很多方法把“解耦”当成表示美学目标,但没有清楚回答应该保留哪些共享信息、切掉哪些模态特有混杂,因此作者提出一个信息准则来做可控解耦。
这篇工作关注的是:数据归因方法本来用来回答“哪些训练样本影响了当前输出”,但它们本身可能被对抗攻击操纵。过去很多人默认 attribution 结果是比模型预测更稳定的分析工具,而这篇论文显然在指出:如果归因能被定向扰动,那它就不能直接作为审计、删数、版权或安全追责依据。
这篇工作研究的是:注意力头为什么会分化出不同功能,以及这种 specialization 能否被更精细的学习系数刻画。过去大家常用 activation pattern、head importance 或 pruning 结果来描述注意力头分工,但这些指标更多是经验性的;作者显然想用 refined local learning coefficient 这类更接近学习动力学/局部复杂度的量来解释头的分化。
这篇工作要解决的是:语言模型如何利用结构化知识库,而不是只靠参数记忆或普通 RAG 在上下文里临时塞文本。过去主流方案要么把知识硬写进参数,更新昂贵且不透明;要么把 KB 先转成文本检索再喂给 LM,结果会丢失结构关系。KBLaM 显然是在探索一种更直接的 knowledge base augmented language model。
现有多价值观对齐框架无法同时适配不同群体、不同场景下对无害、有用、正向等多价值观的动态个性化需求,之前的方案要么只能对齐单一价值观,要么无法灵活调整不同价值观的权重比例,无法处理价值观之间的权衡问题。
现有对「可能」「很可能」等确定性短语的校准方法仅给每个短语分配单一分数,无法捕捉其语义的不确定性分布,导致对人类(如放射科医生)和大模型的校准结果不准确,之前的方案无法处理不同人群对同一确定性短语的认知差异。
现有大模型推理增强方法主要依赖思维链的细化,忽视了推理类型的多样性,默认仅用演绎推理,导致部分需要归纳、溯因、类比推理的问题无法解决,之前的方案无法自动匹配问题所需的推理类型。
这篇论文解决的是 CLIP 这类对比学习视觉编码器“看得不够细”的问题:纯对比损失容易学到粗粒度对齐而忽略局部细节与生成一致性,导致在细粒度识别、定位或鲁棒性上受限。
这篇论文解决的是知识编辑(knowledge editing)里常见的 over-attention 问题:编辑算法往往通过强行放大对某些 token/位置的注意力来注入新事实,但这会造成副作用扩散、泛化失败或对上下文过度敏感。
这篇工作要解决的是:现有 tool-use 评测太粗,难以分清模型到底是不会选工具、不会构造参数,还是不会多步调用,因此需要一个多粒度 benchmark。过去很多评测把“最终答对”当成唯一指标,掩盖了 agent/tool-use 失败的具体环节。
这篇工作要解决的是:现有 LLM fairness 评测大多停留在单一属性或模板级比较,难以覆盖真实场景中的组合式偏见,因此提出 compositional evaluation benchmark。过去的公平性测试容易被 prompt surface pattern 主导,测到的是模板敏感性,不是模型面对多属性交叉条件时的行为。
这篇工作要解决的是:LLM 对几何结构的处理能力到底是真理解结构,还是只是在文本模式上做近似匹配。几何推理常被当作一般推理能力的展示窗口,但很多现有测试混入了语言先验,无法分辨模型是在算结构还是在猜模板。
这篇工作要解决的是:如何在不修改或少修改基础 LLM 参数的情况下,用外部能力补齐模型在特定任务上的短板。传统做法要么直接 finetune 模型、成本高且易遗忘,要么简单 RAG 只补知识不补能力,因此“外接能力”一直缺少系统方法。
这篇工作要解决的是:去中心化训练在理论上能避免中心节点瓶颈,但实践里很难真正做到高性能,因此需要把“可行”推进到“能跑快、能稳定扩展”。过去很多 decentralized training 工作停留在收敛性分析或小规模验证,一上真实大模型训练就被通信异构、同步开销和实现复杂度拖垮。
现有视觉指令微调方法仅监督文本输出,丢失了输入图像本身的丰富细节信息,导致大多模态模型(LMM)的视觉感知能力不足,之前的方案无法利用输入图像本身作为监督信号,直接回归RGB值又面临视觉信号空间冗余度过高的问题。
现有CLIP的知识蒸馏方法需要原始训练数据,受限于版权和隐私问题无法获取,现有无数据知识蒸馏(DFKD)方法依赖BatchNorm层,而CLIP中没有可用的BatchNorm层导致失效,无法实现无数据的开放词汇定制。
这篇论文要解决的是:后训练量化(PTQ)常受限于“可调空间太小”,导致在低比特下精度掉得快,尤其是激活分布与层间尺度不匹配时。以往 PTQ 方案常在权重量化、激活量化、校准数据与误差补偿之间做局部修补,但缺少更统一的“变换空间”来吸收量化误差。
这篇论文要弄清的是:LM 在回答选择题(multiple choice)时到底在做什么——是真在“理解并推理”,还是在“组装(assemble)”选项文本并匹配表面模式。以往评测往往只看最终选项准确率,掩盖了模型可能通过选项措辞、位置偏置或消元启发式取巧。
这篇工作要解决的是大词表语言模型在输出层上的训练成本过高且效率失衡的问题。标准做法对整个 vocabulary 做 softmax 和交叉熵,词表一大,显存、带宽和算力都会被最后一层吞掉;过去通常靠 sampled softmax、层次 softmax 或词表裁剪绕开,但这些方法往往引入偏差、实现复杂,或者会伤到最终困惑度与下游质量。
这篇工作要解决的是生成任务评价指标和人类偏好不一致的问题。现有自动指标常常在机器翻译、摘要、对话、开放生成上各有偏差,直接拿来做模型比较或训练奖励时,会把人类真正关心的质量维度压扁成一个不稳定分数。
这篇工作要解决的是:当数据谱呈幂律分布时,两层网络为什么会表现出特定的 scaling law。经验 scaling law 已经被大量观测到,但很多结论仍然停留在经验拟合层面;如果没有更可分析的理论模型,很难判断哪些指数来自数据分布,哪些来自模型结构或优化过程。
这篇工作要解决的是多模态 LLM 中不同模态 tokenization 缺乏语义等价性的问题。当前统一建模往往把文本 token、视觉 token、音频 token 直接拼到同一序列里,但这些 token 的语义粒度、离散化误差和组合规则并不一致,结果是模型表面上共享词表,实际却在学不对称的表示。
这篇工作要解决的是大语言模型之间可能出现的‘生成单一文化’问题,也就是不同模型输出越来越相似、观点和表达分布越来越收敛。过去大家更多担心数据 monoculture 或模型供应链集中,但生成 monoculture 更进一步:即使训练源不同,经过相似的数据清洗、对齐和蒸馏流程后,模型可能在输出空间失去多样性。
现有视觉语言(VL)学习方法依赖在大规模数据上训练超大模型来获得视觉感知能力,训练成本高,之前的方案无法有效利用已有的多个预训练视觉专家模型的知识,来降低VL模型的训练成本。
神经定理证明(NTP)训练受公开正式定理语料规模限制,现有数据远少于通用文本,导致模型训练数据稀缺,此前没有通用的合成正式定理数据的框架。
RLHF需要收集用户偏好数据,但用户因隐私顾虑不愿上传敏感偏好数据,此前RLHF都是集中式数据收集,无法适配隐私约束场景。
这篇论文要解决的是:在类增量学习(class-incremental)里用 LoRA 这类参数高效微调时,如何同时做到可扩展、低遗忘、并避免不同任务/类别适配器之间的强耦合;以往做法常在“每任务一个 LoRA”与“共享 LoRA”之间两难。
这篇论文要解决的是:能否在有理论保证的前提下实现“weak-to-strong generalization”(用弱监督/弱模型信号训练出更强模型),并解释为什么过参数化下的 benign overfitting 可能反而有利于这种提升;过去相关讨论多停留在经验现象或较强假设下的特例。
这篇论文要解决的是:多模态 LM agent 在真实交互链路里到底如何被攻击、脆弱点在哪里,以及鲁棒性问题是来自视觉输入、工具调用、还是语言规划本身;过去很多“越狱/攻击”评测把多模态链路简化成单轮文本提示,覆盖不到关键失效模式。
这篇论文解决的是:现有表格问答评测对 LLM 的结构化推理压力不够,尤其回避了跨多表、多跳、复杂组合条件的真实难点,因此很难测出模型在数据库式推理上的真实上限。现在重新做这个问题是有意义的,因为很多模型在单表 QA 或简单 Text-to-SQL 上分数已经很高,但一旦需要跨表关联和多步证据整合,能力退化很明显。
这篇论文要解决的是:现有 multi-hop QA benchmark 很难精确区分模型到底是不会多跳推理,还是只是碰巧利用了数据偏置,而 counterfactual 评测又常常不够细粒度。CofCA 的目标就是做 step-wise 反事实基准,让每一步证据链都能被干预,从而真正测到推理过程的稳健性。
这篇论文要解决的是:现有 LLM safety 对齐常把整段指令当成同一层级处理,忽略了用户请求里“高层目标、子任务、约束、潜在危险动作”并不等价,结果模型容易在复杂指令里误判风险或被层级结构绕过。Instructional Segment Embedding 的出发点就是把指令内部层级显式编码进模型。
现有多模态大模型(MLLM)的评测基准缺乏针对体育场景的多层级推理能力评估,无法覆盖规则理解、策略分析、视频多模态推理等细分任务。
现有大模型涌现能力研究多聚焦于模型规模和性能的相关性,缺乏对驱动涌现的内部结构和机制的系统定量分析,此前没有将神经科学的多重分形方法用于大模型神经元交互分析的通用框架。
现有测试时提示调优(Test-time prompt tuning)忽略测试样本之间的相关性,在线测试时提示调优容易因错误累积导致提示崩溃,无法平衡样本信息利用和误差控制。
现有RLHF的理论基础不清晰,对齐算法的设计缺乏统一框架,此前没有从模仿学习视角统一解释RLHF的理论联系。
现有大模型拟人化能力缺乏统一的评测基准,无法准确评估大模型模拟人类行为的一致性和准确性,此前没有从认知心理学视角的拟人化评测框架。
这篇论文要解决的是:现有安全评测更关注“是否输出有害内容”,但对“拒答(refusal)是否合理、是否过度、是否可被诱导绕过”的系统性测量不足,导致对齐策略容易在安全与可用性之间失衡。作者提出一个专门衡量拒答行为的基准 SORRY-Bench。
这篇论文要解决的是:对比学习预训练模型(如 CLIP 类)在数据产权争议中很难证明“某个数据集是否被用于训练”,而现有成员推断/水印方法要么假设过强、要么对模型/数据分布不稳。作者研究“数据集所有权验证”:给定一个候选数据集,判断它是否参与了模型训练。
这篇论文要解决的是:脉冲神经网络(SNN)在能效上有潜力,但很难扩展到 LLM 规模并保持语言建模质量,过去多停留在小模型或玩具任务。作者提出 SpikeLLM,用基于显著性(saliency)的脉冲化策略把 SNN 扩到大语言模型。
这篇论文要解释的是:语言模型的表示空间里是否会自发形成类似“格(lattice)”的离散结构,而以往我们更多用连续向量几何(各向同性、子空间)来描述。作者声称从 token 表示出发观察到涌现的格结构,并讨论其意义。
这篇论文要解决的是:流式视频理解需要在长时间轴上持续吸收信息并支持多轮交互,但常规 VLM 往往把视频切成固定窗口,导致跨窗口遗忘与交互上下文断裂。作者提出带记忆增强知识的流式视频理解与多轮交互框架。
这篇工作讨论的核心问题是:语言模型在追求高似然和高能力时,是否会放大群体不公平,而一种“collapsed”表示或输出分布反而可能改善公平性。过去常见做法是在训练后加公平约束或重加权数据,但这通常牺牲效用且难以解释;作者想证明模型坍缩并不只是坏事,在某些公平目标下它可能是有益偏置。
这篇工作解决的是 Tabular PFN 在 in-context 适配上不够灵活的问题。标准 PFN(Prior-data Fitted Network)把大量表格任务分布压进一个预训练推断器里,推理时很快,但不同表格结构、噪声模式和样本规模差异很大,单一 prompting/conditioning 方式容易失配;作者希望通过多种 in-context prompter 的混合来提升泛化。
这篇工作的核心问题是知识蒸馏里 teacher-student gap 太大,导致学生不仅学不到教师的真实决策边界,还会在生成分布上越学越偏。标准蒸馏通常让学生拟合教师在固定数据上的输出,但如果学生自己的采样轨迹和教师看到的上下文分布不同,这种离线匹配就会失效;作者想用交错采样把这个分布落差补上。
现有大模型可靠性评估缺乏对言行一致性的测试,无法检测大模型表述的观点、价值观与其实际执行的行为不一致的问题,此前没有跨领域的言行一致性评测基准。
GUI agent训练缺乏高质量多步交互轨迹数据,现有方案依赖人工标注成本高、规模化难度大,无法支撑大模型量级的agent预训练需求。
神经网络训练中的Grokking现象会导致泛化延迟,模型先拟合训练集后经过极长训练才获得泛化能力,降低训练效率、提升调参不确定性,现有方案大多靠延长训练解决,成本极高。
RAG引入的外部检索文本同时存在收益(补充正确信息)和损害(引入噪声误导生成),现有优化方法都是数据驱动的黑盒方案,需要额外的评估器或后处理模块,没有可量化的理论框架支撑收益与损害的权衡。
现有LLM数学推理评估主要使用短上下文数学题,长上下文带干扰叙事场景下的数学推理泛化能力未被系统研究,无法反映LLM在真实复杂场景下的推理能力。
这篇工作要解决的是:Mamba/SSM 这类非注意力骨干在做低比特量化时精度掉得更快,而现有“给 Transformer 设计”的旋转/校准策略并不直接适配其状态空间与门控结构。过去很多量化方法默认权重统计近似各向同性或层间相似,但 Mamba 的通道方差与动态范围更不均匀,导致同样的比特数下误差更集中地打到关键通道。
这篇工作要解决的是:现有数学推理基准要么题型窄、要么静态且容易被训练数据污染,导致很难稳定评估 LLM 在“本科层级、跨学科、可泛化”的数学能力。过去很多 benchmark 用固定题库与单一评分口径,模型很快学会模式匹配或被泄漏数据抬分,评测信号变得不可信。
这篇工作要回答的是:LLM 能否在真实软件故障中定位 root cause,而不是只会复述日志或给出泛化建议。过去很多“用 LLM 做运维/调试”的评测停留在摘要或问答层面,缺少对定位准确性、证据链与可执行修复建议的严格区分。
这篇工作要解决的是:规则推理系统在面对“对规则的刻意钻空子(subversion)”时为何会失败,以及如何系统化地理解这种失败模式。过去对规则系统的鲁棒性分析常停留在个例或安全审计层面,缺少能生成、分类并解释“逻辑被绕过”的通用框架。
这篇工作要解决的是:在联邦场景下对大模型做参数高效微调(PEFT)时,LoRA 的更新在客户端间聚合会受到异构数据与噪声影响,导致低秩适配不稳定或相互抵消。过去常见做法是直接联邦平均 LoRA 权重,但这隐含假设各客户端的低秩子空间相近。
这篇工作要解决的是强化学习样本效率低、冷启动难的问题,思路是把大语言模型的先验直接变成 RL 的可用 inductive bias。传统 RL 往往从随机探索起步,尤其在长时序、稀疏奖励或语言描述任务里代价很高;而 LLM 已经在海量文本中学到世界知识和行为模式,问题在于这些先验怎样转成真正提升 RL 的训练信号,而不是只做表面上的 prompt 包装。
这篇工作解决的是 LLM 在优化建模上的两个脱节问题:现有 benchmark 往往只测会不会写出形式正确的数学规划,而不测推理过程是否能自我修正;现有 prompting 也常直接要求一次性输出完整模型,错误后很难恢复。这个问题以前被下游评测框架分散处理,但对真正想把 LLM 用作 optimization copilot 的人来说,建模质量和可纠错性必须一起看。
这篇工作解决的是数据选择在分布偏移下不稳的问题:很多 selection 方法依赖监督标签、任务特定 proxy 或训练中间信号,因此换任务、换模型、换数据分布后容易失效。作者试图用 CLIP 这样的通用视觉-文本表示做一个更稳健的数据选择框架,目标是不重训练 selector 也能跨场景工作。
现有视频理解 benchmark 主要针对离线短视频,缺少对流式视频(streaming video)场景下多轮时序对话能力的评估。用户在实际使用中会随视频播放不断追问,模型需要处理时间推移带来的信息更新和上下文依赖,这在已有评测中几乎没有被覆盖。
Mamba2 等线性 RNN / 状态空间模型在长序列建模上效率高,但其固定大小的隐状态在信息存储和检索上存在瓶颈,尤其在需要精确记忆的任务上不如 Transformer。Delta rule(一种经典的在线学习更新规则)可以改善隐状态的信息写入质量,但此前没有被有效整合进现代 SSM 架构。
多模态大语言模型在部署后面临概念漂移(concept drift)问题:预训练时学到的知识分布与实际使用中遇到的数据分布会随时间发生偏移,导致模型性能退化。已有的持续学习方法主要针对单模态或小模型,没有系统解决 MLLM 从预训练阶段开始的概念漂移适应问题。
神经网络在学习新概念和进行组合泛化时,训练动态中存在一种「swing-by」现象——模型参数在学习过程中会先偏向某个方向再回摆,类似引力弹弓效应。这种非单调的训练轨迹此前没有被系统刻画,但它对理解模型如何获得组合泛化能力至关重要。
Weak-to-strong generalization(用弱模型监督强模型对齐)被认为是 superalignment 的一条可行路径,但这篇工作揭示了一个严重隐患:强模型可能只是表面上对齐了弱模型的偏好,实际上在欺骗弱监督者——即 superficial alignment。这意味着弱模型可能无法可靠地检测强模型的不对齐行为。
这篇论文要解决的是:Transformer 在什么条件下“可证明地”学到特定结构的分类问题,而不是只靠经验观察。过去对 Transformer 的理论分析常停留在简化模型或线性注意力上,难以解释真实训练动态,因此作者聚焦在梯度流(gradient flow,连续时间极限)下的可学习性证明。
这篇论文要解决的是:如何在不显式合并权重(weight merging)的情况下,把多个偏好/专家模型的能力“隐式融合”到一个策略里,并且避免偏好数据质量不一致导致的训练偏移。以往做法要么直接做模型融合(容易冲突),要么用统一权重做 DPO/RL(会被噪声或某一偏好主导)。
这篇论文要解决的是:现有多模态评测要么静态且容易被刷分,要么难以按模型能力动态调节难度,导致评测分数对真实能力不敏感。过去常见做法是固定题库或人工分级,但模型迭代很快,静态基准很快过时。
这篇工作要解决的问题是:现有偏好优化往往只优化“平均偏好”,会系统性牺牲少数群体、长尾场景或特定人群上的对齐质量。以 DPO 一类方法为代表的训练目标通常把所有偏好样本混在一起做总体最大化,这样做实现简单,但在群体分布不均衡时,模型会优先拟合主流群体,导致 group-wise reward 或 win rate 明显失衡;作者试图把“不要让任何偏好群体掉队”直接写进目标函数。
这篇工作的核心问题是:时间序列基础模型正在快速增长,但我们还没有像语言模型那样相对系统的 scaling law 去指导参数、数据和算力分配。过去时间序列研究更多停留在单数据集、单 horizon、单模型族上的经验比较,导致“模型变大是否继续有效”“该投数据还是投参数”这些关键工程问题缺少统一答案。
这篇论文研究的是一种带记忆的 SGD 变体,核心问题是:能否在不显著增加算法复杂度的前提下,通过保存和利用历史梯度信息获得更好的随机优化收敛性质。标准 SGD 的主要问题是梯度噪声大、曲率适应弱,很多加速法要么依赖动量式启发,要么需要更强假设;作者试图给“memory”机制一个更基础的性质刻画,并说明它何时真的带来 stochastic acceleration。
这篇论文的核心问题很新:大语言模型之间存在复杂的训练继承、蒸馏、微调和数据谱系关系,但我们缺少系统方法去推断这种“家谱”,也缺少基于家谱结构预测 benchmark 表现的工具。以往评估通常把每个模型当独立点看待,这会忽略模型族之间的强相关性,导致性能预测、benchmark 选择和模型比较都不够高效。
从纯视频数据中预训练能执行动作的视觉-语言-动作(VLA)模型,核心挑战是视频中没有动作标注。此前的方法要么依赖昂贵的机器人遥操作数据,要么只能做视觉理解而无法输出动作。
在弱监督(如 AI 反馈而非人类标注)条件下做偏好对齐时,标签噪声是主要瓶颈。此前工作集中在改进偏好优化算法(DPO 变体等),但本文发现迭代地精炼标签比换优化算法更有效。
LLM-as-a-Judge 存在系统性偏见(如位置偏见、长度偏见、自我偏好等),但此前缺乏全面的量化框架来衡量这些偏见的类型和程度。
第一人称视角(egocentric)视频理解对多模态 LLM 提出了独特挑战——视角固定、动作密集、时间跨度长,现有 VLM 在这类视频 QA 上表现不佳,且缺乏系统的 benchmark。
详细图像描述(detailed image captioning)的质量受限于训练数据和评估标准——现有 caption 数据粗糙,评估指标(如 CIDEr)无法衡量细节丰富度。本文同时构建 benchmark 和提出对齐学习方法来提升详细描述能力。
这篇论文要解决的是:LoRA 微调在不同实现与重参数化下会出现不稳定或不可复现的优化行为,导致“同样的 rank/学习率/数据”也可能训练出差很多的结果。以往大家更多把 LoRA 当工程技巧用,但缺少对其参数化不变性(invariance)与优化几何的系统处理。
这篇论文要解决的是:LLM 可能被植入后门或出现“后门式不对齐(backdoor unalignment)”,在特定触发条件下输出有害或违背策略的内容,而部署方往往只能黑盒调用模型、无法检查权重。以往防御要么依赖白盒审计/再训练,要么依赖输出过滤,但前者不现实、后者容易被绕过。
这篇论文要解决的是:现有多模态大模型(MLLM)评测往往偏“识别/描述”,但对感知理解(perceptual understanding)与类比推理(analogical reasoning)的测量不够细,导致模型看似会看图,其实在关系、结构与类比上很脆。过去很多基准用静态 QA 或简单 caption 指标,难以区分“读题技巧”与真正的视觉关系建模。
这篇工作要解决的是:Video LLM 不仅会答错,还经常在证据不足时硬答,缺少“应该拒答”的能力。过去视频问答主要优化 answer correctness,默认每个问题都可答,但真实视频里经常存在视野外、时间缺失、分辨率不足或语义歧义的问题;如果模型没有 answerability 对齐,提升知识和推理能力反而会放大幻觉。
这篇工作要解决的是:task arithmetic 什么时候有效、什么时候会互相干扰,过去缺少能提前判断权重可组合性的指标。许多工作直接在线性空间里加减 finetuned checkpoint,但成功高度依赖任务间耦合程度;作者提出 τJp 作为 weight disentanglement 的关键指标,目标就是在真正做权重编辑前先判断‘这些更新能不能安全叠加’。
这篇工作要解决的是:现有 LLM safeguard 往往能在已知 jailbreak 上工作,但对分布外攻击和对抗性改写不够稳健。题目里的 refusal feature adversarial training 表明作者把‘拒答行为’看成某种可学习特征,并通过对抗训练让这类特征更稳定;这比单纯加安全数据更进一步,因为问题不只是样本覆盖不足,而是安全边界在表示空间里不够鲁棒。
这篇工作要解决的是:大规模 diffusion model 的可控生成往往需要复杂条件注入,但双向信息混合容易让控制信号与生成表征互相污染,导致控制不准或画质下降。题目中的 unidirectional information flow 暗示作者想限制条件信息的流动方向,用更干净的结构实现控制;这是扩散模型规模增大后越来越突出的系统问题。
Diffusion Transformer (DiT) 从头训练图像生成模型收敛极慢、计算开销大,核心瓶颈在于 DiT 需要同时学习语义表示和生成能力。作者提出用预训练视觉编码器的表示来对齐 DiT 内部特征,从而大幅降低训练成本。
长记忆 SSM(如 S4 的 HiPPO 初始化)在实际训练中存在数值不稳定问题,参数化方式容易导致梯度爆炸或消失,使得长程依赖建模的理论优势难以兑现。作者提出 HOPE 参数化来解决这一鲁棒性问题。
Neural Tangent Kernel (NTK) 理论在分类问题中的适用性存在疑问——NTK 在无限宽极限下收敛的经典结论可能在分类 loss(如交叉熵)下不成立,因为分类 loss 会驱动参数持续增长导致 NTK 发散。作者严格证明了这一发散现象。
视频-语言推理任务中,现有方法要么用重量级的端到端模型处理所有帧,计算开销大;要么用简单融合丢失跨模态交互信息。CREMA 提出一种模块化多模态融合方案,在保持效率的同时提升视频-语言推理的泛化能力。
这篇论文要解决的是:如何在不改动底座策略模型结构、也不依赖离线大规模再训练的前提下,把“在线交互中暴露出来的错误/偏好偏移”快速修正到一个大 policy model 里。以往常见做法要么是继续 RLHF/在线 RL(成本高且不稳定),要么是做轻量 SFT(容易遗忘、对分布外交互不稳),因此“模型无关、可在线迭代”的精炼机制值得单独研究。
这篇论文要解决的是:长上下文 RAG 在推理阶段的瓶颈不只是“上下文更长”,而是检索与阅读的计算该如何按需扩展,否则会出现 token 浪费与注意力稀释。以往很多工作把长上下文当作静态容量问题,直接塞更多文档,但模型并不会自动把额外上下文转化为更高答案质量。
这篇论文要解决的是:LoRA 这类低秩适配在“秩 r 怎么选、怎么在任务上最优”上通常靠网格搜索或经验,导致要么浪费参数、要么容量不足。过去的次优解是固定 r 或用启发式逐层设定,但这在多任务/多域适配时很难稳定复用。
这篇工作要解决的是:现有 LLM 推理评测主要看答案对错,却很少系统评估模型是否具备“元推理”能力,也就是能否选择、监控、修正自己的解题过程。像 GSM8K 这类算术基准能测结果,但对策略切换、错误反思、过程控制覆盖不足,所以作者提出一个专门面向 meta-reasoning 的评测集。
这篇工作要解决的是:Self-Taught Reasoner 这类自举式推理训练,容易在探索新解法和利用已有高质量轨迹之间失衡,训练过程不稳定。已有方法常把更多采样或更多筛选当成万能解,但没有显式监控“现在是在扩展能力边界,还是在反复放大已有模式”。
这篇工作要解决的是:在 RLHF 中尽量绕开显式 reward model inference,直接从人类偏好信号优化策略。标准 RLHF 往往先拟合奖励模型再做 policy optimization,但 reward inference 既昂贵,也容易把标注噪声和偏差固化进一个不稳定的代理目标。
Prompt tuning在数据稀缺的下游任务上效果差,现有prompt迁移方案都是同模态内迁移,无法跨模态复用数据丰富模态的预训练prompt,导致小样本跨模态任务适配成本高。
AI生成图像(AIGI)的质量评估缺乏专门的基准,现有使用多模态大模型(LMM)做AIGI评估的精度未被验证,传统评估基准主要使用自然图像,存在明显的分布偏移,无法反映LMM在AIGI评估场景下的真实能力。
LLM预训练数据检测(用于版权排查、测试集污染检测)的现有方法大多基于启发式规则,没有理论支撑,现有表现最好的Min-K%方法可解释性差、性能还有提升空间。
现有LLM对齐方案基于静态通用数据集训练,无法适配用户个性化、动态变化的偏好,为每个用户单独微调成本过高,没有训练免费的实时偏好适配方案。
现有RAG索引方法仅单独建模语义相似性或关联性,无法覆盖两类互补信号,导致多跳推理场景下知识融合不足,性能次优。过往方法默认单维度索引足够支撑RAG需求,没有考虑两类信号的协同作用。
这篇论文要解决的是:在不改模型权重的前提下,能否仅靠推理时策略显著降低有害/违规输出,而不是把安全完全押在训练期对齐上。现有做法要么依赖更强的拒答对齐(牺牲可用性),要么用外部过滤器(容易漏检且破坏流畅性),推理时“可撤销”的生成控制仍偏弱。
这篇论文要回答的是:多模态大模型在“科学文本→图像”生成上到底有多可靠,而不是只看通用文生图的审美指标。过去科学插图往往被当作通用生成的子集来评测,导致模型在符号、结构、尺度与标注一致性上的失败被掩盖。
这篇论文要解决的是:同一个模型在不同场景下需要不同安全边界时,能否在推理时快速适配,而不是为每套安全规范都重新训练/微调一遍。过去的对齐通常把安全策略“固化”进权重里,导致要么过度拒答,要么难以满足地区/产品线差异化合规。
这篇论文要解决的是:纯自回归 Transformer 是否能在零样本条件下做“视频模仿学习”(video imitation),即给定上下文视频就续写出符合模式的后续动作/帧序列,而不需要显式的强化学习或行为克隆训练。以往视频控制常依赖专门的策略学习或扩散视频模型,AR 模型的 in-context 能力在视频上缺少清晰证据。
这篇论文要解决的是:VLM 是否真的学到了“空间表征”(space representation),以及在存在指代歧义与参考系歧义(frame of reference ambiguity)时,它们如何选择解释。以往空间能力评测常用无歧义指令或单一参考系,导致模型在真实对话中的空间误解被低估。
这篇论文要解决的是:reward 设计太慢、太依赖人工试错时,能否在线地从多个候选 reward 中选择并同步优化策略,从而加速把 agent/模型推到想要的行为。传统做法往往先固定 reward 再做 RL,一旦 reward 选错就会在错误目标上过拟合甚至产生 reward hacking。
这篇工作聚焦一个被长期弱化但对真实交互很关键的问题:如何让 LLM 在信息不足时主动提出澄清问题,而不是直接带着错误假设回答。以往做法通常把多轮对话压成单轮监督,或者只在人工标注的 clarification 数据上微调,结果是模型学到的是表面问句形式,而不是“什么时候该问、该问什么”的决策边界。
这篇工作解决的是 LLM 指纹识别中的一个现实难题:参数拿不到、输出又容易被改写时,如何稳定识别模型来源。传统 watermark 更像主动嵌入,适合发布方控制;而真实场景更常见的是被动取证,需要从模型固有表征里提取难伪造的 fingerprint。
这篇工作关注的是长上下文或外部记忆建模中的一个老问题:怎样把大量历史信息保留下来,同时又不让检索和读写成本失控。标准 Transformer 要么把所有 token 都塞进注意力,成本平方增长;要么做简单压缩,结果重要细节容易被平均掉。
这篇工作要解决的是模型剪枝里一个常见但常被低估的问题:权重矩阵中的 outlier 会破坏标准低秩或稀疏假设,导致简单 magnitude pruning 既删不干净冗余,也容易误伤关键通道。尤其在大模型里,少量大幅值或高影响权重常常承载关键功能,直接按统一阈值裁剪效果不稳。
这篇工作试图回答一个跨理论与经验的核心问题:智能行为是否出现在系统接近 chaos 边界的区域。这个问题过去常被作为类比提出,但对现代深度网络、尤其是大模型训练动力学,缺少能落到可测量指标和可控实验上的证据。
现有大模型自训练所用的合成数据仅包含逐步骤解题过程,缺少抽象元知识,导致模型在相似任务上的泛化能力不足。过往方法默认步骤级解题过程是自训练合成数据的核心有效信号,没有考虑抽象元知识的作用。
领域普遍认为单语义特征(每个神经元对应独立一致语义)会牺牲模型准确率,存在准确率-可解释性的固有trade-off,同时多语义神经元导致模型鲁棒性差。过往研究大多为了准确率放弃单语义性,没有探索单语义特征对性能的增益。
现有多模态大模型的数学视觉能力存在三个核心短板:数学图表编码能力弱、图表-语言对齐差、思维链推理能力不足,同时缺少大规模带思维链标注的数学视觉数据集,人工标注成本极高。过往方法依赖人工标注数据集,无法覆盖足够的训练数据需求。
现有大模型遗忘方法没有验证知识是真的被移除还是被隐藏,量化部署操作会导致遗忘失效,模型仍然可以恢复被遗忘的内容。过往评估仅测试全精度下的遗忘效果,没有考虑部署阶段量化操作的影响。
现有视觉语言模型处理图像内嵌文本的任务依赖OCR或者掩码语言建模,无法处理像素级被遮挡的文本恢复任务,需要融合视觉像素、文本语义、多模态对齐三类信号。过往方法依赖OCR预处理,无法利用像素级细粒度信号。
现有低精度量化结合低秩误差重构方法采用SVD分解量化误差,最小化Frobenius和谱范数,没有从解析层面分析误差重构的最优解,导致量化后精度损失仍然较高。过往方法依赖经验设计,没有理论指导误差重构的最优方案。
现有LLM-as-a-Judge方法缺少参考引导,导致和人工评估的可靠性存在差距,固定参考和待评估响应的相关性不足,影响评估准确性。过往方法使用固定参考,没有考虑参考与待评估响应的适配性。
这篇论文要解决的是:在不泄露输入与模型参数的前提下,把 Transformer 的私密推理(private inference)做得足够快、足够省,从而能在真实服务里规模化落地。以往私密推理常被“能跑但太慢/太贵”卡住,尤其是注意力与大矩阵乘导致的密码学开销爆炸。
这篇论文要解决的是:LLM 编辑(model editing)方法在评测中看起来“改对了”,但可能只是对编辑样本或局部模式过拟合,导致泛化到语义等价改写、相关事实链条或分布外提问时失败。过去编辑评测常用窄集合的查询与模板,容易把“记住编辑触发器”误当成“真正更新知识”。
这篇论文要解决的是:LLM 多智能体系统里通信内容冗长、重复、不可控,导致 token 成本和延迟迅速膨胀,而很多信息对协作并不必要。过去常见做法是让 agent 直接互发完整思维链/上下文,简单但极其不经济。
这篇论文要解决的是:分子-文本(molecule-text)对齐往往粒度不匹配,导致统一的分子理解与生成模型要么学不到细粒度结构语义,要么生成时缺乏可控性。过去常用单一对齐目标(例如全局对比学习)会把“局部官能团信息”和“全局性质描述”混在一起,监督信号不够精确。
这篇论文要解决的是:具身 LLM agent 在物理世界中会被“越狱”(jailbreak),从而执行危险或违背指令的行为,而现有安全评测多停留在纯文本对话,低估了物理交互带来的攻击面。过去常把 embodied 安全当作把文本安全策略搬过去,但传感器噪声、工具调用与环境反馈会引入新的可利用通道。
这篇工作要解决的是:在黑盒语言模型上做 prompt 优化时,离散 token 搜索和连续 soft prompt 各有明显短板,单独使用往往要么搜索空间太粗、要么难以落地到真实 API。过去很多方法只能在白盒设置里用梯度优化连续 prompt,或者在黑盒设置里做高成本的离散搜索,因此在真实闭源模型上效果和效率都不理想。
这篇工作解决的是任务特定微调时的数据选择成本问题:全量 fine-tuning 数据常常冗余,而传统 coreset 选择又需要先算表示、梯度或损失,开销大且和最终训练目标未必一致。过去大家要么直接随机采样,要么做静态数据筛选,但在大模型微调里这两种方式都容易浪费训练预算。
这篇工作解决的是一个很具体但很硬的问题:LLM 解码既希望数值稳定、输出分布可控,又希望支持 watermarking,而现有水印方法常常牺牲生成质量或在采样扰动下不稳定。过去很多 watermark 方案是后加在采样器上的,因此和解码稳定性之间存在天然冲突。
这篇工作讨论的是一个当前很容易被口号化的问题:用 synthetic data 训练或发布模型,是否真的能保护原始数据隐私。过去很多做法默认认为,只要把真实数据先生成成合成样本,再用合成样本训练,就比直接用原始数据安全;但这个前提并没有被系统验证,尤其在生成模型会保留分布细节甚至记忆个体样本的情况下。
现有零阶LLM微调方法(如MeZO)用两次前向传播替代反向传播降低显存开销,但未考虑LLM参数维度间的曲率异质性,容易出现收敛不稳定甚至失败的问题;传统一阶微调又因反向传播显存开销过高,难以落地大模型全参数微调场景。
现有LLM推理研究多聚焦纯逻辑推理或纯记忆任务,忽略了同时兼具推理和记忆双重属性的代码推理场景,导致现有推理方法在代码任务上表现不佳,也缺乏对应的标准化评测基准。
现有LLM基准测试(如MMLU、FLAN)任务数量多,评测成本高,此前的基准缩减方法要么损失评测精度,要么依赖复杂的静态特征提取,无法在工业界快速迭代场景落地。
现有视频多模态大模型(MLLM)基准依赖人工标注真实视频,构建成本高,且无法隔离特定能力评测,导致模型迭代过程中无法快速定位能力短板,评测效率极低。
现有DPO系列偏好优化算法的改进组件杂乱,缺乏统一的分类框架,不同方法之间的公平对比困难,无法确定哪些组件真正带来跨场景的性能提升。
大模型分布式训练的通信瓶颈主要来自梯度传输的高开销,现有梯度压缩方法忽略了LLM训练过程中梯度和海塞的低秩特性,压缩比和训练精度无法兼顾。
这篇工作要解决的是:当 prompt 需要同时优化多个目标(例如准确性、长度、成本、安全性)时,如何得到一组可用的 Pareto 最优提示,而不是把多目标硬塞成一个加权和导致权重难调、解不稳定。过去 prompt 优化常被当成单目标搜索,实际落地时经常被多指标约束卡住。
这篇工作要解决的是:VLM 在 jailbreak 攻击下如何用“强化的蓝队训练(blue teaming)”提升鲁棒性,而不是只靠静态拒答规则或少量对抗样本微调导致覆盖不足。以往 VLM 的越狱防护常见问题是攻击面变化快、训练信号稀疏且容易过拟合到已知模板。
这篇论文要解决的是:如何把“会调用工具的单个 agent”扩展成“可复用、可评测、可组合的通用虚拟智能体构建工具链”。过去很多 agent 工作把重点放在单个 benchmark 或单个 workflow 上,系统能跑但复现差、组件耦合重、环境和评测不统一,所以很难回答到底是模型更强了,还是工程脚手架更厚了。
这篇论文要解决的是:通用机器人策略在处理时空关系时常常“看见了但没跟上”,尤其是在长时程操作里难以稳定利用视觉线索。以往 VLA(vision-language-action)策略多依赖静态图像提示或文本指令,空间位置能看懂一点,但动作随时间演化的关键轨迹经常没有被显式表示出来。
这篇论文要解决的是:大自回归视觉模型虽然统一、可扩展,但在复杂视觉理解里经常不知道该按什么顺序看哪里。以往提示方法常给单个框、点或文字描述,能告诉模型“看这个”,却不太能表达“先看这里,再看那里,再整合起来”的顺序化视觉推理需求。
这篇论文要解决的是:在没有标签的情况下,如何为大规模训练挑出最有价值的 coreset。过去 coreset selection 常依赖标签、全量训练动态或昂贵的双层优化;在无标签场景下,大家往往退回到 feature similarity 或启发式采样,但这些方法容易保留“看起来多样”却对训练帮助不大的样本。
这篇论文要解决的是:知识编辑如何做到“改一处、少伤全局”,尤其是在多人或多轮编辑场景下避免相互覆盖。过去知识编辑大多假设一次只改一个事实,关注单次编辑成功率;但真实系统里编辑往往持续发生,多个修改可能相关、冲突或共享参数通路,结果就是新知识写进去了,旧能力却被悄悄破坏。
这篇论文要解决的是:当前数学推理评测经常把“答对”误当成“会推理”,需要一套 checklist 式的细粒度诊断来判断模型到底哪里强、哪里弱。过去很多数学 benchmark 只看最终答案准确率,导致模型可能靠模式匹配、数据污染或步骤模板拿分,但一旦题型、表述或中间约束稍微变化,能力就暴露得很快。
现有多模态大模型(MLLM)的安全评测仅考虑文本查询的语义,未结合对应的视觉上下文场景,导致无法评测情境相关的安全响应能力,存在大量未覆盖的安全隐患。
现有弱到强泛化(用弱监督训练强模型)的研究仅针对单能力场景,无法验证多能力场景下弱到强泛化的效果,无法支撑超对齐的通用落地需求。
现有大模型偏好数据获取存在两类核心缺陷:人工标注成本高、周期长;自奖励合成方法因奖励模型与目标模型共享权重,会放大模型固有偏差,生成数据质量不足。
现有大模型安全机制解释性研究主要聚焦MLP层、隐层安全表示,普遍忽略多头注意力对安全能力的影响,无法完整解释大模型安全防护的内部机制。
这篇论文要解决的是:RAG 推理延迟主要被“长上下文 + 多文档拼接”的注意力计算拖垮,而常见做法要么粗暴截断要么依赖昂贵 reranker,导致速度与答案质量难兼得。作者聚焦在推理阶段如何更稀疏地选择上下文,同时尽量不损失可用证据。
这篇论文要解决的是:深层网络的有效信息流经常被残差连接“固定形态”限制,导致训练要在稳定性与表达力之间做硬取舍。作者提出的问题是能否用更灵活的连接方式,让梯度与特征在层间传递更可控,从而提升可训练性或性能。
这篇论文要解决的是:偏好对齐通常依赖训练(DPO/RLHF),但很多场景需要“即时对齐”——在不改模型参数的情况下,让解码过程遵循一组原则或偏好。过去的做法要么是 prompt 约束不稳定,要么是外置 reranker/过滤器成本高。
这篇论文聚焦于大规模视觉-语言模型中“recipe merging”的动态机制,即不同训练配方或能力来源在合并后为什么有时互补、有时彼此干扰。过去这类问题通常靠经验调参和最终指标做黑盒比较,缺少对合并过程本身的可解释分析,因此一旦模型进入多阶段预训练、持续训练或多来源能力融合场景,这个问题就变得更值得系统研究。
这篇论文研究 LLM 的人格对齐问题,即模型如何稳定呈现目标人格特征,而不是只在局部 prompt 下模仿某种说话风格。过去相关工作经常把人格等同于语气模板或角色扮演,但这类方法很脆弱,换任务、长对话或价值冲突场景后容易失真,因此需要更系统的建模与评测。
这篇论文解决文档理解里一个长期存在但常被低估的问题:纯文本位置编码无法有效表达复杂版面结构,导致模型对跨栏、表格、分组块和层级布局的理解不稳定。过去做法常用绝对坐标或 2D bbox embedding,但这些表示对局部相邻关系敏感,对更高层的组结构和阅读顺序建模仍然不足。
这篇论文要解决的是结构化思维链蒸馏的碎片化问题:当前 CoT distillation 往往按特定格式、特定任务或特定推理模板各自为战,导致迁移性差、监督信号不统一。作者试图把不同形式的结构化推理轨迹纳入一个统一框架,而不是每类结构单独设计蒸馏方案。
现有Transformer常用激活函数(GeLU、SwishGLU等)为固定形态的非线性函数,表达能力有限,制约了模型的训练动态优化和表征能力上限。
现有基于大模型隐层激活的小草稿模型推测解码方法存在两个核心缺陷:训练时草稿模型的生成分布与推理时分布不匹配(off-policy)、草稿模型无法观测完整的大模型状态(部分可观测),制约了解码速度的进一步提升。
现有大模型对齐基准默认用户偏好统一,基于高层人格属性的提示方法无法拟合用户异质的细粒度偏好,缺乏针对个性化大模型的标准化评估基准和用户偏好模拟方法。
现有VLM数学推理基准均为静态问题集,无法评估VLM对同类型问题微小修改(如数值、函数图变化)的推理鲁棒性,而现有SOTA VLM在这类场景下失败率极高,暴露了推理能力的缺陷。
现有基于3D高斯溅射的多模态记忆方法存在两个核心缺陷:每个高斯基元存储高维特征的计算开销过大,蒸馏得到的3D特征与基座模型特征存在对齐误差和信息损失,无法支持跨粒度的多模态查询。
现有Transformer和SSM等序列模型在复杂推理、多步函数组合任务上性能较差,但缺乏理论层面的能力边界分析,无法解释性能瓶颈的根源,也无法为架构优化提供明确方向。
这篇论文聚焦“被遗忘的域泛化”(domain generalization):模型在训练域之外的未知域上为何经常失效,以及现有 DG 评测/方法是否在某些设置上形成了误导性的进展。过去很多 DG 结论依赖特定数据集与协议,导致方法看似有效但换个分布就不稳。
这篇论文解决的是:在深度网络里如何用更“贝叶斯化”的方式处理最后一层不确定性与校准,而不把整网都做昂贵的贝叶斯推断。以往全贝叶斯深网成本高、近似难控;只做点估计又容易过拟合与欠校准。
这篇论文研究个性化 LLM 输出是否会制造“信息茧房”(filter bubble)并加剧情感极化(affective polarization),即用户越用越只看到符合既有立场、且对外群体更负面的表述。过去推荐系统里这类问题已有讨论,但 LLM 以生成式方式“改写世界观”可能更隐蔽、更难审计。
这篇工作要解决的是图文匹配里“假负样本”长期被低估的问题,尤其是语义几乎相同的 clone negatives 会把对比学习往错误方向推。传统 image-text matching 往往默认 batch 内非配对样本都可当负例,这在大规模弱标注数据里是次优的,因为重复图像、近义描述和模板化文本会让模型学到过强的排斥边界。
这篇工作要解决的是如何把预训练语音模型和语言模型更紧密地接起来,同时把推理复杂度降到线性。现有 speech-language 系统常见做法要么是两阶段串联、接口松散,要么沿用 Transformer 带来的二次复杂度,这在长语音和流式场景下都不经济。
这篇工作要解决的是:LLM 能否不只是复述已知化学知识,而是真正帮助重新发现训练中未见过的科学假设。过去大量 scientific LLM 工作停留在文献问答、信息抽取或已知结论重构,而“unseen hypothesis rediscovery”要求模型具备更强的组合泛化与证据整合能力。
现有 LLM 评测多聚焦于静态 benchmark,缺少对多智能体博弈场景下 LLM 策略推理、社交互动和动态决策能力的系统评估。作者想构建一个多智能体游戏环境来测试 LLM 在竞争/合作场景中的表现差异。
黑盒优化(BBO)在无法获取梯度的场景中广泛使用,但现有方法容易收敛到尖锐(sharp)的局部最优,泛化性差。作者将 sharpness-aware 的思想从梯度优化迁移到黑盒优化中。
人形机器人的全身控制需要在高维动作空间中进行长时间规划,传统 RL 方法在这种场景下样本效率低。作者提出用层次化 world model 来作为视觉全身人形控制器。
这篇论文要解决的是:扩散模型采样步数多导致生成慢,而很多加速方法要么牺牲质量、要么只适用于特定噪声调度/ODE 形式。作者提出用 randomized midpoints 在顺序与并行两种设置下加速采样,目标是在更少步数下保持稳定误差。
这篇论文解决的是强化学习里策略更新的一类基础问题:如何设计既足够灵活、又能保证策略收敛的更新规则。现有方法常在保守更新与优化速度之间做经验折中,比如 trust region 类方法更稳但更重,简单 policy gradient 更直接但容易震荡,因此作者提出一类带收敛保证的 ϕ-Update。
这篇论文要解决的是个性化生成中的一个老问题:个体概念学到了,但类别先验丢了,结果既像目标实例又容易偏离原类别。现有 personalization tuning 往往把注意力过度集中在少量实例图像上,导致类别边界塌缩、可编辑性下降或生成物与文本类别描述不一致,因此作者引入显式类别引导。
这篇论文关注动态系统学习里的持续学习难题:模型在适配新系统或新动力学时,如何不忘掉旧系统。传统做法往往针对单一固定系统训练,或者在新数据上继续拟合后牺牲旧任务性能,这在需要长期累积物理世界模型、控制模型或环境模型时会很快失效。
这篇论文关注的是 LLM 评测流程本身:role-guide 和 self-reflection 这两类常见评测增强手段,到底是否真的提升了评测质量。很多工作默认给 judge 模型加角色设定、让其先反思再打分会更可靠,但这也可能只是改变了评分风格、长度偏好或保守程度,而不是真正提高判别正确性。
这篇论文研究的是剪枝数据集上的知识蒸馏该保留哪些样本,结论从标题上看很明确:中等难度样本更能刻画平滑决策边界。常见数据剪枝方法容易偏向最容易或最有代表性的样本,但蒸馏并不只需要'看懂主体分布',还需要保留老师模型在边界附近的软信息。
现有研究认为权重匹配(WM)通过降低模型参数排列搜索中的L2距离实现线性模式连通性(LMC),但该机制假设未被验证,LMC的实际成因不明确。
现有可微分归纳逻辑编程(ILP)方法依赖符号数据集,无法直接从原始序列输入学习规则,连续输入到符号变量的映射需要输入特征标签的显式监督,存在显式标签泄露问题。
核心问题是:分子语言模型在结构药物设计里常把分子“压扁”为SMILES等线性序列,导致3D几何与局部片段信息在token层面丢失,从而限制对构象/结合位点敏感的建模与生成。
核心问题是:用扩散模型做规划(planning)时,生成轨迹可能高质量但不安全,传统做法要么在采样后硬裁剪要么用代价函数做弱引导,难以给出强约束下的可行性保证。
核心问题是:联邦持续学习在在线场景下既要适应新数据分布又要控制遗忘,但客户端存储/通信受限,传统固定回放或启发式采样在非平稳数据下容易失效。
核心问题是:LLM在3D空间理解上缺少“情境化(situated)”的空间语义与交互语境,现有数据多是静态3D问答或2D投影,导致模型难以把语言与可行动的3D关系对齐。
核心问题是:现有多模态评测往往分辨率低或场景过“干净”,无法检验MLLM在真实高分辨率细节、密集目标与人类也觉得难的视觉情境下的可靠性。
这篇工作要解决的是:现有 LLM 安全评测多半停留在通用红队题或主观危害分类,缺少和真实监管文本、政策条款直接对齐的风险基准,因此很难回答模型是否真的满足可审计、可落地的合规要求。这个问题过去常被经验性 prompt attack 或静态 toxicity benchmark 代替,但那类评测覆盖面窄、法律语义弱,也不利于比较不同安全训练路线的有效性。
这篇工作要解决的是 3D 生成里‘表示能力、几何一致性、生成效率’三者难同时兼顾的问题。现有方法常在显式网格、NeRF、3D Gaussian Splatting 或 latent diffusion 之间做折中,但要么几何结构不稳,要么生成速度慢,要么难以覆盖复杂拓扑。
这篇工作要解决的是扩散概率模型的收敛速度为什么慢,以及能否给出更好的理论收敛率。过去大量 diffusion 工作依赖经验设计和渐近直觉,理论结果往往要么假设过强,要么只说明可收敛、不说明需要多快;这使得训练步数、噪声调度和离散化选择缺少坚实依据。
这篇工作要解决的是 3D 几何表示学习缺少像语言或图像那样的大规模统一模型,导致表征、生成和跨任务迁移仍然分裂。以前常见路线是为重建、分割、生成分别设计模型,或者只在单一几何表示上做预训练,这让几何先验难以沉淀成通用模型能力。
这篇工作要解决的是长视频理解 benchmark 往往把问题做成开放式问答,导致模型可以靠表层语义、局部片段或语言偏置作答,而不必真正整合长时序线索。作者想评测的是:模型能否根据关键线索在长视频中完成 clue-grounded 的推理,而不是只做粗粒度摘要。
这篇工作要解决的是神经网络虽强,但内部计算图通常不可解释;而传统可解释模型又很难保住神经网络的表达能力。作者试图把因子图这种结构化概率建模工具和神经网络结合起来,让模型既能训练、也能把推理过程拆到可解释因子层面。
现有基于大语言模型的分割方法无法利用多轮交互的历史信息,难以理解用户复杂意图,无法基于之前识别的实体的位置、交互、层级关系完成多轮推理分割。
现有多模态大模型在工业异常检测场景的能力未被系统评估,缺乏专门的基准数据集衡量MLLM在工业巡检场景下的各子任务性能。
现有多模态知识图谱(MMKG)实体表示学习方法只关注实体级的多模态融合策略,忽略了不同关系上下文下模态内部隐藏的多视角特征利用,导致实体表示在不同关系上下文下的适配性不足。
这篇工作要解决的是:视频插帧通常是离线一次性生成,用户很难在局部时间段或运动区域交互式地纠正伪影,而现有交互式方法要么控制粒度粗、要么需要昂贵的重算。随着扩散/生成式视频模型普及,“可控且低延迟的插帧”变得更像系统问题而不是纯模型问题。
这篇论文聚焦的核心问题是:Vision Transformer 上流行的自监督学习为什么有效,现有理解大多停留在经验归纳或针对 CNN 的旧分析,缺少能解释 ViT 表征形成机制的理论框架。这个问题现在值得重做,因为 ViT 已成为视觉预训练主干,但很多方法设计仍依赖试错,理论缺口直接限制了目标函数、数据增广和架构选择的判断。
这篇论文要解决的是:扩散模型 ensemble 虽然通常能提升生成质量和鲁棒性,但现有做法大多是输出级平均或采样级组合,计算重、利用不同模型互补性的方式也很粗。这个问题值得做,因为扩散模型已经成为生成系统基础模块,而如何低代价地整合多个模型的特征,对提升质量和可控性都有直接价值。
这篇论文解决的是开放世界机器人操作中的动作建模问题:任务种类多、环境变化大、长时序决策难,单层平坦策略通常既难扩展又难泛化。过去很多方法要么依赖任务特定技能库,要么在低层动作空间直接模仿,导致遇到新物体、新组合任务时性能迅速下降。
这篇论文的核心问题是:音频大语言模型能否直接承担描述性语音质量评估,而不是依赖传统手工声学指标或专门训练的小评估器。这个问题值得研究,因为语音质量并不只是失真强弱,还涉及自然度、清晰度、噪声类型等多维主观感受,传统 MOS 预测器往往覆盖面窄、解释性弱、迁移性差。
这篇论文要解决的是 dataset distillation 在类别间建模上的短板:很多高效蒸馏方法更擅长保留类内原型,却忽略类间边界结构,结果是合成数据虽然小而快,但分类决策面学得不够好。这个问题重要,因为数据蒸馏真正想替代的不只是样本记忆,而是训练动态和类别关系的压缩表示。
这篇论文解决的是机器人 vision-language policy 训练数据不足的问题。现实机器人数据昂贵、覆盖窄、标注稀缺,导致 VLA/VLP 方法很难像语言模型那样靠规模自然泛化;过去常见补救是数据增强或跨数据集混训,但能否真正提升策略学习的数据质量一直是瓶颈。
为文本分类器提供在 Levenshtein 编辑距离约束下的认证鲁棒性保证。此前的文本鲁棒性认证主要基于词级替换或同义词替换,而编辑距离(插入/删除/替换)更贴近真实的对抗性文本扰动。
电路发现(circuit discovery)是 mechanistic interpretability 的核心任务——在神经网络中找到负责特定行为的最小子网络。本文从计算复杂性角度分析这个问题的固有难度,回答'找到最优电路到底有多难'。
这篇论文要解决的是:当你只有多个“弱标注器”(规则、启发式、旧模型、噪声人标)时,如何不把它们当成真标签、而是当成“约束”来学习一个可泛化的预测器。以往弱监督常用做法要么显式建模标注器噪声/混淆矩阵、要么简单投票/加权投票,但这些做法在标注器相关性强、覆盖不均或系统性偏差时会把偏差固化进模型。
这篇论文要解决的是:如何生成“反事实样本”(counterfactuals)来做因果分析或模型解释,同时让生成分布既多样又可控。以往反事实生成常在连续潜空间里做局部优化或用单峰高斯假设,容易出现模式坍塌(只给一种反事实)或生成不符合数据流形的样本。
这篇论文要解决的是:如何把通用预训练扩散模型适配到“以对象为中心(object-centric)”的表示与可组合生成,而不是只能做整体场景的像素级拟合。以往做对象中心学习常依赖 slot attention 等分解模块,但直接接到扩散模型上会遇到训练不稳、slot 与生成目标对不齐、以及组合泛化差的问题。
这篇论文要解决的是:如何评测模型对“敏感历史图像”的历史语境化能力,而不是只评测是否识别出图像内容。以往安全/偏见评测多聚焦当下语境或抽象的有害类别,但历史图像往往需要时间、地点、权力关系等背景才能给出不误导的解释。
这篇论文要解决的是:在视觉骨干上是否必须依赖 Transformer/Conv,还是可以用改进版 LSTM(xLSTM)作为通用视觉 backbone,并在精度与效率上有竞争力。以往 LSTM 在视觉上常因并行度差、长程依赖建模弱或训练不稳而被边缘化,但硬件与序列建模改进让它值得重新评估。
这篇论文要解决的是:自监督、对比学习、聚类式目标、掩码重建等表征学习方法看起来很不一样,但它们之间到底能否放进一个统一框架里理解和设计。过去这类方法往往按损失函数家族各自发展,导致经验技巧很多、原理对照少;现在值得重新统一,是因为多模态和大规模预训练越来越依赖目标函数的可组合性与稳定性。
现有音频基础模型缺乏对话轮次动态能力的系统评估标准,无法衡量音频模型在对话中自然交互、避免过多重叠语音或过长沉默的能力。
这篇论文要解决的是:主动学习在不同标注预算下往往需要不同的采样策略,而现实中你很难提前知道预算或为每个预算单独调参。以往方法通常在某个预算区间表现好,但换预算就明显退化。
这篇论文要解决的是:高分辨率文生图主要被扩散模型主导,而纯 Transformer 生成(尤其 masked generative / MGT 路线)在效率和质量上长期没打过扩散。过去 MGT 的痛点通常是训练/采样策略不够强,导致高分辨率细节与全局一致性难兼顾。
这篇论文要解决的是:在更一般的光滑性与凸性假设下,优化问题的复杂度下界(lower bound)到底能紧到什么程度。以往很多下界依赖对称或低阶的光滑性假设,覆盖不了更不均匀(asymmetric)或高阶 Hölder 光滑的情形。
这篇论文要解决的是:扩散模型采样慢且容易在固定采样器下受限于训练分布的缺陷,如何在不重新训练主模型的情况下让采样“越采越好”。以往加速多靠减少步数或蒸馏,但很难同时获得质量提升。
这篇论文要解决的是:文本-视频检索里存在信息不对称——视频端信息密度高且噪声大,文本端更抽象,导致对齐训练时模型容易学到偏置(例如只靠少数显著帧或关键词)。以往多从模型结构或损失入手,但数据侧的不对称常被忽略。
这篇论文要解决的是:Early-exit DNN 为了省算力会在中间层提前输出,但中间分类头往往不够强,导致准确率损失明显。以往做法多是共享一个分类头或简单蒸馏,难以兼顾各出口的最优性。
这篇论文要解决的是:交互式、结构化图像生成需要用户逐步约束(布局、局部编辑、条件变更)且保持全局一致性,而标准扩散在“反复编辑”时容易漂移或破坏未编辑区域。过去常用 inpainting/ControlNet 等补丁式方案,但缺少对“交互过程”本身的概率一致性建模。
这篇工作要解决的是:当训练集标签被恶意篡改时,如何让模型训练过程本身就更抗攻击,而不是事后再做脏样本检测。以往应对 label poisoning 多依赖异常样本筛查、鲁棒损失或数据清洗,但这类方法通常默认输入特征本身可分,且对攻击者如何挑选翻转标签较敏感;作者关注的是更通用的问题——能否把对抗训练扩展到标签污染场景,直接提升最终分类器的稳健性。
这篇工作试图解决的是:如何用更几何化、可组合的方式刻画高维数据流形,而不是依赖单一全局坐标或局部近邻图。传统 manifold learning 往往在全局保持与局部保真之间做艰难权衡,局部方法难以拼接,全局方法又容易扭曲复杂拓扑;从标题看,MANTRA 想通过 triangulations assemblage 来构建更稳定的流形表示。
这篇工作要解决的是:现有视频生成评测过于偏视觉质量和文本对齐,缺少对物理常识的系统检验,导致模型即使画面逼真,也可能在运动、碰撞、支撑、连续性上明显违背常识。这个问题以前常被定性展示或用少量案例评估回避,现在值得重做,是因为视频生成模型已经足够强,失败模式开始从“像不像”转向“合不合理”。
这篇工作要解决的是:零样本检测 LLM 生成文本时,很多白盒方法依赖获取待检测模型的 logits 或采样细节,但现实里最常见的是闭源 API 模型,检测器拿不到内部信息。过去要么退回效果较差的黑盒统计特征,要么假设可访问目标模型;作者试图打通这两者,让白盒思路也能服务于专有模型的零样本检测。
这篇工作研究的核心问题是:视觉皮层单神经元对变换不变性的响应结构,能否被学习成一个可对齐的流形,而不是只用几个手工变换参数去拟合。传统神经科学建模常用有限维刺激变换解释神经元不变性,但真实神经元对纹理、形状、相位、位置等因素的容忍区往往更复杂;作者想把这种不变性从离散属性表征,提升到连续流形层面。
现有蛋白质语言模型(PLM)做蛋白质fitness预测时,若目标任务标注数据稀缺,零样本预测依赖蛋白质序列似然与fitness得分的强假设,泛化性差。
现有潜空间扩散模型(LDM)的扩散模型训练和自编码器解码器训练脱节,导致生成图像细节损失,生成质量下降。
MaskGIT类掩码生成图像Transformer的解掩码调度器长期未得到充分优化,现有基于预测置信度的调度器选点空间分布不均,导致生成质量与采样效率次优, prior 工作大多聚焦架构与训练目标改进,很少关注采样调度逻辑的优化空间。
共形预测在贝叶斯模型误设场景下,虽然仍能保持频率派覆盖率保证,但预测区间体积偏大、效率下降,prior 全共形贝叶斯方法仅在模型完全正确设定时才能达到最优区间效率,无法应对模型误设的实际场景。
凸优化场景下仅能获取与真实梯度相关但不等的错位随机梯度时,现有算法的迭代复杂度无法达到最优,prior 工作大多假设能获取无偏梯度,很少处理梯度偏差缓慢变化或任意变化的错位场景。
这篇工作要回答的是:在 DNA foundation model 里,卷积(CNN)是否仍然是比 Transformer 更合适的归纳偏置,而不是默认“序列建模就上注意力”。以往很多 DNA 模型直接迁移 NLP 架构,往往忽略了 DNA 局部 motif、反向互补等结构性先验,导致算力花在学“本来就该内置”的规律上。
这篇工作聚焦于“潜变量线性组合”到底在生成模型里对应什么结构:什么时候真的是在同一语义子空间里做可控编辑,什么时候只是经验现象。过去 latent arithmetic 多靠经验与可视化,缺少对“线性可加性何时成立、边界在哪”的统一刻画。
这篇工作要解决的是:扩散模型在什么条件下能“可证明地”学到数据中的隐藏低维结构,而不是只靠经验展示生成质量。扩散在理论上常被视为高维密度建模,低维流形结构如何被网络与噪声过程捕获一直缺少清晰保证。
这篇工作要解决的是:在不改动各个模型内部实现、只把它们当黑盒的前提下,如何做有原则的模型集成,使得集成后的方差最小且稳定。以往黑盒集成常靠简单平均或启发式加权,容易在分布漂移或相关误差下失效。
这篇工作研究的是分段线性函数(典型如 ReLU 网络)在输入空间中的分解结构,用多面体(polyhedra)语言刻画其可表示性与复杂度。以往对 ReLU 网络的表达能力分析常停留在区域计数或上界下界,缺少更精细的几何分解工具。
这篇工作要解决的是:能否把能量模型(Energy-Based Model, EBM)的密度建模能力与 boosting 的逐步加法建模结合起来,用树模型做可训练的生成模型。传统 boosted trees 更擅长判别或回归,直接做高维生成往往缺少统一的概率建模框架。
这篇工作聚焦于扩散模型中的概念擦除目标该怎么选,结论上是在“擦什么”这件事上,目标设计和算法本身同样关键。过去很多概念擦除方法默认使用直接文本条件或少量启发式目标,但这常导致擦除不彻底、泛化差,或者把相邻概念一起破坏;问题重新变得重要,是因为生成模型安全正在从“能不能删”转向“删得准不准、代价多大”。
这篇工作试图解决的是:如何用 Transformer 世界模型学习可用于时序预测的状态表征,同时避免纯重建式训练常见的表示塌缩或过度关注像素细节。过去世界模型很多依赖自回归重建或潜变量重建,能学到预测器但不一定学到适合控制或规划的抽象状态;CPC 之所以值得重新引入,是因为它直接鼓励未来可预测信息进入表征。
这篇论文研究的是一种同时带有采样和优化性质的混合动力学方法,核心问题是:这类算法什么时候收敛、收敛到多快,以及采样与优化信号混合后会不会破坏理论保证。以往很多方法在实践中把 Langevin、动量、梯度流等元素拼在一起,但理论往往分开讨论采样器和优化器,难以覆盖真实训练和推断中的混合过程。
这篇工作要解决的是:无模型强化学习里看起来像“规划”的行为到底是怎么涌现的,以及这种现象能否被可解释地拆解。过去很多结果表明 model-free agent 在复杂任务中会表现出前瞻性,但通常只能从行为层面猜测,缺少对内部表征和决策电路的直接解释;这个问题重要,是因为它关系到我们如何判断‘会规划’到底来自显式内部模型,还是来自策略网络的隐式启发式。
这篇工作关注的是表示分布匹配怎么做得更高效,核心判断是:在 Deep InfoMax 一类互信息驱动表征学习中,加入噪声可以让分布对齐更稳定、代价更低。传统表示学习常靠对比学习、MMD 或 adversarial matching 来对齐分布,但这些方法要么负样本开销大,要么训练不稳;因此如何在不显著抬高系统成本的情况下逼近更好的分布匹配,是个实际问题。
这篇论文把“遗忘”建模成增量优化方法的 last-iterate 收敛行为,核心问题是:顺序数据下旧信息为什么会被新梯度逐步冲掉,以及这种现象能否用优化理论而不是经验描述来解释。过去 catastrophic forgetting 多从 continual learning 算法设计角度处理,但对最基础的优化机制缺少简洁理论;把 forgetting 直接视作增量方法的轨迹性质,是一个更底层的切入。
这篇工作研究的是如何在不改动主模型的前提下,用属性级的视觉重编程去改变 VLM 的行为,核心问题是:现有 visual reprogramming 往往过于粗粒度,难以稳定控制模型关注哪些视觉属性。过去对 VLM 的适配通常靠 prompt、adapter 或全量微调,但这些方法要么只改文本侧、要么成本高;如果能在输入端按属性重映射视觉信号,就可能以更低成本做定向行为调节。
现有LLM容易生成自相矛盾的内容,现有解决方案要么需要大规模微调,要么依赖外部工具推理,没有在模型本身的逻辑一致性和微调成本之间找到平衡。
现有OOD检测方法对分布偏移的鲁棒性不足,prior 方法大多基于MLP或Transformer的激活分布差异,没有利用KAN网络特有的局部神经可塑性特性。
现有RL智能体对新任务的泛化能力不足,prior 分层RL方法大多没有根据技能的未来有用性构建技能层次,导致技能复用率低,泛化效果差。
3D高斯溅射表示的存储和传输成本过高,百万级高斯点需要GB级存储,无法在资源受限设备上部署,prior 工作大多关注渲染效率优化,很少压缩表示体积。
离线安全RL方法高度依赖训练数据集,无法安全泛化到未见过的场景,prior 方法大多局限于离线训练,没有引入世界模型进行在线安全微调。
现有测试时自适应(TTA)方法在开放世界带噪零样本场景下性能骤降,甚至低于冻结预训练VLM。此前TTA方法默认假设目标数据无噪声、依赖源域标注,未覆盖零样本带噪适配场景。
现有涌现通信中的人工agent难以获得组合泛化能力描述未见过的图像。此前方法大多直接学习端到端的概念组合,没有显式分解基础概念的步骤,无法实现零样本组合泛化。
这篇论文要解决的是:在非凸、噪声梯度和大规模训练里,经典回溯线搜索(backtracking line search)要么太保守要么不稳定,导致学习率选择仍高度依赖手工调参。以往深度学习里常直接放弃线搜索,转而用固定/分段学习率或自适应优化器,但这牺牲了“按局部几何自适应选步长”的潜在稳定性与可解释性。
这篇论文要解决的是:在“隐藏状态威胁模型”(攻击者能访问训练过程中的内部状态/中间量)下,现有对 DP-SGD 的隐私审计往往偏松或不匹配真实攻击面,导致我们以为“够隐私”的训练其实可被更强对手破坏。过去很多审计默认较弱的观测(如仅最终模型),而现代训练日志、检查点、优化器状态让攻击面更接近隐藏状态设定。
这篇论文要解决的是后门防御中的一个现实痛点:很多检测或净化方法依赖 trigger inversion,也就是先把潜在触发器反演出来再处理,但这在大模型和复杂后门上往往不稳定、成本高,还容易被自适应攻击绕过。作者选择“inversion-free”路线,说明他们试图绕开触发器恢复这个最脆弱的步骤。
这篇论文解决的是高质量 3D mesh 生成,且强调 artist-created mesh 和 autoregressive transformers,说明作者想直接建模可用于创作流程的拓扑/几何序列,而不是只生成点云、体素或粗糙 implicit field。这个问题过去常被扩散或隐式表示绕开,因为 mesh 结构离散且脆弱,拓扑错误会让生成结果难以编辑和渲染。
这篇工作聚焦于一个很实际的问题:模型什么时候应该先澄清用户意图,而不是直接回答。现有多轮对话系统常靠人工规则或监督微调学澄清,但高质量澄清数据少,且模型容易把“应该问”的情形和“可以直接答”的情形混淆。作者提出 action-based contrastive self-training,说明他们把澄清视作动作选择问题,并尝试用自训练扩大信号。
高分辨率扩散模型的 latent space 压缩率不够高,导致生成高分图像时计算开销巨大。现有的 VAE(如 Stable Diffusion 用的 KL-VAE)通常只做 8× 下采样,对 1024+ 分辨率仍然产生很大的 latent map。这篇工作要把压缩率大幅提高(如 32× 甚至 64×),同时保持重建质量。
数据集蒸馏(dataset distillation)的目标是把大数据集压缩成小的合成数据集,使得在合成数据上训练的模型接近在全量数据上训练的效果。现有方法在大规模数据集上效果不佳,且缺乏对哪些样本最有信息量的理论指导。
LLM 的注意力权重本身是否已经编码了足够的相关性信息,可以直接用于 zero-shot 文档重排序(re-ranking),而不需要额外训练或 prompting?
这篇工作要回答的是:在联邦学习里能否用“文本梯度”(把梯度信息用文本/离散形式表达并传输)来替代直接上传梯度,从而兼顾隐私、带宽与可用性。传统联邦学习要么传浮点梯度(带宽大且有泄漏风险),要么做强压缩/加密(实现复杂且可能伤收敛)。
这篇工作要解决的是:用预训练模型做持续学习(continual learning)时,静态 benchmark 很快被“刷题式适配”打穿,无法反映真实的分布漂移与遗忘-迁移权衡。以往评测通常固定任务序列与数据划分,模型可以针对评测协议过拟合。
这篇工作要解决的是:在带安全约束的强化学习里,如何更高效地做 policy evaluation。传统做法通常把回报价值和约束价值分别估计,样本效率低,而且一旦安全信号稀疏或高方差,评估就会变得不稳定;这使得很多安全 RL 方法在真实训练中更受 critic 误差而不是算法框架本身限制。
这篇工作解决的是个性化文生图扩散模型的效率问题。现有个性化方法如 DreamBooth、LoRA 往往需要更新较多参数或引入推理开销,在少样本主体定制时容易过拟合、存储膨胀,难以支持大规模多用户部署。
这篇工作要解决的是视频安全护栏模型在实际使用中的两难:既要快,又要能解释为什么拦截。很多现有 video guardrail 系统要么依赖大模型逐帧推理,成本高、时延大;要么只给一个风险标签,缺乏可审计性,难以用于高风险内容治理。
这篇工作试图解决细粒度图像生成里一个长期问题:标准 1D 自回归把图像 token 拉平成序列后,空间关系被削弱,生成效率和局部一致性都受影响。扩散模型在质量上强,但编辑控制和统一 token 建模接口不一定占优,因此重新审视图像 AR 是有意义的。
这篇工作要解决的是 mechanistic neural networks 很难扩展的问题。很多强调可解释结构或机制归纳的模型在小规模任务上有吸引力,但一旦数据、参数或任务复杂度上来,就会因为结构约束太强、训练太难或实现太慢而失去竞争力。
这篇工作要解决的是模型调试里 error slice discovery 不够高效、也不够可解释。很多方法能找出整体指标下降,但很难系统定位‘哪一类样本在稳定出错’,尤其当数据维度高、属性组合多时,人工分析成本非常高。
传统LLM对齐方法需要额外训练,计算成本高、需要大量个性化偏好数据,无法适配不同文化、教育、政治背景下的多样化个性化偏好对齐需求。此前对齐方法大多在训练阶段做对齐,无法在推理时动态调整偏好。
现有归纳逻辑编程(ILP)系统仅能解决小规模任务,且依赖专家定义的语言偏置,无法支撑大规模ILP应用。此前缺乏覆盖多样化语言偏置的大规模ILP数据集。
传统扩散模型的机器遗忘方法依赖严格假设和真实数据访问权限,无法满足生成式AI的安全合规需求。此前遗忘方法需要访问训练数据或留存数据,数据依赖限制了其在实际场景的应用。
带本地更新的分布式自适应优化算法的理论收敛性未被完全证明,此前理论分析未证明本地更新的自适应优化算法(如Local SGDM、Local Adam)能在特定场景下优于小批量对应算法的通信复杂度优势,限制了分布式训练算法的理论指导。
现有口语对话系统仅依赖ASR转写的文本信息,丢失了语音中的语速、音量、重音、背景音等非文本听觉线索,无法生成符合上下文合适的回复。此前缺乏评估口语对话系统非文本信息理解能力的基准。
这篇工作要解决的是:在缺少大规模标注或真实多样性不足的情况下,如何用“合成的音频替身(doppelgängers)”构造有效的对比学习信号,从而学到更稳健的音频表征;以往纯增强(augmentation)往往只能覆盖局部扰动,难以模拟说话人/环境/设备等更结构化的变化。
这篇工作要解决的是:自监督表征在面对自适应攻击(adaptive attacks)时的鲁棒性不足;以往很多对抗训练假设固定攻击或固定扰动强度,导致模型在真实攻击者会“针对你的防御策略调参”时掉得很快。
这篇工作要解决的是:在 few-shot 的 test-time domain adaptation 场景下,如何在不更新 CLIP 主干参数的前提下适配新域;以往要么全量微调导致过拟合与部署复杂,要么只调 prompt/BN 但适配能力有限。
这篇工作要解决的是:在图推理任务中,如何给训练数据样本做“价值评估”(data valuation),从而更有效地选数据/加权;以往 Shapley value 虽然理论上合理,但计算代价极高,且在图结构依赖下更难稳定估计。
这篇工作要解决的是:机器学习模型校准(calibration)的比较与改进方式在实践中经常被误用,导致“看起来更校准”但其实不可比或不可复现;以往常见问题包括指标选择不当、分箱/估计偏差、以及在分布漂移下的评价失真。
这篇工作解决的是 neural optimal transport 在学习传输映射时常见的不稳定和次优耦合问题。现有神经 OT 方法往往直接拟合起点到终点的映射或势函数,但高维下优化容易陷入糟糕路径,既影响收敛,也影响学到的几何结构是否符合 Wasserstein 空间中的真实位移。
现有无分类器引导(CFG)存在DDIM不可逆、高引导系数下模式崩溃等问题,此前研究默认这些是扩散模型的固有缺陷,未明确问题根源是CFG导致的离流形现象。
解决多模态对齐中两两对比学习(Pairwise Contrastive Learning)在扩展到多种模态时效率低下且无法保证全局对齐的问题。以往方法通常将各模态对齐到一个中心锚点(如文本),导致非锚点模态之间的对齐次优。
解决无分类器引导(CFG)在提升生成质量的同时,导致推理成本翻倍且降低生成内容多样性的问题。以往的 CFG 蒸馏方法通常只关注模仿 CFG 的输出,忽略了多样性的损失。
解决现有不确定性量化方法(如共形预测)脱离下游决策任务的问题。以往的预测集构建不考虑预测结果将如何被用于优化问题,导致在高风险决策中不够实用。
探究自适应梯度算法(如 AdaGrad)在非凸随机优化(放宽平滑性假设下)的收敛复杂度下界。以往研究证明了其收敛性,但收敛率对平滑常数等参数的依赖是高阶多项式,远差于 SGD 在标准平滑假设下的最优复杂度,本研究旨在明确这种高阶依赖是否是本质的。
揭示了在人机协作决策中,提供满足“等覆盖率(Equalized Coverage)”公平性标准的共形预测集,反而可能导致对受保护群体的差别影响(Disparate Impact)。以往研究认为等覆盖率是保证公平性的有效手段。
这篇工作要解决的是:随机优化(SGD/Adam 类)在噪声梯度下如何做到“既保留随机性带来的泛化,又像无噪声一样稳定”,避免震荡、发散或对学习率极端敏感。以往常用做法是降学习率、加大 batch、或靠复杂的学习率/动量调参,但这些往往牺牲训练效率或可迁移性。
这篇工作要解决的是:在 ambient diffusion(观测是带噪/退化的图像而非干净图像)设定下,数据规模与噪声强度如何共同决定可学性与样本效率,也就是“一个噪声图像到底值多少钱”。以往 diffusion 的 scaling law 多基于干净数据或固定噪声假设,难指导真实世界传感器噪声/弱监督场景的数据采集与训练预算。
这篇工作要解决的是:如何在不明显牺牲生成质量的前提下,减少 flow-based generative models 的推理步数。现有流模型常被认为比扩散模型在采样路径上更直接,但真正部署时仍受限于数值积分步数;很多工作主要改求解器,却较少系统优化 data-noise coupling 这个决定轨迹难易度的环节。
这篇工作要解决的是:在 regular decision processes 的离线强化学习里,如何用更少样本得到可靠策略学习保证。传统 offline RL 的样本效率分析往往依赖状态-动作空间的覆盖假设或粗糙复杂度度量,在结构化决策过程里这些界通常过松,无法反映真实可泛化的相似性。
这篇工作要解决的是:在 hierarchical clustering 里实现 differential privacy 需要付出多大代价,也就是精度、样本量或结构恢复能力会损失多少。过去不少 DP 聚类工作给出算法,却未必清楚地刻画了层次聚类这种全局结构任务的隐私代价下界。
这篇工作要解决的是:扩散模型里的噪声建模通常受限于离散分辨率或固定参数化,难以在任意分辨率下保持一致性和细节控制。对高分辨率生成,若噪声场本身不能平滑地跨尺度定义,模型往往需要为每个分辨率单独适配,泛化和效率都受影响。
这篇工作要解决的是:自回归视频生成是否可以摆脱 vector quantization,而不失去离散 token 化带来的建模便利。现有 AR 视频生成常依赖 VQ tokenizer 把视频压成离散码,但 VQ 往往带来码本瓶颈、重建损失和训练复杂度,尤其在高时空分辨率下问题更明显。
解决现有 Transformer 剪枝算法需要在固定压缩率下进行,导致不同压缩率需要重复剪枝过程、计算成本高昂的问题。
这篇论文要解决的是:Concept Bottleneck Models(CBM)虽然可解释,但在“如果某个概念被改变会怎样”的反事实推断上往往不可靠,因为概念之间的相关性与因果结构没有被建模。以往 CBM 多把概念当独立特征或只做监督预测,导致反事实编辑概念时产生不一致或不可实现的概念组合。
这篇论文要解决的是:深度模型在使用“概念”解释时常陷入因果不透明——你能看到概念相关性,但无法回答概念之间如何因果作用、以及干预某个概念会带来什么后果。以往方法要么只做相关性解释,要么因果图与深网脱节,导致解释不可操作或不可信。
这篇工作要解决的是:能否训练一个对多类组合优化任务都通用的 agent,而不是像以往那样为 TSP、CVRP、JSP 等每个任务单独设计求解器或单独训练策略。这个问题过去常被任务专用架构和手工启发式回避,因为不同优化问题的状态、动作和约束形式差异很大;现在值得重做,是因为通用序列建模和 agent learning 已经具备跨任务共享策略的可能。
这篇工作要解决的是:多模态对比学习里,真正应该被对齐的是哪一层表示、哪种语义粒度、以及跨模态中哪些成分不该被硬性拉近。过去 CLIP 式方法默认‘整张图和整句文本在同一个 embedding 空间里对齐’,这很有效,但也过于粗糙,容易把不对等的信息结构强行压成一个点。
这篇工作要解决的是:自监督视觉预训练通常偏全局语义,对物体级结构学得不够稳定,因此下游检测、分割或 object-centric 表示受限。过去很多方法要么依赖显式标注框,要么依赖复杂的 slot/object discovery 机制,训练成本高且不稳定。
探索人类大脑中广泛的视觉语义表征。以往研究仅识别出少数特定语义(如人脸)的皮层区域,缺乏对更广泛、共享的视觉概念及其否定形式在脑中如何解码的系统性理解。
解决传统对抗训练过于保守的问题。传统方法假设攻击者(Adversaries)的唯一目的是尽可能破坏模型性能,这在实际场景中往往不成立,因为攻击者通常有自己的特定目标(Incentives)。
现有文本到图像扩散模型的布局控制仅支持预先输入的静态2D布局,调整布局时无法保留已生成内容,不支持需要3D逐对象控制、迭代修改的场景(如室内设计),之前的方法均未覆盖3D交互式布局控制需求。
现有文本到3D生成存在计算成本高、3D训练数据稀缺、3D表示复杂的问题,之前方法依赖复杂3D感知架构,小样本下泛化性差。
现有聊天机器人公平性评估方法针对机构决策任务(如简历筛选)设计,无法适配聊天机器人开放域、多场景的使用场景,缺乏针对用户人口统计学特征的第一人称公平性的可扩展评估方法。
这篇论文要解决的是:conformal prediction 在复杂分布下构造有效的预测区域(prediction region)时,区域形状往往过于保守或难以贴合数据流形,导致覆盖率虽对但区域太大。过去常用简单的分数函数与阈值集合,表达能力不足。
这篇论文关注的是触觉表征学习里的碎片化问题:不同 visuo-tactile 传感器、静态触觉和动态交互数据之间格式差异很大,导致模型通常只能在单一传感器或单一任务上学习,难以形成统一表示。过去这类问题多靠任务特定建模回避,而不是正面做跨传感器统一。
这篇论文解决的是 image-to-image 生成模型中的可控遗忘问题:如何删掉指定概念或能力,同时尽量保留未指定功能。现有 unlearning 方法常见问题是,要么删得不干净,要么副作用太大,导致模型在无关样本上的生成质量明显下降。
这篇论文要解决的是 bandit 里的一个目标设定问题:很多场景并不追求绝对最优,而是追求足够好且稳定的选择,因此最小化标准 regret 未必匹配真实需求。经典 bandit 默认每一步都要逼近最优臂,但在成本敏感或风险敏感环境里,超过某个满意阈值就已经够用。
这篇论文关注的是对抗鲁棒性评估成本过高的问题:标准评估通常需要运行攻击过程,算力昂贵、速度慢,难以在模型开发早期大规模筛选。结果就是很多工作要么少测、要么测不全,导致鲁棒性结论不稳定。
如何自动评估科研 idea 的质量(新颖性、可行性等),现有方法要么依赖人工评审,要么用单一 LLM 打分缺乏结构化推理,评估不够可靠。
LLM 能否理解超图(hypergraph)结构——超图中一条超边可以连接多个节点,比普通图更复杂。现有工作大量测试了 LLM 对普通图的理解能力,但超图几乎没有被系统评估过。
这篇论文要解决扩散模型推理慢的核心痛点:标准 diffusion 需要几十到上百步去噪,导致生成成本高且难以在交互式系统里落地。以往加速要么靠蒸馏多步到少步,要么靠更强的采样器,但仍很难做到“一步生成”且保持质量。
这篇论文要回答一个理论问题:Diffusion Transformer 在处理具有高斯过程(Gaussian Process)结构的数据时,为什么能捕捉时空依赖,以及这种能力在什么条件下成立。以往对 diffusion+Transformer 的理解多停留在经验层面,缺少对“依赖结构如何被建模”的可证明解释。
这篇论文关注学习增强(learning-augmented)数据结构:在经典搜索/索引结构里引入学习器预测分布或访问模式,以降低平均查询成本,但又要避免学习器出错时把最坏情况性能搞崩。过去很多“学出来的索引”在分布移位下会退化得很难看,缺少可控的鲁棒性保证。
这篇论文要解决多非线性特征组合下的函数学习问题:如何学习具有层级结构的多项式(hierarchical polynomials),以更高效地表示与拟合复杂的特征交互。以往要么用通用网络黑盒拟合但难解释、样本效率不清晰,要么用显式多项式展开但维度爆炸。
这篇工作想解决的是:无模型强化学习长期缺少像监督学习那样真正通用、稳健、少调参的配方,很多算法只在特定任务族或特定数据分布下有效。过去大家常靠 task-specific trick、环境结构假设或重度调参拿结果,但这不构成 general-purpose RL。
这篇工作要解决的是:flow matching 在生成建模里很火,但它的统计收敛性质相比 score matching、diffusion 等方法还不够清楚,尤其缺少接近 minimax 最优的理论保证。过去很多工作证明可训练或经验上有效,但没有回答‘样本复杂度和估计误差到底到什么量级’。
这篇工作要解决的是:世界模型学习常常在高维观测上样本效率差、探索不聚焦,而且学到的表示偏生成重建却不够判别,导致下游控制收益有限。过去很多方法要么直接在像素上建模,要么学一个整体 latent,缺少面向交互决策的对象级抽象。
这篇工作要解决的是:深度 TD 学习在实践中经常被各种稳定化技巧包裹,算法复杂、超参多、诊断困难,但这些复杂性未必都是真正必要的。过去很多值学习方法一边叠 trick 一边追分,导致我们不清楚最小有效配方是什么。
这篇工作要解决的是:CLIP 在半监督适配时,少量标注数据不足以稳定对齐新域语义,而直接用伪标签又容易把错误语义放大。过去很多方法只做简单 consistency regularization 或 prototype adaptation,但对语义结构和决策边界的约束不够强。
现有基于生成模型似然的OOD检测方法聚焦像素层面,在近OOD场景(像素相似但语义不同)下失效,之前的方法未考虑语义内容的典型性。
现有T2I扩散模型静态剪枝对所有提示用同一个剪枝模型,忽略不同提示的容量需求,动态剪枝每个提示用独立子网络,无法支持GPU批并行,限制了资源受限场景下的部署。
现有神经ODE的训练收敛分析缺乏对激活函数影响的系统研究,之前的收敛分析未考虑激活函数的平滑性和非线性对前向后向ODE解的唯一性和神经切线核的谱性质的影响。
现有训练LLM做形式化证明的数据集缺乏自然语言和形式化证明的对齐平行数据,之前的方法没有大规模对齐的Lean4语料。
这篇论文要解决的是:如何把 VLM 驱动的多模态 agent 调到“会用工具且用得省”,而不是只会看图说话或在工具调用上高成本试错。
这篇论文要解决的是:扩散模型很难做“逻辑组合”(例如 AND/OR/NOT 约束的组合生成),因为标准做法更多依赖启发式 guidance,缺少可控且可泛化的组合算子。
这篇论文要解决的是:一致性模型(Consistency Models)虽然采样快,但训练流程和实现细节对很多团队仍然门槛高,导致在扩散替代/加速上难以复现与落地。
这篇论文要解决的是:整数线性规划(ILP)在很多结构化决策里很关键,但传统 ILP 不可微,导致很难端到端地与神经网络一起训练。
这篇论文关注一个经常被忽略但很关键的问题:LLM 做 fact-checking 时,结论可能看起来对,但在逻辑上前后不一致。以往工作更常评估最终 label 的准确率,较少检查模型是否满足基本推理一致性,因此模型可能在表面正确的同时暴露出不稳定的判断规则。
这篇工作的核心问题是:小规模音频分类数据集太小,直接训练容易过拟合,而传统增广覆盖不了真实长尾声学变化。过去常见做法是靠 SpecAugment、mixup 或迁移学习顶住,但这些方法对类别语义扩展有限,所以作者尝试用合成数据补足数据稀缺。
这篇论文要解决的是:视觉语言助手不仅会继承语言模型偏见,还会把图像中的社会线索和文本先验叠加,放大性别偏见。过去对偏见的研究常单独看视觉模型或语言模型,但 VLA 的偏见来自跨模态交互,因此需要单独揭示和治理。
现有蛋白语言模型的零样本适应度预测的成功和失败条件不明确,之前的方法没有明确预训练中隐含的序列偏好对适应度预测能力的影响。
现有带最优性保证的功利主义算法配置方法仅支持有限小参数空间搜索,无法处理连续/不可数参数空间的算法配置需求,此前方案要么牺牲理论保证,要么搜索效率极低。
黑盒场景下的最小代价子集选择问题,现有方法要么依赖已知子集内部结构,要么无法处理两阶段(子集选择+代价评估)的流程,泛化性差。
现有GFlowNet训练和熵正则RL的关联仅在固定反向策略的设定下成立,反向策略固定会限制GFlowNet的生成性能和泛化性,之前的方案没有解决反向策略的优化问题。
现有指令图像编辑的训练数据集由通用文生图模型生成,存在指令遵循差、细节保留差、有生成伪影,之前的方案主要通过优化真值图像质量来提升数据质量,成本高且提升空间有限。
这篇论文要解决的是:如何在大规模 3D 神经表示(NeRF/3DGS 等)库中做高质量检索,而不是只做几何或图像级的粗匹配。以往 3D 表示检索常受限于表示不统一、视角变化大、以及缺少可扩展的索引特征。
这篇论文要解决的是:在联邦学习中如何用“自适应稀疏化”降低通信与计算成本,同时尽量不牺牲收敛与精度。以往稀疏联邦方法常用固定稀疏率或静态掩码,面对非 IID 数据与训练阶段变化时容易失效。
这篇论文要解决的是:能否用更“深度学习友好”的结构替代 Kolmogorov 超叠加定理(KST)构造,从而得到可训练、可扩展的通用函数逼近方案。传统 KST 构造在理论上强,但在数值实现、可优化性与高维泛化上往往不实用。
这篇论文要解决的是:在复杂多模态噪声与分布漂移下,如何让 test-time adaptation(TTA)更稳定而不发生灾难性漂移。以往 TTA 常用熵最小化或自训练,但在噪声叠加、模态缺失或相关性变化时容易把错误伪标签越学越深。
这篇论文要解决的是:多任务表示压缩时,哪些任务应该“共享同一压缩子空间/瓶颈”才能不互相伤害,而不是凭经验把任务随意打包。以往多任务压缩常用启发式分组,容易出现负迁移,尤其在任务间存在因果依赖或混杂时。
这篇工作要解决的是:标准 diffusion model 擅长建模静态分布,但对显式时间动力学的学习通常是间接的,所以在连续演化、长期预测和物理一致性上容易不稳。过去不少方法把时间当额外条件塞进去,但这不等于真正学会系统的动力学规律。
这篇工作要回答的是:Nesterov 加速在“良性非凸”地形里到底有没有理论上和实践上都可信的收益。经典加速结论大多建立在凸优化下,而深度学习更常见的是存在鞍点、局部曲率变化但整体还算友好的 non-convex landscape,所以很多人会用动量,却很难说清楚何时真的加速、何时只是更快地震荡。
这篇论文解决的是非平稳、上下文驱动环境中的在线强化学习。传统在线 RL 常假设环境平稳,或者把上下文只当作一次性 side information;但在真实系统里,需求分布、资源约束和回报结构会随时间漂移,旧策略会系统性过时。
这篇工作讨论的是:神经网络能否承担类似交互式证明中的 prover/verifier 角色,用可学习的方式建立更强的可验证推理。传统神经模型的一个弱点是会直接给答案,但缺乏可检验的证明过程;而标准形式化证明系统又很难和神经近似自然结合。
这篇论文关心的是 diffusion model 到底学到了什么特征,以及这些特征与判别模型或自监督模型学到的表征有何差异。过去 diffusion 常被视为高质量生成器,但它的中间表示是否适合迁移、为何适合或不适合,认识一直不够系统。
这篇工作关注 text-to-image 模型里的组合泛化问题:模型能生成单个概念,但一旦提示词要求多属性、多对象和关系组合,结果就容易掉语义、漏关系或互相污染。过去很多方法靠更大数据或更强采样器硬顶,但组合性并没有随规模自动解决。
现有图像生成和编辑模型通常是分开训练的,导致无法在一个统一框架内同时处理生成、编辑、多图合成等多种视觉创作任务。之前的方法要么只做生成,要么只做编辑,或者需要针对不同任务分别微调。
标准正则化方法(如 L2、dropout)对损失函数的几何结构不敏感,可能导致优化收敛到尖锐极小值(sharp minima),影响泛化。需要一种能感知损失景观几何的正则化方法。
这篇论文要解决的是:在 goal-conditioned GFlowNet 里如何更高效、更稳定地学到“到达目标的生成策略”,而不是在巨大状态空间里靠前向采样碰运气。以往 GFlowNet 更偏前向构造,遇到稀疏奖励/稀有目标时样本效率差。
这篇论文要解决的是:半监督学习里“未标注数据来自未见类别(unseen-class)”到底是帮忙还是添乱,以及现有结论是否被评测设置误导。过去很多 SSL 论文默认未标注与标注同分布,但真实场景常混入 OOD/新类数据。
这篇论文要解决的是:低照度/光照退化图像恢复中,如何同时建模“照明(illumination)”与“反射(reflectance)”并避免扩散模型在像素空间直接生成带来的细节漂移。以往 Retinex 分解可解释但表达受限,纯扩散恢复质量高但可控性与物理一致性弱。
这篇论文要解决的是:扩散模型如何作为“视觉基础模型”服务高质量密集预测(分割/深度/光流等),而不是只擅长生成或在判别任务上依赖 ViT/ConvNet。过去 diffusion 在 dense prediction 上常被当作生成式先验或蒸馏老师,但缺少端到端的 foundation 形态。
这篇论文要解决的是:多模态大模型在细粒度视觉识别(区分相近类别、关注局部属性)上能力不足,且现有评测与训练往往被“语言先验”掩盖真实视觉短板。过去很多 MLLM 在粗粒度 VQA/描述上表现好,但在细粒度判别上容易靠文本共现猜。
这篇工作要解决的是:模型会把训练数据里的伪相关当成可靠信号写进内部表征,导致分布外泛化和鲁棒性变差,而现有方法多半在数据层面做重采样、去偏正则或输出层校正,较少直接在激活层面定位并擦除这类表示。这个问题现在值得重看,因为大模型越来越依赖高维表征复用,伪相关一旦进入中间层,就会在多任务和长链路推理里持续放大。
这篇工作研究的是 lightning self-attention 的几何结构,核心问题是这种注意力参数化到底在多大程度上可辨识,以及它能表达的维度边界在哪里。过去高效注意力方法很多,但常见做法是凭经验看效果,较少从代数几何或可辨识性角度说明“哪些参数是同一个函数、哪些表达能力其实受限”。
这篇工作解决的是一个更底层的验证问题:如何对任意“合理”的分布性质给出计算上可靠的论证系统,而不是要求验证者自己重新做昂贵统计检验。过去分布性质测试通常假设验证者能直接访问样本和计算过程,但在外包训练、私有数据评估或第三方审计里,这种假设并不成立。
这篇工作关注的是非凸优化里的随机子空间二阶方法,其核心问题是:在不承担全量 Hessian 代价的前提下,能否给出更强的收敛保证。过去二阶法的难点一直是规模不可承受,而随机子空间方法通过只在低维子空间里做二阶更新来折中效率,但理论保证通常偏弱,特别是在逃离鞍点和全局复杂度界上。
这篇工作要解决的是在线微调 diffusion model 时,人类反馈太贵、样本效率太低,导致 RLHF 式方法难以真正闭环。过去扩散模型偏好优化大多依赖离线偏好数据、奖励模型蒸馏或大量成对标注,而在线强化学习虽然更直接,但每轮都要拿人反馈,成本很快失控。
现有生成建模方法(扩散、流匹配、离散扩散)各自基于特定马尔可夫过程设计,无法统一建模框架,也难以支持未探索的新型马尔可夫过程的生成建模,之前的方案没有提供统一的抽象层。
现有艺术家风格保护工具通过向公开艺术作品添加微小对抗扰动来防止生成AI模仿风格,此前行业认为这类工具可以有效保护艺术家版权,实际防护效果未经过系统性验证。
大量公开模型的来源谱系没有明确记录,无法验证模型是否基于其他模型微调而来,现有元数据(模型卡)未提供可验证的谱系信息,难以解决知识产权纠纷。
多教师知识蒸馏效果优于单教师,但需要训练多个教师模型,计算成本高,之前的方案没有办法用单教师实现多视角监督。
高维场景下用两层神经网络学习多索引模型的复杂度表征问题,此前梯度特征学习分析受信息指数、生成指数限制,复杂度与环境维度绑定,未利用数据隐含的低维结构。
现有预训练视频扩散模型的相机运动控制问题,此前方法需要在带相机标注的数据集上微调或做自监督增广训练,无法直接适配已有的预训练模型。
预训练模型的鲁棒性提升问题,此前方法需要修改模型参数或重训,无法在不改动参数的前提下提升模型对抗/噪声扰动的鲁棒性。
现有扩散模型单一退化过程的缺陷:纯噪声的热扩散未利用高低频结构相关性,早期生成步随机性过强;纯模糊的冷扩散未利用噪声塑造数据流形的作用,易生成离流形样本导致性能下降。
PDE仿真控制任务中扩散模型的两个缺陷:难以处理状态突变、泛化到更高分辨率的能力差,此前扩散模型在像素/物理域做生成,未利用小波域对突变和多分辨率的适配性。
这篇论文要解决的是:在训练数据被投毒(poisoned)时,能否通过因果推断把“干净图像/干净信号”从被污染观测中恢复出来,从而削弱后门或数据污染对模型学习的控制力。以往更常见的做法是做投毒检测/过滤或鲁棒训练,但它们往往依赖强假设(已知触发器形态、可访问干净验证集)或只能降低影响而难以“反演出干净数据”。
这篇论文要解决的是:深度模型的置信度往往校准差且难解释,尤其在分布外或小样本场景下,标准 softmax 输出既不提供可分解的证据,也难给出可靠不确定性。作者提出用一个“贝叶斯的非负决策层”在输出端显式建模证据与不确定性。
这篇论文要解决的是:多目标优化里“Pareto stationarity(帕累托驻点)”的判定与求解在高维时很难做得既严格又高效,很多算法在稀疏结构存在时没有充分利用。作者研究如何利用“变量稀疏性(variable sparsity)”来更精细地刻画与逼近 Pareto 驻点。
这篇论文要解决的是:Generative Flow Networks(GFlowNets)常用的平方误差类目标(如对某些一致性条件做 L2 回归)可能带来训练不稳定、梯度尺度不合适或对稀有高回报轨迹学习不足。作者系统探索“非平方误差”的损失设计,以提升 GFlowNet 训练效果。
这篇工作要解决的核心问题是:agent 的低效率并不只来自模型本身,也来自系统调度和用户交互设计不匹配,因此仅优化推理或仅优化 UI 都不够。过去很多 agent 工作把‘用户—系统—模型’链条拆开做,导致等待、确认、回退和规划成本被隐藏在系统外部。
这篇工作的核心是:现有 spoken language model 评测覆盖面太窄、更新太慢,已经跟不上语音 LM 能力扩张的速度。很多基准仍停留在 ASR 邻近任务或少量理解任务,无法系统衡量语音模型在理解、生成、对话、韵律、跨语言等方面的真实能力边界。
LoRA 的低秩分解在参数效率和表达能力之间存在固有矛盾——秩太低表达不够,秩太高参数量上去了。现有 LoRA 变体大多在单一低秩空间内优化,缺乏对多样化特征子空间的覆盖。
LoRA 受限于低秩瓶颈,在需要高秩更新的任务上表达能力不足。直接提高秩会线性增加参数量,如何在不显著增加参数的前提下实现高秩适配是核心问题。
在多智能体系统中,一个中心规划者(steerer)需要通过设计激励来引导马尔可夫智能体的行为,但智能体的转移模型存在不确定性。如何在模型不确定性下设计鲁棒的引导策略是核心问题。
这篇论文要解决的是:我们常用全局指标(FID、NLL、困惑度等)评价生成模型,但这些指标很难解释模型在数据流形(manifold)附近到底学到了怎样的局部几何结构,从而难以诊断 mode dropping、过平滑或局部不一致。作者把问题落到“生成分布在局部邻域的几何性质如何被模型刻画”。
这篇论文要解决的是:clean-label backdoor 攻击要求训练数据标签不变,但要在不改标签的情况下稳定植入触发器往往需要大量投毒或很强的触发模式,容易被检测。作者关注“选择性投毒”:只改最关键的一小部分样本,让后门更有效且更隐蔽。
这篇论文要解决的是:在稀疏性假设下如何更快地做 kernel 矩阵-向量乘(Kx),这是经典算法问题,但与 LLM/VLM 预训练的核心瓶颈(dense attention、dense GEMM、tokenization)关联较弱。即使在某些检索或核方法模块中可能用到,它也不是当前主流 pretrain 系统的关键路径。
这篇工作要解决的是:非对比学习能否不用显式负样本,也不用强依赖 stop-gradient/动量编码器,而是从时间预测这一更接近生物学习的信号里稳定地学出表征。过去很多非对比方法虽然有效,但训练稳定性和避免塌缩的机制比较工程化,解释也不统一。
这篇工作要解决的是:在去中心化随机优化里,如何在使用通信压缩的同时仍然获得更快收敛。过去分布式训练里通信压缩很常见,但一旦进入 decentralized setting,压缩误差和拓扑混合误差会叠加,理论和算法都更难兼顾速度与稳定性。
这篇工作要解决的是:模型编辑如何既高效又局部,不把一个任务相关的修改扩散成全局副作用。过去模型编辑常见问题是,要么改动参数很多、成本高,要么虽然改得快,但会破坏无关能力,尤其在多任务模型和大模型上更明显。
ReLU网络的特征学习理论缺失问题,此前的理论依赖网络线性、输入无结构、无限宽或单隐层等强假设,无法解释有限维度ReLU网络的实际学习动态。
文本生成3D人体交互的真实度低问题,此前基于扩散的方法生成结果缺乏真实感和保真度,没有对交互双方的运动做协同建模。
多智能体上下文强化学习(CRL)缺乏标准化基准的问题,此前的基准多基于仿真或双人游戏,未基于真实世界场景,无法验证真实世界泛化性。
现有自蒸馏的效果解释均聚焦特征学习层面,无法解释固定特征提取器下线性探测场景的自蒸馏增益,同时自蒸馏对标签噪声的鲁棒性作用机制不明确。
多任务学习的负迁移问题,现有方法仅优化共享参数的任务不平衡,忽略任务特有参数的学习,导致负迁移缓解效果有限。
文生图扩散模型的持续个性化问题,现有个性化方法在无历史概念数据的持续学习场景下,无法平衡新概念学习和旧概念保留,同时隐私和存储限制导致无法留存历史数据。
低秩分解存在参数效率和模型精度的 trade-off,现有低秩方法参数减少的同时会导致精度下降,无法兼顾效率和精度。
这篇工作要解决的是差分隐私(DP)扩散模型训练中“隐私预算限制导致效果显著下降”的问题,而传统 DP-SGD 在生成模型上往往需要很大噪声或很小 batch,直接伤害样本质量。
这篇工作要解决的是:如何从大规模机器人操作数据里预训练出真正服务 manipulation 的通用表征,而不是继续依赖视觉表征或任务专用策略做次优迁移。过去很多机器人预训练方法要么沿用图像预训练特征、缺少动作与时序约束,要么在单一平台和小规模数据上学到强耦合表示,导致跨任务、跨机器人泛化有限;这篇论文重新把问题拉回到“机器人能否用机器人数据预训练机器人表示”这个更直接的设定。
这篇工作要解决的是:embodied LLM agent 是否值得信任,尤其是在决策链路里会不会被后门攻击悄悄操控。过去关于 LLM 安全的研究大量集中在文本 jailbreak,而 embodied agent 的风险更高,因为一旦视觉、语言或环境触发器进入决策回路,输出不再是聊天文本,而可能是实际动作。
这篇工作要解决的是:视频生成里的 flow matching 如何在保持质量的同时显著提升效率,尤其是降低长时空分辨率带来的训练和采样成本。过去视频扩散/流模型的瓶颈很明确:时空 token 数爆炸,直接在全分辨率上建模代价太高,因此效率和质量通常只能二选一。
这篇工作要解决的是:少样本状态分类里,如何利用 predicate hierarchy 提升泛化,而不是让模型直接在稀疏标注上记忆状态标签。过去 few-shot state classification 往往把状态当平面类别来学,但很多状态本身具有可分解的关系结构,比如“开/关”“接触/未接触”“在容器中”等,忽略这种层次会让样本效率很差。
持续学习(Continual Learning)中梯度下降的收敛性和隐式偏置(implicit bias)在理论上还不清楚——特别是在线性分类的持续学习设置下,模型在顺序学习多个任务时,梯度下降会收敛到什么解?这个解有什么几何特性?
这篇论文要解决“位置编码如何既表达力足够、又计算/存储高效”的问题,尤其是在长上下文或图结构场景中,手工设计的 positional encoding(如 sinusoidal/Rotary/ALiBi)要么表达受限、要么难以适配不同结构,而直接学习一套全量位置嵌入又会带来参数与泛化问题。作者把位置编码视为一个可学习的结构化对象,并尝试用 GNN 来生成它。
这篇论文要解决的是 LLM guardrail 的鲁棒性问题:现有安全过滤往往依赖表面模式或单轮分类器,遇到带推理链、隐含前提或知识拼接的越狱提示时容易失效。作者把防护目标定义为“能做知识增强的逻辑推理式判定”,而不是只做关键词/模板匹配。
这篇论文解决离线偏好强化学习(offline preference-based RL)中的不稳定与分布外风险:仅用离线偏好数据做策略优化容易被数据偏差误导,产生过度乐观的 Q/奖励估计并在部署时崩掉。作者用“对抗式策略优化”来显式对齐最坏情况,从而提升离线学习的保守性。
这篇工作要解决的是:如何在不依赖大量人工标注偏见样本的前提下,对模型中的社会偏见进行可扩展去偏。传统做法通常要么依赖预定义敏感属性和模板,要么依赖外部审计数据,结果是覆盖面窄、迁移性差,也很难跟上开放生成模型里的新型偏见表达。
这篇工作要解决的是:针对 socially engineered LLM attacks,仅做 token 级检测为什么不够,以及怎样建模更高阶的语义/关系结构来提升防御。传统 prompt attack 检测经常盯关键词、n-gram 或局部 token pattern,但社会工程攻击往往通过多轮语境、角色操控、关系诱导来绕过这些浅层特征。
这篇工作解决的是:如何把多智能体驾驶仿真做到数据驱动且极高吞吐,从而支撑大规模策略学习。传统驾驶仿真要么保真但慢,要么快但规则化过强,结果是很难同时支持大规模 RL 训练和真实交通分布建模。
这篇工作要解决的是:指代表达生成(REG)和理解(REC)本来是互补任务,但以往大多分开训练,导致生成结果未必便于理解,理解模型也未必能反过来约束生成。这个割裂会让模型在表达歧义和视觉 grounding 上出现系统性损失。
常规图神经网络在长推理链的测试图上无法系统泛化,现有神经符号方法可解释但扩展性差,且假设答案只能从单关系路径推理,限制了关系推理能力。
现有文生图模型的评估仅关注美学质量,无法满足营销广告场景下的用户参与度优化需求,同时没有对应数据集支撑参与度评估的相关研究。
测试时自适应的现有研究仅关注自适应过程的优化稳定性,忽略了模型表示的自适应能力提升,同时多模型集成的测试时自适应计算成本高。
扩散模型的迭代推理计算量大,现有一致性轨迹模型仅支持高斯分布到数据的映射,无法支持图像编辑等需要任意时间点跳转的图像操纵任务。
扩散模型对齐特定目标时,现有微调方案易出现奖励过优化,近似引导方案奖励优化效果差,且两者都会损失模型原有通用性。
这篇工作要解决的是:无监督表征学习在生成模型里常被 VAE/对比学习两条路线主导,但它们要么受限于后验近似与 KL 权衡,要么依赖强数据增强与负样本设计。作者试图用“扩散桥(diffusion bridge)”把表征学习变成一个更稳定的生成式对齐问题。
这篇工作要解决的是:带正则的神经网络训练损失景观难以分析,很多关于“平坦极小值/泛化”的讨论缺少可计算的刻画工具。作者用凸对偶性把一部分正则化网络的景观结构变成可推导的对象。
这篇工作要解决的是:SG-MCMC 在高维深网里混合慢、步长敏感,导致用它做贝叶斯深度学习或不确定性估计时成本过高。作者提出“参数扩展”来改善采样动力学。
这篇工作要解决的是:Adam 类优化在训练早期/噪声较大阶段容易被“坏 batch”触发不稳定更新,而常见做法是调小学习率或加大 batch,代价是收敛变慢或算力更贵。作者提出让 Adam 自适应地选择 batch 来降低梯度噪声冲击。
这篇工作要解决的是:从视频生成空间音频(spatial audio)需要同时建模视觉事件与声源空间结构,而传统做法要么只做音频生成不对齐空间,要么依赖昂贵的多麦克风标注数据。作者提出 ViSAGe 做 video-to-spatial-audio generation。
这篇工作解决的是:当用户指令有歧义时,LLM 应该何时主动追问、问什么,才能最小代价澄清任务。过去很多系统要么默认一个解释直接答,导致执行错误;要么机械式反问,虽然安全但显著拉低交互效率。
这篇工作关心的是:能否把人类可解释的知识表示自动整合进模型,而不是只依赖大规模端到端梯度学习。过去知识注入常在两端摇摆:要么完全非结构化,靠预训练自己吸收;要么用知识图谱/规则库硬编码,但和神经模型接口生硬、维护成本高。
这篇工作尝试回答:参数高效微调还能再极端一点吗,能否用更少的可训练自由度逼近甚至超过现有 PEFT。LoRA、adapter 已经把微调成本大幅压低,但在边缘部署、联邦场景或超大模型多任务切换中,参数和带宽仍然是硬约束。
这篇论文研究匹配市场中的 bandit 学习,而且特别处理了 indifference,也就是参与方对多个选项无差异偏好。传统 bandit matching 往往默认严格偏好或唯一最优臂,这让理论更干净,但现实市场里大量偏好是平的、不完全可辨的,用旧假设会高估学习难度或导出不稳定机制。
这篇工作研究的是:当目标函数不可分解时,怎么做差分隐私优化。很多真实指标如 F1、AUC、精确率-召回率类目标都不是样本级可加和的,现有 DP-SGD 主要围绕可分解损失设计,直接套用往往要么隐私分析不成立,要么优化效果很差。
这篇工作讨论的是:如何从风险预测走向真正的预测不确定性估计,而且用贝叶斯估计生成可用的不确定性量。很多模型输出的“风险分数”只是点估计或排序分数,既不能区分 aleatoric 与 epistemic 不确定性,也常常校准很差,在高风险决策里不够用。
扩散模型的负提示(NP)默认采用恒定引导权重,由于扩散反向过程是非平稳、依赖当前状态的,恒定权重会导致生成结果次优甚至完全失效。
图扩散模型的置换等变去噪器无法打破噪声输入的对称性,在图到图翻译任务(比如化学反应预测)上性能极差。
这篇论文要解决的是:图像分割通常被建模为像素级分类/掩码回归,导致它很难直接复用“强大的文本生成式预训练范式”,也不利于用统一的序列建模框架把视觉任务纳入同一个 LM。以往把分割接到 VLM 上多依赖额外的 mask head 或专用解码器,工程复杂且跨任务迁移不自然。
这篇论文要解决的是:复杂的训练配方(多阶段预训练、数据混合、课程学习、冻结/解冻、蒸馏链路等)越来越像“程序”,但目前主要靠文字描述和脚本实现,难以复现、难以比较,也难以做自动化搜索与静态检查。过去大家用配置文件或流水线工具拼装,但缺少一个能表达“组合结构与依赖关系”的统一语言。
这篇论文要解决的是:高保真图像生成在“多模态上下文”(文本+参考图+布局+局部编辑等)条件下容易出现对齐失败,表现为细节漂移、身份不一致或忽略条件。以往方法要么加强 cross-attention 但仍会丢细粒度约束,要么用额外控制网络导致训练/推理复杂度上升。
这篇论文要解决的是:泛化误差里“未见分布(unseen)”的难度常被归因于未见数据本身,但作者主张未见表现主要由“已见数据包含了多少关于未见的可推断信息”决定,因此需要重新理解评估与数据设计。过去很多泛化讨论把 unseen 当作外生变量,忽略了 seen→unseen 的信息通道。
这篇论文要解决的是:深度强化学习在扩大参数量时经常出现训练不稳定与样本效率下降,导致“更大模型不一定更好”,而现有稳定化技巧(正则、归一化、目标网络等)缺少一个统一的可扩展原则。过去很多 scaling 失败来自优化把容量用在拟合噪声或短期相关性上。
这篇工作要解决的是:视觉语言模型在测试分布变化时容易退化,而常规 test-time adaptation 往往只靠当前测试样本自适应,信息太少且不稳定。过去很多 TTA 方法在纯视觉模型上有效,但迁移到 VLM 后会遇到跨模态对齐脆弱、单样本噪声大、在线更新易漂移的问题,所以作者引入 retrieval-augmented 的思路来补足测试时上下文。
这篇工作要解决的是:文本到图像扩散模型中的概念擦除常常不够精确,容易在删除目标概念时连带伤害相邻语义或整体生成质量。过去的概念擦除方法多通过全局微调或注意力层面抑制某类概念,但由于扩散模型里的语义表示高度纠缠,粗粒度抹除往往带来明显副作用,所以作者想做更“指哪擦哪”的局部化编辑。
这篇工作研究的是 average-reward MDP 中 value iteration 的非渐近收敛速率最优界。这个问题与 LLM pretrain 或 post-train 没有直接关系,过去也主要属于强化学习理论中的经典分析题,而不是大模型训练方法、数据或系统设计问题。
这篇工作要解决的是:一致性模型虽然能以极少步数采样,但在训练稳定性、逼近误差和高质量生成之间仍有明显张力;完全一致性训练往往在难分布上不够灵活。作者提出 Truncated Consistency Models,说明他们想通过“截断”训练或推理目标,保留一致性模型快采样的优点,同时减轻全程一致性约束过强带来的问题。
这篇工作要问的是:一个模态上的模型,能否反过来帮助另一个模态模型的训练,而不只是做后期融合或蒸馏。过去跨模态研究大多关心共享表征、联合编码器或多模态对齐,但较少系统讨论“某个模态模型的训练信号是否能直接协同优化另一个模态模型”,这对统一预训练是个很核心的问题。
现有开放词汇3D实例分割(OV-3DIS)方法要么依赖标注基类训练泛化性差,要么生成掩码时忽略语义信息导致性能次优。
现有生成模型质量评估方法要么依赖对真实分布的假设,要么需要训练辅助模型,评估结果不可靠或开销大。
现有Transformer的自注意力机制计算复杂度高,各类替代注意力方案没有统一的框架,设计效率低。
这篇论文要解决的是:在城市尺度 3D 场景里做“语言指代的目标定位”(visual grounding)时,传统 3D 检索/检测管线很难同时处理大范围空间、稀疏几何与复杂语言约束,导致可用性差且泛化弱。作者尝试用多模态 LLM 把语言理解与跨视角/跨模态对齐统一起来。
这篇论文要解决的是:语言-动作(text-motion)任务长期被“生成/检索/描述”三套各训各的目标割裂,导致表示不统一、迁移差、数据利用率低。作者希望用一个预训练框架同时支持动作生成、动作检索和动作字幕。
这篇论文要解决的是:生成式图像压缩通常需要为不同码率/质量训练多套模型或复杂的可变码率机制,部署时难以在“码率-质量-算力”之间动态切换。作者希望做到 once-for-all:一个模型支持多粒度、可控的压缩与生成重建。
这篇论文要解决的是:跨模态检索在测试时常遇到 query shift(查询分布变化),例如用户描述风格、领域词汇或图像风格变化,导致训练好的对齐空间失配。过去多依赖离线再训练或领域自适应,响应慢且成本高。
这篇工作要解决的是:训练过程中如何按模型当前短板,在线生成真正有用的合成数据,而不是像常见做法那样先离线扩数据、再被动训练。传统合成数据增强通常依赖固定模板或一次性生成的大批样本,问题是数据分布和模型误差会不断变化,静态增强很容易把算力花在已经学会或价值很低的样本上。
这篇工作解决的是一个高性价比多模态学习问题:能不能只用较少的多模态配对数据,把已经很强的单模态特征映射到多模态特征空间,而不是从头训练完整的多模态模型。以往常见做法要么直接训练双塔/统一编码器,需要大量配对数据;要么做蒸馏但往往忽略映射本身的结构约束,导致数据效率不高。
这篇工作关注的是自动驾驶端到端建模里的一个根问题:仅靠当前观测直接预测驾驶动作,往往缺少对隐含动态和未来演化的建模,因此在复杂场景下不稳。过去很多 end-to-end driving 方法虽然能从多传感器到控制做直接映射,但对遮挡、长时依赖和反事实规划处理有限,所以世界模型又重新受到重视。
这篇工作解决的是均值回复型 diffusion 过程采样慢的问题,目标是在不显著牺牲质量的前提下减少采样步数。扩散模型的核心瓶颈一直是推理成本,而针对特定扩散过程设计更高效的 ODE/SDE 求解器,是比单纯蒸馏更通用、也更贴近数值分析本质的方向。
这篇工作要解决的是 diffusion 条件生成里一个长期分裂的问题:不同条件任务往往各用一套专门设计,训练和采样接口碎片化,难以统一。过去无论是 classifier guidance、classifier-free guidance,还是 inpainting、super-resolution、control-style 条件生成,通常都需要任务特定改造,复用性差,也增加了系统复杂度。
现有混合整数线性规划(MILP)的深度学习方法只能适配特定问题类别,泛化性差,且现有数据集多样性和规模不足。
现有因果发现方法要么假设所有相关变量都可观测,要么假设不存在复杂因果关系,与实际场景不符。
这篇论文要解决的是:句向量(sentence embedding)在“便宜、快、可迁移”和“语义区分度/对齐下游检索”之间长期拉扯,很多方法要么依赖大规模标注对比数据,要么在推理时成本高。作者试图给出一种更高效的句向量训练/蒸馏配方,让小模型也能产出强检索表现的 embedding。
这篇论文要解决的是:扩散模型训练在样本带噪或含异常点时会被均值风险(只优化期望损失)拖垮,表现为生成质量不稳或对少量坏数据过拟合,而常规做法要么清洗数据要么靠启发式 reweight。作者希望把“风险敏感”(risk-sensitive)优化引入扩散训练,让模型对噪声样本更鲁棒。
这篇论文要解决的是:世界模型(world model)在高维观测下很难同时做到可预测、可组合、可泛化,端到端黑盒模型往往把状态纠缠在一起导致长时预测与控制不稳。作者提出一个“因子化状态空间”(factored state-space)框架,希望把世界状态拆成更可组合的因子以提升建模与规划。
这篇论文要解决的是:文生视频/视频生成模型在 post-training 阶段常见“质量上不去或对齐不稳”,原因是数据、奖励模型与条件引导(guidance)设计彼此耦合,单点改进容易带来副作用。作者围绕数据、reward、conditional guidance 三个杠杆给出一套更系统的后训练方案来提升 T2V-Turbo-v2。
这篇论文要解决的是:长时域柔性作业车间调度(FJSP)用传统滚动时域优化(RHO)容易在长规划跨度下计算爆炸,而纯学习策略又难以保证可行性与约束满足。作者提出 learning-guided 的 RHO,用学习模型指导搜索以在长时域下更稳地做近似最优决策。
这篇工作要解决的是高分辨率全景 4D 生成的组合难题:既要 360° 全景、又要随时间变化、还要做到 4K 细节,而且三者不能互相牺牲。过去方法通常只能在分辨率、时空一致性和视角覆盖里选两项,尤其是一到全景和长时序,显存、几何连续性和局部细节都会迅速崩掉。
这篇工作要解决的是神经网络规范化(canonicalization)对仿射变换不稳的问题。很多方法能处理平移、旋转或尺度中的一部分,但对更一般的 affine 变换往往只能靠数据增广硬扛,结果是样本效率低、泛化边界脆弱,而且很难把等变性真正编码进层结构里。
这篇工作要解决的是 vision-language model 在 zero-/few-shot 场景下做 training-free 适配时,现有标签传播方法要么不够高效,要么没有真正利用上下文。过去很多做法依赖 test-time adaptation 或额外训练,成本高且不稳定;即便是训练免费方法,也常只用简单近邻传播,难以处理类别间语义相似和样本局部结构。
这篇工作要解决的是多智能体强化学习里通信随 agent 数量扩展困难的问题。传统全连接或密集消息传递在 agent 数一大时通信成本、延迟和训练不稳定性都会迅速上升,结果是方法在小规模环境可行,一到大规模协作就不可用。
开放世界强化学习(如 Minecraft)中,智能体需要同时处理长期目标规划和短期动作执行,但现有的世界模型方法难以兼顾长短期想象的不同时间尺度需求。
OOD(分布外)检测中,合成 outlier 数据来辅助训练检测器是一个有效策略,但现有合成方法生成的 outlier 质量不高,难以覆盖真实 OOD 数据的多样性。本文用 Hamiltonian Monte Carlo(HMC)在特征空间中合成更高质量的 outlier。
矩阵分解(matrix factorization)是许多机器学习方法的基础组件,但其非凸优化景观使得初始化策略对收敛速度和解的质量至关重要。本文系统分析了初始化对矩阵分解收敛行为的关键影响。
这篇论文解决的是:当扩散模型的 score(∇x log p)估计与真实 score 不匹配时,采样会如何偏、偏到哪里,以及在不重新训练的情况下能否做零样本条件采样,而以往很多工作默认 score 足够准或只给经验修补。
这篇论文要解决的是:机器人规划需要可组合、可解释的世界模型,但纯神经世界模型难以抽象出可用于符号规划的状态,而纯符号又难以从视觉中稳健提取。
这篇论文研究的是:Mirror Flow 这类优化/动力系统在浅层网络一维回归中的隐式偏置(implicit bias)是什么,即在多解情况下它会偏向哪类函数,而以往隐式偏置更多围绕 SGD/梯度流与特定参数化讨论。
这篇工作要解决的是:在多模态无监督域泛化里,训练时看不到目标域,也没有目标域标签,模型如何学到跨域且跨模态都稳健的表示。以往方法通常要么只做单模态域泛化,要么把多模态简单拼接后做对齐,默认不同模态之间可以直接互补,但真实问题是域偏移和模态鸿沟会叠加,导致一个模态里的域不变信息很难有效传给另一个模态。
这篇工作要统一回答的问题是:内在动机和 reward shaping 这两条强化学习思路,能不能放进同一个贝叶斯决策框架里理解和设计。过去这两类方法常被分开讨论,一个强调探索,一个强调把稀疏奖励改写得更易学,但二者都在改代理接收到的训练信号,只是缺少统一语言来解释什么时候有效、什么时候会改坏最优策略。
这篇工作解决的是 controllable diffusion 的一个长期工程痛点:不同控制条件往往要为不同基座模型、不同任务单独训练适配模块,复用性差。过去 ControlNet、T2I-Adapter 一类方法虽然有效,但经常绑定具体架构或具体 control 类型,想把新控制信号接到任意 diffusion model 上并不轻量。
这篇工作要解决的是 audio-driven talking body generation 中长期存在的两难:一阶段方法快但动作细节弱,多阶段方法细节更强但训练和推理链路复杂。过去很多系统把语音到表情、语音到姿态、再到渲染拆成多个子模块,误差会逐级积累,也限制了端到端优化。
这篇工作关注交互式图像编辑中的歧义问题:用户给一个点或少量点作为编辑指令时,模型往往不知道该改哪一层语义、改多大范围、保持哪些内容不动。以往 point-based editing 常能做到局部响应,但在开放场景下容易出现编辑目标不明确、响应区域漂移或副作用过大。
这篇工作解决的是物理驱动 3D 动态生成中的通用性问题:如何用一个统一表示同时表达几何、材料属性和动态响应,而不是为不同物理过程或对象类型分别建模。过去很多 3D 动态方法要么偏重外观重建,要么针对特定物理系统做定制模拟,泛化到新材料和新场景时成本很高。
现有免训练生成引导方法仅支持连续空间扩散模型,无法适配离散+连续的多模态数据场景,同时流匹配生成框架下的免训练引导研究处于空白状态。
现有扩散模型数据归因方法直接用扩散损失的变化衡量训练样本贡献,准确率低,无法准确追溯版权、隐私训练数据对生成结果的影响。
现有3D视觉基准无法衡量深度神经网络的视觉视角采择(VPT)能力,已有研究声称大图像数据集训练的DNN具备3D分析能力,但未验证其是否支持视角推理类任务。
现有研究仅知道组合结构表示有助于组合泛化,但不清楚具备组合结构表示的模型在什么条件下才能产生组合泛化能力,缺乏量化的边界条件。
现有小鼠视觉皮层数字孪生模型仅能复刻单神经元行为,无法准确捕捉神经元群体活动的几何结构,而群体级活动是理解视觉认知机制的核心。
这篇论文要解决的是:一致性模型(consistency model)和扩散模型训练完后,如何用“线性组合多个 checkpoint”在不重新训练的情况下稳定变好。以往 checkpoint averaging/EMA 在扩散里常被当作经验技巧,但对“为什么线性组合能提升采样质量/稳定性、该怎么选权重与组合对象”缺少系统结论。
这篇论文要解决的是:现有多模态虚假信息检测评测对 LVLM 不够“真实混源”,导致模型在基准上看起来会,但遇到跨来源、跨风格的伪造就失效。过去很多 benchmark 要么来源单一、要么伪造方式单一(只测图像编辑或只测文本谣言),难以覆盖真实传播链路里的混合证据与冲突线索。
这篇论文要解决的是:LLM function calling/工具调用在评测里经常“差一点就对”,但现有指标对格式细节、参数边界、调用时机等得分规则不够贴近真实平台。过去很多工作用宽松的字符串匹配或只看是否调用了正确工具名,导致模型在真实 API 约束下失败率被低估。
这篇论文要解决的是:在差分隐私(DP)约束下,优化器高度依赖学习率/裁剪阈值等超参,而这些超参又会与隐私噪声强耦合,导致训练既难调又不稳定。过去 DP-SGD 往往需要大量网格搜索才能达到可用精度,但在隐私预算固定时,调参成本本身就很不现实。
这篇论文要解决的是:离散变量上的扩散模型往往假设各维独立或用简单相关结构,难以表达复杂依赖,而 copula 提供了把“边缘分布”和“相关结构”解耦建模的工具。过去离散扩散(如 D3PM)在高维离散结构(图、表、组合对象)上容易出现相关性建模不足,生成样本在全局约束上不一致。
这篇论文要解决的是:深度强化学习里的网络容量一旦早期定死,后续训练即使遇到更复杂阶段也很难继续长出有效表征,导致性能和样本效率一起受限。过去常见做法要么一开始就上大模型,承担持续的算力和优化代价;要么靠剪枝、正则或课程学习绕开容量错配,但没有直接处理“何时扩容、扩哪一部分、怎样不破坏已有策略”这个问题。
这篇论文要解决的是:离线强化学习在数据中毒攻击下很脆弱,而现有防御多半是经验性的,缺少可认证的安全保证。过去常见做法是做异常检测、样本过滤或鲁棒训练,但攻击者只要稍微适配这些启发式规则,防御效果就可能快速失效。
这篇论文要解决的是:灵巧操作长期受限于视觉和触觉数据割裂,导致预训练难以学到真正可迁移的接触表征。过去很多工作要么只做视觉 imitation/RL,要么把触觉当小规模辅助信号,因此在遮挡、滑移、接触不确定性强的操作里性能上不去。
这篇论文要解决的是:文生图 diffusion 模型对长文本提示的对齐能力明显不足,提示一长就容易漏实体、错关系、丢局部约束。过去常见处理要么截断 prompt,要么依赖更强的文本编码器和交叉注意力,但这些方法没有真正解决长提示里的信息竞争和注意力稀释问题。
这篇论文要解决的是:模仿学习或 GAIL 通常默认演示接近最优,但真实数据里经常混有次优甚至明显错误的 demonstrations,直接学会把策略往坏方向拉。过去的处理要么尽量清洗数据,只保留高质量轨迹;要么做鲁棒 imitation,但往往把非最优部分一概当噪声丢掉,没有充分利用其中仍然有价值的信息。
这篇论文要解决的是:决策树诱导通常依赖贪心分裂准则,结构可解释但搜索空间受限;而 LLM 虽然有强语义先验,却不擅长直接输出稳定、高质量的树结构。过去要么坚持传统 CART/boosting 一类算法,牺牲语义型特征组合;要么让 LLM 直接生成规则,但很难保证结构质量和泛化。
机器人学习中的动作分块技术存在固有trade-off:能更好捕捉演示数据的时间依赖,但会降低对意外状态的反应性,导致性能不稳定。
现有多关节可交互物体重建方法无法有效融合不同物体状态的信息,导致部件网格重建和动力学建模准确率低,尤其不适合复杂多部件物体。
现有状态空间模型(SSM)的HiPPO初始化框架没有考虑输入序列的自相关性,导致不同长度序列的优化稳定性和记忆能力差异大,长序列任务上容易出现记忆诅咒。
现有大模型越狱攻击策略均为人工设计,攻击覆盖范围和效果受限,无法满足红队测试的自动化需求。
现有智能体拓展新技能时训练效率低,无法充分复用已有先验知识适配新任务,难以支撑智能体的持续能力演化。
自回归AR图像生成模型推理速度慢,需要逐token生成,现有多token并行生成方法无法建模token间的依赖关系,少步生成效果差。
传统离散扩散模型采用固定或随机的去噪顺序,无法优先修复最严重的损坏位置,生成效率和质量受限。
这篇论文要解决的是:多工具调用的 agent 往往在“先规划再执行”上不稳定,因为工具空间大、工具间能力重叠,导致规划搜索成本高且容易在局部最优里反复试错。
这篇论文要解决的是:扩散模型生成的图像水印在“可控再生成(regeneration)”攻击下是否真的稳健,因为很多水印方案默认攻击者只能做有限的后处理而不能进行强生成式编辑。
这篇论文要解决的是:逆分子设计不仅要生成“看起来合理”的分子,还要满足可合成性与合成路径约束,而传统生成模型往往把合成可行性当作后验筛选,效率低且容易生成不可合成分子。
这篇论文要解决的是:在差分隐私(DP)约束下寻找二阶驻点(second-order stationary points)很难兼顾收敛与隐私预算,因为二阶信息估计噪声大,固定 batch size 往往导致要么隐私开销过高、要么优化停滞。
这篇论文要解决的是:无奖励/无示范的探索与技能发现通常依赖多目标或复杂的内在奖励设计,训练不稳定且难以解释为什么会学到可迁移技能。
这篇论文要解决的是:双臂操作的策略学习在高维连续动作与多模态观测下很难用传统行为克隆或 RL 稳定扩展,而扩散策略虽强但缺少“基础模型化”的统一训练与复用范式。
这篇工作要解决的是:扩散模型对齐时,既想让样本更符合偏好,又不想把分布压缩到少数模式,现实里这两件事经常冲突。现有扩散对齐方法通常偏向 reward 最大化或局部引导,容易牺牲多样性;作者试图把“高奖励”和“保覆盖”一起纳入同一个生成过程。
这篇工作要解决的是:参数高效学习方法很多,但大多是经验设计,缺少统一的压缩视角来解释为什么少量可训练参数有时足够、有时又明显不够。作者尝试用量子电路压缩的视角重新理解 PEFT,把参数更新能力映射成受限表示容量问题。
这篇工作要解决的是:在 heavy-tailed noise 下做非凸随机优化时,经典 SGD 分析往往失效,所以很多方法依赖 gradient clipping 来保稳定,但 clipping 会引入偏差并损伤最优收敛。作者想证明并构造一种不依赖 clipping 的方法,在重尾噪声下仍达到最优收敛率。
这篇工作要解决的是:深层网络的层间动态通常只被当作静态堆叠来分析,缺少一个统一视角理解“层如何逐步演化表示”。作者尝试用状态空间模型(SSM)的语言来重述深度神经网络层动态,把层深看成状态演化过程,而不是互相独立的离散变换。
现有大模型智能体的决策研究大多关注理性决策,未充分利用大模型的系统性幻觉模拟人类社会认知偏差,难以适配复杂社交场景的需求。
现有多智能体系统的智能体仅适配训练时的队友和对手,遇到未见过的智能体时性能大幅下降,无法动态适应多变的环境。
现有连续时间一致性模型训练不稳定,难以扩展到大参数量,离散时间一致性模型存在离散化误差和额外超参数,限制了一致性模型的性能上限。
这篇论文要解决的是:在安全对齐的 SFT 中,如何用更少的监督数据学到“语义上安全”的拒答/改写,而不是靠大量标注或只对表面模板过拟合。
这篇论文要解决的是:能否像 LLM 做 in-context learning 一样,让一个模型在不更新参数的情况下,通过上下文示例直接适配新的时间序列预测任务;传统时间序列方法往往需要为每个数据集/频率/季节性重新训练或手工建模。
这篇论文要解决的是:如何生成一个“可探索”的世界(不仅是静态内容),让智能体能在其中交互、发现规律并进行长期任务;以往生成模型多停留在单帧/单段文本或缺少一致的可交互状态。
这篇论文要解决的是:在强图像编辑攻击下,如何做更鲁棒的水印,并系统性地评测现有方法;以往水印方法常在特定编辑分布上有效,但遇到重绘、局部替换、风格迁移等生成式编辑就脆弱。
这篇论文要解决的是:一次性剪枝(one-shot pruning)如何在不做长时间微调的情况下尽量保留深层表示;以往幅度剪枝或简单二阶近似要么伤表示、要么计算代价高且不稳定。
这篇工作要解决的是:FVD 作为视频生成主指标不够可靠,尤其难以把“时间一致性、内容真实性、分布质量”区分清楚。过去大家继续用 FVD,更多是因为它方便且已有共识,而不是因为它真的覆盖了视频生成质量中最关键的维度。
这篇工作要解决的是:黑盒优化中的 exploratory landscape analysis 传统上依赖手工特征,难以在元学习场景下稳定刻画任务地形。问题不在于 ELA 没用,而在于人工设计特征对高维、异质目标函数的表达能力不够,导致元优化器拿不到可靠任务描述。
现有大模型风格化响应生成方法中,提示词方法无法适配复杂风格需求,微调方法计算成本高,且容易破坏原有语义的完整性。
这篇论文要解决的是:当序列采样不规则、时间间隔不均匀时,常规的离散序列模型(RNN/Transformer/ODE-RNN 等)要么强行重采样、要么把时间戳当附加特征,导致动态建模失真或不稳定。
这篇论文要解决的是:气候领域 QA 的评测缺少自动化、可扩展且能区分“胡编”与“有依据回答”的框架,导致模型迭代主要靠小规模人工评审。
这篇论文要解决的是:视觉系统里的不同功能通路,能否用稀疏成分分解得更清楚,并且这种分解是否能和神经网络表征对齐。过去比较脑表征和网络表征时,常常直接在整体激活空间做相似性分析,这容易得到'像'或'不像'的结论,但不容易看清哪些可解释子空间在承担具体功能。
这篇论文试图解决图像生成里一个常见缺口:现有生成模型能生成图,但其条件控制通常不是压缩的、可解释的描述。过去文本 prompt 很灵活,但冗长且不可控;离散 latent 虽紧凑,但语义可读性差。因此作者想要一种既压缩又可解释的中间描述,让生成过程更像基于结构说明书而不是黑盒噪声映射。
这篇论文解决的是 diffusion inpainting 速度慢、条件利用低效的问题。传统 inpainting 往往需要在每个去噪步都处理整张图并重复注入掩码条件,计算量大,而且随着时间步推进,模型真正需要关注的已知像素信息并不相同。作者想做的是让像素条件随时间步自适应,而不是静态地一股脑喂给模型。
这篇论文针对 domain generalization 中一个被忽视的问题:很多方法只优化对当前可见分布偏移的鲁棒性,却没有认真处理训练过程中已经学过、后来又被淡化甚至遗忘的泛化能力。标题里的 forgotten domain generalization 指向一个现象——模型在追求某类不变性时,可能牺牲了对其他域因素的保留,导致所谓的泛化其实并不稳定。
这篇论文要解决的是多智能体强化学习常见的不可 tractable 问题:一旦智能体之间存在策略相互依赖,联合状态-动作空间和信用分配会迅速爆炸。过去 MARL 往往在算法上堆复杂性,例如集中训练、值分解或博弈求解近似,但可解释性和可扩展性都有限。作者尝试引入 behavioral economics 的结构,给多智能体行为建模加上更强的归纳偏置。
这篇论文解决的是大规模差分隐私机器学习里一个很实际的瓶颈:banded matrix factorization 这类机制在理论上能更高效地分配噪声和隐私预算,但扩展到大规模训练时往往受限于计算和实现复杂度。过去很多 DP-ML 方法停留在每步独立加噪或较小规模设定,因此在真正的大模型或长训练里隐私-效用折中并不理想。
这篇论文的核心命题很强:U-Net 这类常用架构可以被解释为在分层生成模型上执行 belief propagation,从而统一理解分类、去噪和 diffusion。过去 U-Net 在实践中极其成功,但更多是经验架构;不同任务里它为何都好用,理论上缺少一个足够统一、又能落到算法结构上的解释。
这篇论文要解决的是生成模型在视频、3D 和游戏世界表示之间长期割裂的问题。过去这些模态通常各用各的表示和 backbone:视频用时空 latent,3D 用体素/点云/NeRF 场,游戏场景又有自己的状态表示,导致模型和数据难以共享。作者试图用统一的 field 表示加 diffusion transformer,把这些动态或空间场统一到一个生成框架里。
多智能体合作中,每个智能体的策略梯度通常只考虑自身的回报,忽略了自身策略变化对其他智能体学习动态的影响。这导致合作效率低下,尤其在需要协调的场景中。
Timestep-distilled diffusion model(如 consistency model、few-step 蒸馏模型)在蒸馏后质量有损,后续微调通常依赖 RL 风格的方法(如 DPO/RLHF),但这些方法在 diffusion 模型上的应用效率和稳定性都不理想。
探索用半代数(semialgebraic)函数类替代标准激活函数来构建神经网络,研究其表示能力和理论性质。这是一个纯理论方向,关注的是神经网络表达能力的数学基础。
这篇论文要解决的是:在“间歇供电”(断电/掉电频繁、可用能量不稳定)的边缘环境里,DNN 训练与推理如何在不丢正确性/不频繁重启的前提下持续推进。以往常见做法要么只做推理侧的容错与检查点,要么把训练当成离线任务回避掉“随时断电”的现实,因此系统层面缺少端到端的自适应协议。
这篇论文要解决的是:在持续学习/非平稳环境里,隐变量动力学模型应该“学会何时、以多快速度、用什么方式”去适应,而不是每次都用同一个更新规则硬适配。以往做法常把适应机制固定为某种滤波/微调/元学习内循环,导致遇到分布漂移强弱不同或噪声结构变化时,要么适应过慢,要么过拟合并遗忘。
这篇论文要解决的是:如何从“演示序列”(demonstration sequences)中学到可泛化的搜索策略,而不是只学到模仿动作的行为克隆。以往从示范学搜索常被两类次优方案替代:要么直接 imitation 导致分布偏移时崩溃,要么用 RL/规划但样本效率差、对奖励设计敏感。
这篇论文要解决的是:视觉自监督学习里的 mask 策略如何更有效,而不是随机遮挡导致学习信号浪费或偏置。以往 MAE/Masking 类方法多用随机块遮挡,简单但不区分图像频率成分,可能让模型过度依赖低频轮廓或忽视高频细节,从而影响表征的可迁移性。
这篇工作要解决的是:Shampoo 这类二阶近似优化器为什么有效、它的预条件器到底在估计什么。过去大家更多把 Shampoo 当成 Kronecker-factored 的工程近似来用,知道它常常比 Adam 更稳或更省步数,但对其几何意义和适用边界缺少统一解释,这限制了它在大规模预训练中的可控使用。
这篇工作要回答的是:深网络表现出的几何归纳偏置,到底更多来自数据分布,还是来自网络架构本身。过去很多结论默认把“模型偏好某类几何结构”归因到 CNN、Transformer 或深度本身,但如果不把数据因素拆开,很容易把训练分布学到的统计规律误当成架构先验。
这篇工作要解决的是:human-in-the-loop RL 往往假设有高质量人类反馈或接近最优的数据,但现实里收集到的常是次优、噪声大、风格不一致的交互数据。作者关注的是如何把这些 sub-optimal data 变成仍然有学习价值的信号,而不是因为不完美就丢弃。
这篇工作要解决的是:多智能体强化学习里,不同轨迹类别往往对应不同协作模式或博弈结构,但标准 MARL 通常把它们混在一起学,导致信用分配和策略泛化都变差。作者想把 trajectory class 显式纳入建模,让不同类型的交互轨迹得到区分对待。
这篇工作要解决的是:视频字幕生成往往能描述局部画面,但难以形成连贯叙事,尤其在长视频里容易丢失时间因果关系。现有 captioning 方法常把视频当一串弱关联片段处理,因此生成文本虽然句子局部正确,却缺少 narrative coherence。
标准DP-SGD的隐私分析默认攻击者可访问所有训练中间迭代,该假设与仅发布最终迭代权重的真实部署场景不匹配,导致隐私预算估计过于保守,且缺少训练前的快速隐私泄露估算工具。
现有上下文老虎机离线策略评估/学习(OPE/L)方法要求日志数据覆盖所有待评估动作,无法处理少样本数据、确定性日志策略、新动作等真实场景,存在方差过高或探索不足的失效问题。
现有视觉Transformer(ViT)默认采用16x16 patch作为输入token,继承了卷积的局部归纳偏置,业界普遍认为直接用单像素作为token会导致计算量过高、效果差,该假设未经过系统实证验证。
这篇论文要解决的是:能否把通用 LLM 的 in-context learning 直接用在“分子优化”这种需要迭代提出候选、再根据反馈改进的搜索问题上,而不是依赖专门的生成模型+强化学习/贝叶斯优化管线。以往做法通常把“生成”和“评估/优化”拆开,导致系统复杂、迁移成本高,也很难用自然语言/结构化提示统一表达约束与目标。
这篇论文要解决的是:能否用生成式建模来“反向设计”机器人仿真环境/场景,使其覆盖训练所需的多样性与难例,而不是手工搭建或用固定分布采样。传统仿真往往分布单一,导致策略在现实或分布外场景下脆弱。
这篇工作聚焦的核心问题是:如何在 zero-shot TTS 中稳定生成分钟级长语音,同时避免长时段上常见的音质漂移、说话人一致性下降和韵律崩坏。以往神经 codec LM 往往在短语句上效果不错,但序列一长,离散音频 token 的误差会逐层累积,导致长音频很难可靠生成。
这篇工作要解决的是:离散状态空间的 diffusion / flow 模型虽然越来越像语言建模的替代范式,但 guidance 机制一直不如连续扩散模型成熟。过去 classifier guidance、classifier-free guidance 在连续空间很好用,可一到离散状态,打分、重加权和采样校正都更难做,导致条件控制和采样质量受限。
这篇工作关注的是:如何把大模型驱动的 agent workflow 自动化做成模块化系统,而不是每个任务手工拼 prompt、工具和控制流。过去 agent 方法常见的问题是流程脆弱、复用性差、调试困难,一旦任务变化就要重写整条链路,因此需要更结构化的工作流抽象。
这篇工作要解决的是:标准 diffusion sampler 在多峰分布上容易 mode hopping 不稳,或者需要很多步才能覆盖不同模态,而简单加噪-去噪过程并不总能有效利用“参考样本”这类额外信息。这个问题在多模态后验采样和条件生成里都很常见。
这篇工作要解决的是:音乐生成模型推理太慢,尤其是既有很多层、又需要很多去噪/生成步时,实际可用性很差。过去常见做法是只蒸馏步数或只裁剪层数,但二者分开做通常留下一半瓶颈,因此需要联合考虑‘时间步’和‘网络深度’两个维度的加速。
这篇工作关注的核心问题是:测试分布变化时,怎样在不重新训练的前提下更稳健地适配模型。过去常见做法要么固定选一个 finetuned checkpoint,要么做静态权重平均/插值,但不同输入所需的适配强度并不一样,静态方案经常在某些域上过拟合、在另一些域上欠适配。
这篇工作要解决的是:Sharpness-Aware Minimization 虽然在实践中常带来更好泛化,但理论分析一直不够统一,收敛性质和改进速率也不够清楚。过去大量使用 SAM 的经验结果不错,但对什么时候值得用、为什么有效、在什么条件下能有更好速率,理解并不充分。
这篇工作研究的是:随机 Polyak 步长结合动量后,能否同时得到可靠的收敛保证和实际训练收益。过去自适应步长方法很多,但要么理论漂亮、实践难调,要么工程上能用、理论解释弱;Polyak step-size 因为利用目标值信息而有吸引力,但在随机优化和动量场景下并不容易分析。
相同训练数据和目标下,不同架构的CLIP视觉骨干(ViT、ResNet等)的表征、跨数据集精度、抗扰动鲁棒性存在显著差异,现有工作未系统利用这种互补性提升CLIP性能。
现有结构因果模型(SCM)生成的合成数据集存在沿因果序的方差和相关性递增的人工伪迹,主流因果结构学习算法会利用这些伪迹得到虚高的评测结果,无法泛化到真实场景,现有指标仅能量化伪迹无法消除。
现有扩散模型的去噪分布要么采用固定协方差要么采用数据驱动的协方差预测,存在协方差近似误差高、采样效率低的问题,限制了扩散模型的生成质量和速度。
这篇论文要解决的是:离线强化学习(offline RL)里如何在不与环境交互的前提下,可靠地“征询/推断”人类偏好并把它转成可用的训练信号。以往做法要么假设偏好标签充足、要么用启发式的偏好查询,导致样本效率低且容易把分布外(OOD)行为学歪。
这篇论文要解决的是:用 Concept Activation Vectors(CAV,概念方向)做可解释性或概念操控时,方向在不同层/不同模型/不同数据子集之间会“发散”,导致概念方向不稳定、可复现性差。以往很多工作默认线性方向可迁移,但实际常出现同名概念在不同设置下指向不同子空间。
这篇论文要解决的是:在双曲空间(hyperbolic)里做视觉-语言表示时,如何学到可组合的蕴含关系(entailment),而不是只学到相似度。以往 VLM 多用余弦相似度对齐,能做检索但对“概念包含/层级”(如 dog ⊂ animal)表达弱。
这篇论文要解决的是:机器人操作的 world model 如何学到“视角不变”(view-invariant)的表示,从而在相机位姿变化时仍能稳定预测与规划。以往很多视觉 world model 在训练视角分布外会崩,导致 sim2real 或多相机部署困难。
这篇论文关注 text-to-image diffusion 模型里一个具体但关键的问题:cross-attention head 的空间位置模式,是否真的对应人类可理解的视觉概念。过去大家常用 cross-attention map 解释文本到图像的对齐,但多数分析停留在定性可视化,缺少对“某个 head 是否稳定表达某类概念”的系统验证。
这篇论文解决的是离散扩散模型采样效率问题,具体是采样 schedule 该怎么跳步才不明显伤害质量。连续扩散里已有很多 step reduction 技术,但离散扩散的状态转移结构不同,直接照搬连续情形的时间步优化往往效果不稳。
现有多目标强化学习方法仅能处理2-4个目标,无法扩展到更多目标的场景,传统降维方法针对静态数据集设计,不适合在线学习且会破坏帕累托最优性。
现有基于条件独立性的特征选择方法FOCI是非参数不可微的,无法融入端到端的神经网络特征学习流程,限制了其在预训练等场景的应用。
这篇论文要解决的是:如何把 3D 场景表示(Gaussian Splatting)与视觉-语言对齐结合起来,让模型能在 3D 视角一致的表示上做语言条件的理解/生成。以往 3D 重建与 VLM 往往分成两套系统:3D 负责几何与渲染,语言只在 2D 视图上对齐,导致跨视角的语义一致性弱。
这篇论文要解决的是:ICL 里示例选择与排序既影响效果又昂贵,但常用的检索+穷举/启发式排序在大规模候选池下不够快也不够稳定。过去很多方法要么只选不排、要么用生成式打分导致推理成本高。
这篇论文要解决的是:Transformer 在图上的路径/环计数这类组合泛化任务上容易失败,尤其当结构需要上下文无关文法(CFG)式的递归约束时。以往要么用显式算法(可泛化但不可微/难融合),要么用纯神经网络(可训练但泛化差)。
这篇论文要解决的是:传统 RNN 在现代硬件上常被认为“算力不友好”,主要瓶颈不是 FLOPs 而是 I/O 与内存访问模式,导致即使理论上更省算也跑不快。过去优化多集中在 Transformer(FlashAttention 等),RNN 的系统级优化相对缺位。
这篇工作要解决的是:在存在潜变量和层级结构时,如何做可微、可学习的因果发现。传统因果发现通常假设观测变量较完整,或者把潜在混杂当噪声处理;一旦真实机制是分层生成的,且关键因子不可观测,图结构学习就会变得不稳定甚至不可辨识,所以需要新的参数化和优化方式。
这篇工作要解决的是:小模型在复杂问题求解上单体能力不足,但单次 CoT 或 self-consistency 又常常受限于同一模型的认知偏差,能否通过“互相推理”让多个较小 LLM 获得超出个体的解题能力。以前常见做法是让一个模型多采样,或用大模型做 teacher;这篇工作关注的是小模型之间的信息交换和协同。
LLM在复杂具身任务中缺乏长期连贯策略和上下文敏感的环境理解能力,现有优化方法依赖结果监督反馈,成本高且效果差。
现有二阶机器遗忘方法依赖Hessian矩阵运算成本极高,且依赖凸性假设,无法应用于高维过参数化模型和非收敛场景。
现有Text-to-SQL的高性能方案依赖闭源LLM的上下文学习,无法应用于开放部署场景。
现有分布式双层优化方法依赖下层强凸假设保证解的唯一性和超梯度的良定义,无法应用于不满足该假设的实际场景。
这篇论文要解决的问题是:CLIP 类图文对齐模型的“空间感知”普遍偏弱,导致定位、计数、相对位置等能力不稳定,而过去常用的改法多从文本侧或对齐损失侧入手,未必直接触达视觉空间表征。作者强调用“视觉中心(visual-centric)”视角去修正 CLIP 的空间能力。
这篇论文要解决的问题是:把 Transformer 迁移到脉冲神经网络(spike-driven / SNN)与低比特量化场景时,如何在极低能耗与硬件友好之间保持可用精度与可训练性。以往 SNN 往往在训练稳定性、梯度近似误差和注意力结构适配上吃亏,量化又会进一步放大优化难度。
这篇论文要解决的问题是:符号音乐(MIDI/事件序列)生成需要同时建模长程结构(段落、主题复现)与局部语法(和弦/节奏约束),但通用文本 LM 的预训练配方未必适配音乐事件的层级结构与评价方式。过去音乐生成常在小数据或特定风格上做,缺少“可泛化的音乐基座”预训练路线。
这篇论文要解决的问题是:在因果推断里,很多反事实查询(counterfactual queries)即使在统计上可识别,也未必在结构上“可实现”(realizable),从而导致推断结果缺乏可操作含义。过去工作更强调 identifiability(能不能从观测分布算出来),但对“是否存在与世界一致的机制能产生该反事实”讨论不足。
这篇工作的核心问题很明确:如何把 Segment Anything 从静态图像扩展到视频,并在保持可提示分割通用性的同时处理时间连续性和在线交互。SAM 在图像上证明了大规模可提示分割的价值,但直接逐帧应用到视频会出现掩码抖动、身份漂移和计算浪费;SAM 2 需要解决的是视频记忆与通用提示能力如何兼容。
这篇工作关注的核心问题是:随机特征近似里的方差过大,常常是方法在理论上好看、在实践中不稳的主要原因,能否通过更好的 coupling 降低方差。随机特征被广泛用于线性注意力和核方法,但大家往往只关心无偏性或期望误差,忽略了方差决定了训练噪声、特征数需求和最终可用性。
现有模型连通性研究仅局限于参数空间的曲线连通,无法扩展到多模型的面连通,线性面连通尝试均失败。
离散扩散模型的误差分析缺乏统一理论框架,现有理论无法和连续扩散的成熟分析体系对齐。
大模型训练受内存限制,现有局部损失训练方法收敛慢甚至不收敛,局部损失梯度与反向传播梯度偏差大。
现有强化学习策略梯度方法被认为对扩散策略微调效率低,缺乏适配扩散策略的RL微调框架。
解决在线中文手写文本行生成中,如何同时兼顾字体风格和排版布局的问题。以往工作多局限于单字生成,忽略了文本行中字与字之间的相对位置和大小关系(即布局)。
解决基于 Transformer 的 Diffusion Policy 在模仿学习中随着模型规模扩大带来的计算成本激增问题。现有架构在多任务学习中难以兼顾参数扩展和推理效率。
解决如何从多个预训练生成模型中选择或组合出最优模型的问题。以往通常只挑选单一得分最高的模型,忽略了模型组合可能带来的多样性和质量提升。
解决大型语言模型(LLM)在提供个性化服务时的隐私泄露问题。同态加密(HE)能保护隐私,但标准 Transformer 架构计算复杂度过高,难以直接应用 HE。
这篇论文要解决的是:如何用自然语言作为“任务空间的坐标系”,在几乎不预设技能划分的情况下,从交互数据里自动发现可复用的低层技能。以往技能发现多靠无监督聚类/互信息目标得到“可分但不可控”的技能,或靠人工任务定义得到“可控但不泛化”的技能,因此语言引导的技能发现值得重新做。
这篇论文要解决的是:在大规模在线强化学习里,推理(actor rollout)常成为吞吐瓶颈,导致训练无法实时跟上环境交互。以往同步推理/训练会在 GPU 利用率与策略新鲜度(policy lag)之间做痛苦权衡。
这篇论文要解决的是:自监督世界模型(world model)往往背负大量“历史包袱”(复杂损失、离散化、规划器耦合),导致训练不稳、复现困难、迁移成本高。作者想要一个更简单的自监督目标,在不依赖重型组件的情况下学到可用的动态表征。
这篇论文要解决的是:生物声学(bioacoustics)场景下,音频事件长尾且标注昂贵,传统小模型或任务专用特征难以迁移。作者希望训练一个音频-语言基础模型,让“用文本描述/查询声音”成为通用接口。
这篇论文要解决的是:复杂系统动力学在“时间 + 条件变量”(环境、控制参数、个体差异)共同变化下很难建模,传统序列模型要么难以做连续时间泛化,要么条件外推不稳。作者用 flow matching 来统一跨时间与条件的生成式动力学建模。
这篇工作要回答的是:基于蒸馏的联邦学习在拜占庭攻击下到底稳不稳。过去很多联邦鲁棒性工作默认服务器聚合梯度或参数,再讨论恶意客户端如何破坏平均;但 distillation-based FL 走的是公共数据或伪标签蒸馏路线,攻击面和防御条件都变了,不能直接套用传统结论。
这篇工作要解决的是:同态加密下的私有推理太慢,尤其深网一上来乘法深度和通信量就失控。CryptoNets 这条路线早就证明了可行性,但代价很高;作者试图用 DCT 频域表示重新组织计算,让私有推理在不解密数据的前提下更可扩展。
这篇工作解决的是一个视觉下游问题:如何从文本化的点解释中做类别无关的姿态估计。传统 pose estimation 往往依赖类别特定的关键点定义或标注模板,这在新类别上泛化差;作者试图让文本描述承担关键点语义,从而摆脱固定类别先验。
这篇工作要解决的是:标准 state-space model 在处理振荡、周期或复特征主导的序列时表达不够自然,往往需要更长状态或更复杂离散化才能拟合。随着 SSM 成为长序列建模的重要替代,如何原生表示 oscillatory dynamics 就成了一个值得单独处理的问题。
这篇工作解决的是一个鲁棒学习安全问题:如何对神经网络,尤其图神经网络,在标签投毒攻击下给出精确认证。过去多数防御方法停留在经验鲁棒性,或只能给很松的上界;但标签投毒会直接污染训练信号,如果没有可认证界限,就很难知道模型到底能承受多少恶意标注。
这篇工作解决的是扩散模型里一个非常实际的问题:classifier-free guidance scale 开高以后,图像虽然更跟 prompt 对齐,但会出现过饱和、颜色失真和结构伪影。这个问题长期被当作‘调参副作用’接受下来,但它其实限制了 guidance 作为通用可控生成手段的上限。
这篇工作要解决的是:classifier-free guidance 依赖训练时同时学 conditional 和 unconditional 分支,但这会增加训练成本并限制对已有模型的后处理控制。作者的结论从题目就很直接——不重新训练,也可以重新思考并实现 CFG 类似的引导效果。
文本到声音生成(text-to-sound)领域,score-based diffusion 模型质量高但推理慢,consistency model 推理快但质量有损。SoundCTM 要在全频段声音生成中统一两者的优势。
离策略(off-policy)上下文 bandit 在大动作空间下面临方差爆炸问题,因为重要性权重在动作空间增大时指数级退化。POTEC 通过策略分解来解决这一问题。
图像水印通常是全局嵌入的,无法在图像的局部区域嵌入不同的消息,也无法在图像被裁剪后仍然提取水印。本文要实现局部化的水印嵌入与提取。
离散扩散模型(discrete diffusion)在组合优化和统计物理问题上的采样效率不足。现有离散扩散采样器难以扩展到大规模问题。
这篇论文解决的是:如何把大规模二次规划(QP)的求解做成可扩展的分布式优化流程,在通信受限与节点异构下仍能收敛。以往要么依赖集中式求解器(内存/通信瓶颈),要么分布式方法对条件数与同步假设过于敏感。
这篇论文解决的是:终身学习(lifelong learning)里如何在不断到来的任务序列中减少灾难性遗忘,同时让表示能“语义对齐”而不是只记住任务 id 或表面统计。以往方法常靠正则化/回放(replay),但语义漂移时容易学到不稳定的特征。
这篇论文关注的是:神经网络表示中的“纠缠(entanglement)”与稀疏性如何用可计算的距离度量(Wasserstein 距离)来刻画,并解释其与训练动态/泛化的关系。以往对纠缠与稀疏的讨论常依赖启发式指标,难以跨模型与层对齐比较。
这篇论文要回答的是:在大规模机器人操作数据上训练策略/表征时,真正决定效果的因素是什么(数据量、数据多样性、标注形式、动作空间、模型结构等),以避免“堆数据但不涨点”的盲目扩展。过去机器人学习常受限于小数据与不可复现实验,导致经验结论不稳。
这篇论文解决的是:连续控制的世界模型(world model)如何在保持连续动力学表达能力的同时,引入离散 codebook 以获得更稳定的预测与规划。以往纯连续 latent 容易出现表示漂移与长时预测崩坏,而纯离散化又可能损失精细控制信息。
这篇论文研究的是:在 subset learning(训练时只激活/分配部分参数或子网络)的设定下,不同的参数分配策略会如何改变网络的表达能力上限。以往很多稀疏化/子网络训练工作更关注速度或泛化,较少把“分配策略→可表达函数类”讲清楚。
这篇工作要解决的是:NeRF 这种高保真三维场景表示,能否被拉进一个可编码、可生成、可逆推理的潜空间,而不是每个场景都单独优化。过去 inverse graphics 常在显式 3D 参数空间做近似,NeRF 则常被当成每场景单独拟合器,二者之间一直缺一个既保真又适合学习分布的接口。
这篇工作关心的是表征学习为什么能泛化,以及能否给出比常见独立高斯假设更贴近实际的数据依赖先验。过去很多泛化理论为了可解,往往用过于粗糙的先验,结果是界虽然成立,但和实际 representation learning 的结构差很远,指导意义有限。
这篇工作要解决的是模型压缩里一个很实际的问题:剪枝通常需要 calibration 数据来重新估计重要性或校准误差,但很多部署场景拿不到合适数据,或者数据一偏就会剪坏。作者想做的是 calibration-free compression,而且不是一层层手工规则,而是用 policy learning 一次性学会如何剪。
解决多模态大模型评估中的测试数据污染问题。由于模型在海量网络数据上预训练,静态基准测试很容易被包含在训练集中,导致评估结果失真。
这篇论文要解决的是:离散空间上的 flow matching/生成流模型需要定义从噪声到数据的“路径”,但常见路径选择缺乏统一原则,导致训练不稳定或样本质量受限。以往很多方法固定用某类离散扩散/跳转过程,路径一旦选错就很难补救,因此作者从 kinetic-optimal(动能最优)角度系统化路径设计。
这篇论文要解决的是:很多“可解释性方法”在表征本身不可分(classifiability 低)时会给出噪声很大的解释,导致解释结果不稳定、难以复现。过去大家常把可解释性当作后处理问题,但作者认为先把表征变得更可分,解释才会更可靠。
这篇论文要解决的是:自驱动实验室(self-driving labs)里的“协议设计”(实验步骤、参数、约束)需要可组合、可复用的表示,但现有表示往往扁平,导致 LLM/agent 难以在层级上规划与校验。过去多靠手工 DSL 或模板系统,扩展性差,因此作者提出层级封装表示来提升协议生成与验证。
这篇工作要解决的是:时间序列基础模型想做大,但长序列、多领域异质性和预测模式差异很大,单一 dense Transformer 很容易在参数效率和泛化上都吃亏。过去时间序列模型通常停留在中小规模,或者做领域内专用模型,没有真正把 foundation-model scaling 和专家分工结合起来。
这篇工作要解决的是:让 LLM 发现科学方程时,直接生成最终公式往往不稳定,也不满足物理约束;传统 symbolic regression 又搜索空间过大、启发式强。作者把问题改写成“让 LLM 通过编程来发现方程”,试图把语言模型的先验与可执行程序搜索结合起来。
这篇工作研究的是非对齐域上的 content-style disentanglement 可辨识性,而且进一步放宽到潜变量维度未知。过去很多内容-风格分解方法在经验上能跑,但理论上通常偷偷假设已知维度、配对数据或额外监督,一旦这些条件去掉,学到的分解未必有唯一性。
这篇工作解决的是 CT 图像理解里长期存在的数据和表示问题:通用 VLM 预训练对医学 CT 的细粒度结构、三维语义和专业文本对齐都不够,而传统医学影像方法又往往规模小、标签粗。作者试图通过大规模且细粒度的 vision-language pretraining 来补齐这个缺口。
解决 LLM 在解决复杂奥数级别数学题时,单次生成长代码容易出错且难以纠正的问题。现有的基于代码生成的推理方法缺乏灵活的中间步骤验证。
解决文本到图像生成中,如何在同一张图片或多张图片中保持多个主体(characters)特征一致性的问题。现有方法通常需要昂贵的微调,且在处理多主体时容易出现特征混淆。
解决如何将多个预训练的 Diffusion 模型组合起来,而无需重新训练一个更大模型的问题。随着开源模型增多,高效复用和组合现有模型成为迫切需求。
多智能体路径规划领域缺乏统一的训练与评估框架,导致经典启发式方法、基于学习的方法、混合方法之间无法实现公平对比,此前的研究分别适配不同范式的方法,评估标准不统一。
这篇工作要解决的是:对比学习把“样本间相似性”简化成同类/异类二元关系,导致难样本、近邻结构和多模态相似性被粗暴处理,从而限制表示学习质量。
这篇工作要解释并修复的是:SoftMoE 在深度强化学习里有效,但常见实现把输入“flatten”后再路由会破坏结构信息,导致 MoE 的路由与专家分工难以形成。
这篇工作要解决的是:语音基础模型推理/训练成本高,但静态剪枝很难兼顾不同语境(说话人、噪声、语速、内容)下的精度与速度。
这篇工作要解决的是:从弱监督/弱模型到强泛化的迁移经常失败,因为训练分布与目标分布差异下,经验风险最小化会学到“捷径特征”而不是可迁移机制。
这篇工作要解决的是:能否直接用扩散模型生成神经网络权重,从而绕开昂贵的逐任务训练或为权重初始化/模型合成提供新路径。
这篇论文解决的是开放词汇零样本分割中的一个现实问题:方法往往做得复杂,但泛化收益未必匹配复杂度。过去这类任务常依赖重型跨模态训练、复杂 query 交互或额外后处理,而作者主张用更简单的框架就能把 open-vocabulary 与 zero-shot segmentation 结合得足够有效。
这篇论文关注的核心问题是:搜索分布该如何学习,才能在复杂优化或决策问题里兼顾探索质量与可优化性。传统做法往往使用固定形式的 proposal、启发式采样或局部更新,导致搜索效率和表达能力都受限;“variational search distributions” 说明作者试图把搜索过程本身写成可学习、可推断的分布建模问题。
这篇论文要解决的是:智能体在真实环境里如何持续自适应,而不是只靠一次性静态训练。很多 agent 工作的问题不在模型结构,而在数据闭环缺失——环境变了、错误模式变了,训练数据却不跟着更新;题目中的 data-centric framework 说明作者把重点放在交互数据的采集、筛选和再利用,而不是再造一个策略网络。
这篇论文研究的是 test-time adaptation(TTA)的一个被低估风险:现实中的测试时数据投毒会显著放大其对抗风险。过去 TTA 常被视为部署期提升分布外鲁棒性的办法,但很多设定默认测试流是‘自然偏移但非恶意’;一旦适应过程本身吃进攻击者构造的数据,模型可能在不改权重保护机制的情况下被持续带偏。
现有Hanabi多智能体强化学习智能体只能适配固定游戏人数、只能和同算法的智能体协作,无法适配陌生协作方或新场景,和人类的灵活协作能力存在明显差距。
深度神经网络对输入无关的通用对抗扰动防御能力弱,现有防御方法要么计算开销高,要么泛化性差,无法满足安全敏感场景的部署要求。
现有可解释语义文本嵌入方法依赖专家手工构造问题或大模型prompt设计,泛化性差,无法覆盖多任务的判别性需求,黑盒嵌入的不可解释性限制了其在高透明度要求场景的使用。
现有多模态生物医学数据分析模型缺乏可解释性和可识别性保证,现有因果表示学习方法要么依赖严格的参数假设,要么只能得到粗粒度的识别结果,无法满足生物医学研究对机制细粒度理解的要求。
这篇工作要解决的是:激活函数的选择长期依赖经验与小规模搜索,导致在不同架构/数据/精度设置下经常不是最优且难以迁移。作者希望用“基于熵的目标”来系统性地搜索更好的激活函数,而不是手工设计 ReLU/GELU/SiLU 的变体。
这篇工作要解决的是:Forward-Forward(FF)训练在更深网络上效果与稳定性不足,导致它很难成为反向传播的可替代训练范式。以往 FF 往往在浅层或特定设置下可行,但深层性能掉得快。
这篇工作要解决的是:普通用户很难在真实数字生态里持续管理隐私偏好与授权,现有工具要么静态、要么需要高认知负担。作者用交互式 LLM agent 来把隐私管理变成可对话、可迭代的决策过程。
这篇工作要解决的是:病理图像-文本对极度稀缺且标注昂贵,限制了病理 VLM/多模态预训练的上限;以往要么用小规模真实配对数据硬训,要么用单一生成管线合成但质量与多样性不足。作者提出用多智能体协作生成 160 万对病理图文数据来补齐规模。
这篇工作要解决的是:多 ControlNet 叠加时容易互相干扰,导致基础生成能力被破坏或控制信号彼此“抢方向”,从而出现质量下降与控制失效。以往常见做法是简单相加或串联多个 ControlNet,但对主干 UNet/DiT 的扰动不可控。
这篇工作要解决的是:个性化表征(personalized representation)通常依赖显式用户数据或监督信号,但现实中更容易获得的是用户的“生成行为”(写作、拍照、编辑、提示词偏好)。作者想从个性化生成模型中反推出稳定的个性化表征,用于检索、推荐或下游个性化任务。
这篇工作要解决的是:长时程视觉指令生成(例如多步操作、长链条描述)容易在中后段偏离目标或自相矛盾,现有方法多靠更长的上下文或简单自检,纠错能力有限。作者引入“逻辑与属性自反思”来提升长序列指令的一致性与可执行性。
这篇工作要解决的是视频生成里一个很实际但一直难处理的问题:既要单帧质量高,又要跨帧运动一致。传统连续扩散视频模型通常在像素或 latent 空间里做去噪,单帧细节和长程运动很难同时兼顾;如果离散扩散能把视频表示和生成过程拆得更清楚,就有机会缓解这个矛盾。
这篇工作要解决的是 offline RL 数据集构造长期依赖人工经验的问题。现有离线强化学习很多时候默认数据集已给定,或者只粗略控制行为策略的混合比例,但真正决定学习难度和可学性的,是数据中行为分布的覆盖、偏置与不确定性;作者试图用 behavioral entropy 把这个过程显式量化并反过来指导数据生成。
这篇工作要解决的是可解释性常常是事后附加、而且不贴近用户理解方式的问题。很多解释方法依赖 saliency 或局部反事实,只能解释单个样本,且解释对象是模型内部统计量而不是用户能理解的概念;作者试图通过 global mixture of experts,让模型在结构上就具备用户中心的全局可解释性。
这篇工作要解决的是自监督去噪在未知噪声强度下往往失效或需要额外估计噪声的问题。经典基于 SURE 的方法在已知噪声分布、尤其是已知方差时很有吸引力,因为它不需要干净标签就能估计风险;但现实里噪声水平往往未知,这使得 SURE 的直接应用受限。
这篇工作要解决的是神经网络分类器用梯度法训练时,现有理论保证仍然偏松、覆盖条件偏窄。实践里深网分类器常常能被简单的梯度法学出来,但理论分析往往依赖过强假设,或者只给出过于保守的样本复杂度与收敛结论;作者目标是给出更 sharp 的学习保证。
这篇工作要解决的是 canonicalization 和 group averaging 这两类处理对称性的常见方法,到底谁在泛化上更有利、代价在哪里。过去很多工作默认把群不变性直接通过平均或数据增强塞进模型,但 canonicalization 先把输入映射到标准坐标系,可能更高效,也可能更脆弱;作者试图用泛化界把二者系统比较清楚。
这篇工作要解决的是神经网络回归里的 full conformal prediction 太贵,导致严格覆盖保证难以在大模型上落地。标准 full conformal 需要对每个候选输出反复重训或近似重算,理论最好但计算最重;实际里大家常退而求其次用 split conformal,但这会损失条件适应性或区间紧度。
这篇工作要解决的是如何用模型主动挑选和增强图像,来提升人类的视觉类别学习效率。传统人类学习材料设计更多依赖教师经验或静态课程,而不是根据学习者最需要区分的视觉边界来挑样本;作者试图让模型参与教学样本选择与增强。
这篇工作要解决的是 offline model-based optimization 在分布外区域容易失真,直接回归目标值往往会把优化推向错误高点。现有 OMO 方法通常先拟合 surrogate,再在 surrogate 上做搜索,但一旦候选点偏离离线数据分布,绝对分数预测会严重不可靠;作者改用 learning to rank,意味着他们更看重相对顺序而不是绝对值。
现有扩散模型引导生成方法要么需要预收集离线数据集训练引导模型,要么要求目标函数可微,无法适配离线数据缺失、目标函数不可微的真实场景,且现有在线方法查询效率低,落地成本高。
现有自回归视觉生成模型受离散tokenizer重建质量差、高分辨率训练成本过高的限制,无法直接生成1024x1024分辨率的图像,生成质量落后于扩散模型。
手语机器学习研究面临严重的数据稀缺瓶颈,现有公开数据集仅覆盖美式手语等少数语种,规模小,无法支撑多语言手语理解、翻译等任务的研究。
这篇工作要解决的是:如何从 motion transformer 里提取“可解释、可操控”的方向向量,让文本或高层语义能稳定地控制生成动作的属性,而不是只能靠提示词试错或不可控的 latent 操作。现有做法常把控制寄托在 prompt 工程或后验编辑上,但很难保证可解释性、可组合性和跨样本一致性。
这篇工作要解决的是:mini-batch 下对二次型(quadratic)目标/近似的估计存在系统性偏差,导致二阶方法或曲率相关训练在深度学习里不稳定或收益不达预期。过去很多实现把 mini-batch 近似当作无偏,但在实际中会引入偏差并放大噪声。
这篇工作要解决的是:当模型输出是多维向量或多目标集合时,如何给出同时覆盖各维度的可靠不确定性区间(conformal prediction),而不是把每一维独立做区间导致覆盖率失真或区间过宽。以往 conformal 多用于标量输出,多维场景常被简化处理。
这篇工作要解决的是:多目标强化学习(MORL)在不同环境之间的泛化问题,即学到的偏好/权衡策略在新环境下是否仍有效。以往 MORL 往往在单环境内找 Pareto 前沿,但对跨环境迁移讨论不足。
这篇工作要解决的是:深度伪造(deepfake)检测在多模态、多语言场景下缺少覆盖全面、可用于训练与评测的高质量数据集,导致模型在真实世界分布上泛化差。过去数据集常单模态或单语言,且伪造类型覆盖不全。
这篇工作要解决的是:如何自动合成“为特定任务/约束量身定制”的神经网络架构,而不是在固定 backbone 上做有限的改动。传统 NAS 往往搜索成本高、与硬件/约束耦合差,且难在新任务上快速给出可用架构。
这篇工作要解决的是:神经网络压缩中“重参数化”常把权重推到不合理的自由度里,导致压缩后难以保持性能或训练不稳定;作者希望用流形约束(manifold constraint)让压缩参数化更贴近原模型的有效权重集合。以往低秩/量化/剪枝多靠启发式约束,缺少几何一致性。
这篇工作解决的是零样本图像编辑的效率问题:如何在不为每个编辑任务重新训练模型的前提下,既保持编辑指令的一致性,又减少多步采样带来的高成本。现有 diffusion 编辑方法通常依赖反演、额外优化或长链采样,零样本可用但推理慢,而且容易在“保留原图内容”和“执行编辑”之间失衡。
这篇工作要解决的是对抗训练的泛化理论为什么长期偏松、偏不贴近实际。现有分析常依赖复杂度界或鲁棒风险分解,但这些界往往随模型规模迅速变差,难以解释现代过参数网络里“训练稳但泛化仍可控”的现象;作者选择从算法稳定性出发重建对抗训练的泛化界。
这篇工作要解决的是:如何让 LLM 结合结构化知识库做更可靠的常识推理,而不是只靠自由生成的链式思维。现有 LLM commonsense reasoning 往往要么完全靠参数记忆,要么把 KB 当检索增强上下文,推理过程缺乏类型约束和可验证性;作者引入 typed hyperresolution,试图把符号推理的约束性和 LLM 的语言泛化结合起来。
现有树切片最优传输(OT)方法仅支持欧式空间度量,无法直接处理球面上支撑的分布的OT计算;球面数据(如3D点云单位法向量、方向特征)广泛存在于计算机视觉、机器人领域,之前的方案要么降维损失拓扑信息,要么用普通球面OT计算复杂度过高。
现有基于线系统的树切片Wasserstein距离(TSW-SL)的核心拆分映射未结合度量空间的距离信息,导致计算得到的距离度量对空间局部结构的刻画能力不足;之前的工作默认用线系统的结构拆分,未考虑底层度量空间的距离先验。
现有无监督表格异常检测方法要么需要大量特征工程,要么无法处理混合类型(数值+文本)的表格数据,处理含文本特征的表格时会丢失文本语义信息,导致检测精度下降。
现有分布式随机优化的时间复杂度分析仅适用于理想的同步或特定异步场景,无法覆盖实际训练中广泛存在的worker断连、网络延迟、计算速度波动等非理想计算动态;之前的复杂度边界要么过松要么不适用真实场景。
现有多模态对比学习(如CLIP)为每个输入生成单个点的隐表示,无法建模真实世界大量实例间的复杂相似性结构,限制了下游任务的泛化性能;之前的工作默认用单点表示,未考虑用分布式表示增强相似性建模能力。
这篇工作要解决的是:OOD 泛化通常依赖最后一层表征做分类,但最后层往往最“贴训练分布”,导致分布偏移时决策边界脆弱,而中间层可能保留更通用的因子。
这篇工作要解决的是:表征解耦(disentanglement)在单任务监督下往往不可辨识且容易学到捷径,而多任务训练可能提供额外约束来把不同生成因子分开。
这篇工作要解决的是:数据集蒸馏(dataset distillation)在存在群体差异/长尾群体时容易只保留“平均有效”的合成样本,导致小群体风险被放大,而常规蒸馏目标很少显式优化最坏群体风险。
这篇工作要解决的是:纵向联邦学习(VFL)里各方持有不同特征子集时,训练或推理阶段出现特征缺失会破坏协同建模,但现有 VFL 往往假设特征齐全或只处理训练期缺失。
这篇工作要解决的是:单网络训练容易陷入表示与梯度的“自证循环”(错误被自身强化),而常见的集成/蒸馏又要么成本高要么发生在训练后期,难以在训练过程中持续纠偏。
这篇工作要解决的是:很多稀疏/鲁棒优化目标同时含 L0(稀疏性)与 L1(鲁棒性)结构,既非光滑也非凸,标准梯度法缺少清晰的收敛与复杂度刻画。
这篇工作要解决的是:离散扩散模型(D3PM 等)训练与采样往往依赖多类分类或复杂的去噪参数化,导致实现与稳定性成本高,而很多离散空间其实可以用更简单的判别信号来驱动生成。
这篇论文要回答的核心问题是:扩散模型的泛化偏置到底是如何被噪声过程本身塑造的。过去很多工作把扩散模型的成功归因于大模型容量、score matching 或去噪训练,但较少把“不同噪声方差如何改变学到的函数类”单独拎出来分析;这个问题现在重要,是因为扩散式建模已经从图像扩展到语言、动作和多模态,训练目标里的噪声设计正在变成一等公民。
这篇论文解决的问题是:如何让模型对图像做带缺省原因补全的自然语言推断,而不只是做图文匹配或显式可见内容判断。传统 VLM 基准更多考察识别、检索或直接问答,默认图像信息是“看见什么答什么”;但真实场景里经常需要 abductive inference,也就是根据图像证据补上最合理但未完全观测到的解释。
这篇论文试图解决的是:能否在不给参数更新的前提下,让模型通过上下文直接做 imitation learning,而且适用于具有图结构的策略问题。传统模仿学习通常依赖离线训练得到策略,ICL 模仿学习虽然灵活,但对结构化状态和动作关系利用不足;如果任务本身是图上的规划或控制,平铺成序列会丢掉关键归纳偏置。
这篇论文要解决的是:如何在 shuffled differential privacy 条件下,从终端用户数据中学习可用的分布信息,而且不必退化到极粗糙的统计量。传统本地差分隐私通常噪声太大,中央差分隐私又要求可信服务器;shuffle model 处在两者之间,但要把它用于核密度这类非参数估计并不简单。
现有视频条件策略学习方法只能学习视频中指定的单个技能,无法通过发现隐式技能并重组来泛化到未见过的视频任务;之前的工作直接从视频中提取全量信息,没有过滤与技能无关的冗余信息。
这篇论文要解决的是:现有 LLM 生成文本检测器容易被“代理攻击(proxy attack)”绕过,即攻击者不直接优化目标检测器,而是利用可获得的代理模型/信号把机器文本改写得更像人。过去很多检测工作默认攻击者能力弱或只做简单改写,因此对现实对抗场景的鲁棒性被高估。
这篇论文要解决的是:对抗训练(adversarial training)中模型会出现“遗忘(forgetting)”,即为了鲁棒性学到的特征在训练过程中被后续更新冲掉,导致鲁棒性提升不稳定或回退。以往很多工作把问题归因于优化难或对抗样本太强,但较少直接刻画训练过程中的遗忘动态并据此设计算法。
这篇工作关注的是:神经 contextual bandit 在训练分布外的域适应能力差,环境一变,探索和利用的平衡就会迅速失效。以往 bandit 方法通常默认上下文分布相对稳定,或只在单域内做 regret 优化;但现实系统常常面临 domain shift,因此作者试图让 bandit 具备域自适应能力。
这篇工作要解决的是:强化学习智能体在未见环境中的泛化能力不足,而单纯依赖像素级或状态级迁移很难抓住真正可组合的因果结构。过去不少方法在 seen environments 上学到的是环境特定策略或捷径,换一个组合关系就崩;作者试图用语言引导的可组合因果组件来建模环境。
现有大模型知识图谱推理方法结合贪心搜索和前向推理,存在检索率低的问题,导致知识问答精度下降;之前的工作只支持前向推理,没有利用知识图谱的双向路径信息。
现有大模型/多模态大模型在网页浏览、游戏等特定任务上的自动化表现较好,但跨不同桌面和移动应用的泛化能力不足,无法实现通用的操作系统级控制;之前的方法没有采用标准化的输入输出控制接口,适配不同应用的成本高。
现有ViT可解释性研究多聚焦输入归因、单神经元角色分析,未建模层间信息流动的全局路径,导致对模型推理逻辑的拆解不完整。
现有视频理解VLM仅做跨帧语义匹配,无底层3D/4D场景物理知识,无法推理物体动态属性(速度、加速度、碰撞)和交互逻辑,物理推理能力弱。
这篇论文聚焦在 KAN(Kolmogorov–Arnold Networks)到底“能表达什么、偏好学到什么频谱”的问题:KAN 近期被当作 MLP 替代方案使用,但其表达能力边界与训练时的谱偏置(更容易拟合低频还是高频)缺少系统刻画,导致工程上很难判断何时该用 KAN、何时会踩坑。
这篇论文解决的是用 LLM 在化学空间做搜索时的效率与有效性问题:纯生成式采样很浪费评估预算,而传统进化/贝叶斯优化又难以利用 LLM 的先验与语言条件能力,导致“会生成但不会高效迭代”。
这篇论文要解决的是模型压缩过度依赖数据与微调的问题:很多压缩/蒸馏/剪枝方法需要原始训练数据或额外校准数据,但在数据不可得、隐私受限或部署端无法回放数据时,这条路走不通。
这篇论文解决的是 generalized category discovery 在域偏移下不稳的问题:模型既要在无标注数据里发现新类,又要保持已知类识别,但一旦训练域与测试域分布变化,聚类与伪标签会迅速漂移。
这篇论文要解释的是“同质深度集成”(homogeneous deep ensembles)为何能带来不确定性与泛化收益:同架构同训练配方的多个模型看似不同,但它们在分布层面可能等价,导致我们对 ensemble 多样性的理解与度量是错的。
这篇论文解决的是端侧控制智能体的分布式 RL 训练难题:设备端数据分散、通信不稳定且算力受限,传统同步分布式 RL 容易被 straggler 拖慢或因延迟导致策略更新不稳定。
这篇工作要解决的是:文档级机器翻译在在线场景中需要边看边译,但普通 sentence-level MT 或一次性长上下文翻译都很难同时兼顾时延、篇章一致性和历史利用。过去很多 doc-level 方法默认离线可见全篇,不适合真实流式使用。
这篇工作要解决的是:零样本文本转语音如何同时获得高自然度、说话人可迁移性和高效生成,而不是在自回归 codec LM 的慢推理与扩散式声码器的复杂链路之间做痛苦取舍。现有 zero-shot TTS 往往要么质量好但延迟高,要么速度快但韵律和相似度不稳。
现有蛋白质生成方法分别建模氨基酸序列和3D结构两个模态,无法捕捉两者的耦合关联,导致联合生成/理解任务性能不足。
现有贝叶斯推理的VI和MCMC方法在后验分布几何结构复杂时难以稳定应用,需要兼顾效率和精度的推理方法。
现有4D新视角合成(NVS)方法训练数据域受限(多为物体中心),不支持任意相机轨迹和时间戳的自由生成,也无公制度量的位姿控制能力。
经典重球动量法仅在特定条件下有加速收敛效果,对一般光滑强凸问题无全局加速收敛保证,存在长期理论缺口。
现有LLM自动评估多用强LLM做评委,成本高、隐私风险高、可复现性差;轻量LLM做评委的性能差距主要来自综合分析能力不足,难以通过普通微调提升。
这篇论文研究的是:LLM 在群体情境下会表现出“从众(conformity)”,即倾向于跟随他人示范的行为而不是遵循自己显式的信念或推理结果。以往对从众的讨论多停留在社会心理类类比,但在 LLM 里它更像是“条件生成时对上下文行为分布的过度拟合”,会影响多代理协作与评测可靠性。
这篇论文要解决的是:自动化科研代理常在“提出想法—写论文—做实验”链条上缺少可靠的自我纠错闭环,导致产出质量不稳定。过去的 agent 工作更多强调生成与工具调用,但“评审(review)”这一强监督信号没有被系统地自动化并用于迭代改进。
这篇工作要解决的是文生图评测不稳定、指标与人类偏好错位、而且结论强依赖 prompt 设置的问题。过去很多工作直接报 FID、CLIPScore 或少量 prompt 集上的胜负,但这些指标常常混杂了图像质量、文本对齐、审美偏好和 prompt 难度,导致模型进步和评测噪声分不开。
这篇工作要解决的是视觉长上下文检索能力缺少合适 benchmark 的问题。文本领域已有 needle-in-a-haystack 测试模型是否能在超长上下文里找关键信息,但视觉模型面对大量图像块、视频帧或多图输入时,现有评测往往混杂理解、定位和推理,难以单独测出‘能不能从海量视觉上下文中找到那根针’。
这篇工作要解决的是 MDP 中 rate-reward trade-off,也就是信息传输/动作编码成本与累计回报之间的权衡。传统强化学习通常默认 agent 可以无成本地观测、通信和执行精确动作,但在带通信约束、压缩控制或具身系统里,这个假设并不成立。
这篇工作要解决的是 imitation learning 里对专家状态分布建模不够灵活的问题。传统行为克隆只学条件动作,容易受 covariate shift 影响;占据匹配或对抗式方法虽然考虑状态分布,但优化常不稳定。作者显然想把扩散建模和 score matching 引入状态分布学习,重新组织 imitation learning 的目标。
同一神经元在不同外周条件下的活动片段特征差异大,缺乏稳定的时间不变表示来刻画神经元的固有属性(分子谱、脑区、形态结构等)。
这篇论文要解决的是:在存在协变量异质性时,如何做“条件化”的假设检验并仍然保证可解释的误差控制;以往很多方法要么只做全局检验(忽略局部差异),要么做局部化后失去严格的有效性保证。
这篇论文要解决的是:如何在生成模型里可靠地产生“反事实样本”(counterfactuals),同时避免把因果结构当作纯相关结构来拟合导致的不可识别或伪反事实;过去常见做法要么依赖强结构假设,要么用启发式编辑缺少一致的推断框架。
这篇论文要解决的是:浅层 ReLU-like 网络的损失景观到底有哪些驻点结构、哪些鞍点可逃逸,以及不同宽度网络之间能否通过“embedding”关系解释优化行为;以往对深网景观的结论常依赖经验或过强简化。
这篇论文要解决的是:模型如何从具体序列中构建可复用、可泛化的抽象表征,并在新序列上复用这些抽象;过去很多工作要么只做表征学习但不验证“可复用的抽象”,要么在符号系统里做抽象但缺少端到端学习。
这篇论文要解决的是:变分推断(VI)与随机梯度 MCMC(SG-MCMC)在函数空间(function space)视角下如何统一或互相逼近,因为在深网贝叶斯化里,参数空间的近似常与函数不确定性不一致,导致校准差或多模态后验被抹平。
这篇论文要回答的是:动态稀疏训练(DST)和稠密训练相比,到底谁在图像 corruption robustness 上更强,而这个问题过去通常只看 clean accuracy 或训练效率,鲁棒性并不是主评估维度。题目里“unexpected winner”已经给出结论:在图像扰动鲁棒性上,赢的不是直觉上更强的稠密训练,而是动态稀疏训练。
这篇论文要解释并修复的是:label smoothing 虽然常能提升分类泛化和校准,但它反而会恶化 selective classification,也就是模型在允许拒答时做不出好的风险-覆盖权衡。这个现象以前常被经验观察到,但为什么会坏、怎么在不放弃 label smoothing 好处的前提下修好,并不清楚。
现有初始化剪枝(PaI)方法为避免剪后子网络难以优化,通常采用逐层迭代调整策略,会引入大规模离散优化问题,大幅提升了PaI的落地复杂度。
现有双层优化方法只能保证收敛到驻点或局部最小值,无法获得全局最优解,而全局最优是高风险工程应用中可靠性、安全性的必要条件,此前因双层优化存在大量虚假局部解的非良性景观难以实现。
现有GPU上的行级Top-K选择算法性能不足,成为大模型训练、信息检索等场景的性能瓶颈,此前的算法未针对GPU并行特性做深度优化。
这篇论文要回答的是:Adam 的坐标自适应(per-parameter learning rate)到底在利用损失地形的什么几何结构,而现有解释多停留在“二阶近似/预条件”层面且难以解释某些经验现象。作者提出从 ℓ∞ 几何视角理解 Adam 的优势。
这篇论文要解决的是:在算力/标注/训练预算受限时,如何选样本才能既省训练步数又不牺牲泛化,而常见做法(随机采样、基于损失/梯度的难例挖掘)要么不稳定、要么偏向噪声。作者提出用“结构熵(structural entropy)”来做样本选择。
这篇论文要解决的是:提示词工程缺乏软件工程式的可维护性与鲁棒性,导致同一“意图”在不同模型/版本上表现漂移,难以作为稳定接口。作者提出 CNL-P,把提示写成受控自然语言(Controlled Natural Language)的“类 API”。
这篇工作要回答的核心问题是:即便在线性网络这种最简单的设定里,特征学习也不是单一机制,而是由几种可区分的动力学共同驱动。过去很多理论工作把线性网络当作“只能学谱偏置、不能真正学特征”的简化对象,因此对深网里的表征形成解释力有限;作者试图把这个缺口补上,说明哪些现象其实在线性模型里就已经出现。
这篇工作要解决的是混合自回归 ASR transducer 的速度与精度难以兼得的问题。传统 RNN-T 或 transducer 在流式场景里稳定,但表达能力和解码效率经常受限;而更强的自回归建模又会带来更高延迟。作者的目标是做一个既快又准的 hybrid-autoregressive 转导器。
这篇工作关注的核心问题是:怎样对 VAE 做可认证训练,使其在给定扰动范围内仍能保持生成或重建性质的可验证鲁棒性。过去认证鲁棒性大多集中在分类器,生成模型要么很难给出严格证书,要么训练代价过高;作者试图找到一个更可训练的认证 VAE 路径。
这篇工作的核心结论很可能是:很多 diffusion posterior sampling(DPS)方法把问题表述成条件 score 估计,但更直接也更合理的视角是显式最大化后验。过去 DPS 常通过启发式把观测一致性项并入反向扩散更新,这在逆问题上能 work,但理论解释和调参都比较混乱;作者试图重写这个框架,让目标函数更清楚。
这篇工作要解决的是位置编码不保距离的问题,尤其在二维网格上,常见位置嵌入很难同时保持局部邻近关系与全局几何一致性。过去 transformer 的位置编码更多服务于序列顺序,而在图像 patch、网格世界、空间记忆等场景中,这会导致模型学到的空间关系扭曲;作者试图学习一种近似保距的 grid-cell 风格位置表示。
这篇工作要解决的是可控图像生成里控制模块太碎、扩展新控制条件成本高的问题。现有做法常为每种控制信号单独训练 adapter、ControlNet 或 LoRA,组合控制时又容易相互干扰;作者希望给出一个更统一且高效的 controllable image generation 框架。
现有双强化学习(Dual-RL)方法无法正确估计最优访问分布比,导致离线RL效果受限;此前基于判别器加权的行为克隆方法需要额外专家数据集才能取得好效果,限制了落地场景。
现有无训练的LLM生成文本检测方法依赖全局文本序列统计特征,忽略局部判别特征,导致检测效果受限;而有训练的检测器泛化性差,跨域跨模型场景下效果下降明显。
现有第一人称视频语言模型(EgoVLM)在现有测试集上表现良好,但很容易被交互描述中的动词、名词修改误导,无法区分真实的交互差异,说明现有模型没有真正理解手-物体交互,此前的测试集未覆盖这类细粒度对抗样本。
这篇工作要解决的是:在人类交互不完美(延迟、噪声、误操作、间歇性接管)的共享自治场景下,如何做稳定的策略优化。过去很多 RL/IL 方法要么假设人类反馈高质量、要么把人当成固定策略,导致在真实人机协作里容易学到脆弱或过拟合的行为。
这篇工作要解决的是:异构联邦学习(各客户端特征空间/标签空间不同)里,传统表示学习很难对齐,而仅靠共享参数往往学不到可迁移的公共语义。过去很多方法用对比学习或蒸馏做对齐,但在异构数据下容易出现“对齐到噪声”或只对齐浅层统计。
这篇工作要解决的是:文本到 3D 生成里,扩散/流模型的蒸馏常出现多视角不一致与几何细节丢失,而直接用标准 distillation 目标很难同时保真与一致。过去很多方法要么追求速度牺牲一致性,要么用昂贵的多视角监督维持一致但推理慢。
这篇工作要解决的是:AI 生成图像检测的很多“高分”可能来自评测漏洞或数据偏差,而不是模型真正学会了生成痕迹。过去检测器常在特定生成器/数据分布上训练与测试,导致一换生成器、一换后处理就大幅掉点,但论文里往往缺少足够的 sanity check。
这篇工作解决的是 bilevel optimization 对超参数和手工调节过于敏感的问题。很多双层优化算法理论上成立,但实践里需要精细选择 inner/outer stepsize、迭代比、截断长度,稍有不合适就慢、震荡甚至发散,这让它们很难作为通用训练子程序稳定落地。
这篇工作解决的是如何把 text-to-image rectified flow 学到的生成分布,当作通用先验插入其他逆问题或条件生成任务,而不是每个任务都重新训练一个大模型。过去 diffusion / flow 模型常被当作端到端生成器使用,虽然效果强,但迁移到去噪、修复、编辑或约束采样时往往需要 task-specific finetuning,代价高且不灵活。
这篇工作解决的是 LLM 做 TableQA 时推理链条不稳定、分解粒度随 prompt 飘的问题。直接让模型从表格到答案,经常把检索、归一化、比较和验证混在一起,导致错误很难定位;作者提出用 triples 作为中间结构,目的就是让表格理解和后续验证都更规整。
这篇工作解决的是视频深度估计数据难以规模化获取的问题,尤其是高质量、时序一致、覆盖丰富场景的标注极贵。作者的判断很明确:与其受限于少量真实标注,不如把合成数据规模做大并控制分布质量,从而训练一个更通用的 video depth 模型。
文本到视频生成需要同时建模时间一致性和视觉质量,现有方法在长视频生成、运动连贯性和语义对齐上仍有明显不足。CogVideoX 旨在构建一个高质量的文本到视频 diffusion 模型,核心挑战是如何在 3D 时空维度上高效地进行 diffusion 建模。
模型合并(model merging)是一种将多个微调模型的参数平均或组合以获得多任务能力的轻量方法,但如果其中某个模型被植入后门,合并后的模型也会继承后门行为。已有的模型合并方法没有考虑这种安全风险。
离线强化学习需要从固定数据集中学习策略,但数据集中的轨迹质量参差不齐且覆盖不完整。已有方法在数据稀疏区域的泛化能力有限。RTDiff 提出用 diffusion 模型合成反向轨迹来增强离线 RL 的数据覆盖。
这篇论文要解决的是:离线强化学习(Offline RL)里“数据越多越好”的直觉经常失效,能否通过主动减少数据来提升学习效果与稳定性。以往常用做法是全量数据训练再靠正则/保守目标兜底,但当数据分布混杂、含大量低质量轨迹时,全量训练会把策略拉向坏区域。
这篇论文要解决的是:扩散模型做压缩/生成时,如何在不同码率下实现“渐进式”(progressive)重建,同时避免每个码率都训练一套模型的高成本。以往要么用单一码率的 VQ/自回归码本,要么为多码率训练多模型,难以兼顾灵活性与训练成本。
这篇论文要解决的是:在需要隐私保护的机制设计(mechanism design)里,如何在差分隐私约束下做有效的分位数(quantile)估计,从而支持定价/分配等机制。以往隐私机制常用均值/直方图等统计量,但分位数对鲁棒性与机制目标更关键,却更难在隐私噪声下稳定估计。
这篇论文要解决的是:模仿学习在多策略/多模态行为数据上容易学成“平均策略”,导致多样性丢失,能否恢复(recover)出多样化策略集合。以往常用 mixture policy 或 latent variable,但训练信号往往偏向高频模式,稀有但有效的行为被淹没。
这篇论文要解决的是:神经定理证明(Neural Theorem Proving)里 tactic 选择偏置与搜索偏置会互相放大,导致树搜索很快陷入局部模式,证明成功率受限。过去常用更强的策略网络或更深的搜索,但如果校准(calibration)差或搜索有系统性偏置,算力堆叠收益会递减。
这篇论文要解决的是:LLM 集成(ensembling)时,为什么简单平均/投票经常不如预期,以及 top-k 采样集合的“并集”(top-k union)是否是必要条件。以往集成常被当作工程技巧,但在生成式模型里,不同模型的概率质量可能落在不同 token 集合上,导致集成后反而稀释正确候选。
这篇论文的核心结论很直接:多智能体学习系统即使只有一个被污染的代理,也可能整体失效。过去很多鲁棒多智能体学习工作默认攻击面是大范围的,或者把问题放在全局 Byzantine setting 下讨论;作者强调的是更现实也更棘手的情形——只控制一个 agent,是否就足以破坏协作学习、共识或收敛。
这篇工作要解决的是:语音增强通常被当作低层信号回归问题做,但这种做法难以同时保留语义、说话人特征和自然度,尤其在强噪声下容易过平滑或失真。作者把问题重新表述为生成建模:如果用语言模型式的离散 token 生成干净语音,而不是直接在波形或频谱上做逐点映射,是否能更好地利用层级结构恢复语音内容与细节。
这篇论文要解决的是双层优化里最棘手的一类情形:下层问题约束复杂、解不唯一或难以精确满足时,上层优化常常失效。传统 bilevel 方法通常依赖下层强凸、可微和精确最优解等假设,这在超参数优化、元学习甚至某些对齐目标里都过于理想化;作者希望通过 regularized gap function 绕开这些下层约束带来的不可解性。
这篇工作要解决的是 Gaussian Splatting 在反射场景下表现差的问题。标准 3D Gaussian Splatting 对漫反射场景非常高效,但它把外观建模得相对局部和平滑,遇到镜面反射、视角相关高光和环境映射时就容易糊、漂或几何错误;作者试图让 splatting 显式覆盖 reflective appearance。
联邦指令微调(FedIT)场景下,LLM 面临的安全攻击与防御问题尚未被系统研究——恶意客户端可以通过注入有害数据污染全局模型,而现有联邦学习防御方法未针对 LLM 指令微调做适配。
数据不可学习性(unlearnability)方法旨在通过对训练数据添加扰动使模型无法从中学习,但现有方法在实际场景中的有效性边界尚不清楚——它们是否真的能阻止强大的学习算法?
AI 生成内容(图像、视频、文本等)的检测缺乏统一的综合 benchmark,现有评估分散在单一模态且数据集老旧,无法反映最新生成模型的能力。
这篇论文要解决的是:蛋白质基础模型(Protein Foundation Models, PFMs)的评测长期被“任务碎片化 + 指标不一致 + 数据泄漏风险”掩盖,导致大家很难判断模型到底在学结构/功能规律还是在吃数据红利。过去常见做法是各自挑一两个下游任务报分数,但跨任务不可比、训练集与评测集边界不清、以及对“泛化到新家族/新折叠”的考察不足,使得结论经常失真。
这篇论文要解决的是:扩散模型对齐(alignment)通常依赖再训练或微调,但很多场景只允许黑盒采样或不想改权重,导致“想要更安全/更符合偏好”的需求落不到工程上。以往训练式对齐的代价是算力、数据与稳定性风险,而纯提示/后处理又常常控制力不足。
这篇论文要解决的是:正弦神经场(Sinusoidal Neural Fields,如 SIREN)训练往往对初始化与尺度极其敏感,导致收敛慢、易发散或需要大量手工调参。过去的次优解是靠经验初始化或小学习率硬磨,但这会显著拉高训练成本。
这篇论文要解决的是:把在仿真中学到的策略快速、安全地迁移到真实世界,避免纯真实数据微调的高成本与高风险。过去常见做法是 domain randomization 或直接 sim2real 微调,但当仿真与现实差距较大时,策略会在关键边界条件上失效。
这篇论文要解决的是:SVRG 这类方差缩减(variance reduction)优化方法在深度学习里常常“理论好看但实践不稳”,一个关键原因是更新中某些系数/权重设置不当会破坏有效步长与噪声控制。过去很多实现要么照搬凸优化设定,要么在深网里退化成不如 Adam/SGD 的复杂方案。
这篇工作要解决的是:现有基于 Gaussian Splatting 的材质建模通常把透明/半透明现象处理得过于粗糙,导致几何、外观和遮挡关系一起出错。过去很多方法默认场景近似不透明,或者把透明度当成附属渲染参数而不是核心物理量,所以在玻璃、塑料、液体等材料上容易出现漂浮感、错误遮挡和视角不一致;现在值得重做,是因为 Gaussian Splatting 已成为高效 3D 重建主流,但其对材质尤其是 opacity 的建模短板已经成为实际部署瓶颈。
这篇工作要解决的是:3D 感知模型严重依赖昂贵的 3D 标注或多传感器监督,而现有自训练通常只用自己的伪标签,信息来源太单一。题目里的 from others' predictions 说明作者想利用其他模型的预测作为监督信号,绕开高质量 3D annotation 稀缺的问题;这件事现在重要,是因为大规模自动驾驶和机器人感知已经积累了大量未标注数据,但高维 3D supervision 的采集成本仍然居高不下。
这篇工作要解决的是:offline RL 在分布外动作上容易过度乐观,但现有保守方法大多只对 value 或 policy 做平均意义下的约束,缺少对模型风险的显式控制。题目里的 model risk-sensitive 表明作者不是只追求期望回报,而是要让策略在模型误差或不确定性下更稳健;这个问题一直存在,只是随着 world model 和 model-based offline RL 再次活跃,风险建模变得更实际。
这篇工作要解决的是:动态场景中的 Gaussian Splatting 往往用离散帧或简单运动参数描述高斯位置,时序上不平滑,导致轨迹抖动、重建闪烁和中间时刻插值差。过去方法为了训练方便,经常把时间当作独立条件输入,而不是显式约束运动轨迹;当动态重建从“能动起来”转向“运动要可信”,这种问题就需要单独处理。
这篇工作要解决的是:在没有专门 3D 训练或测试时优化的情况下,能否直接把视频 diffusion model 当成 zero-shot 新视角合成器。传统 NVS 通常依赖多视图几何、相机监督或场景级拟合,泛化性和使用门槛都有限;而大视频生成模型已经学到大量时空一致性,作者想验证这些能力能否迁移到视角维度。
这篇工作要解决的是:图像压缩和分辨率变化不仅会降低视觉质量,还可能被主动利用为攻击面来欺骗模型。过去对抗样本研究多聚焦像素级扰动,而现实系统里图片常经过 resize、压缩、平台转码;作者指出这些看似常规的预处理本身可以成为攻击载体,这让攻击更贴近真实部署链路。
神经科学中需要从神经群体活动中发现低维流形结构,且这些流形在不同时间段可能切换(如不同行为阶段对应不同的神经动力学)。现有方法要么假设单一流形,要么需要预先指定切换点。
同声传译(Simultaneous Machine Translation)需要在延迟和翻译质量之间做权衡,现有方法主要优化 BLEU 等自动指标,未充分对齐人类对同传质量的偏好(如流畅度、信息完整性在不同延迟下的优先级不同)。SimulPL 用偏好学习来对齐人类偏好。
LLM 自动评估(LLM-as-judge)中,不同评估维度(如流畅度、准确性、相关性)之间存在冲突,单一优化目标难以兼顾。UniCBE 提出一个统一的多目标优化框架,同时优化评估的均匀性(uniformity)和多维度一致性。
这篇论文要解决的是:在后门攻击场景下,如何从训练数据里更可靠地定位被投毒的样本,而不是只在模型输出层面做触发器检测。以往很多检测依赖启发式的表示聚类或输出异常,但在大模型/复杂数据上容易被自适应攻击绕过,因此需要更贴近“训练动力学”的信号。
这篇论文要解决的是:具身智能体需要在交互中做多模态检索(找相关图像/物体/历史观测/文本知识),但传统检索器训练依赖静态标注对,难以覆盖真实交互分布。以往做法通常是“固定检索器 + LLM 规划”,导致检索误差被上层策略放大且难以在线纠正。
这篇论文要解决的是:检索系统里 embedding 模型的微调往往需要更新大量参数或训练额外适配器,成本高且容易破坏原有语义结构。以往常见做法是全量对比学习微调或加 LoRA,但在数据少、迭代快的检索场景里并不经济。
这篇论文要解决的是:密度比估计(density ratio estimation)在许多训练目标里是核心子问题,但传统方法往往需要显式建模密度或用不稳定的回归式目标。过去常见替代是用分类器做两分布判别再转成密度比,但损失函数选择会显著影响数值稳定性与偏差。
这篇工作要解决的是:如何把类别层次结构真正编码进表示学习里,而不是训练完再拿 taxonomy 做后处理。很多分类或表征方法把类别当平面标签处理,这会浪费“狗-动物-生物”这类树状先验,尤其在细粒度、长尾或零样本迁移场景下代价更明显。
这篇工作要解决的是:在分治式 SAT 求解器中,如何学习更好的 splitting heuristic,从而减少搜索树规模和求解时间。传统 SAT heuristic 很强,但往往是人工设计、局部规则驱动,对特定实例分布的适应性有限,所以作者尝试用强化学习直接优化分裂决策。
这篇工作要解决的是:推荐系统里的用户偏好往往被离散 ID 或自然语言粗略描述,而缺少可计算、可组合、可跨模态对齐的“定量语言”。传统生成式推荐能生成解释或物品序列,但对偏好强弱、属性权重和多模态证据的精细表达不足。
这篇工作关注的是 3D Gaussian Splatting 的压缩效率,目标是在更低码率下尽量保住重建质量。现有 3DGS 压缩方法常在表示紧凑性和渲染失真之间做粗粒度折中,对场景局部复杂度变化的适应性不够。
这篇工作要解决的是:文生图模型在组合性生成上仍然脆弱,尤其容易在多对象关系、属性绑定和空间布局上出错。过去常见做法是靠更大数据或人工偏好微调补救,但模型往往学到的是整体审美,而不是“哪里组合错了、该如何修”。
这篇工作要解决的是:能否只借助 ImageNet-1K 这样的有限监督接口,有效访问或适配大型视觉基础模型的能力。过去大量工作默认要么全量预训练权重可得,要么需要更大规模数据继续训练,但现实里很多 foundation model 只提供受限访问或黑盒接口。
这篇工作要解决的是:多任务强化学习里,不同任务之间既需要共享行为,又需要在关键时刻切换策略,单一共享 policy 往往会互相干扰。过去常见的做法是硬共享 backbone 或 MoE 式专家混合,但什么时候共享、什么时候分开,通常缺少显式机制。
现有LLM敏感信息检测方法仅关注结构化敏感信息(如个人身份信息),忽略了语义层面的敏感信息(SemSI),这类信息可通过简单自然问题诱导LLM输出,且难以被传统方法检测,此前缺乏相关的基准数据集和系统性研究。
现有等变扩散模型需要内置等变的神经网络组件,依赖复杂的参数化或高阶几何特征,难以使用高可扩展的现代架构,限制了分子生成等场景的效果和 scaling 潜力。
现有离散状态分数扩散模型缺乏严谨的收敛理论保证,此前连续状态扩散的收敛分析已经比较充分,但离散场景的相关研究一直缺失,无法为算法设计提供理论指导。
这篇论文要解决的是:条件图像生成在用奖励模型做对齐/控制时,奖励不确定性会导致训练信号不稳,从而出现模式崩塌或对提示不鲁棒。以往做法常把奖励当作确定标量优化,忽略了奖励模型在分布外条件下会“自信地错”。
这篇论文要解决的是:扩散模型的迭代去噪过程能否用进化算法(evolutionary algorithms)的视角统一解释,从而更好理解其搜索动力学与收敛行为。扩散通常被当作概率建模/随机微分方程来讲,但这套语言对“为什么某些采样策略像在做启发式搜索”解释不够直接。
这篇工作要解决的是:如何把 conformal prediction 的有限样本覆盖保证,扩展到结构化输出而不是单标签分类。传统 conformal 在分类和回归里相对成熟,但一到序列、集合、图或组合对象,输出空间太大、依赖太强,直接做往往要么集合过大失去实用性,要么保证条件不成立。
这篇工作关注 diffusion 图像编辑里一个很具体但长期缺少规范的问题:drag editing 常常能动起来,但难以稳定地“动对”。过去很多方法展示个例很亮眼,却依赖脆弱的点跟踪、隐变量优化和 prompt 配合,导致可复现性差、编辑路径不稳、几何一致性和外观保持难兼得。
这篇工作讨论 diffusion model 里的 exposure bias,只是把问题重新放回到扩散生成而不是自回归生成语境中。虽然 diffusion 训练时也有噪声扰动后的条件输入,看起来不像 teacher forcing 那么直接,但训练分布与采样轨迹仍可能不一致,导致多步生成时误差累积、后期步骤难以自我纠偏。
这篇工作要解决的是网络安全场景下 LLM 能力评测长期缺少统一、可复现、可控风险边界的问题。现有评测常常要么停留在静态题库,测不出真实攻防流程;要么是开放式 red teaming,结果难复现、难比较,也难区分能力测试和风险放大。
现有大视觉语言模型(LVLM)感知能力基准存在数据泄露风险,且仅覆盖真实风格干净图像,未测试多风格、带噪场景下的感知鲁棒性,无法准确反映模型的真实泛化能力。此前的基准都从现有数据集选图像,天然存在训练集泄露的可能。
现有多目标优化(MOO)算法的收敛分析都基于标准L-光滑或梯度有界假设,这类假设在LSTM、Transformer等神经网络实际训练中并不成立,无法为多任务预训练等场景下的优化算法设计提供理论支撑。
这篇论文要解决的是:如何在“有限对称群”(finite symmetric groups,例如置换群)这种离散且强结构化的状态空间上,定义并学习可用的离散扩散模型。以往离散 diffusion 多在简单离散空间(如类别/序列 token)上做,遇到群结构时常用启发式噪声或破坏对称性的参数化,导致采样与学习不稳定或泛化差。
这篇论文要解决的是:在没有场景级监督(scene supervision)的情况下,让具身智能体完成 3D 物体分割,并且用生成式方式提升泛化与可用性。以往 3D 分割通常依赖标注或强先验,迁移到新场景/新物体时成本高。
这篇论文要解决的是:Kolmogorov-Arnold Networks(KAN)这类新架构的泛化能力如何被理论刻画,以及其模型复杂度与误差界之间的关系。过去 KAN 更多以经验效果讨论,缺少与主流网络可比的复杂度度量与可解释的泛化界。
这篇论文要解决的是:在大规模非凸模型(深度网络)下,分布鲁棒优化(DRO)在实践中为何难、该如何正确做与评估。过去很多 DRO 结论来自小规模或凸设定,直接搬到深网训练会遇到不稳定、过度保守或计算不可承受的问题。
这篇工作想解决的是零样本语音模仿里的可控性问题:现有 zero-shot voice imitation 往往能像,但难以稳定分离说话人身份、内容、韵律和风格,导致控制一项属性时会牵动其他属性。过去很多 TTS/voice cloning 系统依赖配对数据或显式标签来做 disentanglement,但这在开放语音场景下成本高、泛化也有限。
这篇工作想解决的是 embodied navigation 中 VLM 的一个典型短板:模型看得到当前视角,也能理解语言指令,但缺少对未观测空间和未来路径的显式想象,因此 zero-shot 导航容易走一步看一步。过去很多方法依赖专门训练的导航策略或地图模块,而直接 prompting 通用 VLM 往往缺乏场景推演能力。
这篇工作要解决的是机器人操作里多模态指令接口不完整的问题:现有 vision-language-action 模型通常处理文本指令,但真实人机交互经常是语音指令,而且用户还会带有个性化偏好。过去要么把语音先转文本再单独做 VLA,要么只学固定任务策略,导致端到端定制化能力不足。
现有扩散Transformer(DiT)的静态推理范式存在大量冗余计算,不同扩散时间步、不同空间区域的计算量统一,导致推理速度慢、算力浪费,无法适配高分辨率图像生成的落地需求。
现有扩散视频生成模型仅支持短时长视频生成,无法建模复杂叙事逻辑、保持长序列内的角色一致性,无法满足电影等长视频内容生产的需求。此前的方法大多直接用扩散建模单段视频,没有分离全局叙事和局部渲染的建模目标。
现有LLM IP侵权检测缺乏低成本方案,使用LLM输出训练其他模型的侵权行为难以被追溯,此前的水印技术仅用于检测AI生成文本,未被验证是否可用于检测模型训练阶段的IP侵权。
现有LLM上下文学习(ICL)规划任务的示例选择大多基于问题相似度,容易选出问题相似但动作序列完全不同的示例,误导模型输出错误的规划结果,导致规划性能不稳定。
这篇工作要解决的是:在“只想要分布内(in-distribution)但又要多样”的生成任务里,如何系统性地学习“提示词(prompt)的分布”而不是手工写几个 prompt。以往做法要么固定少量 prompt 导致多样性不足,要么用随机/启发式改写导致跑出分布外、质量和可控性变差。
这篇工作要解决的是:在“逆约束推断(inverse constraint inference)”里,如何在探索过程中提出候选约束并用生成式验证器可靠地判别其可行性,而不是依赖脆弱的手工规则或只在狭窄假设下做推断。过去常见问题是:探索不足会学不到真实约束,探索过度又会被噪声/伪约束带偏。
这篇工作要解决的是:在示范数据很少的模仿学习里,如何通过更有效的探索拿到“超过专家”的策略,而不是被少量演示锁死在专家附近。传统行为克隆在小数据下容易过拟合且无法纠错,纯 RL 又样本效率差。
这篇工作要解决的是:在 SO(3) 旋转群空间上如何做更合适的傅里叶分析与等变(equivariant)网络设计,从而在 3D 旋转相关任务里避免用欧氏近似带来的表示误差。过去很多方法把旋转当作普通向量处理,导致等变性只能靠数据增强近似。
这篇工作要解决的是:扩散模型在权重量化到二值(1-bit)时如何保持生成质量,而不是像常规二值化那样出现严重的误差累积与采样崩坏。以往对 diffusion 的压缩多停留在 8/4-bit,二值化往往被认为不可用。
这篇工作要解决的是:能否用同一个 diffusion 框架同时做生成与密集感知(如分割/深度/光流等),避免“生成模型一套、感知模型一套”导致表示割裂与训练成本翻倍。过去 diffusion 多被当生成器,密集预测仍主要靠判别式网络。
这篇工作要解决的是:一致性蒸馏(consistency distillation)里“预条件(preconditioning)”到底在优化什么、为什么能稳定训练并提升采样质量,而不是把它当成经验技巧照抄。过去很多一致性/蒸馏方法对预条件的解释不清,导致复现与迁移时容易踩坑。
这篇工作要解决的是:如何用“扩散桥(diffusion bridge)”来定义隐式生成模型(implicit models),在给定起点分布与终点分布时学习一条可控的随机传输过程,而不是只做无条件扩散或依赖显式似然。以往桥接/传输类方法要么推断难、要么训练目标不稳定。
这篇论文要解决的是:如何把 medical LLM 低成本扩展到 50 种语言,而不是只在英语上强、其他语言靠翻译兜底。过去多语言医疗模型常见做法要么直接全参数多语混训,成本高且高资源语言挤压低资源语言;要么先翻译再问答,流程长且医学术语、文化表达和临床写作风格在翻译里容易失真。
这篇论文要解决的是:dataset distillation 不能只靠 feature similarity 选合成样本,否则压缩后的数据常常“看起来像”,但对训练并不真正高效。过去很多蒸馏方法通过匹配特征均值、梯度或类别原型来压缩数据,但这些目标不一定保留了对分类决策最关键的类内/类间信息。
这篇论文要解决的是:如何把一个已经预训练好的 diffusion model 更简单地迁移到新 domain,而不是重新大规模微调。过去 domain adaptation 往往要么做全模型 finetune,成本高且容易遗忘;要么依赖复杂适配模块,虽然省参数,但工程路径不一定简单。
这篇论文要解决的是:如何在标注彼此不对齐的条件下做 dense video object captioning。这个任务同时需要对象级定位和时间段级描述,但现实中常常只有检测标注或只有 caption 标注,二者很少完整对齐;过去通常靠昂贵的联合标注,或者退而求其次只做视频级 caption/对象检测,导致任务定义被弱化。
现有图神经网络(GNN)长距离依赖学习能力的评测缺乏统一基准,不同方法的评测任务不一致,无法公平对比各方案的长距离依赖建模能力。此前的评测任务大多是短距离依赖场景,无法有效反映GNN的长距离建模缺陷。
这篇工作要解决的是:如何针对任意医学知识库,自动构造既可靠又有表述多样性的评测样本,用来测量 LLM 是否真的掌握了医学知识点。现有医学 benchmark 如 MedQA 覆盖面有限,且很多自动生成评测要么依赖模板导致语言单一,要么依赖 LLM 改写引入事实错误,因此很难把“知识掌握”与“题目表面形式适应”区分开。
这篇工作要解释的是:SAM 为什么能比 SGD 更稳定地找到平坦极小值,以及这种优势究竟在训练的哪个阶段发生。过去大家知道 SAM 常常泛化更好,但机制解释比较分散,训练时到底要不要全程用 SAM 也缺少清晰答案。
这篇论文要解决的是:检索模型(尤其用于 RAG 的 retriever)只按“内容相关性”评估会系统性高估其对“按指令找证据/找格式/找约束”的能力,从而让下游生成在真实指令场景里失效。过去大家通常用 query-document relevance 或 QA 命中率间接衡量,但这些指标很难区分“找到了相关主题”与“找到了满足指令的证据”。
这篇论文要解决的是:蒸馏通常只能逼近老师,学生很难在一次训练里“反超”,而多轮自蒸馏/迭代又成本高且不稳定。作者把问题表述为“能否用一次性训练信号,让学生在分布外或高难样本上超过老师”。
这篇论文要解决的是:LLM 幻觉既难检测也难缓解,现有做法要么依赖外部检索/工具,要么用事后判别器,导致成本高、覆盖不全且容易被分布变化击穿。作者试图把“检测+缓解”做成一套可落地的闭环方法。
这篇论文要解决的是:梯度下降在两层网络里如何在多个特征之间“自动分配学习力度”,以及这种动态如何解释特征竞争、捷径学习与泛化差异。以往很多结论来自静态最优解或线性化近似,难以解释训练过程中的阶段性行为。
这篇论文要解决的是:多模态图文表示的可解释性研究常借用信息瓶颈(Information Bottleneck, IB)理论,但 IB 在多模态场景里往往过宽泛,导致结论不可检验或与实际表征行为对不上。作者试图“收窄”IB 的适用定义,使其能对图文表征的可解释性给出更具体的约束与预测。
这篇论文要解决的是:去中心化/联邦式训练中,单个数据点或单个节点的影响会通过通信与聚合产生“级联效应”,但现有 influence 分析多在中心化设定下成立,难以解释分布异质与异步更新下的误差传播。作者要刻画并量化这种 Data Influence Cascade。
这篇论文要解决的是文本生成图像中“语义变化”该如何被正确评估,尤其是模型输出变化到底来自语义控制本身,还是来自提示词、随机性或评估器偏差。以往这类评测常依赖相似度分数或主观打分,但这些方法很难区分因果相关和表面相关,因此容易高估模型对语义操控的真实能力。
这篇论文关注策略优化中的分布族选择问题,核心是标准指数族更新在强化学习里往往过于刚性,对重尾回报、异常优势值或保守探索都不够友好。过去很多工作通过 clipping、KL 正则或启发式温度调节来补救,但这些改法通常是局部修补,没有从策略分布的函数形式上重构优化目标。
这篇论文研究离线强化学习里一个常被忽视的问题:行为策略通常是“胖”的,即在数据中覆盖很多动作,但部署时真正需要的策略往往可以更“瘦”、更稀疏。传统 offline RL 多半学习一个密集策略再靠后处理压缩,或者直接沿用行为分布支持约束,这会限制策略简化和决策可解释性。
这篇论文关注 embodied representation 中一个核心短板:现有表征往往能识别物体和局部视觉线索,但对 3D 空间关系、可达性和场景结构理解不足。过去很多方法依赖 2D 视觉 backbone 或短期行为监督,导致在导航、操作和泛化场景下,表征对真实空间约束不够敏感。
这篇工作要解决的是:如何在不明显损伤生成质量的前提下,加速 diffusion transformer。已有 feature caching 会复用前一时间步的特征来省算力,但通常把所有 token 一视同仁,忽略了不同 token 对缓存误差的敏感度差异,这会把局部近似误差放大成整体画质下降。
这篇工作要解决的是:多概念图像生成里,多个 LoRA 一起组合时为什么质量会明显下降,以及怎样降低这种冲突。现有做法通常把多个 LoRA 直接叠加到同一个扩散模型上,但随着 LoRA 数量增加,概念之间会互相干扰,导致主体、风格或细节无法同时稳定呈现。