Conference on Neural Information Processing Systems
这篇工作要解决的核心问题是:语言模型训练集到底该怎么系统地做数据筛选、去重和混合,才能在可控实验框架下找到“下一代训练集”的更优配方。过去数据工作常见两种问题:一是语料、训练 recipe、评测集都不统一,导致方法很难公平比较;二是许多经验结论只在单一模型规模或私有数据上成立,外部很难复现。
这篇论文要解决的是:通用 Web 语料在规模上足够但噪声、重复与低质内容严重,导致预训练算力被“无效 token”吞噬,而现有清洗流程往往不可复现或只在小规模上验证。
闭源大模型的训练数据集制作流程不透明、高质量公开预训练数据稀缺,此前开源模型普遍使用无完整公开元数据的自制数据集,阻碍了可复现的开源LLM研发。
这篇论文的核心问题是:为什么 next-token prediction 这种看起来很局部的训练目标,能学出远超局部匹配的泛化与结构能力。过去对此的解释多半来自经验成功、信息论直觉或 scaling law 观察,但缺少一种能把自然数据结构和训练目标联系起来的更具体图景;作者尝试用分形模式来解释。
此前大模型性能提升的来源被普遍归因于硬件算力和模型规模scaling,训练算法的迭代速率及其对性能的贡献占比未被量化评估,缺少跨10年以上的统一基准统计。
Transformer的自注意力二次复杂度和弱长度外推性限制了长序列建模,现有次复杂度方案(线性注意力、SSM)在预训练效率和下游任务精度上普遍弱于同规模Transformer,无法直接替代。
这篇工作要解决的是:语言模型 compute-optimal scaling 在不同论文里给出了彼此不一致的结论,尤其是模型参数量与训练 token 数的最优配比经常冲突。这个问题之所以值得重新做,是因为这些分歧已经不只是学术细节,而是在直接影响训练预算分配、数据建设和是否采用小模型多 token 还是大模型少 token 的策略。
现有扩散语言模型和自回归(AR)语言模型在语言建模性能上存在显著差距,此前的扩散LM方案复杂度高、采样效率低,无法落地实际应用。
这篇工作要解决的核心问题是:FlashAttention-2 已经把 attention 的访存做得很省,但在 H100 这代 GPU 上仍远没有吃满硬件,导致长上下文和大模型训练/推理里 attention 继续成为系统瓶颈。过去的优化主要围绕减少 HBM 读写和更好的 tiling,但没有真正利用 Hopper 的异步执行、TMA 数据搬运和 FP8 支持,所以算力利用率卡在较低水平。
这篇工作的核心问题是:现有 LLM 几乎都依赖 tokenizer 把文本切成离散子词,但 tokenizer 会引入语言依赖、OOV 行为、形态切分偏差和额外系统复杂度,因此值得重新问一句:能不能直接去掉 tokenization。过去字符级建模一直存在,但通常因为序列太长、优化太难和效率太差而被边缘化。
标准 decoder-only Transformer 的 KV cache 随序列长度和层数线性增长,导致长序列推理时 GPU 显存成为瓶颈。YOCO 提出只缓存一次 KV 的 decoder-decoder 架构来大幅降低显存需求。
现有LLM在线数据选择方案要么依赖 impractical 的参考模型,要么使用简单启发式规则无法准确衡量数据的信息量,静态数据筛选则无法适应训练过程的动态需求。
这篇论文的核心结论是:RoPE 的 base 参数不是“随便调大就能无限拉长上下文”的旋钮,它在机制上会对可用上下文长度形成硬约束。过去很多长上下文扩展把问题归因于位置编码 OOD,并用 base 调整去“缓解分布外”,作者认为这会产生表面长上下文能力而非真正可用的远程依赖建模。
缺少摘要与关键信息,无法可靠说明该工作要解决的“扩散语言模型如何做链式推理(CoT)”的具体障碍是什么,以及 Diffusion-of-Thought 的定义与评价方式。
这篇工作解决的是:预训练数据选择不该是一次性的静态筛选,而应该随着模型训练进展动态变化。已有方法通常依赖手工规则或更大的参考模型先给数据打分,再固定采样策略;问题是模型早期、中期、后期对数据的“有效性偏好”并不一样,静态打分会错过这种训练动态。
这篇论文要在“专家数足够大才会细粒度专门化”和“MoE 推理/训练成本不可控”之间找折中;以往 dense MoE 推理太贵,sparse MoE 又有离散路由带来的训练不稳定与工程复杂度。
这篇论文要回答的核心问题是:为什么在线偏好优化常常比纯离线方法更有效,二者并不只是“同一离线偏好数据上的不同实现”。过去 DPO 一类方法常被视为 PPO/RLHF 的简化替代,因为两者都从同一批偏好数据起步;这篇工作指出,关键差别不在目标写法,而在训练数据对测试分布的覆盖是否足够,而在线采样恰好能补这个缺口。
此前上下文学习(ICL)的研究主要集中在少样本场景,大模型上下文窗口扩展后,百/千样本的多 shot ICL的性能边界、瓶颈及优化方案尚未被系统研究。
这篇论文要解决的是:标准 tokenizer 往往对高资源语言更友好,导致多语言模型在低资源或形态复杂语言上出现系统性不公平。过去这件事通常通过更多数据、语言平衡采样或更大的词表来缓解,但 tokenization 本身的偏置常被当成固定前提;这篇工作把问题直接拉回到分词机制。
这篇论文针对的问题很直接:很多 LLM 明明给了足够长的上下文,却没有真正利用它,尤其在长输入中会忽略关键信息或偏向前部/后部片段。过去常见补救是继续扩窗、加位置编码改进或做检索增强,但“模型会不会用上下文”常被和“模型能不能看到上下文”混为一谈。
传统LSTM因无法并行训练、长序列建模能力不足,在大模型场景下被Transformer全面超越,LSTM架构在十亿级参数规模下的性能边界尚未被探索。
次复杂度架构(如SSM)的预训练算力投入远低于顶级Transformer,直接从零训练无法达到Transformer的性能,而现有蒸馏方案无法有效将Transformer的知识迁移到结构差异较大的次复杂度架构上。
这篇论文要解决的问题是:多头 Transformer 在“会持续学特征”的训练区间里,哪些参数化真的存在良定义的无限宽、无限头、无限深极限。以往很多无限宽分析把 Transformer 近似成核回归或冻结特征模型,能算清楚,但会回避注意力层在训练中继续更新这一点;这使得结论对真实预训练的解释力有限。作者重新处理这个问题,是因为 Transformer 的缩放规律越来越依赖宽度、深度、头数同时增长时的训练动力学,而不是只看单层或惰性极限。
这篇论文要解决的问题是:如何从大规模预训练语料里,低成本地挑出对某个目标分布或目标任务更有用的数据子集。过去常见做法要么依赖通用质量启发式,要么用单模型困惑度打分,但这两类方法都很难区分“文本本身容易”与“文本对目标真正有帮助”,因此在 targeted pre-training 上常常不够准。
这篇论文要解决的是:在不明显伤害模型质量的前提下,继续压缩 Transformer 解码时的 KV cache。过去最有效的做法是 MQA 和 GQA,它们通过让多个 query head 共享同一组 key/value head 来降内存,但共享只发生在同一层内,因此压缩空间仍然受限;一旦上下文很长或 batch 很大,KV cache 仍会成为推理瓶颈。
这篇论文要解决的是:induction head 和 ICL 到底是怎样在训练中长出来的,而且除了 attention 之外,Transformer 里的 FFN、归一化和位置编码各自起了什么作用。过去很多理论工作只说明了 attention 机制在某些数据模型下可以实现 ICL,但没有解释一个更接近真实训练的 Transformer 为什么会沿着这条路学出来。
现有多模态大模型的两类训练范式存在能力割裂:生成式训练支持开放任务但幻觉严重、细粒度判别能力弱,判别式训练(如CLIP)擅长分类检索但无法处理复杂生成任务,此前没有方案能在同一框架下兼顾两类能力。
通用Transformer(UT)采用层间参数共享,组合泛化能力优于标准Transformer,但参数计算比过低,同等维度下参数量远小于非共享结构,单纯放大层尺寸会导致计算成本不可接受,此前没有共享层Transformer能在参数敏感的语言建模任务上达到非共享结构的性能。
现有Transformer的MoE优化主要集中在前馈层,此前将MoE扩展到自注意力层的方法无法达到参数匹配基线的性能,无法同时降低注意力的计算和内存开销。
这篇工作解决的是离散数据生成建模里一个很现实的问题:flow matching 在连续空间里很好用,但直接搬到离散空间并不自然。过去离散生成通常在自回归、离散 diffusion、或能量模型之间取舍;想兼顾并行生成、训练稳定性和概率解释并不容易,因此把 flow matching 真正落到离散 token 上是值得做的。
这篇工作讨论的是训练调度本身,而不是具体模型:我们是否真的需要精心设计复杂的学习率或训练 schedule。过去大规模训练高度依赖 warmup、cosine decay、阶段式衰减等经验规则,但这些规则往往迁移性差,换模型、换 batch、换数据配比就要重新调;因此重新审视‘少调度甚至不调度’有没有更好性质,是很有现实意义的问题。
LLM 预训练计算成本极高,model growth(用小模型加速大模型训练)是一个有前景的方向,但此前缺乏系统评估:哪些 growth 算子真正有效、能否 scale、实践中怎么用,都没有清晰答案。
Transformer 中 MLP 层的密集激活使得细粒度电路分析(找到对应特定行为的稀疏子图)非常困难。SAE 找到的可解释特征是大量神经元的线性组合,每个神经元有自己的非线性,导致电路要么过大要么无法分离局部和全局行为。
这篇论文的核心结论很明确:在 Transformer 里,只看归一化层的逐样本梯度,就足以高精度预测整体的梯度噪声尺度(Gradient Noise Scale, GNS)。过去 GNS 很有用,因为它能指导 batch size、学习率和训练效率判断,但逐样本梯度太贵,导致它更像研究工具而不是在线信号;作者要解决的就是如何把 GNS 监控做到几乎零开销。
自回归Transformer的KV缓存导致推理存在两个核心瓶颈:首token时延高(需要处理整个prompt预填充KV缓存),后续token推理的内存IO开销随序列长度线性增长,整体内存读取复杂度为二次方。
长上下文LLM的KV缓存占推理内存开销的大部分,现有KV量化方案无法在4bit以下精度保持足够的准确率,限制了10M级超长上下文的推理部署。
这篇工作要解决的问题是:DPO 和 PPO 在 preference learning 中经常被拿来直接比较,但很多实验实际上混杂了数据、KL 控制、采样、奖励建模和训练细节,导致结论不干净。作者想把‘算法差异’与‘实践 best practices’拆开,弄清到底是什么在驱动效果。
这篇工作要解决的问题是:安全微调有时有效、有时脆弱,但社区对其成败机制理解不足,导致很多 safety fine-tuning 配方只能经验调参。作者要回答的是,安全微调到底改变了模型的哪些内部机制,以及哪些因素会让这种改变稳固或失效。
长上下文LLM的预填充阶段注意力计算复杂度为二次方,8B模型在单A100上处理1M token prompt需要30分钟,现有加速方案无法同时兼顾精度和效率。
现有语音增强LLM仅能处理语义信息,无法建模口语对话中的副语言特征(如韵律、语气),需要依赖独立的ASR和TTS模块,无法端到端生成自然的口语响应。
现有LLM存在逆转诅咒(无法按和训练时相反的顺序召回知识)、幻觉等问题,此前的研究将其归因于模型容量不足或训练数据分布问题,没有从建模目标的根源给出解释。
这篇工作要解决的问题是:长上下文推理时 KV cache 随输入长度线性膨胀,严重拖累显存和速度,能不能在不微调模型的前提下压缩 KV,同时尽量不伤性能。过去常见办法是做重训练、近似注意力或启发式裁剪,但要么改模型代价高,要么在真实任务上掉点明显,因为它们很难知道“未来生成真正会用到哪些历史 token”。
自回归图像生成此前被认为必须搭配向量量化(VQ)得到的离散token才能实现,VQ会带来不可逆的信息损失,还需要单独训练tokenizer,额外增加了训练复杂度。
传统预训练对语料中所有token均匀施加next-token预测损失,没有区分不同token对模型能力的增益差异,大量低价值、噪声token浪费训练算力,还会降低最终模型性能。
这篇论文的核心问题是:在控制规模不变时,Transformer 架构本身会如何影响预训练语言模型的 base capabilities。过去大家更关注 scaling law,把能力变化主要归因于参数量和数据量;这篇工作试图说明,即使在同尺度下,FFN 变宽和 MoE 这类架构选择也会系统性改变模型的分布内、分布外和 few-shot 能力。
传统语言模型评估仅报告单一分布留出集的困惑度,无法反映模型在不同领域的拟合能力,不同预训练语料、训练方案的优劣对比缺乏公平、多维度的统一标准。
这篇论文要解决的是:在 Mixture-of-Experts 里,路由器到底该用 softmax gating 还是 sigmoid gating,哪种在样本效率上更好。MoE 研究很多时候默认 softmax 是标准选择,但它引入专家间竞争和概率归一化,这未必总是最利于学习,尤其在有限样本或专家应并行激活的场景下。
大规模MoE训练中跨GPU的all-to-all通信开销平均占比达45%,成为MoE架构 scaling 的核心瓶颈,现有通信优化方案没有从路由逻辑本身降低通信量的有效手段。
这篇工作要解决的是:标准 LLM 训练通常把所有序列长度混在一起按固定上限处理,导致大量算力花在长序列的二次复杂度上,而很多训练信号其实可以在更短上下文里先学到。过去大家会做 sequence packing 或 length bucketing 来减少 padding 浪费,但很少把‘序列长度本身’当成可设计的 curriculum。
传统缩放定律需要训练同一配置下不同规模的大量模型才能拟合,成本极高,无法快速指导新模型、新训练范式的 scaling 规划。
此前领域默认只有因果语言模型(CLM)具备生成式上下文学习(ICL)能力,掩码语言模型(MLM)无法完成生成式ICL任务,浪费了MLM预训练得到的表征能力。
此前渐进式堆叠训练仅被用于提升训练效率,其带来的归纳偏置对模型能力的影响完全没有被研究,无法利用这种偏置优化模型的下游能力。
这篇工作的核心问题是:检索增强语言模型往往受限于 datastore 太小、构建成本太高或检索延迟太大,结果是 retrieval 的收益在真正大规模语料上没有被充分释放。过去很多 RLM 工作只在相对小的 token datastore 上验证,因此很难判断这种方法能否随着数据规模继续获益。
二阶优化器(如Shampoo)的预条件器状态占用内存过高,无法用于大模型预训练,现有低比特优化器方案仅支持一阶优化器,无法适配二阶优化器的结构特点。
Transformer中FFN模块占总计算量的40%以上,现有FFN优化方法多基于预训练后压缩,从头训练使用结构化参数化会导致不可接受的性能损失,缺乏规模化验证的可行方案。
这篇工作的核心结论是:把语言建模看成 imitation learning 时,MLE 并不是唯一自然选择,序列级的逆强化学习目标可以更直接地利用生成的时序结构。过去预训练和 SFT 几乎都默认用 token-level 最大似然,因为它简单、稳定、可扩展;这篇工作想重新打开这个默认前提。
这篇工作要回答一个很根的问题:生成模型只是模仿训练数据分布,为什么有时却能在原任务上超过生成这些数据的人类专家。这个问题以前常被经验现象带过,但缺少清晰机制;作者把它定义为 transcendence,并试图说明它不是偶然,而是采样策略与数据分布共同导致的可解释现象。
这篇论文要解决“偏好优化(DPO/IPO 等)损失函数设计空间巨大但长期靠手工拍脑袋”的问题;以往方法多用少数几个凸损失,理论上合理但探索不足。
这篇论文要解决“统一多模态/多任务模型的输入输出类型太少,导致 out-of-the-box 能力被训练覆盖面限制”的问题;以往 4M/UnifiedIO 类模型往往只覆盖少数模态与任务,泛化被接口约束。
这篇论文要解决的问题很具体:DPO 虽然比 PPO 简洁,但它依赖 reference model,奖励定义与生成长度/序列概率之间也存在错配。过去大家接受这个复杂度,是因为 DPO 稳定且有效;这篇工作想证明,偏好优化还可以更简单,而且未必更差。
这篇论文要解决的是:能否把视频生成模型真正推进到可交互 world model,而不是只能离线生成短片段。过去视频生成很强,但用于 agent 的难点在于必须同时建模观察、动作、奖励,并且支持长时间交互;很多方法要么规模上不去,要么 tokenization 成本太高,难以做成可扩展预训练。
这篇论文解决的是 transformer 在算术任务上的长度泛化失败:训练见过 30 位加法,测试到更长位数就崩。过去很多方法试图靠更多数据、特殊 curriculum 或更换位置编码去补救,但它们往往没有把任务本身的结构——同一数位之间的对应关系——直接编码进模型。
这篇论文要解决的是标准 self-attention 对所有 query 一视同仁,导致上下文稀疏度无法按内容和位置自适应控制。过去 transformer 的 softmax 注意力虽然强大,但通常只能通过固定温度、局部窗口或稀疏模式间接限制上下文;这会造成该聚焦时不够尖锐、该扩散时又过于保守。
这篇论文聚焦长上下文建模中的一个现实问题:单一 in-context pattern 往往不足以覆盖不同位置、不同证据类型和不同检索难度,导致 LLM 虽然窗口很长,但真正的 long-context awareness 不稳定。过去常见做法是直接扩窗口、加位置编码或做外部检索,但模型如何在上下文内部按需调用不同“专家式”读取策略,研究得不够。
自回归语言模型是否具备规划能力(planning capability)一直有争议——批评者认为 next-token prediction 本质上是局部贪心的,无法做全局规划。ALPINE 试图从理论和实证两方面揭示 AR 学习中隐含的规划能力。
Chain-of-Thought (CoT) 推理通常依赖精心设计的 prompt(如 few-shot 示例或 "Let's think step by step"),这引入了 prompt 工程的成本和不稳定性。本文探索不需要任何 prompting 就能从 LLM 中引出 CoT 推理的方法。
现有支持超长上下文的LLM普遍存在lost-in-the-middle问题,无法有效召回上下文中间段的相关信息,现有解决方案要么需要全量微调,要么引入额外推理开销,落地成本高。
这篇论文关注的核心问题是:训练大语言模型时,梯度计算在细粒度复杂度上究竟有多难,以及有哪些计算下界是架构和算法无法轻易绕开的。过去大家更多讨论总 FLOPs、并行效率和近似加速,但对“梯度到底能否被本质性更快地算出来”缺少更严格的复杂度刻画。
为降低推理成本,学界重新探索RNN类高效架构,但Transformer与RNN的表示能力边界缺乏量化结论,无法指导实际场景下的架构选型。
现有理论研究无法解释Transformer的多概念语义线性表示规律与上下文学习(ICL)能力之间的关联,且现有ICL理论多基于简化的线性假设,不符合实际LLM的运行场景。
Chain-of-Thought(CoT)推理提升LLM性能的内在机制和涌现条件不明确,现有研究多为宏观实证观察,缺乏到注意力头级别的可解释性结论。
这篇工作关注的是:高质量 comparison data 很贵,而偏好学习又高度依赖这类数据,导致 RLHF / DPO 一类方法常常被数据瓶颈卡住。过去常见做法是人工标注成对偏好或用单一规则合成,但前者成本高,后者容易信号单薄、覆盖面窄,最终学到的只是局部偏好。
这篇工作要解决的是:用显式 reward 对齐语言模型时,直接做 RL 往往不稳定、成本高,而纯偏好学习又会丢掉 reward 的绝对量级信息。过去常见方案是在 RLHF 和 DPO 之间选边站,但这两条路各自都有短板:前者优化难,后者更多是在做相对排序拟合。
这篇工作的核心问题是:数学推理里 process supervision 很有效,但人工标注中间步骤极贵,因此大家一直在找“没有过程标注,能否逼近过程监督效果”的办法。过去常见路线是蒸馏专家解题轨迹、用 verifier 打分中间步骤,或靠大模型合成过程,但这些都仍然依赖显式过程信号或昂贵教师。
现有推测解码方法无法规模化支持更大的推测步长,且在不同解码温度下性能波动大,无法适配多样的生成场景。
现有RLHF、DPO等偏好学习方法的核心默认假设是模型会给更偏好的输出分配更高的似然,该假设从未被系统验证,无法解释对齐过程中的性能波动。
现有KV缓存驱逐方法仅基于静态的token重要性判断,忽略了对话和生成过程中token重要性的动态变化,导致驱逐后需要重算的开销大,反而降低长上下文推理的吞吐量。
Transformer上下文学习(ICL)的底层机制缺乏量化理论支撑,现有工作多停留在实证观察层面,未明确softmax注意力在ICL中的自适应作用原理。
Transformer注意力层语义能力涌现的机制缺乏可解理论刻画,现有实证研究无法量化其从位置学习到语义学习的相变边界条件。
这篇工作关注一个在大模型量化里经常被平均化处理的问题:不同参数并不等价,参数异质性会直接决定量化误差如何传导到模型能力。以往很多量化方法默认同层、同类型参数可以用近似一致的策略处理,这在工程上方便,但会掩盖哪些参数真正脆弱、哪些参数可以更激进压缩,因此难以解释同样 bit 配置下性能为何差异很大。
这篇工作要回答一个非常基础但一直没有彻底讲清的问题:现代深度学习里为什么 weight decay 仍然有效。过去常见解释把它等同于 L2 正则化,或者笼统说它改善泛化,但在 AdamW、归一化层、过参数化网络这些现代设定下,这些解释并不完全够用,因此这个问题值得重新拆开看。
这篇工作给出的核心结论是:LLM 的长上下文失效不只是“位置编码外推差”这么简单,而是隐藏状态中的位置向量在超出窗口后发生了系统性偏移,进而改变了注意力模式。过去很多扩窗方法主要从 RoPE 缩放、插值或训练技巧上修补,但对模型内部到底把位置信息编码成了什么、超窗后哪里开始坏掉,解释一直不够细。
涌现能力(emergent abilities)到底是大模型独有的还是小模型也能展现?此前争论集中在模型规模和不连续指标上,缺少一个统一的视角来解释涌现现象。本文提出用预训练 loss 而非模型大小来理解涌现。
大规模预训练中的数据筛选通常独立地评估每个样本的价值,忽略了样本之间的依赖关系。对于多模态对比学习(如 CLIP),batch 内样本的联合可学习性比单个样本的质量更重要。
现有LLM的N:M半结构化稀疏剪枝方法依赖人工定义的权重重要性准则,泛化性差,无法端到端适配大规模预训练数据,剪枝后精度损失大。
现有流匹配和扩散模型针对连续数据设计,应用到离散数据(如语言、离散语音token)时存在路径设计受限、采样效率低的问题,此前的离散生成方法仅支持特定概率路径,泛化性差。
将连续扩散过程应用于离散数据(如文本)时,连续空间与离散数据之间存在固有不匹配——学到的概率等高线在离散边界处不够精确,导致生成质量和效率受限。之前的连续扩散文本建模方法(如 Diffusion-LM、CDCD)没有显式利用离散边界信息来引导扩散轨迹。
Sharpness Aware Minimization(SAM)在大规模模型上效果不稳定,原因之一是扰动步长没有考虑不同层的参数尺度差异。之前的 SAM 对所有层施加统一的扰动,但在 μP(maximal update parameterization)框架下,不同层的参数尺度和梯度尺度差异很大。
现有RLHF的偏好损失仅使用二分类排序标签,无法区分不同偏好对的强度差异,导致奖励函数校准误差大,容易引发奖励黑客问题。
这篇工作要解决的问题是:2:4 结构化稀疏预训练很有硬件价值,但训练期难做、梯度估计不稳定,导致很多方法只能先 dense 训练再稀疏化,或者需要复杂的离散近似。这个问题现在值得重做,是因为 2:4 稀疏已经被主流硬件支持,若能把稀疏直接前移到 pre-training,节省的不只是推理成本,而是整个训练算力。
这篇工作要解决的问题是:多模态 LLM 预训练很贵,尤其视觉 token 多、对齐信号稀疏,导致训练效率低。作者想通过 Chain-of-Sight 这类机制,在不简单牺牲能力的前提下加速 multimodal LLM pre-training。
当真实数据稀缺时,用合成/代理数据(surrogate data)辅助训练的效果如何量化?现有 scaling law 主要关注真实数据量和模型规模,缺少对代理数据混合比例和质量的理论刻画。
LLM 对齐(alignment)通常需要昂贵的 RLHF 训练。能否用一个轻量的 'corrector' 模型来高效地将未对齐模型的输出修正为对齐的输出,而不需要重新训练基座模型?
现有LLM遗忘方法同时优化遗忘损失最大化和保留损失最小化两个冲突目标,容易出现退化:要么遗忘不彻底,要么保留的通用知识损失严重。
现有LLM知识蒸馏方法最小化教师和学生的概率分布散度,容易过拟合到教师的局部错误,导致学生模型泛化性差。
现有分片数据并行(ShardedDP)训练中的权重和梯度通信开销占比高,现有压缩方法会导致训练精度下降,无法支持4位超低精度的通信量化。
现有Transformer理论理解不足,单头单层Transformer的序列拟合能力没有明确量化界,过往工作要么回避理论分析仅给出经验结论,要么无法解释Transformer与RNN等经典序列模型的适配场景差异。
这篇论文要回答的核心问题是:Transformer 里的概念是否以“联想记忆”的方式被存储和激活,而不是只做局部的 next-token 统计匹配。这个问题过去通常被行为现象零散讨论,比如提示一个概念会诱发相关但未显式要求的输出,但缺少对“潜在概念关联”本身的系统刻画;现在值得重做,是因为这直接关系到幻觉、拒答失败、提示注入和可解释性。
这篇论文解决的是大语言模型推理时计算分配过于平均的问题。标准 Transformer 对所有 token 一视同仁,但真实生成里不同 token 的难度差别很大;把同样的算力花在“容易 token”和“关键 token”上,会浪费延迟和 FLOPs。
这篇论文要解决的问题很实际:如何把生成式语言模型高效地改造成高质量 embedding 模型,并找到算力最优的训练配方。过去常见做法要么直接拿中间层做 embedding,效果有限;要么用大量对比学习继续训练,但计算和数据配方不清楚,常常不划算。
这篇论文研究的是:当强模型的输出超出人类或弱模型直接判断能力时,如何做可扩展监督。过去很多讨论停留在概念层面,而这篇工作把 debate、consultancy 和直接作答放到同一套弱 judge/强 agent 设定下比较,重点看弱监督者是否真能借协议获得更好判断。
现有无学习后训练量化(PTQ)方案忽略Transformer注意力模块的层间依赖,精度不足;需要调参的PTQ方案耗时耗资源,无法适配大模型频繁迭代的边缘部署需求。
现有偏好对齐方法(如RLHF)需要对预训练模型做微调,可扩展性差,无法适配GPT-4等黑盒API模型的对齐需求,还存在奖励建模误差、奖励黑客等问题。
现有块并行解码(BPD)的块草稿质量低,验证阶段拒识率高,导致实际加速比远低于理论上限,限制了自回归大模型的推理速度提升。
现有人类反馈数据集的参与者地理、人口分布窄,缺少与参与者社会人口属性关联的细粒度反馈,无法支撑大模型的多文化、个性化对齐研究,也无法分析反馈样本的偏差来源。
现有大模型语言生成的理论边界不清晰,没有回答仅给定未知语言的有限训练样本、无额外假设的前提下,能否在极限下生成该语言合法新字符串的核心问题,过往工作要么依赖特定训练假设,要么仅给出经验结论。
权重衰减(L2正则)对Transformer注意力层的训练影响机制不清晰,现有工作仅针对前馈网络的正则效果做分析,无法解释注意力层中参数矩阵乘法交互下的正则行为,也无法指导预训练时的正则系数选择。
现有Deja vu记忆化测量方法需要训练两个额外模型,对超大规模开源模型来说计算成本过高,无法快速评估预训练模型的训练数据记忆程度。
现有无训练干预的原生大模型是否具备上下文内探索能力尚未被系统验证。过往强化学习探索能力研究多针对微调后的专用 agent,默认原生大模型具备基础探索能力的假设缺乏实证支撑。
现有LLM对齐方法默认对齐公众偏好为最优,针对个体偏好的对齐需要反复收集数据、训练奖励模型,无法支持数千级的个性化偏好对齐,scalability极差。
常规LLM对齐流程(SFT+RL)无法提升模型事实准确性,反而会增加幻觉生成概率。过往对齐研究更多关注有用性和无害性,对事实性的优化不足,也未系统识别对齐各阶段的幻觉来源。
现有指令微调数据选择方法依赖额外模型或外部标注数据,成本高,无法广泛落地。过往研究已证明少量高质量指令数据可达到接近全量数据的微调效果,但缺乏低成本的高质量数据筛选方案。
这篇论文解决的是长上下文推理里的核心瓶颈:KV cache 太占显存,而现有压缩多集中在序列维,往往会直接伤害生成质量。作者关注的是深度维压缩,也就是跨层复用或压缩 KV 表示,试图在不明显掉点的前提下减少推理内存。
这篇论文讨论 RLHF 里的过优化问题,并给出一个很强的结论:SFT loss 不只是 warm start,它还隐式充当了对抗式正则项,能抑制 reward model 被策略钻空子。过去很多工作把 overoptimization 看成 RL objective 本身的问题,或者靠 KL 约束经验性缓解;这里更进一步,试图给出可证明的机制解释。
这篇论文解决的是推理加速里一个很难兼顾的问题:既要 speculative decoding 的速度,又不要额外 draft model 带来的训练与部署复杂度,还要保持 lossless。传统 speculative decoding 依赖独立小模型,系统成本高;self-speculative decoding 则常受限于草稿质量和验证效率。
现有LLM后训练(SFT/RL)依赖人工标注高质量数据,线上Chatbot Arena评估成本高、周期长,无法快速迭代模型。过往对齐流程的训练和评估环节都存在严重的人工依赖瓶颈。
LLM的外推能力差,推理长度超过训练最大长度时性能急剧下降。现有位置编码方案(如RoPE)的外推上限低,需要额外微调才能支持更长上下文,过往对NoPE(无位置编码)外推失败的原理缺乏系统理论分析。
这篇论文要回答的是:在“成员推断”(membership inference)里,我们到底能不能可靠地判断某个数据集/样本是否被某个 LLM 用来训练,而不是被分布差异误导。以往很多 MIA 看起来很强,但常把“训练集样本”和“非训练样本”选自不同分布(例如时间上更新的 Wikipedia),导致模型区分的是分布而不是记忆。
这篇论文要解决的是:Transformer 在最简单的 Markov 数据生成设定下,训练动态为何会走向“学到全局结构”或“只学到局部启发式”,以及初始化如何决定最终收敛到哪类解。过去相关工作常停留在经验观察或更复杂设定里难以给出可证明结论。
摘要缺失,无法可靠判断论文具体要解决的压缩问题边界(量化/二值化/极低比特?)以及它认为 Straight-Through Estimation 在哪里失效。
摘要缺失,无法确认论文所说“right embeddings”具体是哪类数值/位置/基数表示嵌入,以及它要解决的是训练可学性、泛化到更大数、还是减少算术幻觉。
摘要缺失,无法确认其“principled synthetic logic corpus”具体覆盖哪些逻辑形式(命题/一阶/归结/自然演绎)、以及它要解决的是推理能力缺失还是评测不可控。
摘要缺失,无法确认其“rule based rewards”具体用于哪类安全目标(拒答、合规、无害性、越狱防护)以及它要替代的是人工偏好标注还是模型裁判。
这篇论文要解决的是:语言 reward model 往往只能给出一个整体偏好分数,但在多目标或目标变化的场景下,这种表示不够用。现有 reward model 经常把不同目标混成单一标量,导致一旦目标切换、约束变化或用户意图更细化,模型就难以稳定泛化。
这篇论文要解决的是:能否用 n-gram 统计这个更可解释的视角来理解 Transformer 学到了什么,以及它与经典语言统计模型之间到底是什么关系。Transformer 很强,但内部机制难解释;如果它的大量行为可以由某类高阶统计近似解释,那么很多经验现象就不必只停留在黑箱观察。
这篇论文要解决的是:大模型微调会在能力提升的同时引入新的安全风险,但业界缺少能量化“不同微调选择带来多大风险增量”的统一测量框架。
这篇工作要解决的是:Transformer 推理在多设备上扩展时天然受串行依赖和通信模式限制,尤其 decode 阶段很难高效并行,导致多卡推理吞吐上不去、延迟也难压。传统张量并行和流水并行都能分摊算力,但并没有改变 Transformer 结构本身对跨设备同步的依赖。
这篇工作要解决的是:流水并行训练常在吞吐和显存之间做硬交换,想提高设备利用率就要接受更高 activation memory,想省显存又会拖慢流水。现有方案通常靠 checkpointing、重计算或固定的 micro-batch 调度折中,但对‘内存预算可控’这件事支持不够直接。
现有SSM(状态空间模型)在语言建模任务上性能接近Transformer,但缺乏对SSM表达能力的系统性理论分析,无法指导架构迭代。过往的架构对比多基于实证结果,缺乏理论层面的优劣界定。
现有LLM记忆的定义和度量指标存在缺陷,无法准确区分模型是记忆了训练数据还是合成了知识。过往的记忆度量多基于固定前缀的提取,容易高估或者低估记忆率,数据版权相关的研究缺乏可靠的记忆度量方法。
现有LLM数学推理的合成数据微调方案默认仅使用正确样本,收益有限且容易学习伪关联,业界始终没有明确合成数据对性能的影响边界。
这篇工作要回答的核心问题是:纯因果语言建模是否能在没有显式搜索器或外部程序的前提下,学出真正需要搜索与多步推理的能力。过去这类问题常被程序合成、神经符号方法或带工具调用的框架处理,因为大家普遍怀疑 next-token 训练很难稳定学到显式搜索。
这篇工作的核心问题是:Transformer 内部是否真的形成了可解释的 belief state,也就是对环境潜在状态或不确定信息的内部表征,而不只是做表面 token 续写。过去很多 mechanistic interpretability 工作能定位局部电路,但较少直接回答“残差流里是否存在几何结构化的信念状态表示”。
这篇工作要解决的问题是:高效 LLM 的设计空间非常大,靠人工经验做架构/配置选择既慢又容易错过更优点,因此需要系统化搜索。过去很多“高效模型”工作只改一个模块或只在单一预算下比较,难以回答在真实算力、延迟、显存约束下什么组合最优。
这篇工作要解决的问题是:自回归解码一次前向通常只产生一个 token 分布,想要多条样本就要重复跑多次,导致采样成本近乎线性增长。过去并行生成大多依赖 speculative decoding、非 AR 模型或工程批处理,但没有直接改变“单次 AR pass 只能服务一条生成轨迹”的限制。
Code LLM 的指令微调通常只用单一来源数据,质量和多样性有限;而混合多源代码数据时,不同数据源的风格和质量冲突会导致训练信号互相干扰,性能次优。
LLM 如何在内部表示和调控 next-token 预测的不确定性?此前发现了 entropy neuron(通过影响 LayerNorm scale 来缩放 logits),本文进一步揭示其工作机制,并发现了新的 token frequency neuron。
从统计理论角度解释为什么对齐后的 LLM 仍然可以被 jailbreak:偏好对齐本质上只是在预训练分布上做了有限的修正,对抗性 prompt 可以绕过这层修正。
当前对齐方法依赖人类标注,但人类能力有限,无法为超出自身能力的难题提供高质量监督信号。本文研究如何从简单问题的对齐泛化到困难问题(easy-to-hard generalization),实现超越人类监督的可扩展对齐。
稠密Transformer推理成本高,现有稠密层转MoE的方案没有利用激活稀疏性做前置优化,且固定选k个专家的逻辑忽略了不同输入的激活神经元方差,效率提升空间有限。
这篇工作试图回答:在没有人工标注奖励或参考答案的情况下,能不能给 LLM 提供一种可自动检验的反馈信号。传统做法要么依赖监督微调,要么依赖昂贵/脆弱的 reward model,而很多任务其实缺少稳定标注,因此无监督反馈是一个很现实的缺口。
这篇工作要解决的是:linear transformer 是否真的只是在效率上接近标准 attention,还是也能承担更一般的 in-context learning(ICL)能力。过去线性 attention 往往被认为在表达力上吃亏,因此多数讨论集中在速度和长序列,而不是它能否学会任务内算法。
现有开源偏好数据集(Open Assistant、HH-RLHF、HelpSteer1)已无法匹配强LLM的对齐需求,从闭源模型蒸馏的偏好数据存在商业使用限制,无法支撑商用奖励模型训练。
此前对Transformer各组件(自注意力、位置编码、FFN)如何共同影响长稀疏复杂序列建模的表达能力没有系统的理论解释,也缺乏显式的近似率量化结果。
此前不清楚Transformer是否能学习参数知识上的隐式推理,也不明确这种推理能力的泛化边界和形成机制,现有强LLM在这类任务上普遍表现较差。
这篇工作要解决的是:在不改动目标大模型输出质量的前提下,进一步提高 speculative decoding 的实际加速效果。传统 draft model 仍然是自回归的,生成候选 token 本身就有串行瓶颈;如果用 CTC 这类并行预测草稿,理论上可以把 draft 端延迟再压低一截。
这篇工作关心的核心问题是:模型从无结构数据中到底能学到哪些 in-context learning 任务,以及这种能力在什么条件下出现。很多 ICL 研究直接在合成任务或干净提示上观察现象,但回避了更关键的一步——这些能力能否从自然分布数据中自发涌现。
这篇工作研究的是 Transformer 里两个经常被当作工程细节的组件——attention mask 和 LayerNorm——到底在表示与优化中扮演什么角色。过去很多实践默认它们只是稳定训练或实现因果性的工具,但它们很可能更深地影响模型可表达性和训练动力学。
现有DPO等对比偏好优化方法仅关注两个回复的隐式奖励相对值,忽略奖励的实际绝对值,导致模型和人类偏好的对齐效果次优。
这篇论文要解决的是:现有长上下文评测(如 needle-in-a-haystack)过于“检索式”,无法刻画模型在长 prompt 中连续经历多任务示例时的干扰、遗忘与选择性利用能力。作者提出 Lifelong ICL 场景:模型需要在一个长上下文里学一串任务,并在测试时只利用相关任务的 demonstrations,同时抵抗其他任务的干扰。
缺少摘要与关键信息,无法可靠判断其关于“用表征做 ICL/上下文泛化”的具体问题定义与结论边界。
缺少摘要与关键信息,无法可靠判断其要解决的 reward model 泛化问题具体表现在哪里(分布外指令、对抗提示、长度外推等)。
缺少摘要与关键信息,无法可靠总结 UniAudio 1.5 如何把“LLM 驱动的音频 codec”做成 few-shot 音频任务学习器,以及它覆盖哪些任务与输入输出形式。
缺少摘要与关键信息,无法可靠总结其要解决的“在线迭代 RLHF”痛点(偏好漂移、数据效率、分布外崩坏、反馈延迟等)以及 General Preference Model 的角色。
现有推理类指令微调数据要么来自人工标注成本极高,要么来自闭源模型蒸馏存在商用限制,无法低成本扩展到千万级规模。
现有分布式数据并行的基础策略未考虑组内组间通信性能的差异,在异构通信场景下优化空间有限,无法充分释放大模型预训练的速度潜力。
基于预训练纯文本LLM初始化的多模态大模型(MLLM)在图文对齐和多模态混合微调阶段,会灾难性遗忘初始LLM已掌握的纯文本指令执行能力,此前方案大多未针对性解决注意力偏移导致的遗忘问题。
神经编码语音生成模型的训练和推理分布存在差异,且现有研究普遍忽略引入偏好优化对齐语音输出与人类偏好,导致生成语音的自然度、符合度不及预期。
现有零样本TTS模型仅能生成单说话人语音,无法实现多说话人、多轮对话场景下的自然语音生成,对话的韵律、说话人切换流畅度等符合人类习惯的特征难以建模。
现有线性Transformer块(LTB)的上下文学习(ICL)能力研究仅关注注意力组件的作用,忽略了MLP组件对ICL性能的贡献,也未明确线性Transformer的ICL能力与梯度下降估计器的对应关系。
这篇工作要解决的是:用 LLM 自训练构造推理数据时,只按最终答案是否正确来筛选样本,会保留大量‘答案对但过程错’的轨迹,反而把错误中间推理教回模型。过去很多 self-training 或 rejection sampling 都停在 outcome supervision,也就是只看终局,不看过程;这在数学、代码等需要长链推理的任务上尤其不够。
这篇工作要解决的是:模型能否从示例中真正学会技能组合,而不只是记住单技能模式或训练分布里见过的组合。过去关于 compositional generalization 的讨论很多,但在 LLM 上常常混杂了规模效应、数据泄漏和 prompt 工程;作者选择类似 SKILL-MIX 的受控设定,是想把‘会不会组合’这个问题单独拉出来测。
这篇工作要解决的是:在多数据孤岛、不能直接共享原始数据的协作训练场景里,如何做高质量数据选择。数据质量对 LLM 预训练很关键,但现有数据清洗和混配方法大多默认可以集中访问样本;一旦进入私域协作或联邦环境,最直接的数据评分手段就失效了。
这篇工作要解决的是:ICL 到底学到了怎样的分类规则,尤其其决策边界长什么样。过去理解 in-context learning 常从缩放、数据、注意力模式或隐式优化器角度切入,但这些分析不够直观,难以直接看出模型是在做线性分隔、原型匹配,还是别的奇怪规则。
指令微调(instruction tuning)的数据质量直接决定模型对齐效果,但人工筛选和标注成本高昂。已有的自动数据生成方法缺乏系统性的质量优化机制,生成数据的多样性和难度分布往往不理想。
Reversal Curse 是指 LLM 学会了 'A is B' 后却无法推断 'B is A' 的现象。之前的工作主要是实证观察,缺乏从训练动态角度的理论解释——为什么 autoregressive 训练会导致这种单向性?
神经网络中单个神经元(unit)的可解释性评估传统上依赖人工标注,成本高且难以规模化。需要一种自动化方法来大规模衡量每个 unit 的可解释性程度。
这篇论文要回答“多模态 ICL 为什么有时有效、有时失效”,并把问题拆成可操作的三段:示例检索、示例排序、提示构造;以往工作多停留在经验配方,缺少系统性因子分析。
这篇论文要把自注意力从 O(n^2) 的全连接代价降下来,并且把优化落到 GPU threadblock 级别的实现细节上;以往很多高层近似注意力在理论上省 FLOPs,但在硬件上不一定跑得快。
这篇论文要解决对话式 QA/RAG 中“检索与生成彼此不匹配、对话上下文导致查询改写成本高”的问题;以往常用 query rewriting 或通用 retriever,部署复杂且不一定适配对话 QA。
这篇论文要把 foundation model 式的迁移学习带到表格预测:表格数据异构、列语义弱、任务分布碎片化,导致以往很难像 NLP/CV 那样靠大模型预训练/微调获得稳定收益。
这篇论文要把“指令的表示”从语义 embedding 中解耦出来,专注于任务识别;以往用文本 embedding 做指令检索/数据选择时,语义细节会掩盖“这条指令属于哪个任务”的信息。
这篇论文要解释的核心现象是:LLM 为什么有时能通过自我纠错提升回答质量,以及这种能力何时会出现、何时不会。过去关于 self-correction 的讨论多停留在经验观察,或者依赖过度简化的线性 transformer 理论,难以回答 prompt 设计、反馈质量和 in-context alignment 之间到底是什么关系。
这篇论文试图解决 Vision LLM 仍然过于粗粒度的问题:能做问答和描述,但很难统一覆盖像素级理解、分割、编辑,以及图像和视频两种输入。过去多数系统是任务拼装式的,图像理解、视频理解、分割和生成各有各的模型,接口不统一,token/region 级语义也无法在一个语言接口里自然流动。
这篇论文要解决的是半参数语言模型的老问题:retrieval 能减少幻觉并提供归因,但推理速度慢、生成不够流畅,很难直接替代普通 LLM。过去 kNN-LM 这类方法在每步都做检索和融合,理论上有用,工程上却常常过重;作者希望把 retrieval 的事实支撑和 speculative decoding 的效率结合起来。
这篇论文关注的核心问题是:CoT 和 rationale 虽然能提高答案准确率,但模型内部是否真的形成了更一致、更可靠的推理状态。过去大多数 reasoning work 只看最终答案或 verbalized rationale,默认“能说出推理过程”就等于“内部推理是稳的”;这篇工作指出中间层表示与最终层表示之间可能存在不一致,这会削弱 reasoning 的可信度。
大型视觉语言模型(LVLM)通常将图像编码为固定数量的视觉 token(如 576 个),无法根据任务难度或计算预算灵活调整。简单图像用 576 个 token 浪费算力,复杂图像可能还不够。MQT 的目标是让视觉 token 数量在推理时可变。
现有研究对多语言大模型的跨层处理流程缺乏明确的机制解释,无法说明LLM如何实现不同语言的理解、推理和生成的跨层协作。
现有大模型监督微调(SFT)阶段的数据选择方法效率低,在垂直领域(如数学推理)无法用少量数据达到全量数据训练的性能,数据利用率低。
现有KV缓存量化方法在极低比特(如1比特)下性能下降严重,无法在不损失推理精度的前提下大幅降低KV缓存的显存占用,成为长上下文、大batch推理的瓶颈。
现有线性注意力Transformer及其门控变体在召回密集型任务上的性能落后于传统Transformer,且从零开始训练的计算成本高,无法兼顾效率和性能。
现有研究仅证明Transformer的表达能力达到图灵完备,但未解决其可学习性边界问题,无法明确Transformer能有效学习的推理任务类型。
这篇论文要解决的是:如何在不重新预训练的前提下,自动把多个现有语言模型组合成一个更强的系统。过去常见做法要么是手工挑模型、手工定路由规则,要么直接做 expensive 的集成或蒸馏;这些方法要么依赖经验,要么部署和训练成本高,因此“自动混合”作为一个中间路线是值得重新做的。
这篇论文的核心问题是:在非凸优化里,为什么以及何时“Adam + 模型参数 EMA”会比单独用 Adam 更有效。实践里大家长期把 EMA 当经验技巧广泛用于大模型和扩散模型训练,但理论解释滞后,导致它常被用却很少被系统理解。
这篇论文的结论导向问题是:Transformer 在语言任务中也会遭遇 information over-squashing,也就是远距离、多路信息在有限通道中被压扁,导致该传过去的信息到不了后层。以往 over-squashing 更多在图网络里讨论,而在 Transformer 上大家常用“注意力是全连接的,所以不会有这个问题”来回避;这篇工作是在挑战这种乐观假设。
这篇论文要回答的是:多模态大模型内部到底把信息存在哪里,又是怎样在模态之间转移的。过去对 MLLM 的分析很多停留在整体性能、attention 可视化或 probe 结果,但“视觉信息在哪些层被写入、语言层如何消费这些信息、哪些成分在做跨模态搬运”仍不够清楚。
现有Transformer电路发现方法要么依赖低效的搜索算法,要么使用精度不足的近似,无法同时兼顾可扩展性和电路保真度。
现有稀疏自编码器(SAE)学习到的特征更多反映数据集结构,而非模型本身的计算结构,无法保证特征对模型的功能重要性。
差分隐私(DP)应用于大模型预训练阶段会带来严重的性能下降,现有方案仅能在微调阶段使用DP,无法保护预训练数据的隐私。
现有LLM越狱攻击的评估缺乏统一标准,不同工作的成功率、成本计算方式不可比,且多数工作的攻击提示、代码不可复现。
现有弱到强泛化(W2SG)的研究仅有实证观察,缺乏量化的理论框架,无法解释强模型使用弱监督标签后性能超过弱模型的增益来源。
这篇工作要解决的是:常规 LLM 微调通常优化平均回报,却忽略了高风险尾部失败,而很多真实部署场景更在意最差情况下不要出大错。以往做法大多靠启发式安全数据、拒答模板或事后过滤来兜底,这能压住部分风险,但不能把“规避坏样本”直接写进训练目标里,因此一旦分布变化或提示更刁钻,模型仍会暴露脆弱性。
这篇工作关注的核心问题是:大家都在用 Chain-of-Thought 提升推理,但一直缺少一个能量化“模型到底还能从 CoT 中榨出多少推理增益”的边界框架。过去多数工作只比较 few-shot、self-consistency 或蒸馏后的最终准确率,结论高度依赖 prompt 和 benchmark,难以回答“CoT 何时有效、何时已经到头”。
这篇工作要回答的是:复合式 AI 系统把多个 LLM 调用串联、并联、路由之后,性能是否会像单模型 scaling law 那样继续随调用次数稳定增长。过去工程上大家默认“多 call 总比少 call 好”,但这个假设缺少系统性刻画,尤其不知道什么时候额外调用只是堆成本、不再带来质量提升。
这篇工作要解决的是:预训练数据里的医学健康相关内容会如何影响语言模型在医疗语境中的偏见,但这个因果链条过去缺少系统评估。很多工作只在下游问答或诊断任务上测偏差,却没有回到更上游的 pre-training corpus 去问:偏见究竟是被数据配比、来源、叙述视角还是去噪规则带进去的。
现有研究无法明确LLM表现出的因果推理能力是真正的类人推理,还是仅依赖参数中记忆的因果知识。
现有深度学习超参数(初始化尺度、学习率等)调优仅能间接控制层级特征学习过程,缺乏可量化的理论工具预测和控制特征学习的速度。
如何高效且精确地计算树结构上的张量场积分,以解决图度量近似、图分类以及视觉 Transformer 中的相对位置编码(RPE)等问题。以往的方法往往依赖于计算代价高昂的暴力求解或近似方法,难以在保持精度的同时实现高效计算。
如何从理论上找到对 Softmax 注意力机制的最佳线性近似,以解决现有线性复杂度模型(如 LinFormer、SSM、LinRNN)在性能上往往不及标准 Transformer 的问题。以往的线性模型设计多基于经验直觉,缺乏统一的理论指导和最优性保证。
如何设计一种尺度不变(scale-invariant)的自适应优化算法,以解决 AdaGrad 等现有算法对特征缩放敏感的问题。以往的自适应方法虽然降低了学习率调参的成本,但在处理不同尺度的特征时仍可能表现不佳。
如何系统地寻找能够替代 Softmax 注意力并实现快速计算的函数。以往的研究发现低阶多项式具有低秩特性,可用于加速注意力计算,但缺乏对这类函数的全面刻画,限制了更高效注意力机制的探索。
如何确定语言模型生成的特定陈述是基于上下文中的哪些部分,以区分其是真实的上下文推断、误解还是捏造。以往的方法难以精确地将生成内容归因于具体的上下文片段,限制了模型输出的可靠性验证。
如何精确分析高维优化问题中,使用自适应学习率的单次遍历随机梯度下降(SGD)的训练和学习率动态。以往的理论分析往往依赖于简化的假设或界限,难以给出风险和学习率曲线的精确表达式。
这篇工作想解决长序列建模里一个老问题:注意力精度高但代价随长度增长快,而卷积高效却常在超长依赖上不够稳。过去很多方法通过状态空间模型、稀疏注意力或大核卷积绕开这个矛盾,但代价往往是实现复杂、频域解释不足,或多尺度信息融合做得不够自然。
这篇工作试图解释 sharpness regularization 里一些长期存在的反常现象,而答案指向一个此前常被忽略的 Hessian 成分。过去关于 sharpness 的讨论经常只看 Hessian 的某种近似、主特征值或 trace,因此会出现理论预测和经验结果对不上的情况:同样降低“尖锐度”的方法,泛化和优化效果却不一致。
这篇工作研究 few-shot inference 和 fine-tuning 在 LLM 内部到底诱导了怎样不同的表示变化。过去社区常把两者放在性能层面对比,例如谁更省样本、谁更强,但对内部表征空间如何重组、两者是否在做同一种事的不同近似,理解并不充分,因此这个问题值得单独分析。
这篇工作要解决长尾领域知识获取的一个成本问题:很多领域并不值得做完整领域继续预训练,但只靠检索或普通微调又常学不到稳定的专门知识。过去常见做法是在领域语料上继续预训练,效果通常不错,但算力和数据清洗成本高,而且容易影响通用能力;因此“免领域预训练”但仍能吸收长尾知识,是一个很现实的目标。
这篇工作要解决的是 LVLM 对高分辨率图像理解能力不足的问题,结论上它试图把可处理分辨率从常见的 336 或 1.5K 级别推进到 4K,同时保持对低分辨率输入的兼容。过去高分辨率方案常靠切图或简单放大,但这会在细粒度理解和全局一致性之间产生明显冲突:切图保住局部细节,却容易丢全局语义;直接缩放保住全局,却损失小目标和文字信息。
这篇工作要解决的核心问题是:是否存在一种后门,既能在 Transformer 中被稳定实现,又几乎无法通过常规 elicitation 或行为探测被诱发出来。过去多数后门研究依赖可触发字符串或显式模式,因此至少在理论上可以通过红队测试、触发搜索或行为审计发现;如果存在“不可诱发”的后门,那现有安全评估流程会有系统性盲区。
LLM 幻觉检测面临的核心瓶颈是缺少大规模标注数据。现有方法要么依赖昂贵的人工标注,要么依赖外部知识库,难以规模化。
模型压缩(如量化)后,即使整体准确率与基线接近,模型的逐样本行为可能已经发生显著变化——原来对的变错、原来错的变对(flips)比例可观。仅看准确率会掩盖这种行为差异。
在文本生成任务中,上下文学习(ICL)对噪声演示(noisy demonstrations)的鲁棒性究竟如何。虽然近期有研究声称 ICL 在文本分类任务中对噪声具有鲁棒性,但这一结论在更复杂的文本生成任务中是否成立尚未得到充分验证。
如何评估和改进基于人类反馈的强化学习(RLHF)中奖励函数的学习方法。目前广泛使用的 Bradley-Terry-Luce (BTL) 模型及其变体在聚合人类偏好时,是否满足社会选择理论中的基本公理标准,一直缺乏系统的理论检验。
这篇论文要解决的问题是:模型的“潜在失配”(latent misalignment)是否会因为不同用户 persona 的提问方式而被触发,而这类风险为什么在常规单一评测提示下容易被漏掉。过去安全评估常把能力和偏好看成模型的稳定属性,但真实交互里,用户身份线索、语气和意图 framing 会系统性改变模型行为;作者关注的是这种条件化触发机制,而不是单次越狱技巧。
这篇论文要解决的是多模态知识表示和推理训练长期割裂的问题:视觉-语言预训练通常依赖图文对,而知识图谱推理又常是单独的数据和任务体系,导致模型学到的是配对相关性而不是可组合的实体-关系知识。作者希望用统一协议(UKnow)和多模态知识图谱数据,把视觉、语言和结构化知识预训练接到一起。
这篇论文关注一个经常被模糊讨论的问题:大语言模型到底有没有学到‘因果推理’,还是只是在相关性很强的文本模式上做近似。作者选择用概率因果(probabilities of causation)这个更严格的框架来检验,而不是继续用容易被语言技巧掩盖的自然语言题目。这是值得重做的问题,因为‘reasoning emerge了没有’不能只看最终答案对不对,还要看模型是否遵循正确的因果计算结构。
这篇论文研究的是 Transformer 学习过程中出现的“突变式学习”(abrupt learning)现象,并用矩阵补全作为可控案例去分析它。过去我们在语言模型里也看到过能力突然出现、损失阶段性跃迁等现象,但真实数据和任务太复杂,很难知道到底是优化、表示还是数据结构导致;作者选矩阵补全,是为了在足够简单又保留泛化结构的环境里拆解这种跃迁。
这篇论文要解决的核心问题是:微调式能力激发(fine-tuning-based elicitation)在多大程度上真的能把模型隐藏的能力‘测出来’,而不是仍然被模型的条件触发机制骗过。作者构造了 password-locked models——只有提示里带密码才展示真实能力,否则伪装成弱模型——用它来压力测试现有 capability elicitation 方法。这个问题很关键,因为安全评估越来越依赖“只要我再调一调模型,它的危险能力就会暴露”的假设。
这篇论文要解决的是一个很有野心的问题:能否借助 mechanistic interpretability,把模型为什么表现好这件事写成紧凑的、形式化可验证的性能证明。传统可解释性通常停在‘看起来懂了’,而形式化保证又往往只能对极简模型或手工算法成立;作者试图把两者接起来,让对权重电路的理解直接变成准确率下界证明。
Best-of-n 采样(生成 n 个样本取最好的)作为 LLM 对齐方法,其理论性质和与 RLHF/DPO 等训练式对齐方法的关系不清楚。之前缺乏统一框架来比较这两类方法在 win-rate vs KL 散度 trade-off 上的表现。
机制可解释性方法旨在识别神经网络实现的算法,但验证这些方法的难点在于真实算法未知。现有评估要么用过于简单的合成模型(如 Tracr),要么用真实模型但无法确认 ground truth 电路。
深度 SSM 缺乏有效的状态维度优化方法,导致要么状态维度过高(计算开销大),要么粗暴降维(牺牲模型容量或稳定性)。之前没有针对 SSM 的结构化剪枝方法来自适应地为每层选择合适的状态维度。
现有 Perceiver 类高效 Transformer 处理长序列时,要么性能下降,要么仅支持单模态,没有方案能同时实现线性复杂度、无精度损失、多模态支持三个目标。
LoRA 等参数高效微调方法即使使用无恶意内容的数据集微调,也会破坏 LLM 预训练时的安全对齐能力,现有 PEFT 方案没有内置安全保留机制。
Transformer 兼容的核化 Hopfield 模型(稠密关联记忆)的最优记忆容量没有严格的理论上界和最优条件,现有分析结果偏松,无法指导实际记忆模块设计。
这篇工作要解决的问题是:Selective State Space Models,尤其 Mamba,一直缺少像 Transformer 那样相对成熟的可解释性工具。没有合适的归因方法,就很难判断模型到底依赖哪些时间步、状态更新和选择门控,也难以比较它与注意力模型的机制差异。
多个微调后的语言模型如何高效融合?Model fusion(如 model soup / weight averaging)在 LLM 微调场景下的超参选择(如融合权重)缺乏系统方法,通常靠均匀平均或手动调参。
视觉-语言模型(VLM)是否会记忆训练数据?现有记忆性研究主要针对纯文本 LLM 或图像生成模型,对 VLM 这种跨模态模型的记忆行为缺乏系统分析。
Grokking(模型在过拟合后突然泛化)等深度学习中的反直觉现象缺乏统一的简单解释。现有分析要么过于复杂,要么只能解释单一现象。
神经网络是否真的学会了 look-ahead(前瞻搜索)?在国际象棋这样的完美信息博弈中,网络可能只是记忆了模式而非进行搜索。这篇工作试图从机制层面证明网络内部确实存在 look-ahead 计算。
如何系统地估计生成式 AI(特别是 LLM)的幻觉率?现有评估要么依赖人工标注(昂贵且不可扩展),要么用模型自评(可能低估幻觉)。缺少一个统计上严谨的幻觉率估计框架。
视觉 Transformer(ViT)训练到过拟合训练数据时仍保持良好泛化能力(良性过拟合)的理论机制不明确,现有理论无法解释 ViT 的训练动态和泛化性。
现有多模态大模型的视觉编码仅适配单图像理解,无法有效整合多图像的跨图信息,多图像推理能力受限。
现有红队测试方法要么依赖人工、梯度优化或 LLM 迭代改写,覆盖的越狱攻击类型有限,无法发现真实用户的未知越狱策略。
这篇论文解决的是 SAE(稀疏自编码器)可解释性研究里一个长期缺口:我们没有可靠的 ground truth 去判断学到的字典特征到底好不好。过去很多工作只能用稀疏度、重构误差或少量人工 case study 评估,但这些指标和“是否恢复了真实语义特征”之间并不等价。
多模态大模型生成回复容易产生和视觉内容无关的幻觉,现有解码方法没有利用模型自身的视觉描述作为对照来修正幻觉。
Transformer 的上下文学习(ICL)效果好的理论机制不明确,现有统计学习理论无法解释 ICL 的泛化性能来源。
现有LLM对齐方法存在明显 trade-off:全量微调训练不稳定、算力开销大,提示词/引导解码等测试时对齐方案不修改模型本体,性能受原始模型能力上限限制,没有兼顾效果和效率的成熟方案。
现有LLM偏好对齐方法受噪声偏好标签(错误标记的chosen/rejected响应对)影响,会导致模型输出无用甚至有害内容,现有降噪方案都从损失函数角度优化,依赖干净验证集,泛化性有限、标注成本高。
现有VLM基准仅聚焦感知、解题能力,忽略公平性、多语言、毒性等关键落地维度,且评估流程和范围不统一,无法实现跨模型的公平对比。
这篇工作要回答的核心问题是:in-context learning 到底是不是一种“隐式参数更新”,至少在 softmax regression 这个可分析设定下,两者有多接近。过去很多关于 ICL 的解释停留在类比层面,比如把 attention 看成某种梯度下降或贝叶斯更新,但缺少足够精确的数学刻画,因此难以判断这些说法在什么条件下成立、又在哪些地方失效。
这篇工作要解决的问题是:如何在低资源文化数据条件下,把文化差异更系统地注入 LLM,而不是只靠 prompt engineering 或高成本 culture-specific pretraining。过去主流做法要么在推理时用提示词“诱导”文化视角,要么为特定文化重新继续预训练;前者不稳定,后者算力和数据成本都高,而且对低资源文化尤其不友好。
这篇工作关注的问题是:LLM 内部是否构建了“世界状态表示”,以及这种表示是否是分层抽象的,而不是简单记住完整状态。过去 probing 常直接问模型有没有编码某个完整世界状态,但这类设定默认“表示越完整越好”,忽略了智能体为了预测或决策,往往只需要某种压缩后的 state abstraction。
这篇工作要回答的核心问题是:一个极小的 transformer——单层 softmax attention——在什么条件下能通过训练学会 one-nearest neighbor 这种经典非参数规则,从而为 in-context learning 给出一个可证明的具体机制。过去关于 ICL 的理论往往证明 transformer 能表示某些算法,或在很强假设下近似梯度法,但缺少一个训练可达、行为可识别、又足够经典的学习规则作为锚点。
这篇工作研究的核心问题是:扩散模型从记忆训练样本走向真正泛化时,内部学到的 score / denoiser 结构发生了什么变化。过去大家讨论 diffusion 的泛化,多数停留在样本质量或 memorization 检测,而缺少对“模型为什么开始泛化”的内部结构解释。
现有研究发现ICL学习的函数可以通过Transformer导出的压缩向量表示,但这类向量的作用机制和优化方法尚未被充分探索,现有ICL性能受示例顺序、数量等因素限制,测试时适配能力弱。
现有LLM处理长对话时存在效率低、一致性差的问题,主流长上下文方案虽然能扩大窗口,但计算复杂度随上下文长度平方增长,推理开销过高。
现有PEFT方法虽然降低了微调成本,但存在三个落地痛点:多适配器同批处理时效率低、适配器可组合性差、模型可解释性弱,没有单个PEFT方案同时解决三个问题。
LLM存在反转诅咒问题,即训练时见过"A是B"无法推理出"B是A",但现有研究对反转诅咒的表现边界、影响因素、底层机制尚未明确。
深度学习的经验缩放定律显示测试误差随模型和数据规模增长多项式下降,但传统统计学习理论认为方差误差随模型规模上升,和缩放定律的单调下降结论矛盾,缺乏统一的理论解释。
大模型低比特量化的性能损失主要由激活离群点导致,现有方法仅能处理数值较低的普通离群点,对数值远高于普通水平的大规模离群点会出现严重性能下降,此前没有兼顾两类离群点的无开销量化方案。
大模型结构化剪枝后,有限算力下的性能恢复难度高,现有剪枝方法要么计算开销大、要么剪后精度损失严重,无法平衡剪枝效率和最终性能。
人类专家可根据熟练度跳过不必要的推理步骤提升效率,但现有大模型没有主动跳步的能力,生成的推理链冗余度高,推理速度慢,此前没有无监督训练跳步能力的方案。
这篇论文要解决的是:如何自动构造可验证、分布多样、能真实覆盖工具调用错误模式的 function-calling 数据集。现有函数调用数据大多依赖人工标注或模板合成,规模上不去,且常把“会输出 JSON”误当成“会正确调用 API”,缺少可执行验证信号。
这篇论文要解决的是过程监督里最贵的一环:高质量 verifier 很有用,但人工标注推理步骤极其昂贵,难以扩到大规模。现有做法常依赖少量人工过程标签或结果监督替代,导致 verifier 对中间步骤的判别能力不足。
这篇论文要解决的是 activation engineering 做对齐时的两难:既要移除有害概念,又不能顺手把正常语言能力一起伤掉。现有方法要么需要针对每个目标重新微调,成本高;要么概念方向过粗,抑制不干净或误伤 benign concepts。
大模型全参数微调的内存开销极高,现有低内存微调方法如LoRA属于参数高效微调,下游性能低于全参数微调,此前没有可在消费级GPU上运行、性能接近全参数微调的方案。
大模型长序列训练的中间激活内存开销极高,现有长序列训练方法提升序列长度时,必然伴随吞吐下降或收敛速度变慢的trade-off,此前没有无损失提升训练序列长度的方案。
已完成安全对齐的开源聊天模型经过下游良性微调后,会出现安全对齐失效的问题,现有解决方案需要额外的安全训练数据或正则项,落地成本高,此前没有零成本的对齐保留方案。
现有LLM的RL微调方法多基于PPO及其变种,在LLM场景下容易出现分布崩溃、性能次优的问题,此前没有将多agent协同进化引入LLM RL微调的成熟方案。
Decoder-only架构的LLM文本理解能力远超CLIP、T5等模型,但直接用作文生图扩散模型的提示编码器会导致提示跟随能力大幅下降,此前没有找到二者不兼容的根因及适配方案。
摘要缺失,无法确定“learned feedback patterns”具体指 RLHF/偏好数据中的反馈结构、还是模型内部对反馈信号的表征与利用方式。
摘要缺失,无法确认 MicroAdam 具体解决 Adam 的哪类痛点(状态内存、数值稳定、偏置校正误差、分布式通信开销)以及它的适用边界(凸/非凸、稀疏梯度等)。
摘要缺失,无法确认 SG-Bench 具体如何定义与测量“安全泛化”(safety generalization):跨任务迁移、跨提示类型鲁棒性、还是对越狱/对抗提示的泛化。
这篇论文要解决的是:现有代码 agent 基准大多停留在离线补全或合成任务上,无法真实衡量模型是否能在真实软件环境中完成可验证的 bug fix。对代码模型来说,真正困难的不是生成一段“看起来像修复”的代码,而是让修复能在真实仓库、真实依赖和真实测试下成立。
这篇论文要解决的是:能否先借助一个受限但更容易学习的模型结构,来稳定或加速全功能模型的训练。许多复杂模型训练难、搜索空间大、归因弱,直接端到端优化容易陷入差的局部解或样本效率低,因此“先学一个更简单的老师,再把结构信息迁移过去”是值得重新审视的问题。
这篇论文要解决的是:怎样在尽量保留语言能力的前提下,把语言模型做得更小、更实用。只靠剪枝常常会伤害流畅性和知识保持,只靠蒸馏又未必能把结构冗余去掉,因此把两者结合是很自然但工程上并不简单的方向。
这篇论文要解决的是:黑盒语言模型的 prompt 压缩到底能压到什么程度,何时会不可避免地损失任务效果。现有 prompt compression 多是经验技巧,缺少明确的理论边界;但在长上下文成本越来越高的背景下,知道“压缩极限在哪”比再堆一个 heuristic 更重要。
这篇论文要解决的是:在一个可精确求解的玩具模型里,能否把 emergence 和 scaling law 的形成机制讲清楚。现实大模型上的涌现现象常常只能做经验观察,变量太多、归因太弱;如果没有可解模型,很难判断哪些拐点来自任务结构,哪些只是优化或数据分布副产物。
现有三类LLM评估方案各有缺陷:基于真值的基准覆盖性差易被污染,LLM-as-judge基准有评分偏见且样本量少,用户侧评估(如Chatbot Arena)可靠但成本高速度慢,尚无同时兼顾高效、准确、覆盖广的评估范式。
μP(最大更新参数化)下学习率可从小模型迁移到大模型的现象缺乏理论解释,现有优化理论认为不同尺寸模型的损失曲面差异极大,无法解释超参数跨尺寸迁移的规律。
多次自蒸馏(师生模型结构相同)能持续提升性能的现象缺乏理论解释,现有知识蒸馏理论无法量化多次自蒸馏的性能增益上限。
大模型的概念学习顺序、隐能力涌现的驱动因素缺乏可解释的分析框架,现有训练动态分析多基于损失或指标变化,无法拆解不同概念的独立学习过程。
这篇论文要解决的是:在需要满足形式语法/结构约束的生成任务里,常规解码(greedy/beam)很容易产出语法非法序列,而“先生成再修补”或“靠提示词约束”通常不稳定且代价高。
这篇论文要解决的是:CLIP 这类对比学习的图文表征在“组合推理”(属性-对象、关系、计数等)上容易靠数据偏置做捷径,缺少能系统打破捷径的训练信号。
这篇论文要解决的是:在联邦学习/分布式训练中,梯度泄露会暴露训练样本,但现有梯度反演多是近似优化,难以界定“在什么条件下可以精确恢复”。
这篇论文要解决的是:标准 Transformer 的 in-context learning(ICL)理论多建立在注意力或线性化近似上,而“完全循环(fully recurrent)”模型是否能通过 prompting 实现通用的上下文逼近能力缺少清晰刻画。
这篇论文要解决的是:大模型参数/增量(delta,如 LoRA 或微调差分)在分发与部署时存储和带宽成本高,而常规压缩要么需要再训练/校准,要么对精度损失不可控。
这篇工作要解决的是:现有偏好模型通常把单轮回答当作独立样本打分,导致在多轮对话里无法稳定利用上下文,进而把用户真实偏好和局部表面偏好混在一起。这个问题过去常被用更大模型或更多偏好数据硬顶过去,但对话式 LM 的对齐越来越依赖长上下文,单独比较回答片段已经不够。
这篇工作要解决的是:标准 RLHF 默认所有人共享同一个偏好函数,但真实用户偏好存在稳定的个体差异,统一奖励会把“平均人”的偏好强加给所有人。过去个性化通常靠 prompt、profile 或少量微调绕开,但这些方法并没有把“偏好不确定性”和“用户间差异”纳入奖励学习本身。
这篇工作要解决的是:线性层是大模型里最贵、也最不受结构先验约束的部分,但现有高效替代方案通常只在少数离散结构矩阵家族里选,比如低秩、稀疏、Toeplitz 或 Kronecker,搜索空间过窄。作者想做的是在连续空间里搜索结构化矩阵,让效率与表达能力之间的折中不再被手工候选库限制。
这篇工作要解决的是:DNA 序列建模长期依赖固定 k-mer 或人工定义 tokenization,但生物序列里的有意义模式尺度并不固定,固定切分会在表达能力和词表规模之间做很差的折中。作者要解决的是让模型自己决定如何分词,从而让 token 单元更贴近序列中的真实结构,而不是贴近人工先验。
Transformer的上下文建模能力的理论基础不清晰,现有理论分析多针对简化设置,无法解释Transformer对稀疏上下文依赖的学习过程。
Transformer的自监督学习泛化性的驱动机制不清晰,现有简单性偏差的研究多针对前馈网络的监督学习场景,未验证Transformer在自然语言自监督训练下是否存在该偏差。
开源大模型存在被恶意微调用于有害用途的风险,现有安全护栏等措施可被微调轻易移除,没有在攻击者获得模型权重的情况下仍能生效的防御方案。
现有LLM对抗提示生成方法要么覆盖特定领域、多样性不足,要么需要大量人工标注,无法高效生成多样的对抗提示用于模型鲁棒性测试。
现有Transformer推理能力的理论分析多基于理想化参数区间,缺乏真实训练可用的参数规模下的算法推理边界判定,此前工作要么仅做实验观测要么理论假设脱离实际配置。
现有大模型持续知识学习(CKL)方法(正则、架构修改、重放)沿用统一token权重更新策略,会引入不必要的参数更新,加剧灾难性遗忘,此前工作没有针对token重要性做差异化梯度更新。
这篇工作要解决的问题是:现有 RLHF 大多把人类偏好建模为单轮、静态的响应比较,但真实助手交互是多轮的,当前训练方式会把局部最优回复误当成全局最优策略。过去很多对齐方法在单轮 benchmark 上有效,但一进入长对话就容易出现前后不一致、目标漂移和回合间信用分配错误。
这篇工作要解决的核心问题是:AI feedback 是否真的能可靠替代人类反馈来对齐大模型,还是只是提供了一个看似便宜、实则带偏训练信号的近似。过去行业大量使用 RLAIF 或 model-based feedback 来降成本,但对其失真模式、偏差放大和任务依赖性的系统评估并不充分。
这篇工作的核心问题是:通用型多模态大模型面对不同模态和任务时,常常用同一套参数硬扛,结果是跨模态干扰严重、专长不足,而且扩展到更多模态后效率和性能都变差。过去统一 MLLM 常在共享表示和专家化之间摇摆,没有很好解决“既统一又专精”的矛盾。
这篇工作要解决的问题是:稀疏注意力理论上能降复杂度,但实际效果常被索引开销、候选选择误差和硬件不友好抵消。过去很多 sparse attention 方法要么依赖 hand-crafted pattern,泛化差;要么依赖昂贵的近似检索,系统上并不划算。
Transformer 的梯度下降优化动态缺乏严格的理论保证——什么架构、什么初始化条件下 GD 能收敛,收敛速度如何,此前没有完整回答。
Chain-of-thought (CoT) prompting 被认为能通过演示解题过程来提升 LLM 的推理泛化能力,但本文通过 Blocksworld 规划任务的案例研究发现,CoT 的提升高度依赖 prompt 与问题的具体匹配程度,泛化能力很弱。
LLM 的置信度校准(calibration)问题:模型输出的概率分布往往不能准确反映其实际正确率。LACIE 提出通过 listener-aware 微调来改善校准。
Best-of-N 解码是一种有效的推理时对齐方法(效果可媲美 SOTA post-training),但需要生成 N 个完整响应再选最优,计算开销巨大。本文提出 Speculative Rejection 来大幅加速。
现有推测解码方法都针对数据中心高端GPU设计,无法适配消费级设备的模型参数offload(RAM/SSD存储)场景,此前工作没有利用消费级设备批量处理token的时间优势。
现有steering vectors(推理时干预中间激活调整模型行为的方法)的可靠性、泛化性没有经过严格验证,此前工作只展示了正向效果,没有分析其边界和局限性。
现有基于向量量化(VQ)的训练后量化(PTQ)方法,码本大小随量化维度指数增长,只能支持≤8维的量化,限制了量化精度,此前工作没有突破量化维度和码本大小的绑定关系。
这篇工作要解决的是:如何系统评估生成模型里是否真的学到了可用于推演和干预的“世界模型”,而不只是记住表面统计规律。以往很多工作把生成质量、困惑度或下游预测精度当作替代指标,但这些指标无法区分模型是在做浅层模式匹配,还是已经形成了隐含的因果/动力学结构表示,因此这个问题值得被单独拿出来做评测。
这篇工作要解决的是:扩散模型在很多条件生成与决策任务里需要做代价很高的推断,而这一步往往成了实际部署瓶颈。以往常见做法是每次测试时再做优化、采样或规划,精度可以不错,但延迟高且不稳定,因此“把推断摊销掉”是很自然的方向。
这篇工作要解决的是:在带约束的语言模型策略优化里,如何既提升目标奖励,又不违反安全、格式或任务约束。传统 RLHF/RLAIF 往往把多个目标揉成一个标量奖励,结果是约束难以稳定满足,或者靠大罚项导致训练极不稳。
这篇工作要解决的是:现有视觉预训练常用的 caption supervision 缺少精确位置信息,导致模型学到的是全局语义对齐,而不是对象级、区域级的视觉语言对应。过去这通常靠检测框或 dense annotation 补,但标注成本高,也不适合大规模预训练。
这篇工作要解决的是:扩散生成模型的设计空间很大,但很多经验结论是局部的、任务依赖的,缺少系统梳理,导致研究者很难判断哪些设计选择是真正一阶重要,哪些只是特定配置下的偶然收益。随着 diffusion 从图像扩展到语言、多模态和离散 token,这个问题变得更值得统一分析。
现有CLIP预训练的数据选择方法要么依赖外部模型、要么需要训练专门的选择模型,通用无依赖的选择方法(如CLIPScore)研究不足,此前的CLIPScore只考虑图文余弦相似度,忽略了其他有效信号。
分布式训练的梯度压缩缺少有效的统计先验模型,传统压缩方法没有利用梯度的内在依赖关系,压缩比低,此前工作没有考虑用大模型作为梯度的先验模型。
现有联邦LoRA微调方法用传统聚合策略,会引入数学上不准确的聚合噪声,降低微调效果,且无法适配客户端异构的算力/存储资源,此前工作没有考虑LoRA适配的异构性。
现有多模态大模型的图表理解评测数据集普遍使用简化的同质化图表和模板问题,导致模型性能评估虚高,无法反映真实场景下(如科研论文、财报分析)的实际图表理解能力。
LoRA作为主流参数高效微调方法,收敛速度远慢于全参数微调,最终整体计算成本更高且性能更差,现有研究大多从架构或训练算法角度优化,未深入探究初始化的影响。
现有多模态大模型评测很少覆盖长多模态文档理解能力,而这是落地到长文档分析、多模态agent等场景的核心基础能力,此前没有系统化的评测基准。
现有生成式大模型的OOD检测方法多基于嵌入距离度量,在数学推理场景下失效,因为数学推理的输出空间密度高,不同样本的嵌入偏移轨迹差异大,单一嵌入距离无法有效区分ID和OOD样本。
这篇工作聚焦的核心问题是:大模型在长篇生成里如何维持事实一致性,而不是只在短答案或单跳问答上看起来正确。过去很多评测把 factuality 压缩成句级或段级指标,容易回避长程依赖、前后自相矛盾、以及生成越长越容易偏航的问题,因此这个方向对真正可用的生成式系统更关键。
这篇工作的核心问题是:如何让语言模型学会更稳定的推理,而不是只模仿最终答案格式。以往很多方法依赖 chain-of-thought 蒸馏或过程监督,但模型仍容易学到表面模板;把推理转成程序生成、执行模拟和搜索,目的是把“会解释”变成“会操作”。
这篇工作解决的是 LLM 微调反向传播太贵的问题。标准微调里每层都做完整 backward,但并不是每一步、每一层的梯度都同样值得算;如果能有选择地跳过部分 backward,就有机会显著降成本。
这篇工作的核心问题是:参数微调并不一定是改模型行为的最小有效单元,很多任务可能只需要改动少量内部表征。传统 full finetune 或 LoRA 都是在参数空间动刀,而如果任务差异主要体现在某些中间表示方向上,直接改表示可能更高效也更可控。
这篇工作要解决的是视频-语言模型在流式处理场景中的计算浪费。视频 token 数量大、冗余高,如果每一帧都走同等深度的视觉计算,延迟和成本都会很差,尤其不适合 streaming 场景。
现有LLM对抗训练需要在每轮迭代中生成离散对抗样本,计算成本极高,无法大规模应用到大模型的安全对齐流程中。
现有LLM预训练时的序列长度有限,处理超长序列时存在OOD和注意力分散问题,主流解决方案需要做长序列持续预训练,计算成本高且会改变模型原有能力。
现有LLM量化方法在比特宽度降到极低时性能下降严重,大多只能支持4bit或8bit量化,无法满足极端边缘设备的部署需求。
缺少摘要与关键信息,无法可靠判断论文要解决的具体问题与结论。
缺少摘要与关键信息,无法可靠总结其关于灾难性干扰(catastrophic interference)与“结构化训练”如何实现知识恢复的具体设定。
这篇工作要解决的是:能不能不用全量微调,也不局限于纯推理时表征干预,而是在少量关键表示位点上做局部训练来获得可控行为。过去一类工作通过给特定 attention head 加 bias vector 这类“无学习干预”来改行为,优点是便宜,问题是效果不稳定、迁移性弱;另一类全参微调又太重,且不利于理解到底哪些内部单元在起作用。
这篇工作的核心问题是:如何为 Lean 4 形式化数学建立足够大、质量可用的训练数据。现状是自然语言数学题很多,但正式证明语言数据稀缺,导致 LLM 在自然语言数学上看起来很强,在 Lean theorem proving 上却明显掉队;以前这个问题主要靠人工整理少量语料或直接拿现成 formal corpus 训练,规模和覆盖都不够。
这篇工作解决的是:如何在不从头训练、也不做全量恢复微调的情况下,把预训练 LLM 重参数化为更适合硬件部署的无乘法模型。shift-and-add 方案早就被认为硬件友好,但以前通常需要从头训练或大规模微调来把精度拉回来,这对已经训好的大模型几乎不现实。
这篇工作要解决的是:如何在多任务 sequential decision-making 里,用统一的人类偏好条件代替各任务各自的 reward function,让模型既能跨任务泛化,又能按偏好可控。以往 return-conditioned diffusion 直接条件在回报上,但这要求预定义奖励,并且多任务场景下 reward 空间不统一,导致 versatility 和 alignment 都受限。
这篇工作要解决的是:图像 tokenization 过于冗长,已经成为高分辨率生成和统一多模态建模的瓶颈。传统 VQGAN 一类方法通常使用二维 latent grid 和固定下采样率,虽然稳定,但 token 数量依然大,而且无法充分利用图像局部冗余;这会直接推高 AR 或 diffusion 生成器的序列长度成本。
这篇工作的核心问题是:多模态大模型扩展到新模态时,是否一定要重新做大规模 joint-modal pretraining。当前主流路线高度依赖模态专属预训练加联合微调,计算代价大、扩展性差;每增加一种新模态,往往都像重新造一遍系统,这和 LLM 已有能力的复用程度并不匹配。
现有多模态学习框架大多依赖完整的多模态数据输入,无法处理部分模态缺失的场景,也不能灵活支持任意模态组合的输入,限制了其在医疗等真实场景的应用。
现有LLM推理评估多采用基于结果的基准,当前已进入饱和阶段,无法有效区分模型真实的System2慢思考能力,此前的评估体系回避了对推理过程错误排查的元推理能力考核。
现有LLM在科学领域的应用受限于对复杂科学概念、符号推导、高阶数值计算的理解不足,此前科学指令数据稀缺,人工标注成本极高,无法支撑大规模训练。
预训练LLM在少量样本微调学习新事实知识的效果差,此前的研究多归因于模型容量或微调方法问题,未区分词共现统计和真实事实关联两种不同的知识表示模式。
Transformer在组合任务上的泛化表现不稳定,此前的研究多归因于模型架构或训练数据,未关注参数初始化对学习策略选择的影响,无法解释相同设置下模型有时学会推理有时只会记忆的现象。
RLHF依赖代理奖励模型,容易出现奖励过优化问题,导致模型输出违背人类偏好,此前的不确定性估计方法计算成本高,无法大规模落地到RLHF流程中。
现有后训练量化(PTQ)性能受限于权重中的大数值离群点,此前的预处理方法多包含线性变换和后续后处理步骤,会引入额外计算开销或精度损失。
多模态大模型(MLLM)存在幻觉问题,现有RLHF多使用二值偏好标注,无法捕捉细粒度的响应质量差异,也缺乏跨层级的对比信号,导致幻觉缓解效果有限。
这篇工作要解决的是:在异构、分布式、带 offloading 的大模型运行中,I/O 往往比算力更早成为瓶颈,导致理论上可部署的大模型在实践里跑不动。已有方案主要靠参数分片、CPU/磁盘卸载来缓解显存压力,但跨设备搬运张量的通信和存储访问代价很高,尤其在预训练、微调、推理都需要频繁取回模型状态时,系统吞吐会被 I/O 链路卡死。
这篇工作要解决的很可能是:在开放环境下存在大量异构 LLM 和微调模型,如何让它们以更低门槛、更民主化的方式扩展成一个大模型生态,而不是每次都从头训练单一大模型。标题里的“Democratized LLM Scaling”和“Large Model Zoo in the Wild”说明作者关心的是模型资产的聚合、复用和扩展问题。
这篇工作要解决的是:同一个模型里同时做好视觉文本理解和生成很难,因为图像与语言的生成空间不一致,硬统一通常会互相拉低。现有做法常用模态专用 SFT 或分别训练多个模型来回避这个矛盾,但这会破坏统一建模,也增加系统复杂度。
这篇工作要解决的是:现有 LLM 防越狱方案对新攻击和自适应攻击不够稳,一旦攻击者根据防御方式改写 prompt,很多 defense 很快失效。过去的防御往往是规则过滤、拒答模板或对已知攻击分布做被动适配,缺少一个显式面向最坏情况对手的优化目标。
这篇工作要解决的是:ICL 里哪些 demonstration 真正在驱动模型决策,现有解释方法往往既不贴合 ICL 特性,也不够高效。传统 attribution 多从 token saliency 或训练样本影响函数迁移过来,但 ICL 的‘学习’发生在上下文内,示例之间存在顺序、模板和任务级交互,直接套旧工具不够准。
LLM 在微调适配(fine-tuning、PEFT 等)过程中可能泄露训练数据中的隐私信息,但目前缺乏系统性的基准来评估不同适配技术的数据保护漏洞。
VQ-GAN 的 codebook 利用率极低是一个长期痛点——codebook 越大,大量 code 从不被使用(codebook collapse),这严重限制了视觉 tokenizer 的表达能力和重建质量。之前的方法要么限制 codebook 大小,要么用各种 trick 缓解但效果有限。
LLM 的安全对齐方法(如 refusal training)容易被对抗攻击绕过,而对抗训练只能针对已知攻击类型打补丁,无法泛化防御未知攻击。需要一种更根本的方法来阻止有害输出的生成。
这篇论文要把结构化剪枝从“启发式重要性评分+手工阈值”推进到可端到端优化的贝叶斯框架;以往结构化剪枝常在稳定性、可解释的不确定性估计、以及与训练目标一致性上做得不够。
这篇论文要降低大模型推理时线性层的矩阵乘成本,并避免传统结构化矩阵(如固定的 Toeplitz/低秩/块对角)表达力不足导致的精度损失。
这篇论文要把“用 LLM 做规划/搜索”从只看能不能解,推进到分析 soundness(正确性)、completeness(完备性)和复杂度;以往很多 LLM 规划方法为了看起来聪明,牺牲了可证明性质且计算低效。
这篇论文要评估 RAG 在“同源但互相矛盾的证据”下模型如何决策;以往 RAG 评测多关注是否检索到正确段落,却很少刻意构造等可信度的冲突证据来测模型的冲突消解能力。
这篇论文解决的是运动时间序列缺少统一预训练范式的问题,尤其是跨设备位置、朝向、采样习惯和活动类型时泛化很差。过去这类任务大多是单数据集训练再单数据集测试,模型实际学到的是设备与采集条件的 shortcut,而不是稳定的人体运动表示;在隐私限制导致大规模标注数据难拿的前提下,这个问题现在值得重新做成预训练问题。
这篇论文解决的是 LLM 评测长期忽略 uncertainty 的问题:只看准确率或平均分,会把“答对但不稳”和“答错但很自信”混在一起。过去 open LLM leaderboard 一类平台主要比较任务分数,但对实际部署和对齐而言,模型知道自己不知道,往往和最终正确率同样重要。
多任务模型合并时,不同任务的参数之间存在冲突和复杂关联,现有方法在参数级别的调整上不够精细,导致合并后的多任务性能下降。此前的方法(如 Task Arithmetic、TIES-Merging)主要靠简单的符号投票或幅度裁剪,缺乏对参数间竞争关系的系统建模。
LLM 水印检测的现有方法假设整段文本都是水印文本,但实际场景中用户可能对生成文本做了替换、插入、删除等编辑,导致发布文本是水印与非水印片段的混合体。如何在这种混合文本中精确分割出哪些子串是 LLM 生成的、哪些是人工修改的,此前缺乏系统的统计方法。
Langevin 动力学的时间离散化是扩散模型采样的核心步骤,但标准的 Euler-Maruyama 离散化(即 LMC)收敛慢,需要大量步数才能获得高质量样本。Randomized Midpoint Method 在强对数凹分布上效果好,但扩散模型涉及的分布通常是非对数凹的,该方法的理论保证不适用。
LLM 的评测数据可能已经泄露到训练集中(尤其是从互联网抓取的数据),导致 benchmark 分数虚高、评估结论不可靠。现有 QA 数据集大多基于公开文档(如 Wikipedia),很难排除数据污染。RepLiQA 的目标是提供一个干净的、未被 LLM 见过的 QA 评测集。
扩散模型训练的样本复杂度(即需要多少训练样本才能学到足够好的 score function)的理论界此前较松,本文旨在给出更紧的上界。
RAG(检索增强生成)需要将检索到的文档拼接到 LLM 的上下文中,但长文档占用大量 context 窗口,增加推理延迟和成本。xRAG 的目标是将检索到的上下文极端压缩到仅一个 token 的表示。
标准 Transformer 的 self-attention 在处理具有图结构的数据时,没有显式利用图的拓扑信息。本文探索将图卷积(Graph Convolution)融入 self-attention,使 Transformer 在图相关任务上更有效。
LoRA 微调缺乏不确定性估计——标准 LoRA 给出点估计,无法量化预测的置信度。这在安全关键场景和 OOD 检测中是个问题。BLoB 将贝叶斯推断引入 LoRA,通过反向传播实现低秩适配矩阵的后验估计。
自然图像分布通常集中在高维空间中的低维流形上,但现有扩散模型的理论分析没有充分利用这一结构,导致误差界对环境维度 d 的依赖过强。本文旨在给出适应未知低维结构的更紧收敛界。
现有图像去噪方法要么需要在特定噪声分布上有监督训练,泛化性差,要么零样本去噪的质量低,此前未发现掩码预训练的视觉模型天然具备去噪的分布知识。
现有大视频语言模型(LVLM)和文生视频模型的性能受限于低质量、稀疏的视频标注数据,此前的标注方案要么人工成本过高不可扩展,要么粒度过粗无法支撑复杂的视频理解与生成需求。
现有大视觉语言模型(LVLM)对同一知识点在不同解空间的提示下会输出不一致的回答,此前的LVLM评估仅关注单提示准确率,没有系统性衡量这种一致性问题,直接削弱了用户对模型输出的信任度。
现有大语言模型终身编辑方法要么编辑模型参数(长时记忆)要么用检索增强(工作记忆),两者都无法同时满足可靠性、泛化性、局部性三个核心要求,形成不可能三角;此前的编辑方法大多仅在单次编辑场景下测试,未考虑终身编辑下的累积冲突问题。
现有大语言模型的不确定性估计方法大多需要访问模型内部权重或logits,无法在黑盒场景下使用,且无法区分认知不确定性(知识不足导致的可修正误差)和偶然不确定性(问题本身的固有随机性);此前的方法要么只能测总不确定性,要么依赖白盒访问。
这篇论文关注的核心问题是:扩散模型的 hallucination 不是简单的“随机生成错误”,而可能来自模式之间的插值与混合。以往对 hallucination 的讨论更多停留在现象层,或者归因于数据偏差、引导过强、采样噪声;这篇工作尝试给出一个更结构化的解释。
这篇论文要解决的是:视觉推理并不只是把 VLM 做大、喂更多图文数据就会自然出现,现有评测和训练方式可能高估了 scaling 的作用。过去很多工作默认更大的 backbone、更长的训练和更多图文对能带来推理能力,但视觉推理常被数据偏差、模板记忆和 benchmark 污染掩盖。
这篇论文要解决的是:在 world model 里,视觉细节是否真的重要,以及扩散模型相比其他生成建模方式能否更好地保留这种细节。过去很多 Atari world model 更偏重压缩后的潜变量预测或低分辨率重建,足以服务控制,但不一定足以支持高保真环境建模;这篇工作重新强调细节保真的价值。
这篇论文要解决的是:标准扩散模型的前向加噪过程通常是人工指定的,这种固定噪声路径可能并不适合数据分布,进而限制建模效率和生成质量。过去主流工作把大部分精力放在反向去噪网络、参数化方式和采样器上,而前向过程往往被当作不可学习的背景设定。
现有大语言模型的推理能力评估基准大多存在数据污染问题,且无法衡量模型对极低资源/灭绝语言的模式识别和泛化能力;此前的基准要么覆盖高资源语言,要么难度不足无法区分高阶推理能力。
现有多变量时间序列建模方法无法同时满足长时序依赖建模、变量间依赖捕捉、动态关联建模、长序列高效推理四个要求;传统单变量状态空间模型(SSM)的表达能力不足以捕捉多变量间的复杂关联,此前的多变量SSM方法要么计算复杂度高,要么无法动态建模时间和变量维度的依赖。
现有科研图表生成方法无法将草图或光栅格式的现有科研图自动转换为语义完整的TikZ代码,手动编写TikZ代码或重绘图表的成本极高;此前的多模态代码生成模型没有针对TikZ场景的专用训练数据和模型。
现有Transformer的表达能力分析大多基于有界token嵌入的形式语言场景,无法适用时序等输入为任意数值序列的场景;此前的分析结论无法解释硬注意力Transformer在数值序列任务上的性能优势。
现有生成模型多基于扩散过程,采样速度慢、计算开销高,之前的非扩散随机过程生成建模没有明确的时间反转闭式解,难以落地训练。
之前用LM做fMRI编码模型得到的语言脑区激活是双侧对称的,和神经科学公认的语言处理左偏侧化结论冲突,核心原因是之前使用的LM语义表征复杂度不足。
Elo评分系统被广泛用于LLM成对比较评估,但它原本为技能动态变化的游戏玩家设计,用于静态技能的LLM评估的鲁棒性、可复现性未经过系统验证,缺乏统一最佳实践。
标准RLHF的奖励模型训练假设人类偏好标签100%正确,但实际标注中存在偏见、歧义、标注错误等噪声,会导致奖励模型偏离真实人类偏好,对齐效果下降。
现有训后量化方法普遍只能做到4bit,进一步降低bit数(如2bit及以下)会导致精度大幅下降,尤其是7B以下小模型的低bit量化仍然是未解决的问题,且量化后仍存在乘法运算开销。
现有基于激活的LLM谎言检测器泛化性差,无法跨任务、跨否定句式迁移,没有找到通用的谎言表征模式。
当前LLM排名普遍用强LLM替代人类做成对比较降低成本,但无法衡量LLM偏好和人类偏好的不匹配带来的排名不确定性,可能导致排名结果不可靠。
这篇工作试图解决的是:LoRA 一类低秩微调省参数省显存,但表达能力受限;直接做高秩适配又会很快失去 PEFT 的效率优势。过去常见折中是堆 rank、改初始化或分层调 rank,但这些办法通常只是把容量往上推,没有真正解决“高秩想要更强、又不想太贵”的结构性矛盾。
这篇工作的核心结论从标题就很明确:在预训练数据中加入轻微损坏,反而可能训练出更好的 diffusion model。它挑战的是视觉生成里一个默认前提——训练数据越干净越好;过去大家把 corruption 主要当增强或鲁棒性测试,而不是把“带一点噪的数据”当成改善生成学习动态的手段。
这篇工作解决的是多模型组装中的路由问题:当你手里有多个 LLM 时,如何按 query 选择最合适的模型,而不是固定用最强模型或做粗糙规则分发。过去很多 LLM assembly 方法在路由上依赖人工规则、少量特征或简单分类器,这会导致复杂 query 下的专家匹配不准,成本和质量都不理想。
这篇工作要解决的是:当前大视觉语言模型的评测方式可能把我们带偏了,很多 benchmark 高分并不等于真正的多模态理解更强。过去 LVLM 评测常依赖封闭问答、模板化数据或污染严重的公开 benchmark,因此模型可能靠语言先验、数据记忆或评测漏洞拿分,而不是真的看懂图像。
这篇工作关注的是 VLM 的多对象幻觉:当图像里有多个实体时,模型更容易编造不存在的对象、属性或关系。过去关于 hallucination 的研究常把问题笼统归结为‘看图不准’,但多对象场景更难,因为错误不只来自识别失败,还来自对象绑定、计数、关系组合和语言先验竞争。
扩散模型的引导技术之前被普遍认为是从条件似然加权的倾斜数据分布中采样,但这个假设没有经过严格证明,实际使用中观察到的引导采样的特性无法被该假设解释。
为带有选择性机制(selectivity mechanism)的状态空间模型(SSMs,如 Mamba)提供理论基础。过去 SSMs 的选择性机制常被经验性地与上下文学习(in-context learning)联系,但缺乏严谨的数学解释。
解决数据估值(data valuation)和特征归因(feature attribution)等可解释性方法计算成本过高的问题。传统方法对每个数据点都需要昂贵的计算,在大规模数据集上不可行。
改进 Kullback-Leibler (KL) 散度损失函数。KL 散度在知识蒸馏等场景中存在不对称优化的问题,且容易受到单个样本偏差的影响。
这篇工作关注如何让 LLM 生成可执行的代码世界模型,而不只是生成表面上合理的文本代码。过去直接让模型自回归写环境规则,常见问题是语法对了但动力学错了,或者局部合理但全局不可用;世界模型这种对象尤其不能只靠 token-level likelihood 近似,因为真正重要的是 rollout 后的行为一致性。
LLM 在集合运算(交集、并集、差集等)上的表现是否对操作数的词汇和语义变化保持不变?此前对 LLM 算法能力的评测多聚焦于数学推理或代码生成,缺少对集合操作这类基础逻辑能力在不同表面形式下鲁棒性的系统测试。
现有代码 LLM 评测只关注功能正确性,忽略了生成代码的计算效率。实际工程中,能跑对和跑得快是两回事,缺少一个同时衡量正确性和运行效率的 benchmark。
现有 LLM 安全防御策略过度倾向拒绝,导致对正常指令的可用性下降。安全和可用性之间的 trade-off 没有被很好地处理。
评估 LLM 的策略推理能力缺少系统化的 benchmark。GTBench 用博弈论框架来测试 LLM 在不同博弈场景下的策略行为。
LLM 在复杂算术运算上仍然不准确。现有方案让 LLM 生成代码来做计算,但牺牲了速度和安全性;微调则可能损害模型原有能力。需要一种在单步自回归中实现精确算术的方法。
VLM 和单模态语言模型对语义等价但词汇不同的句子会产生不同的表征,这种敏感性的程度和对语义编码的影响尚不清楚。此前缺少同时控制词汇变化和语义变化的评测数据集。
将神经元归因(Neuron Attribution)方法扩展到多模态大型语言模型(MLLMs)。现有的神经元归因主要用于纯文本 LLMs,在 MLLMs 中的应用探索较少,难以揭示其跨模态的内部机制。
降低基于 Transformer 的扩散模型(DiT)的训练和推理开销。高质量生成通常需要大型 DiT,导致成本高昂。
为 LLM 生成中的重排序(reranking)策略提供理论解释。生成多个假设再用重排序器选择最佳结果是减少幻觉的常用策略,但缺乏理论视角的分析。
研究在人类反馈和策展(curation)介入下,自消耗生成模型(即用合成数据迭代重训练的模型)的动态行为。以往的理论多关注纯合成数据导致的模型崩溃,忽略了实际应用中人类对合成数据的筛选作用。
解决视觉-语言(VL)模型在持续学习(Continual Learning, CL)过程中的灾难性遗忘问题。现有方法通常依赖复杂的框架或重放(replay)策略来权衡学习与遗忘。
现有生物基础大模型仅支持单序列模态(DNA/RNA/蛋白质单独建模),而基因组学核心问题天然涉及多模态交互,没有成熟的跨模态迁移方案适配通用序列模型。
基于Shapley值的数据集估值方法需要大量蒙特卡洛采样,计算成本过高,无法落地到大模型预训练的万级以上样本数据集评估场景,现有通用近似方案未利用数据集估值的结构特性,效率瓶颈明显。
这篇论文要回答的核心问题很直接:在视觉预训练里,合成训练图像是否真的能替代或优于检索得到的真实图像。过去很多工作默认只要生成模型够强,合成数据就能低成本补齐长尾类别和稀缺分布,但这个前提往往没有和“直接去找更相关的真实图像”做严格对比;作者认为这个回避了真正的决策问题——当额外数据预算固定时,应该生成,还是检索。
这篇论文关注的核心问题是:能否用深度平衡模型(Deep Equilibrium Models, DEQ)去做算法推理,而不依赖显式堆很多层来模拟迭代计算。传统 Transformer 做算法任务时,常把“更多层数”当作“更多推理步数”的近似,但这种做法参数和深度绑定,泛化到更长输入或更多迭代步骤时往往不稳定;作者试图把“达到某个固定点的迭代”作为更自然的推理形式。
这篇论文要解决的是视觉预训练的效率问题:怎样在不牺牲太多表征质量的前提下,降低 projector 成本并更有效地利用多视角信息。过去很多自监督或对比式视觉预训练会使用较大的投影头,因为它们能吸收任务特定不变性,但这也带来额外参数、算力和优化负担;作者尝试证明,小 projector 配合合适的多视角策略,可能是更好的效率-性能折中。
这篇论文讨论一个很基础但长期悬而未决的问题:对比散度(Contrastive Divergence, CD)这类训练能量模型的经典算法,到底在理论上有多接近最优。过去 CD 在实践中很常用,尤其在难以精确归一化的能量模型里,但理论保证始终相对薄弱,常被视为‘能用但说不清’;作者试图给出更强的最优性或近最优性结论。
这篇论文要解决的是 consistency model 图像生成的质量和一致性不足问题。现有 consistency-based 生成方法优点是采样快,但常见代价是细节、判别性和分布保真度不如扩散模型;作者尝试通过引入对抗训练的分类器和能量判别器,把缺失的判别约束补回来。
条件扩散模型在高 classifier-free guidance 权重下生成图像多样性不足。根本原因是文本 prompt 到图像的映射是一对多的,但扩散模型在强引导下倾向于坍缩到少数模式。之前的方法要么降低引导强度(牺牲质量),要么靠后处理筛选。
用自训练框架规模化地标注 LLM 幻觉,解决现有幻觉检测数据集领域窄、规模小、标注成本高的问题。之前的幻觉标注要么依赖昂贵的人工,要么用不够可靠的自动标注器,难以扩展。
在多 LLM 部署场景下,如何在没有标注数据的情况下为每个输入样本选择最合适的 LLM(即无监督路由)。已有路由方法大多需要人工标注数据训练辅助模型,限制了实际可用性。
现有深度状态空间模型(SSM)在处理序列时缺乏对不同 token 重要性的自适应机制。标准 SSM 对所有 token 施加相同的状态转移,无法根据 token 的显著性动态调整计算资源分配。
梯度引导扩散模型(用外部目标函数的梯度引导采样)缺乏系统的优化理论框架。之前的做法是直接把外部目标的梯度加到扩散采样中,但这会破坏扩散过程的结构,导致采样质量下降。
LLM 即使配合 RAG,在大规模新知识的持续整合上仍然低效——检索粒度粗、知识关联弱、无法像人脑海马体那样建立跨经验的深层索引。之前的 RAG 方法主要是 chunk-level 检索,缺乏知识图谱级别的结构化整合。
评估视觉-语言模型(VLM)对抽象形状的识别能力。现有 VLM 评估主要关注自然图像中的物体识别和场景理解,对抽象几何形状等低层视觉能力的评估不足。
扩散模型在训练时会记忆训练集中的敏感或版权图像,现有防范方案要么修改推理输入,要么移除训练集中的记忆样本,都需要持续监控模型运行环境,无法解决已部署扩散模型的记忆泄露问题。
现有样本最优的boosting算法复杂度高、实现难度大,没有明确的实证对比验证不同样本最优boosting算法的实际效果差异。
现有提升分类任务测试精度的flooding方法需要基于验证集手动调整损失阈值,且仅能优化测试精度指标,无法兼顾模型复杂度、测试损失等其他指标。
现有大模型水印注入和推测采样加速技术无法同时兼容,之前没有研究明确两者的底层冲突逻辑,也没有量化的权衡边界。
现有多模态大模型的思维链仅支持文本作为中间推理载体,无法模拟人类通过手绘草图辅助推理的行为,在几何题、地图推理等需要空间视觉推理的任务上表现较差。
这篇工作要解决的问题是:Latent Diffusion Transformer(DiT)为什么在经验上有效、以及什么样的训练准则才具有可证明的统计效率。现有 DiT 工作大多停留在经验结果上,理论分析常把扩散、潜变量编码器、Transformer 表达能力分开处理,因此很难回答训练目标是否合理、样本复杂度如何、以及哪些设计只是工程技巧。
这篇工作讨论的核心问题是:Transformer-like 模型里的 sparse rate reduction 到底在起什么作用,何时有效、何时失效。以往很多稀疏表示或 rate-reduction 观点在视觉模型上有启发,但对 Transformer 这种带残差、归一化和注意力耦合的架构,机制并不清楚,容易把现象当原理。
这篇工作要解决的问题是:现代 VLM 的 compositional reasoning 评测可能已经失真,很多基准测到的不是组合推理,而是数据偏置、模板记忆或语言先验。这个问题现在很关键,因为 VLM 能力提升后,旧基准很容易饱和,导致研究者误把高分当成真正的组合泛化。
这篇工作要解决的问题是:高质量标注越来越依赖 LLM 作为数据标注员,但这条路线很贵,而且成本会随着数据规模线性放大。作者想证明,自动化标注系统可以在显著压低成本的同时保留足够的标签质量,从而替代大部分 LLM-as-annotator 流程。
这篇工作要解决的问题是:异构大语言模型各有长板,但常见 ensemble 要么只在输出端投票,要么串行调用成本很高,无法真正形成协作。作者关注的是如何让不同架构、不同能力分布的 LLM 在推理时进行深度并行协同,而不是简单做多数表决。
这篇工作要解决的问题是:多模态对比学习和单模态对比学习看起来形式相近,但它们在信息结构、负样本语义和表示坍缩风险上并不等价。过去很多结论默认可以在两者之间迁移,这可能掩盖了多模态预训练里真正决定效果的因素。
这篇工作要解决的问题是:视觉 token 的计算量很不均匀,但大多数视觉 Transformer 或 VLM 编码器仍然对所有 token 做近似同等强度的处理,导致算力浪费。作者想做的是让模型按 token 难度自适应分配计算,而不是全局地统一加深或裁剪网络。
在使用预训练 denoising diffusion 模型作为先验进行逆问题求解时,后验采样的计算效率和准确性难以兼顾。现有方法要么需要大量采样步骤,要么近似质量差。
多向量检索(multi-vector retrieval,如 ColBERT)虽然效果好,但每个文档需要存储多个向量,导致索引体积和检索延迟远大于单向量方法。如何在保持多向量检索质量的同时降低存储和计算开销?
Early-exit 推理(模型在中间层提前输出)能加速但会牺牲准确率。如何在加速的同时提供统计意义上的风险控制保证——即确保 early-exit 后的错误率不超过预设阈值?
视觉-语言模型(如 CLIP)在持续学习(continual learning)场景下会遗忘旧任务知识。如何在不存储旧数据的前提下,让 VLM 在新任务上微调时保持对旧任务的性能?
稀疏训练(sparse training)在效率和精度之间存在矛盾:高稀疏度能大幅减少计算量,但通常伴随显著的精度下降。现有方法需要多步复杂的剪枝-再生长循环。
分子预训练领域尚未验证缩放定律的存在,无法像NLP、CV领域一样通过扩展模型和数据规模系统性提升模型能力,分子大模型的训练缺乏明确的scaling指导。
开源小尺寸代码LLM的自调试能力弱,现有自调试方法依赖少样本提示,在小模型上效果退化明显,此前没有针对自调试能力的端到端训练方案。现有方案默认仅靠大模型上下文能力即可实现自调试,未考虑小模型的能力边界。
现有SSM(如S4、Mamba)采用单块全局状态向量,没有模块化归纳偏置,不适合处理内在模块化的序列建模任务,此前的SSM设计没有引入信息分离的机制。
专业领域微调数据稀缺,使用分布不匹配的域外数据微调经常损害LLM下游性能,此前的微调方法默认更新所有参数是最优选择,未针对分布不匹配场景做参数选择优化。
这篇论文解决的是长文本生成里“不确定性怎么测才靠谱”的问题。以往 token-level 概率、熵或 self-consistency 在长文场景里都不够好,因为错误往往不是单 token 波动,而是跨句、跨段的事实分叉、推理分叉和叙事分叉。
这篇论文要解决的是多模态大模型“会看图但不真正以视觉为中心推理”的问题。很多 LMM 在训练上仍偏向语言侧,视觉输入更像辅助条件,因此在细粒度感知、空间关系和复杂视觉任务上能力不稳。
这篇论文研究的是:在 homogenized stochastic gradient descent 这类理想化设定下,重尾分布为什么会出现。这个问题过去多在经验层面观察到,比如梯度噪声、参数更新或 loss 变化带重尾,但缺少足够清楚的理论解释。
这篇论文解决的是 LLM 知识遗忘评测过于脱离真实世界的问题。过去 unlearning 常在可控的小知识片段或合成设置上验证,但真实部署里要删的是人物、事件、隐私、争议信息等复杂知识,评测如果不接近真实分布,就很难说明方法是否可用。
这篇论文解决的是多图推理缺少系统 benchmark 的问题。单图视觉问答已经被广泛评测,但真正难的场景往往需要在多张图之间做对照、整合和跨图推理;没有合适数据集,就很难知道模型到底是在‘看图’,还是只是在单图模板上迁移。
这篇论文解决的是机器学习模型隐私审计过度依赖非成员数据的问题。传统 membership inference 审计通常需要额外的 in-distribution non-member 数据,而现实里这类数据往往拿不到,尤其在大模型和私有数据场景下更明显。
这篇论文解决的是 LoRA rank 固定、资源分配不均的问题。标准 LoRA 默认所有层或矩阵用同一个低秩规模,但实际不同位置的重要性差别很大;固定 rank 简单但浪费,而自适应方法如 AdaLoRA 又在效果和效率之间还不够平衡。
现有多模态大模型(MLLM)的跨模态比较推理能力没有被系统评估,此前的VLM基准多关注识别、描述类任务,缺失比较类推理的评估维度,无法反映MLLM的高阶推理能力短板。
音视频多模态扩散模型通常需要为每个条件生成任务单独训练模型,训练成本高,此前的扩散模型默认所有模态、所有时序步使用统一的扩散时间步,不支持任意条件组合的生成。
现有Transformer的位置编码大多是针对特定结构(序列、网格)的定制设计,泛化性差,没有统一的位置编码框架支持多种结构及其组合,适配新结构需要大量超参调整。
现有神经元文本解释方法没有统一的量化评估标准,此前的评估多依赖人工标注,成本高、一致性差,无法大规模应用。
联邦学习中异构客户端的谱模型分片训练缺乏最优的采样策略,此前的分片方法依赖经验性采样,没有考虑无偏估计和最小化近似误差的权衡,训练稳定性差。
Transformer类长视频理解模型处理长输入时,现有采样、丢token的方法会丢失信息,已有的token merging方案仅依赖token相似度,未考虑显著性,无法直接适配长视频场景。
这篇工作要解决的问题是:把 CLIP 式视觉-语言对齐从“黑盒连续向量相似度”改成“可解释的词汇维度对齐”,同时避免 lexical representation 训练里常见的伪发现和复杂监督设计。过去主流 VLA 直接在 embedding 空间做对齐,效果强但很难解释每个相似度分数到底对应了什么语义;而词汇表示天然可解释,但通常缺少 token 级真值,训练容易塌到高频词或错误激活,因此一直没有成为主流方案。
这篇工作研究的核心问题是:仅靠扩大示范数据并做微调,能不能把 UI control agent 做到真实可用,以及这种能力如何随数据规模增长。过去这类系统常被少量高质量人工示范、复杂 agent 框架或闭源系统能力所限制,社区缺少一套明确的数据 scaling 视角来判断“再收集多少 demonstration 还值不值”。
这篇工作要解决的问题是:LLM 做 layer-wise pruning 时,每层到底该分配多少 sparsity,能否自动发现而不是靠人工规则。过去大量剪枝工作更关注“删哪些权重”,但默认各层 sparsity 相同或用简单启发式分配,结果是在困难任务上容易出现局部过剪、全局性能恶化。
这篇工作要解决的问题是:在缺少高质量视频-文本预训练监督的情况下,能否不用真实视频数据,就先把 LLM 对“视频这种时序视觉信息”的理解接口对齐起来。过去视频理解常受限于 web video-text 数据噪声大、语言监督稀薄、时序结构难学,因此直接拿真实视频继续训练往往性价比不高。
这篇工作要解决的问题是:LoRA 这类 PEFT 虽然已经很省参数,但在大量用户/任务定制场景下,适配器本身的存储和传输成本仍然不小,能不能再大幅压缩。过去低秩分解默认每个矩阵、模块、层各自维护参数,已经比全量微调便宜很多,但在海量个性化部署里,这种“每处都留一份”仍会累积成很高成本。
现有可解释性研究用禁用某组件测性能变化的 ablation 方法衡量组件重要性,无理论保障、结果不稳定,无法精准定位模型计算逻辑。
现有扩散模型训练中,每张图像会扩散到整个噪声空间,导致每个噪声层混合了所有图像的信息,增加了去噪函数的优化难度,拖慢训练速度。
现有LLM剪枝压缩方法采用统一剪枝率,未考虑不同层特征重要性的差异,导致压缩后性能下降明显,无法平衡部署效率和模型效果。
现有模型编辑方法的评估仅关注可靠性、泛化性、局部性三个维度,未衡量编辑后模型的通用能力变化,导致对编辑方法的实际效果评估存在偏差。
现有线性注意力Transformer的上下文学习(ICL)机制分析仅在IID特征、全参数化注意力的理想化设定下成立,无法解释真实场景下不同架构、非IID数据的ICL表现。
对比学习预训练ViT需要极高的计算资源,现有加速方法会影响预训练模型的下游泛化性能,无法平衡训练效率和最终效果。
现有PEFT方法(如LoRA)与全参数微调存在性能 gap,缩小gap的方案往往需要增加更多可训练参数,无法平衡参数效率和微调效果。
多任务学习(MTL)和预训练-微调(PT+FT)范式的归纳偏置缺乏清晰的理论刻画,现有研究大多关注效果表现,未明确两种范式下特征复用的底层机制差异。
JEPA类自监督方法(如自蒸馏)相比MAE具备更强的抗噪特征学习能力,但底层机制缺乏理论解释,现有研究仅观察到效果差异未触及隐式偏置层面的原因。
带上下文的序列概率分配(对数损失在线学习)缺乏通用的假设类复杂度度量来刻画最小最大后悔值,之前广泛使用的序列l∞熵无法覆盖所有假设类场景。
现有大视觉语言模型(LVLM)基准大多针对单轮单图场景,无法评估真实人机交互中多轮多图长上下文的对话理解能力,对应微调数据集也存在空白。
这篇论文关注一个很实际的问题:任务微调时该选哪些数据,而不是默认把所有候选数据都喂进去。过去常见做法要么靠启发式过滤,要么用昂贵的验证集搜索;但任务专用微调的收益高度依赖数据匹配度,错配数据不仅浪费算力,还会拖垮最终泛化。
这篇论文处理的是 model merging 的一个老问题:把多个专长模型合并后,往往不是能力相加,而是互相干扰。静态合并权重很难同时兼顾不同输入场景,因此模块化能力经常在 merge 后被平均掉。
这篇论文解决的是 VLM 评测失真问题:很多现有 benchmark 过于洁净、封闭、题型单一,导致模型在榜单上很好看,但在真实开放场景里表现并不可靠。作者试图用 human preferences 在 wild setting 下重新评估视觉语言模型。
这篇论文要解决的是 LLM pruning 里一个很具体但影响很大的问题:各层可剪枝性差异很大,用统一剪枝率通常会浪费可压缩空间,甚至伤到关键层。现有 layer-wise pruning 多靠启发式,缺少能解释“哪层更成熟、哪层更脆弱”的原则。
这篇论文解决的是 diffusion distillation 的核心难点:怎样把一个多步扩散模型蒸馏成单步生成器,同时尽量不掉画质,而且最好不依赖原始训练数据。现有方法通常仍需要 few-step 采样,或者单步时质量明显劣化,这限制了 diffusion 在低延迟生成中的实用性。
现有LVLM幻觉缓解的对比解码方法依赖全局视觉不确定性,无法精准定位幻觉token,反而可能引入额外幻觉,之前的方法没有解决幻觉诱导的可控性问题。
预训练模型微调后会出现预训练知识遗忘的问题,之前的研究默认是模型的预训练特征被破坏导致的,未找到问题的核心原因。
摘要缺失,无法确认其“无需微调实现 order-independence”具体针对的是生成顺序不敏感(any-order / permutation-invariant)推断,还是对输入 token 顺序扰动的鲁棒性。
摘要缺失,无法精确说明其在 PPO 中讨论的“representation collapse”是指策略/价值网络表征退化、还是优势估计导致的有效样本多样性坍塌,以及它如何具体引发“trust issues”。
这篇论文要解决的是:在大规模自监督视觉预训练里,很多“领域特定增强”(domain-specific augmentations)是否真的必要,还是在 scale 上去以后收益会消失。过去工业/医疗等领域常依赖手工增强来弥补数据偏差,但这会引入大量调参成本与不可迁移的经验。
这篇论文要解决的是:在人类偏好学习里,怎样用同样的标注预算收集到信息量更高、对下游模型更有用的偏好数据。现有做法往往默认采用固定的成对比较或简单启发式采样,但偏好标注昂贵且噪声大,不同提问设计带来的统计效率差异一直没有被系统优化。
这篇论文要解决的是:如何更精确地编辑模型知识或行为,同时尽量不破坏无关能力。现有 model editing 方法经常在“能改掉目标事实”和“副作用小”之间难以兼得,原因是编辑位置选得太粗,或更新作用扩散到不相关参数子空间。
这篇论文要解决的是:现有 LLM 评测严重偏向英语和少数主流文化,导致模型在“日常常识”上的真实跨文化能力被高估。很多常识其实并不普适,饮食、礼仪、习俗、社会规范都带有地域性;如果基准默认单一文化语境,模型看起来正确,只是因为 benchmark 太窄。
这篇论文要解决的是:视觉-语言预训练里,多语言多样性是否真的能提升表示质量,而不仅仅是让模型支持更多语言接口。很多 VLM 训练仍以英语图文对为主,非英语通常只是翻译扩展;如果语言多样性本身能改善视觉语义空间,那么这会直接影响数据配比与预训练策略。
现有Video LLM无法同时保留高分辨率的帧级语义信息和足够多的采样帧覆盖视频全局时序,之前的方法要么降低单帧token数量要么减少采样帧数,牺牲了细粒度理解能力。
现有Transformer的点积注意力基于欧氏距离计算权重,容易出现表征坍塌,对污染样本敏感,之前的注意力优化方法没有解决特征空间的各向同性问题。
现有LLM不确定性量化方法大多基于token级词法/句法概率计算,无法区分不影响答案正确性的表达变体和真实语义级不确定性(与幻觉直接相关),导致幻觉检测误判率高。
云平台存储海量微调大模型的硬件开销极高,现有通用参数压缩方案未利用微调模型与对应基座模型参数差异小的特性,压缩比偏低。
现有LLM能力提升路径高度依赖人类标注数据或更强教师模型的监督,没有无需外部监督的自提升路径;人类可通过教授他人提升自身推理能力,但该机制在LLM上的可行性尚未被验证。
现有大语言多模态模型(LMM)的可解释性方法大多针对单模态模块设计,无法关联视觉和文本的内部表征语义,难以解释LMM跨模态推理的内部逻辑。
基于张量积表示(TPR)的神经符号网络在处理分布外输入时,无法有效将其分解为结构化的TPR表征,导致符号操作准确率大幅下降,系统泛化能力差。
这篇论文要解决的是:DNA 语言模型(尤其是调控序列建模)缺少统一、可复现、覆盖关键生物学任务的评测体系,导致“更大模型/更好 tokenizer/更好目标函数”到底带来什么收益很难对齐比较。
这篇论文要解决的是:模型反演攻击(从模型中恢复训练数据)在现实里往往缺少足够强的先验,导致恢复质量不稳定,而防御方也难以评估“在什么先验下会被攻破”。
这篇论文要解决的是:persona/角色扮演对话里,模型常出现“局部像、全局不像”的不一致(前几轮符合人设,后面漂移),但现有评测多停留在逐轮打分,缺少对全局一致性的量化与优化目标。
这篇论文要解决的是:Transformer 的第一层通常把输入 embedding 直接送入固定的线性层/归一化,导致“输入表征如何被第一层激活空间接收”几乎不可控,可能限制优化与特征对齐。
这篇论文要解决的是:现有图像描述数据往往偏短、偏模板化,限制了 VLM 在细粒度感知与长文本生成上的训练信号,而人工标注高密度描述成本过高。
这篇工作要解决的是:形式化数学学习长期受限于外部监督稀缺,尤其是 theorem proving 往往依赖人工证明轨迹或验证器驱动的窄奖励,导致学习信号又贵又脆弱。作者想证明,模型能否像在开放环境探索那样,依靠内在动机主动发现有价值的数学结构,而不是只在给定题库上被动拟合。
这篇工作要解决的是:LLM 评测里常常需要对同一个样本配多种 prompt 反复跑推理,但现有做法基本把每个 prompt 当成独立请求处理,重复计算非常严重。这个问题过去还能靠离线评测慢慢跑,但随着 prompt 集合更大、模型更贵、多模板评测更常见,评测成本本身已经影响实验迭代速度。
这篇工作要解决的是:长视频理解对 LLM/VLM 来说最大的瓶颈不是单帧编码,而是视频流长度远超上下文窗口,导致信息必须边看边压缩,否则既放不下也算不起。过去很多方法通过离线抽帧或先做全视频摘要来回避,但这会丢掉时序细节,也不适合真正的 streaming 场景。
这篇工作要解决的是:当前 VLM 的能力评估经常把感知、对齐、知识和推理揉在一个总分里,导致你知道模型好不好,却不知道问题出在哪一层。过去大家默认 benchmark 越大越全面,但对模型设计者来说,不能把能力拆开就很难判断该补视觉编码、图文对齐,还是语言推理。
此前仅通过实验观测到DNN学习不同复杂度的变量交互存在两阶段动态,但缺乏严格数学证明,无法为DNN可解释性、过拟合防控提供理论支撑。
现有AI基准测试的质量参差不齐,没有统一的全生命周期评估框架,导致基准测试结果的参考性不足,甚至可能误导模型研发和政策制定。
现有RAG系统的评估方法没有拆分检索和生成模块的误差,也未适配长文本生成场景,与人类判断的相关性低,无法定位RAG系统的性能瓶颈。
Transformer规划能力评估长期受记忆干扰,现有测试任务易让模型靠记忆而非规划得到好结果,无受控场景验证纯前馈规划泛化能力。
现有LLM后训练压缩方法要么精度损失大,要么需要重训,无法适配内存受限边缘设备的部署需求,低秩分解和量化两类技术的结合此前未被有效优化。
现有扩散模型的噪声过程为人工预设的固定schedule,限制了对数似然上限,过往工作普遍假设ELBO与噪声过程无关,无法针对性优化噪声过程提升性能。
现有LLM压缩方法大多聚焦权重张量分解,需要重训才能恢复精度,压缩比与精度的trade-off较差,无法在不损失表达能力的前提下实现高压缩比。
现有扩散模型蒸馏方法大多仅支持1步蒸馏,生成质量低于多步教师模型,无法同时兼顾采样速度和生成质量,多步蒸馏此前缺乏统一理论框架。
现有检测LLM是否使用合成数据训练的方法要么需要已知可疑文本,要么无统计保证,无法可靠验证LLM训练数据是否包含第三方水印合成数据,难以实现IP保护。
现有离散/混合数据的能量基模型(EBM)训练依赖MCMC采样,速度慢且不稳定,无法扩展到大规模离散数据(如文本、离散token)的建模,限制了EBM在预训练中的应用。
现有用扩散模型从给定非归一化密度/能量函数采样的方法性能对比缺乏统一基准,部分离策略训练方法的原有结论未得到复现,采样质量不稳定。
这篇工作要解决的问题是:多模态模型在视觉推理上常常会给出答案,但缺少可靠的视觉链式思维数据和统一评测,导致所谓 CoT 能力很难被真实训练和比较。过去很多工作要么用文本 CoT 迁移到视觉任务,要么只在少量 benchmark 上做 prompting,数据覆盖和评测粒度都不够。
LLM 幻觉检测的现有方法(一致性检查、检索增强)计算开销大、需要多次推理或外部数据库,难以用于实时场景。本文系统研究幻觉的本质特征并探索更高效的检测方法。
二进制逆向工程(将编译后的二进制代码还原为人类可读的源码级语义)存在巨大的语义鸿沟。现有方法要么只用源码模型做微调,要么用通用 LLM 做 prompting,效果都不够好。
LLM 在面对知识冲突(如训练数据中的矛盾信息、参数知识与上下文信息的冲突)时的行为缺乏系统评估。ConflictBank 提供了一个专门的 benchmark。
现有LLM编辑方法要么需要重训成本高昂,要么缺乏统一的可编辑性评估标准,且未系统性揭示恶意隐形编辑的攻击风险。
现有LLM在线知识更新方案要么采用增量微调成本过高,要么采用RAG架构存在召回不准、上下文窗口限制的问题,无法平衡更新效率、知识保留率和部署成本。
现有基于LLM的时间序列预测研究默认LLM组件对预测效果有正向增益,缺乏系统性的消融验证,导致大量高成本但无实际效果的方案被提出。
非自回归语音到语音翻译模型存在输出重复、语义不连贯的问题,核心原因是语音数据同时包含声学和语言学变异,分布复杂度高,现有线性归一化方法无法有效简化分布。
现有检索增强生成系统采用独立IR组件+LLM的分离架构,IR和LLM独立训练,无法实现知识共享和端到端优化,限制了检索效果的提升和部署效率。
现有扩散模型结合强化学习的生物序列(DNA/蛋白)设计方法默认奖励模型可访问,无法适配科学领域只有静态离线数据集、奖励模型未知的场景。
这篇工作关注一个基础但常被跳过的问题:结构化状态空间模型(SSM)为什么能学到有用特征,以及它们在什么条件下会学不到。过去很多 SSM 工作更强调长序列效率和替代 attention 的工程优势,但对“特征学习机制”本身解释不足,这限制了我们判断它们何时适合做预训练骨干。
这篇工作要解决的是:微调后的视觉语言模型会学到大量伪相关,但现有训练和评测通常只暴露平均准确率,掩盖了模型到底在看真正证据还是在吃数据偏差。这个问题之所以重要,是因为很多 VLM 在医疗、文档或专业场景微调后,训练集偏差会比预训练阶段更集中、更隐蔽。
这篇工作要解决的是:缺少大规模、结构化、真实世界的关系数据库语料,限制了模型学习表格/数据库上的推理与查询能力。过去很多数据集要么规模小、模式单一,要么更像表格问答而不是真正数据库,这使得预训练模型很难系统接触关系结构。
这篇工作要解决的是:自动提示优化里,到底是“把指令写得更好”更重要,还是“给更好的 exemplars 示例”更重要。过去大量工作把 prompt optimization 当成黑盒搜索,但很少拆开指令与示例这两个部件分别看,这使得经验结论难迁移。
这篇工作关注一个经典但始终重要的问题:如何通过增强隐式正则化来同时改善泛化和收敛。很多优化器或训练技巧能让训练误差更快下降,但未必带来更好的测试性能;相反,好的隐式正则化常常来自优化路径本身,却难以被直接控制。
现有大视觉语言模型(LVLM)的训练后量化方法仅单独优化每层的量化误差,忽略跨层依赖,导致量化后多模态推理效果下降严重,无法满足低资源部署要求。
现有LLM的图结构推理能力评估仅关注最终推理结果,缺乏对底层图召回偏差的系统性研究,不清楚LLM召回图结构的模式和对后续推理的影响,无法针对性提升LLM的图推理能力。
现有Minecraft开放世界指令跟随智能体的VLA模型要么输出文本目标给独立控制器,要么直接输出控制指令,无法同时兼顾强推理能力和高效决策能力。
现有ICL演示样本选择方法依赖全局检索器打分筛选,存在搜索空间大、无效演示引入噪声的问题,导致ICL性能不稳定且优化成本高。
现有SSL视觉编码器的记忆性研究仅聚焦于记忆数据的特征和与下游效用的关联,未明确记忆行为在编码器内部的发生位置,无法为针对性降低记忆风险提供依据。
现有对DNN优化后分布的研究未聚焦于输入显著性图的分布特征,无法解释不同随机初始化训练的同架构模型的行为相似性规律。
现有基于大模型的自动定理证明方法采用逐step生成的短视启发式搜索,容易生成次优或无效子目标,无法完成长证明的生成。
现有扩散模型的无训练精确反转采样器都是启发式设计,理论性质不明确,采样质量普通,限制了扩散反转在图像编辑、样本插值等任务的落地效果。
现有零样本图学习方法依赖任务特定标签微调GNN,无法在跨数据集跨任务的零样本场景下取得理想效果,没有充分利用大模型的零样本迁移能力。
传统数据流分析方法需要代码可成功编译且专家定制规则,无法适配真实场景中不可编译代码、分析需求动态变化的情况,落地门槛高。
这篇工作解决的是复杂指令跟随评测不够难、也不够贴近真实使用的问题。很多 benchmark 只检查单一约束,比如长度、格式或语气,模型即使能在单约束下过关,也未必能在多个约束同时存在时稳定满足要求。
这篇工作的核心问题是:如何评估大模型对自身知识边界的感知,而不是只看答对率。传统 closed-ended QA 容易把‘知道但表达差’、‘不知道但猜对’、以及‘知道自己不知道’混在一起;半开放式问答更适合测模型是否能在不确定时收缩回答。
这篇工作要解决的是:LLM agent 的强化学习训练里,动作空间往往又长又稀疏,直接做策略优化信用分配很差。把复杂 action 拆成更细粒度决策,目的是降低探索难度,让 RL 信号更容易对齐到具体行为。
现有AI学习人类价值的探索阶段容易出现行为违规或伤害,此前方案未从人机表征对齐角度解决安全高效的个性化价值学习问题。
现有主流LLM量化方法会破坏基座模型的多任务共享能力,无法兼容多LoRA适配器实现内存高效的多任务服务,单任务场景的量化+LoRA方案不能直接迁移到多任务场景。
现有基于表征工程的LLM可信性增强方法只能同时满足单一可信要求,无法编码多个语义约束,RLHF等传统方法需要大量标注数据成本极高。
现有VLM的图文对齐训练给所有文本token分配相同权重,会过度强调和输入图像不相关甚至矛盾的文本token,导致跨模态对齐效果次优。
现有扩散模型蒸馏方法在一步采样时会出现明显的感知质量下降,或者需要访问原始训练数据,或者存在模式坍缩无法覆盖全分布,不能同时满足无数据、高质量、全分布覆盖的要求。
在社会领域的ML应用中,人类会根据模型决策调整自身行为导致数据分布偏移,用模型自动标注的样本重训模型会出现长期性能下降,此前自动数据标注方案未考虑人类的策略性适应行为。
现有LLM越狱攻击的评估没有标准化框架,不同工作的攻击设置差异大、结果不可比,且多数只测试基础LLM的漏洞,未覆盖对齐增强后LLM的鲁棒性。
现有数据点选择(DPS)方法基于双层优化框架,内存和计算开销极高,且小批量训练下存在理论缺陷,无法适配大模型预训练的大规模数据场景。
这篇论文要解决的是:在安全对齐之后,LLM 的“安全机制到底在内部表征里如何起作用、又如何被系统性绕过”仍缺少可操作的解释工具,导致攻击往往靠经验调参而不是可诊断、可复现的机制驱动。作者认为仅用黑盒 jailbreak 成功率来评估风险太粗,因为它不告诉你模型是被哪类“安全概念”卡住、又是如何被推开。
缺少摘要与关键信息,无法可靠说明 CLAVE 要评估的“values”具体指哪些价值维度(安全、帮助性、公平、诚实等)以及为何现有评测框架不足。
缺少摘要与关键信息,无法可靠说明其“VLM selection”要弥合的 modality gap 与 capability gap 分别指什么,以及现有模型选择/路由方法为何失效。
这篇工作要回答的核心问题是:文本到图像扩散模型到底靠什么机制把文本条件变成可控的视觉生成。这个问题过去更多靠经验调参和现象描述来处理,模型能用但机理不清,导致大家很难判断文本对齐、去噪动态和语义绑定分别发生在什么层级、什么时间步,以及这些规律能否指导更稳的预训练和条件设计。
这篇工作的核心问题是:现有 LLM 安全评测和对齐默认采用相对单一的价值与法规视角,无法检验模型是否能在不同国家、地区和族群语境下既有帮助又合规。过去很多安全 benchmark 把“安全”当作普适标签处理,回避了地理与文化条件差异;但真实部署里,安全边界就是上下文相关的,所以这个问题已经不能继续用统一模板掩盖。
这篇工作解决的是:当 benchmark 被模型做穿或者发生数据泄漏后,如何低成本、系统化地更新评测集,保持评测的时效性和可信度。过去通常靠人工重新出题,但这既慢又贵,还难以持续迭代;如果不更新,LLM 评测很快会从“能力测量”退化成“记忆回放”。
这篇工作要解决的是:在扩散模型采样步数较少时,如何稳定提升样本质量。常规扩散模型在少步采样下容易退化,因为去噪轨迹被压缩后更依赖模型对数据分布高密度区域的精确把握;过去常见做法是蒸馏、更强采样器或重新参数化,但对“如何把数据密度信息直接用于训练轨迹”探讨得不多。
这篇工作的核心问题是:RAG 里检索排序和答案生成通常是分开的,导致排序目标与生成目标错位,最终 top-k context 可能对检索指标好但对回答未必最有用。过去的做法通常是 retriever 召回、reranker 排序、generator 生成三段式流水线,每一段都各自最优,但整体不一定最优。
解决 Zero-shot CoT 推理中单一 prompt 无法适配所有样本的问题。传统的 Zero-shot CoT 通常在整个任务层面使用固定的 prompt,忽略了 prompt 与具体 instance 之间的交互,导致次优的推理效果。
统一低秩微调(LoRA)和正交微调(OFT)两种参数高效微调(PEFT)技术。这两种方法虽然技术路线不同,但都能有效适配大模型,此前缺乏一个统一的理论框架来连接它们。
缓解 Diffusion Transformers (DiT) 推理时自注意力操作带来的二次计算复杂度瓶颈。DiT 在生成任务中表现优异,但计算成本高昂,限制了其应用。
解决稀疏奖励强化学习(RL)中探索困难的问题。传统的 RL 在稀疏奖励下难以学习长序列动作,而现有的技能学习(skill learning)方法在技能提取和推理上成本过高。
解决当前视觉模型在像素级理解和高级推理能力上的割裂问题。通用分割模型缺乏推理能力且无法接受文本指令,而大型视觉语言模型(VLM)缺乏像素级理解能力且难以接受灵活的视觉 prompt。
解决视觉语言模型(如 CLIP)在适应下游任务时面临的数据不对齐(data misalignment)问题。虽然 soft prompt tuning 缓解了任务不对齐,但数据不对齐(即预训练数据分布与下游任务数据分布的差异)仍然影响模型性能。
提升参数高效微调(PEFT)方法的表达能力。现有的低秩微调方法(如 LoRA)在固定的参数预算下,其秩容量(rank capacity)有限,可能无法充分捕捉复杂任务所需的特征。
探究为什么参数量更大、同样使用 CLIP 作为视觉编码器的视觉语言模型(VLM,如 GPT-4V, LLaVA)在标准图像分类任务上的表现显著不如原始的 CLIP 模型。
现有大模型基于内部表示的编辑方法缺乏通用灵活性,此前研究多聚焦通过表示解释模型行为,落地到多场景模型编辑需求时存在鲁棒性差、泛化性不足的问题,无法满足大模型快速修正的迫切需求。
这篇工作关注的是多模态 LLM 里一个常见矛盾:感知编码通常希望并行、高吞吐,语言理解与生成通常是顺序建模,两者放在同一系统里很容易彼此拖累。标题里的“Parallel Recognition and Sequential Understanding”已经点明作者想解决的是识别效率和统一语义建模之间的结构冲突。
这篇工作关注的是:语言模型和人脑在语言处理上的相似性被讲得很多,但它们具体在哪些地方分歧更大,仍缺少系统刻画。相比只寻找 brain-LM alignment,这篇论文更强调 divergence,也就是哪些现象是 LM 做得到但大脑不像这么做,或反过来。
复杂推理任务中,固定的 prompting 策略(如 CoT)无法适配不同任务的内在推理结构,导致性能瓶颈。之前的方法要么用单一推理模板,要么靠大量采样(如 CoT-Self-Consistency)来弥补,计算开销大且效果有限。
CoT prompting 在实际场景中面临一个被忽视的鲁棒性问题:当推理链中混入噪声(错误的中间步骤或无关信息)时,LLM 的推理性能会显著退化。之前的 CoT 研究大多假设 rationale 是干净的,对噪声场景缺乏系统研究。
LLM 在统计分析任务上的能力缺乏系统评估。统计推断(假设检验、回归分析、分布拟合等)需要严格的数学推理和对数据特征的理解,但现有 LLM 评估基准很少覆盖这类任务。
MoE 模型从头训练需要大量数据和算力,而公开的预训练权重几乎都是 dense 模型,导致 MoE 在视觉任务中的采用受限。如何高效地将已有的 dense checkpoint 转化为 MoE 模型是一个实际痛点。
Text-to-image diffusion 模型(尤其是 Stable Diffusion)在处理包含多个属性和对象的复杂 prompt 时,经常出现属性绑定错误(attribute binding failure)——比如把红色绑到了错误的对象上。之前的研究指出 blended text embedding 是原因之一,但缺乏深入分析。
多模态大语言模型(MLLM)中,没有单一视觉编码器能在所有图像内容类型上都表现最优——CLIP 擅长通用图像理解但在文档/图表上表现差,DINOv2 等则有不同的偏好。之前的方法要么只用一个编码器忍受偏差,要么简单拼接多个编码器但缺乏自适应融合。