📚Papers

ICLR 2026

International Conference on Learning Representations

会议官网
1053/ 5470 相关论文
方向
Tier
1053 / 1053 篇论文
10
精读ICLR 2026

How to train data-efficient LLMs

LLM 预训练的数据效率问题:如何在固定计算/数据预算下,通过数据筛选和采样策略优化模型质量与训练成本的 Pareto 前沿。此前的数据筛选方法要么依赖昂贵的质量评估(如 perplexity 过滤),要么缺乏对覆盖率和多样性的系统考量,且缺少大规模、统一的对比实验。

Noveen Sachdeva,Benjamin Coleman,Wang-Cheng Kang,Jianmo Ni,Lichan Hong,Ed H. Chi,James Caverlee,Julian McAuley,Derek Cheng
Googledata-efficiencydata-qualitydata-selectionVirtual
10
精读ICLR 2026

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

这篇论文要解决的是:受控预训练实验很能回答“某类数据如何影响模型行为”,但传统做法是一种假设跑一遍预训练,成本太高,导致很多有价值的问题没人系统做。作者想把多个数据干预实验压到一次训练里完成,从而把 pretrain 科学从“只能做少量贵实验”变成“可以批量做因果 probing”。

Sebastian Bordt,Martin Pawelczyk
pretrainingdata-mixtureexperimental-designVirtual
9
精读ICLR 2026

Predicting Training Re-evaluation Curves Enables Effective Data Curriculums for LLMs

LLM训练的数据课程设计缺乏明确的最优数据投放原则,过往研究要么依赖经验规则,要么需要事后回溯调整,无法前置指导训练。

Shane Bergsma,Nolan Dey,Joel Hestness
data-qualitycurriculumtraining-dynamicsVirtual
9
精读ICLR 2026

Planned Diffusion

这篇论文要解决的是:离散 diffusion LM 虽然能并行生成多个 token,但实际效果一直被 denoising order 拖住,质量和时延很难同时兼顾。过去大多用固定或启发式顺序决定每一步先解哪些位置,这种外部指定策略既不稳,也限制了模型根据上下文自适应安排生成计划的能力。

Daniel Israel,Tian Jin,Ellie Cheng,Guy Van den Broeck,Aditya Grover,Suvinay Subramanian,Michael Carbin
diffusion-lmnon-autoregressiveplanningVirtual
9
精读ICLR 2026

Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall

这篇论文要解决的是:离散 diffusion 一旦在某步做了 categorical sampling,分布信息就坍缩成 one-hot,后续步骤只能在信息极少的状态上继续去噪,这就是作者说的 sampling wall。过去很多改进都在调转移核、loss 或 self-conditioning,但没有真正绕开“采样后信息丢失”这个结构性问题。

Mingyu Jo,Jaesik Yoon,Justin Deschenaux,Caglar Gulcehre,Sungjin Ahn
diffusion-lmdiscrete-diffusionsamplingVirtual
9
精读ICLR 2026

Autoregressive Models Rival Diffusion Models at ANY-ORDER Generation

Diffusion language model 支持任意顺序生成和双向条件化,但其单步依赖的建模深度有限,样本质量和稳定性不如 AR 模型。问题是:能否让 AR 模型也具备任意顺序生成能力,同时保持 AR 的建模优势?

Tianqi Du,Lizhe Fang,Weijie Yang,Chenheng Zhang,Zeming Wei,Yifei Wang,Yisen Wang
any-order-generationautoregressivediffusion-lmVirtual
9
精读ICLR 2026

Any-Order Flexible Length Masked Diffusion

这篇论文要解决 masked diffusion 在离散序列上的一个核心短板:它支持任意顺序、并行生成,但通常只能做固定长度生成,无法自然插入 token。这个限制让它很难作为 AR 的真正替代,因为真实语言和代码生成常常需要长度不预先确定、局部重写和插入式编辑。

Jaeyeon Kim,Lee Kit,Carles Domingo i Enrich,Yilun Du,Sham Kakade,Timothy Ngotiaoco,Sitan Chen,Michael Albergo
diffusion-lmmasked-lmany-orderVirtual
9
精读ICLR 2026

Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing

离散扩散 dLLM 理论上可并行生成多 token,但开源实现普遍推理速度仍不如同规模 AR,因为无法像 AR 那样有效利用 KV cache 且迭代依赖强。

Xu Wang,Chenkai Xu,Yijie Jin,Jiachun Jin,Hao Zhang,Kai Yu,Zhijie Deng
diffusion-lmnon-autoregressiveinference-speedVirtual
9
精读ICLR 2026

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

现有多模态基础模型大多受限于自回归架构,难以平衡理解和生成能力;混合/解耦策略虽有探索但设计冗余,不适用于跨模态检索等更广泛场景。

Run Luo,Xiaobo Xia,Lu Wang,Longze Chen,Renke Shan,Jing Luo,Min Yang,Tat-Seng Chua
omnimodaldiscrete-flowunified-modelingVirtual
9
精读OralICLR 2026

Mixture-of-Experts Can Surpass Dense LLMs Under Strictly Equal Resource

过往MoE性能优势通常建立在更大的总参数量或训练计算量之上,严格等资源(总参、训练计算、数据预算完全一致)下MoE是否能超过稠密模型这一问题没有被明确验证,工业界选型缺乏依据。

Houyi Li,Ka Man Lo,Shijie Xuyang,Ziqi Wang,Wenzhen Zheng,Haocheng Zhang,Zhao Li,Shuigeng Zhou,Xiangyu Zhang,Daxin Jiang
moescaling-lawcompute-optimalityVirtual
9
精读ICLR 2026

What Scales in Cross-Entropy Scaling Law?

大模型交叉熵缩放定律在超大参数规模下出现失配,损失下降速度慢于预期,过往研究将交叉熵作为整体拟合,无法解释失配的根本原因,导致大模型资源规划出现偏差。

Junxi Yan,Zixi Wei,Qingyao Ai,Yiqun LIU,Jingtao Zhan
scaling-lawcross-entropyoptimizationVirtual
9
精读ICLR 2026

Scaling Speech Tokenizers with Diffusion Autoencoders

现有语音tokenizer无法同时兼顾语义编码精度、音频重建保真度、低码率三个核心指标,过往方案要么牺牲语义保重建,要么牺牲码率保精度,限制了语音大模型的效率和性能。

Yuancheng Wang,Zhenyu Tang,Yun Wang,Arthur Hinsvark,Yingru Liu,Yinghao Li ... 省略 2 位作者 ... ,Mingbo Ma,Mike Seltzer,Qing He,Xubo Liu
speech-lmtokenizerdiffusionVirtual
9
精读OralICLR 2026

Planner Aware Path Learning in Diffusion Language Models Training

这篇工作要解决的是:diffusion language model 训练时按均匀随机路径去噪,但推理时常用 planner 选择更优去噪顺序,两者之间存在系统性的 train-inference mismatch。这个问题以前通常被工程上默认接受,因为 planner 确实能提高采样质量,但训练目标并没有针对 planner 校正,导致模型并未学会在这些被偏置后的路径上最好地工作。

Zhangzhi Peng,Zachary Bezemek,Jarrid Rector-Brooks,Shuibai Zhang,Michael Bronstein,Anru Zhang,Joey Bose,Alexander Tong
diffusion-lmnon-autoregressivetraining-objectiveVirtual
9
精读OralICLR 2026

Latent Speech-Text Transformer

现有interleaved训练的语音文本大模型中,语音token序列长度远大于文本,导致模态不平衡,计算资源过度向语音倾斜,跨模态对齐效率低,性能scaling速度慢几个数量级。

Yen-Ju Lu,Yashesh Gaur,Wei Zhou,Benjamin Muller,Jesus Villalba,Najim Dehak ... 省略 1 位作者 ... ,Gargi Ghosh,Mike Lewis,Srini Iyer,Duc Le
speech-lmlatent-representationspeech-text-pretrainingVirtual
9
精读ICLR 2026

Joint Selection for Large-Scale Pre-Training Data via Policy Gradient-based Mask Learning

这篇论文要解决的问题是:在万亿 token 级预训练数据上,质量分和多样性分往往只能分开做筛选,难以联合优化,结果不是高质量样本收益递减太快,就是多样性筛选误删过多有价值数据。过去业界常用静态规则或两阶段过滤,但它们很难在长程训练里持续保持最优数据配方。

Ziqing Fan,Yuqiao Xian,Yan Sun,Ke Shen,Li Shen
data-selectionpretrain-datapolicy-gradientVirtual
9
精读ICLR 2026

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

这篇工作要解决的是:把文本 LLM 扩展到语音对话时,纯 AR 的“音频 token 逐步生成”与语音的 source-target 依赖结构不匹配,导致训练与推理效率、质量和统一建模目标都受限。

Tianqiao Liu,Xueyi Li,Hao Wang,Haoxuan Li,Zhichao Chen,Weiqi Luo,Zitao Liu
audio-lmnon-autoregressivejoint-trainingVirtual
9
精读ICLR 2026

SparseD: Sparse Attention for Diffusion Language Models

这篇工作要解决的是:开源 diffusion LM 推理慢的核心瓶颈之一是注意力对上下文长度的二次复杂度,而 DLM 的去噪多步会把这个成本放大。

Zeqing Wang,Gongfan Fang,Xinyin Ma,Xingyi Yang,Xinchao Wang
diffusion-lmsparse-attentionefficient-inferenceVirtual
9
精读ICLR 2026

Reformulation for Pretraining Data Augmentation

预训练数据即将耗尽,而简单重复训练会导致性能退化。现有数据增强方法依赖复杂的预定义种子系统,扩展性差。本文要解决的是:如何系统性地将已有语料改写为多样化变体,使数据增强能真正支撑模型性能的持续 scaling。

Hao Xintong,Rui-Jie Zhu,Ge Zhang,Ke Shen,Chenggang Li
data-augmentationpretraining-datadata-scarcityVirtual
7
泛读ICLR 2026

xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity

xLSTM作为线性复杂度的Transformer替代架构,其缩放行为尚未被系统研究,无法指导不同计算预算下的架构选型,工业界对xLSTM的scaling潜力缺乏明确认知。

Maximilian Beck,Kajetan Schweighofer,Sebastian Böck,Sebastian Lehner,Sepp Hochreiter
scaling-lawarchitecturelong-contextVirtual
9
精读ICLR 2026

Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

这篇论文要解决的是在实际 LLM 预训练中,记忆训练数据和获得下游泛化能力之间是否存在类似 grokking 的时滞,以及如何在没有测试集的情况下监控这种过程。过去 grokking 研究主要停留在小模型、算法数据和多轮训练上,对接近单遍的大规模预训练几乎没有证据。

Ziyue Li,Chenrui Fan,Tianyi Zhou
pretraininggeneralizationmemorizationVirtual
9
精读ICLR 2026

How Text Quality Interventions Reshape Neural Scaling Laws for LLMs: Empirical Study

现有缩放定律的拟合未考虑数据质量干预的影响,数据去重、过滤、改写等操作如何改变缩放曲线的系数和指数尚不明确,导致大模型资源规划和数据pipeline设计缺乏量化依据。

Newsha Ardalani,Feiyang Kang,Michael Kuchnik,Mostafa Elhoushi,Shubho Sengupta,Shang-Wen Li,Carole-Jean Wu
scaling-lawdata-qualitydedupVirtual
8
泛读OralICLR 2026

Energy-Based Transformers are Scalable Learners and Thinkers

现有推理时计算(类人System 2思考)方法大多是模态或任务特定的,需要额外监督训练,无法仅通过无监督预训练实现通用的推理优化,限制了大模型的通用推理能力提升。

Alexi Gladstone,Ganesh Nanduru,Md Mofijul Islam,Peixuan Han,Hyeonjeong Ha,Aman Chadha,Yilun Du,Heng Ji,Jundong Li,Tariq Iqbal
energy-basedtransformernon-autoregressiveVirtual
8
泛读ICLR 2026

Pretraining Scaling Laws for Generative Evaluations of Language Models

现有神经缩放定律仅覆盖预训练损失和判别式基准的拟合,生成类任务(如数学解题、软件工程)的缩放规律未被系统研究,无法用低成本小模型预测大模型的生成任务pass@k表现。

Rylan Schaeffer,Noam Levi,Brando Miranda,Sanmi Koyejo
scaling-lawgenerative-evalpretrainingVirtual
8
泛读ICLR 2026

Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training

传统LLM缩放定律仅聚焦预训练损失等代理指标,下游任务性能的缩放预测被认为不可靠,缺乏从训练预算直接建模下游精度的有效框架。

Jakub Krajewski,Amitis Shidani,Dan Busbridge,Sam Wiseman,Jason Ramapuram
scaling-lawdownstream-accuracypretrainingVirtual
9
精读ICLR 2026

Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

推理能力到底应当在 pretrain/mid-train 早期“前置注入”还是留到 post-train 再补,社区长期缺少可公开复现的分阶段对照,因此很难回答“早加推理数据是否真的更划算”。

Syeda Nahida Akter,Shrimai Prabhumoye,Eric Nyberg,Mostofa Patwary,Mohammad Shoeybi,Yejin Choi,Bryan Catanzaro
mid-trainreasoning-datapretrain-posttrainVirtual
9
精读ICLR 2026

Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes

MDLM 依赖 mask/unmask 会在训练与采样中浪费大量算力在非信息 token(mask/pad)上,并且对可变长度生成不够原生,限制了 diffusion LM 的效率与灵活性。

Fangyu Ding,Ding Ding,Sijin Chen,Kaibo Wang,Peng Xu,Zijin Feng ... 省略 1 位作者 ... ,Kai Han,Youliang Yan,Binhang Yuan,Jiacheng Sun
diffusion-lmdiscrete-diffusionnon-arVirtual
9
精读OralICLR 2026

How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining

过往按质量从低到高的课程式预训练提升效果有限,核心瓶颈是上升的数据质量顺序与下降的学习率调度不兼容,高质量数据喂入时学习率已过低,无法被充分学习。

Kairong Luo,Zhenbo Sun,Haodong Wen,Xinyu Shi,Jiarui Cui,Chenyi Dang,Kaifeng Lyu,Wenguang Chen
learning-rate-scheduledata-qualitycurriculum-learningVirtual
8
泛读ICLR 2026

Continuous Audio Language Models

Simon Rouard,Manu Orsini,Axel Roebel,Neil Zeghidour,Alexandre Défossez
audio-lmspeechcontinuous-tokenVirtual
9
精读ICLR 2026

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

这篇论文要解决的是 diffusion LLM 的两个老问题:并行解码虽然快,但无法像 AR 那样有效使用 KV cache,而且在大组合空间上直接学 token 依赖容易生成不连贯。过去 masked diffusion LM 想用并行换速度,但实际常被算力开销和质量损失抵消,所以问题不是“能不能并行”,而是“能不能并行且保留因果生成的优势”。

Jia-Nan Li,Jian Guan,Wei Wu,Chongxuan Li
diffusion-lmmasked-diffusionparallel-decodingVirtual
8
精读ICLR 2026

Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning

现有预训练普遍使用带衰减的学习率调度来最小化预训练损失,但衰减调度对SFT后下游性能的影响未被系统研究,默认的衰减调度可能损害SFT表现。

Kazuki Yano,Shun Kiyono,Sosuke Kobayashi,Sho Takase,Jun Suzuki
pretraininglearning-ratesftVirtual
8
泛读ICLR 2026

Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization

扩散语言模型的RL微调存在两大瓶颈:基于单步unmasking的token级似然估计偏差大,基于ELBO的序列级似然估计计算成本过高,无法落地。

Kevin Rojas,Jiahe Lin,Kashif Rasul,Anderson Schneider,Yuriy Nevmyvaka,Molei Tao,Wei Deng
diffusion-lmrlreasoningVirtual
9
精读ICLR 2026

Bringing Stability to Diffusion: Decomposing and Reducing Variance of Training Masked Diffusion Models

这篇论文解决的是 masked diffusion model 训练方差过高、优化不稳的问题,而且给出了为什么它天然比自回归模型更难训的分解解释。过去大家知道 MDM 在预训练后做任务微调时常掉队,但缺的是一个能指导工程改进的方差来源分析。

Mengni Jia,Mengyu Zhou,Yihao Liu,xiaoxi jiang,guanjunjiang
masked-diffusiontraining-variancediffusion-lmVirtual
9
精读ICLR 2026

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

这篇论文解决的是固定 tokenizer 带来的建模粒度僵化问题。现代 LM 一旦选定 BPE 或 unigram 等子词切分,模型整个训练和推理都被锁死在这个粒度上,结果是遇到新形态词、拼写变体、跨语言混合和符号序列时经常出现不自然甚至脆弱的行为。过去虽然有 byte-level 或 self-tokenizing 路线,但要么效率差,要么切分机制不够动态。

Chunyuan Deng,Sanket Lokegaonkar,Colin Lockard,Besnik Fetahu,Nasser Zalmout,Xian Li
tokenizerbyte-levelarchitectureVirtual
8
泛读ICLR 2026

Soft-Masked Diffusion Language Models

现有掩码扩散语言模型的解码采用二元决策:要么保留掩码要么替换为预测token,保留掩码时会丢弃之前的预测信息,限制生成质量和自修正能力。

Michael Hersche,Samuel Moor-Smith,Thomas Hofmann,Abbas Rahimi
diffusion-lmmasked-diffusionsoft-maskingVirtual
9
精读ICLR 2026

Scaling Behavior of Discrete Diffusion Language Models

离散扩散语言模型的缩放行为未被系统研究,过往结论认为扩散语言模型需要比AR模型更多的计算和数据才能达到相当性能,该结论未考虑噪声类型等超参数的影响。

Dimitri von Rütte,Janis Fluri,Omead Pooladzandi,Bernhard Schölkopf,Thomas Hofmann,Antonio Orvieto
diffusion-lmscaling-lawdiscrete-diffusionVirtual
8
精读OralICLR 2026

The Art of Scaling Reinforcement Learning Compute for LLMs

LLM的RL训练阶段缺乏类似预训练的成熟可预测缩放方法论,此前算法改进评估无统一量化原则,算力投入快速增长但效率无章法。

Devvrit Khatri,Lovish Madaan,Rishabh Tiwari,Rachit Bansal,Venkata Sai Surya Subramanyam Duvvuri,Manzil Zaheer,Inderjit Dhillon,David Brandfonbrener,Rishabh Agarwal
UNC Chapel Hillrlscaling-lawpost-trainingVirtual
8
泛读ICLR 2026

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

开源统一多模态LLM普遍存在图文理解和文图生成的性能权衡,此前方案要么侧重理解要么侧重生成,没有平衡两者的轻量兼容方案。

Yanghao Li,Rui Qian,Bowen Pan,Haotian Zhang,Haoshuo Huang,Bowen Zhang ... 省略 17 位作者 ... ,Chen Chen,Yang Zhao,Ruoming Pang,Zhifeng Chen
ByteDancemultimodalvision-tokenizerunified-modelVirtual
9
精读ICLR 2026

Beyond Length: Quantifying Long-Range Information for Long-Context LLM Pretraining Data

长上下文 pretrain 的数据中,大量文本虽然很长但缺乏有意义的长距离依赖——大部分 span 用局部上下文就能预测。在这种数据上训练效率低下,需要一种方法筛选出真正需要长距离信息的训练样本。

Haoran Deng,Yingyu Lin,Zhenghao Lin,Xiao Liu,Yizhou Sun,Yian Ma,Yeyun Gong
Tsinghua UniversityUCLAlong-contextdata-qualitypretraining-dataVirtual
9
精读ICLR 2026

Dual-objective Language Models: Training Efficiency Without Overfitting

AR LM训练效率高但易过拟合,掩码扩散LM抗过拟合但训练效率低,此前没有无架构修改的方案同时兼顾两者优势。

David Samuel,Lucas Charpentier
diffusion-lmautoregressivedual-objectiveVirtual
9
精读OralICLR 2026

On the Reasoning Abilities of Masked Diffusion Language Models

这篇论文回答的是:masked diffusion language model 到底能做哪些推理,以及并行生成的限制在哪里。过去大家知道 MDM 在生成范式上不同于 AR,但对它的“计算能力”缺少清晰刻画,讨论通常停留在经验效果或直觉比较。作者想做的是把 MDM 放到一个可证明的复杂度框架里,回答它是否真的因为并行性而丧失推理能力,还是只是把计算搬到了不同的迭代形式里。

Anej Svete,Ashish Sabharwal
diffusion-lmmasked-diffusionreasoningVirtual
10
精读ICLR 2026

RLP: Reinforcement as a Pretraining Objective

现有大模型训练范式将RL仅用于最后的对齐阶段,预训练阶段仅用next-token预测,缺乏探索性训练信号,推理能力提升完全依赖后续SFT和RL。

Ali Hatamizadeh,Syeda Nahida Akter,Shrimai Prabhumoye,Jan Kautz,Mostofa Patwary,Mohammad Shoeybi,Bryan Catanzaro,Yejin Choi
NVIDIArl-pretrainobjectivereasoningVirtual
9
精读ICLR 2026

Critical attention scaling in long-context transformers

这篇工作要解决的是:长上下文 Transformer 里 attention score 随上下文长度增加趋于均匀,导致 token 表示过度聚合、出现 rank collapse,而业界常用的 attention scaling 虽然有效,但缺少清晰理论解释。问题已经很现实,因为上下文长度继续扩展时,这类退化会直接侵蚀长程检索和信息分离能力。

Shi Chen,Zhengjiang Lin,Yury Polyanskiy,Philippe Rigollet
long-contextattentionscaling-lawVirtual
9
精读ICLR 2026

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

现有口语语言模型的语音token和文本模态存在语义gap,联合建模时无法同时保留副语言信息和语义对齐性,此前方案要么损失语义精度要么丢失副语言特征。

Liang-Hsuan Tseng,Yi-Chang Chen,Kuan Lee,Da-shan Shiu,Hung-yi Lee
National Taiwan Universityspeech-lmtokenizermultimodalVirtual
8
泛读ICLR 2026

UltraLLaDA: Scaling the Context Length to 128K for Diffusion Large Language Models

现有扩散LLM的上下文长度普遍较短,长上下文行为没有被系统性研究,此前没有无需从头训练的扩散LM上下文扩展方案。

Guangxin He,Shen Nie,Fengqi Zhu,Yuankang Zhao,Tianyi Bai,Ran Yan,Jie Fu,Chongxuan Li,Binhang Yuan
diffusion-lmlong-contextlladaVirtual
9
精读ICLR 2026

Fast Data Mixture Optimization via Gradient Descent

现有预训练和后训练的数据混合优化依赖人工启发式规则或大量模拟实验,成本高、扩展性差,没有自动化的高效优化方案。

Haoru Tan,Sitong Wu,Yanfeng Chen,Jun Xia,Ruobing Xie,Bin Xia,Samm Sun,XIAOJUAN QI
Tencentdata-mixturescalingproxy-modelVirtual
7
泛读ICLR 2026

Diffusion Language Models are Provably Optimal Parallel Samplers

扩散LM的并行采样优势缺乏严格的理论证明,此前仅靠实验观察到比AR LM采样快,没有理论边界支撑。

Haozhe Jiang,Nika Haghtalab,Lijie Chen
diffusion-lmparallel-samplingtheoryVirtual
9
精读ICLR 2026

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

现有预训练语料中代码片段质量差,过往方法仅依靠过滤丢弃低质量数据,浪费大量可用原始素材,直接限制了大模型在代码生成、数学推理任务的性能上限。

Kazuki Fujii,Yukito Tajima,Sakae Mizuki,Masaki Kawamura,Hinari Shimada,Taihei Shiotani ... 省略 7 位作者 ... ,Hiroya Takamura,Rio Yokota,Jun Sakuma,Naoaki Okazaki
data-qualitypretraining-datamathVirtual
8
泛读ICLR 2026

Scaling with Collapse: Efficient and Predictable Training of LLM Families

过往仅验证了单变量控制场景下训练损失曲线可归一化到通用轨迹,但实际LLM系列训练中宽度、深度、学习率、批大小、权重衰减等超参数会联合缩放,该损失坍缩现象是否成立尚不明确,导致大模型训练可预测性不足。

Shane Bergsma,Bin Zhang,Nolan Dey,Shaheer Muhammad,Gurpreet Gosal,Joel Hestness
scaling-lawloss-curvehyperparameter-transferVirtual
9
精读ICLR 2026

Fantastic Pretraining Optimizers and Where to Find Them

过往宣称优于AdamW的优化器都存在两个方法缺陷:超参数调优不公平、评估设置不严谨,导致这些优化器无法在实际预训练中落地,社区无法判断哪些优化器真正有效。

Kaiyue Wen,David Hall,Tengyu Ma,Percy Liang
optimizerpretrainingscalingVirtual
9
精读ICLR 2026

Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice

工业界普遍用小代理模型的实验结果来指导全尺寸模型的预训练数据配方选择,但当前通用的固定超参数对比协议会导致数据质量的评估结论随超参数调整翻转,小模型实验的结论无法可靠迁移到全尺寸模型。

Jiachen (Tianhao) Wang,Tong Wu,Kaifeng Lyu,James Y Zou,Dawn Song,Ruoxi Jia,Prateek Mittal
data-qualitydata-mixturescalingVirtual
9
精读ICLR 2026

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

Diffusion LLM(dLLM)的 log-likelihood 不可解析计算,导致标准 policy gradient 方法无法直接用于 RL 对齐。现有方法用 ELBO 等单侧近似作为替代,但会引入显著的策略梯度偏差。

Chenyu Wang,Paria Rashidinejad,Andy (DiJia) Su,Song Jiang,Sid Wang,Siyan Zhao ... 省略 2 位作者 ... ,Feiyu Chen,Tommi Jaakkola,Yuandong Tian,Bo Liu
diffusion-lmpolicy-gradientrl-alignmentVirtual
9
精读OralICLR 2026

Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

这篇论文解释了一个很顽固的训练失败现象:低精度 Transformer 训练配合 flash attention 时,loss 会突然爆炸,而且常规上常被当成随机数值不稳定。作者的结论是,这不是偶发噪声,而是由注意力内部相似的低秩表示与低精度舍入偏差相互放大,形成系统性失稳回路。

Haiquan Qiu,Quanming Yao
training-stabilitylow-precisionflash-attentionVirtual
8
泛读ICLR 2026

Cautious Optimizers: Improving Training with One Line of Code

过往针对Transformer预训练的优化器改进要么复杂度高、落地成本大,要么稳定性不足,无法在大规模预训练中广泛应用,亟需简单可落地的优化器改进方案。

Kaizhao Liang,Lizhang Chen,Bo Liu,Qiang Liu
optimizeradamwtraining-stabilityVirtual
6
泛读ICLR 2026

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

大模型的自回归解码无法回溯和修正之前生成的token,导致推理过程中容易出现错误积累,同时难以探索多样化的推理路径,限制了数学、逻辑等复杂推理任务的性能。

Haoqiang Kang,Yizhe Zhang,Nikki Kuang,Nicklas Majamaki,Navdeep Jaitly,Yian Ma,Lianhui Qin
diffusion-lmreasoninglatentVirtual
7
泛读ICLR 2026

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

过往二阶优化器的近似方案的性能上限不明确,无法判断现有近似方法还有多少提升空间,导致二阶优化的研发方向不清晰。

Natalie Abreu,Nikhil Vyas,Sham Kakade,Depen Morwani
second-orderoptimizationpretrainingVirtual
8
精读ICLR 2026

Variational Autoencoding Discrete Diffusion with Enhanced Dimensional Correlations Modeling

这篇论文解决的是 masked discrete diffusion 在少步采样时建模维度间相关性不足的问题。传统 MDM 从全 mask 状态逐步反遮盖多个维度,速度快,但当步数压得很低时,每一步主要依赖局部条件恢复,跨维度协同关系容易建不全,因此质量会明显掉。

Tianyu Xie,Shuchen Xue,Zijin Feng,Tianyang Hu,Jiacheng Sun,Zhenguo Li,Cheng Zhang
diffusion-lmdiscrete-diffusionmasked-diffusionVirtual
8
精读ICLR 2026

Getting Your LLMs Ready for Reinforcement Learning with Lightweight SFT

这篇论文的核心结论是:RL 前的 cold-start SFT 不是越久越好,甚至“验证集上最好的 SFT checkpoint”常常不是最适合继续做 RL 的起点。原因在于模型会在 RL 之前就发生 distributional forgetting,过早偏离 base model 的广泛分布支持,导致后续 RL 虽然更会模仿训练格式,却更难探索、也更难被奖励信号有效塑形。

Xinran Li,Guangda Huzhang,Siqi Shen,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang,Jun Zhang
reinforcement-learningsftpost-trainingVirtual
8
泛读ICLR 2026

Expert Divergence Learning for MoE-based Language Models

MoE大模型预训练中普遍存在专家同质化问题,不同专家学习到的功能冗余,导致MoE的计算效率和性能上限被限制,过往的辅助损失无法有效引导专家的功能分化。

Jiaang Li,Haibin Chen,langming liu,Yujin Yuan,Yadao Wang,Yizhen Zhang ... 省略 2 位作者 ... ,Weidong Zhang,Shilei Liu,wenbo su,Bo Zheng
moepretrainingexpert-specializationVirtual
8
精读ICLR 2026

Lumos-1: On Autoregressive Video Generation with Discrete Diffusion from a Unified Model Perspective

这篇论文要解决的是:如何用尽量标准的 LLM 范式做统一的视频生成,同时避免 AR 视频模型常见的三类问题——视觉时空位置编码不合适、依赖外部文本编码器、以及逐 token 解码导致延迟过高。过去 AR 视频生成往往要么改得不像 LLM,要么在效率和统一性上都不够理想。

Hangjie Yuan,Weihua Chen,Jun CEN,Hu Yu,Jingyun Liang,Shuning Chang ... 省略 4 位作者 ... ,Hao Luo,Jiasheng Tang,Fan Wang,Yi Yang
unified-modelingvideo-tokenizationautoregressiveVirtual
8
精读ICLR 2026

LLM Pretraining with Continuous Concepts

这篇论文要解决的是:next-token prediction 虽然是 LLM 预训练的默认目标,但它把学习信号几乎全部压到离散 token 上,未必是最样本高效的表征学习方式。过去大家通常通过蒸馏、辅助 loss 或 latent target 来补这个问题,但很少把连续概念直接混进语言模型主干状态中共同训练。

Jihoon Tack,Jack Lanchantin,Jane Dwivedi-Yu,Andrew Cohen,Ilia Kulikov,Janice Lan,Shibo Hao,Yuandong Tian,Jason E Weston,Xian Li
pretrainingobjectiverepresentation-learningVirtual
8
精读OralICLR 2026

Intrinsic Entropy of Context Length Scaling in LLMs

长上下文对语言建模的影响缺乏统一理论解释:有研究发现长无关上下文有害,有研究发现长相关上下文的 loss 降低符合 scaling law,但没有一个框架能统一解释这些现象。

Jingzhe Shi,Qinwei (Martin) Ma,Hongyi Liu,Hang Zhao,Jenq-Neng Hwang,Lei Li
long-contextscaling-lawinformation-theoryVirtual
7
泛读ICLR 2026

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

现有实证观测确认LLM表征包含人类可解释概念,但对其涌现机制无严格理论解释, prior 工作多停留在现象验证,未提供可识别性的形式化保证。

Yuhang Liu,Dong Gong,Yichao Cai,Erdun Gao,Zhen Zhang,Biwei Huang,Mingming Gong,Anton Hengel,Javen Qinfeng Shi
next-token-predictionconcept-learningrepresentationVirtual
5
泛读ICLR 2026

Multi-Head Low-Rank Attention

长上下文LLM解码阶段KV缓存加载是推理瓶颈,现有多头潜注意力(MLA)虽减小了KV缓存体积,但单潜头无法张量并行切分,分布式解码时每个设备需冗余加载全量KV缓存,抵消了张量并行收益。

Songtao Liu,Hongwu Peng,Zhiwei Zhang,Zhengyu Chen,Yue Guo
kv-cacheattention-mechanismlow-rankVirtual
8
精读ICLR 2026

Muon Outperforms Adam in Tail-End Associative Memory Learning

这篇论文要解释的是:为什么 Muon 在 LLM 训练后期往往比 Adam 更快,优势具体来自哪里。过去大家知道 Muon 训练 loss 下降更快,但机制不清楚,因此也不知道它适用于哪些层、哪些数据分布、哪些训练阶段。

Shuche Wang,Fengzhuo Zhang,Jiaxiang Li,Cunxiao Du,Chao Du,Tianyu Pang,Zhuoran Yang,Mingyi Hong,Vincent Tan
optimizermuontraining-dynamicsVirtual
8
精读ICLR 2026

Logit‑KL Flow Matching: Non‑Autoregressive Text Generation via Sampling‑Hybrid Inference

非自回归文本生成的核心难点是离散序列依赖难建模,很多 NAR 方法要么质量差,要么推理又退化成复杂的迭代采样。

Egor Sevriugov,Nikita Dragunov,Anton Razzhigaev,Andrey Kuznetsov,Ivan Oseledets
non-autoregressiveflow-matchingdiscrete-generationVirtual
8
精读ICLR 2026

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

这篇论文解决的是离散 token 级 CoT 天生串行,搜索能力受限,而很多组合推理问题需要并行保留多条候选轨迹。过去大家通过 self-consistency、tree search 或多样本采样弥补,但这些办法都把并行性放到采样层面,模型内部表征仍是单轨迹生成。

Alperen Gozeten,Muhammed Ildiz,Xuechen Zhang,Hrayr Harutyunyan,Ankit Singh Rawat,Samet Oymak
continuous-cotlatent-reasoningnon-autoregressiveVirtual
8
精读ICLR 2026

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs

这篇论文的核心结论是:扩散语言模型有一类 AR LLM 不同的安全脆弱性,现有对齐机制在 masked-input、context-aware 攻击下会失效。过去大家更多把 dLLM 的优势放在并行解码和双向建模上,但这些同样带来了新的攻击面:攻击者可以利用 mask 与文本交错输入,操纵模型在填充过程中绕过安全边界。

Zichen Wen,Jiashu Qu,Zhaorun Chen,Xiaoya Lu,Dongrui Liu,Zhiyuan Liu ... 省略 6 位作者 ... ,Chaochao Lu,Jing Shao,Conghui He,Linfeng Zhang
diffusion-lmsafetyalignmentVirtual
7
泛读ICLR 2026

Squeeze the Soaked Sponge: Efficient Off-policy RFT for Large Language Model

现有LLM强化微调(RFT)多为同策略方法,无法复用历史生成数据,训练数据效率低,难以规模化扩展。

Jing Liang,Jinyi Liu,Yi Ma,Hongyao Tang,YAN ZHENG,Shuyue Hu,LEI BAI,Jianye Hao
rftoff-policydata-efficiencyVirtual
6
泛读ICLR 2026

Unveiling the Potential of Diffusion Large Language Model in Controllable Generation

现有自回归LLM生成结构化输出(如JSON)时可靠性不足,无法满足可控生成、工具调用等场景要求,现有可控生成方法多为后处理或prompt工程,未利用模型架构原生特性。

Zhen Xiong,Yujun Cai,Zhecheng Li,Yiwei Wang
diffusion-lmcontrollable-generationstructured-generationVirtual
8
精读ICLR 2026

Pretrain Value, Not Reward: Decoupled Value Policy Optimization

现有RLHF标准流程先预训练奖励模型(RM)再在线学习价值函数(critic),在偏好数据固定的情况下,该流程存在冗余学习步骤,容易导致critic估计偏差和训练不稳定。

Chenghua Huang,Lu Wang,Fangkai Yang,Pu Zhao,Qingwei Lin,Dongmei Zhang,Saravan Rajmohan
rlhfvalue-modelpolicy-optimizationVirtual
7
泛读ICLR 2026

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning

现有LLM策略梯度算法中的KL正则化设计(方向、归一化、估计器选择)分散在不同工作中,与异策略估计相互耦合,没有统一的推导框架明确各变体的正确加权方式,导致实践中算法选择依赖经验调参。

Yifan Zhang,Yifeng Liu,Rina Hughes,Yang Yuan,Quanquan Gu,Andrew Yao
policy-gradientkl-regularizationreasoningVirtual
8
精读ICLR 2026

Evolution of Concepts in Language Model Pre-Training

这篇工作要解决的是:预训练过程中概念和可解释特征是如何逐步形成的,能否在训练快照之间连续追踪,而不是只看最终模型。过去关于 pretraining dynamics 的结论多来自 loss 曲线、线性 probe 或少量层级分析,缺少能跨训练阶段稳定对齐的特征级观察工具。

Xuyang Ge,Wentao Shu,Jiaxing Wu,Yunhua Zhou,Zhengfu He,Xipeng Qiu
pretrain-dynamicsinterpretabilitysparse-autoencoderVirtual
8
精读ICLR 2026

Implicit bias produces neural scaling laws in learning curves, from perceptrons to deep networks

这篇工作要解决的是:神经网络 scaling law 为什么会出现,而且这种规律是否不只存在于训练终点,而是贯穿整个学习过程。过去大多数 scaling law 工作关注最终 test loss 与模型/数据规模的幂律关系,但对训练动态本身为什么也呈规律性,解释并不充分。

Francesco DAmico,Dario Bocchi,Matteo Negri
scaling-lawimplicit-biaslearning-curvesVirtual
8
精读ICLR 2026

Self-Speculative Masked Diffusions

Masked diffusion 模型在生成离散数据时需要大量前向推理步数(function evaluations),因为其 factorized 预测假设导致一次采样太多位置会严重降低质量。

Andrew Campbell,Valentin De Bortoli,Jiaxin Shi,Arnaud Doucet
Google DeepMinddiffusion-lmmasked-lmdiscrete-diffusionVirtual
7
泛读ICLR 2026

Reinforcing General Reasoning Without Verifiers

现有DeepSeek-R1-Zero风格的RL推理训练依赖可规则校验的奖励,无法扩展到化学、法律等无法自动校验答案的通用领域;现有基于LLM校验器的 workaround 存在奖励 hacking、依赖强校验器、显存开销大的问题。

Xiangxin Zhou,Zichen Liu,Anya Sims,Haonan Wang,Tianyu Pang,Chongxuan Li,Liang Wang,Min Lin,Chao Du
rlreasoningr1-zeroVirtual
7
泛读ICLR 2026

Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

扩散大语言模型(dLLM)的生成速度慢,需要多步去噪,无法满足高吞吐推理的需求,现有dLLM加速方法多为采样策略优化,没有从训练蒸馏层面实现大幅提速。

Haoyang Zheng,Xinyang Liu,Xiangrui Kong,Nan Jiang,Zheyuan Hu,Weijian Luo,Wei Deng,Guang Lin
diffusion-lmdistillationdiscrete-diffusionVirtual
7
泛读ICLR 2026

PROS: Towards Compute-Efficient RLVR via Rollout Prefix Reuse

RLVR(带可验证奖励的强化学习)训练大推理模型时,on-policy rollout的成本随生成长度和模型规模快速上升成为训练瓶颈,现有方法默认每次生成独立rollout,完全没有利用相同查询下不同rollout的前缀冗余。

Baizhou Huang,Xiaojun Wan
rlvrreasoningcompute-efficiencyVirtual
7
泛读ICLR 2026

Learning to Reason over Continuous Tokens with Reinforcement Learning

现有离散token空间的CoT推理因中间步骤冗长导致计算和内存成本过高,而现有嵌入空间的隐式推理会损失推理清晰度和性能,此前没有方法能动态平衡推理的效率和质量。

Yiran Zhao,Yuhui Xu,Doyen Sahoo,Caiming Xiong,Junnan Li
latent-reasoningcontinuous-tokensreinforcement-learningVirtual
6
泛读ICLR 2026

On the Thinking-Language Modeling Gap in Large Language Models

大模型通过模仿人类语言中的思考过程获得推理能力,但经常在人类觉得简单的任务上失败,现有研究未从因果层面解释语言表达偏差对大模型推理能力的影响。

Chenxi Liu,Yongqiang Chen,Tongliang Liu,James Cheng,Bo Han,Kun Zhang
reasoninglanguage-modelingcausal-analysisVirtual
8
精读ICLR 2026

FlowRL: Matching Reward Distributions for LLM Reasoning

这篇工作要解决的是:当前 LLM reasoning RL 过于追求高回报轨迹,容易把少数高频奖励模式学得很尖,反而压掉低频但同样有效的推理路径。PPO、GRPO 这类 reward-maximizing 方法默认“更高 reward 就更该集中概率”,但在数学和代码推理里,正确解往往不止一种,过度 mode-seeking 会伤害探索、多样性和跨题泛化。

Xuekai Zhu,Daixuan Cheng,Dinghuai Zhang,Henry Li,Kaiyan Zhang,Che Jiang ... 省略 13 位作者 ... ,Xiaodong Liu,Bowen Zhou,Hongyuan Mei,Zhouhan Lin
rlreasoningreward-modelingVirtual
8
精读ICLR 2026

Unveiling the Basin-Like Loss Landscape in Large Language Models

这篇工作要解决的是:大模型参数空间里的 loss landscape 到底是什么形状,以及这件事如何解释预训练与对齐微调的能力保留和能力冲突。过去很多讨论默认 fine-tuning 容易破坏原能力,但缺少对大模型尺度下“哪些方向平、哪些方向危险”的系统刻画。

Huanran Chen,Zeming Wei,Yao Huang,Yichi Zhang,Yinpeng Dong,Jun Zhu
loss-landscapescalingtraining-dynamicsVirtual
5
泛读ICLR 2026

ChainGPT: Dual-Reasoning Model with Recurrent Depth and Multi-Rank State Updates

固定深度的Transformer架构无法支持端到端的复杂深度推理,现有CoT类方法依赖自然语言生成,成本随序列长度快速上升,此前没有方法能在低计算成本下提升推理深度。

Yunao Zheng,Xiaojie Wang,Lei Ren,Chen Wei
recurrent-depthreasoningarchitectureVirtual
8
泛读ICLR 2026

FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates

现有低帧率神经音频Codec在帧率低于12.5Hz时会丢失大量语义信息,无法同时满足语音LM低序列长度要求和语音细节保留要求,现有方法默认Codec采用固定帧率,未解决语义信息和瞬态语音细节的解耦问题。

Jiaqi Li,Yao Qian,Yuxuan Hu,leying zhang,Xiaofei Wang,Heng Lu,Manthan Thakker,Jinyu Li,sheng zhao,Zhizheng Wu
speech-lmaudio-codeclow-frame-rateVirtual
8
精读ICLR 2026

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

这篇论文要解决的是:LLM 的 off-policy RL 虽然更省样本,但很容易熵塌缩、训练不稳,甚至策略崩掉。过去大家常把问题归因于 stale data 或 reward noise,但作者指出更直接的机制是 PPO 类目标在 off-policy 下会系统性地放大负优势样本的压制作用,并且固定 clipping 会阻断增加熵的更新。

Zhiheng Xi,Xin Guo,Yang Nan,Enyu Zhou,Junrui Shen,Wenxiang Chen ... 省略 10 位作者 ... ,Hang Yan,Tao Gui,Qi Zhang,Xuanjing Huang
rloff-policyalignmentVirtual
8
精读ICLR 2026

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

这篇论文要解决的是:RLVR 到底是真的提升了 base LLM 的推理能力,还是只提高了采样时撞对答案的概率。这个问题一直有争议,因为传统 Pass@K 无法区分模型是否真的学会了更好的推理轨迹,还是只是产出更多杂乱但偶尔正确的样本。

Xumeng Wen,Zihan Liu,Shun Zheng,Shengyu Ye,Zhirong Wu,Yang Wang ... 省略 2 位作者 ... ,Junjie Li,Ziming Miao,Jiang Bian,Mao Yang
rlvrreasoningbase-modelVirtual
8
精读ICLR 2026

COSMOS: A Hybrid Adaptive Optimizer for Efficient Training of Large Language Models

LLM 训练中 AdamW 无法捕捉坐标间依赖且内存开销大,SOAP 等方法虽然建模了坐标依赖但内存更高,低秩投影方法(如 GaLore)又丢失了残差空间的梯度信息。需要一个既能捕捉坐标依赖、又不爆内存的优化器。

Liming Liu,Zhenghao Xu,Zixuan Zhang,Hao Kang,Zichong Li,Chen Liang,Weizhu Chen,Tuo Zhao
optimizerllmtraining-stabilityVirtual
8
精读ICLR 2026

Group Representational Position Encoding

现有位置编码(RoPE、ALiBi 等)各自独立发展,缺乏统一的数学框架来理解它们的共性和差异。RoPE 是旋转,ALiBi 是加性偏置,但没有人从群论角度把它们统一起来,也就难以系统地探索新的位置编码设计空间。

Yifan Zhang,Zixiang Chen,Yifeng Liu,Qin Zhen,Rina Hughes,Kangping Xu,Yang Yuan,Quanquan Gu,Andrew Yao
position-encodingtransformerlong-contextVirtual
8
精读ICLR 2026

GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

GRPO 等 RL 方法在增强 LLM 推理能力时引入了代理损失函数、critic 模型、参考模型和 KL 约束等复杂组件,增加了训练复杂度。能否回归最朴素的策略梯度,去掉这些附加组件,同时保持甚至超越 GRPO 的性能?

Xiangxiang Chu,Hailang Huang,Xiao Zhang,Fei Wei,Yong Wang
rlreasoningpolicy-gradientVirtual
7
泛读ICLR 2026

Cutting the Skip: Training Residual-Free Transformers

Transformer的残差连接虽然稳定了训练,但会破坏表征的层级结构,而此前没有方法可以稳定高效地训练无残差的Transformer,默认残差连接是Transformer训练必不可少的组件。

Yiping Ji,James Martens,Jianqiao Zheng,Ziqin Zhou,Peyman Moghadam,Xinyu Zhang,Hemanth Saratchandran,Simon Lucey
residual-connectiontransformer-architecturetraining-stabilityVirtual
6
泛读ICLR 2026

Flow of Spans: Generalizing Language Models to Dynamic Span-Vocabulary via GFlowNets

现有自回归LM从固定词汇表逐token生成,状态空间是树结构,灵活性和表达能力受限;现有动态span词汇表的方法没有建模DAG状态空间,探索受限且存在路径偏差,此前没有用GFlowNets建模span级DAG生成空间的LM。

Bo Xue,Yunchong Song,Fanghao Shao,Xuekai Zhu,Lin Chen,Luoyi Fu,Xinbing Wang,Zhouhan Lin
dynamic-vocabularyspan-predictiongflownetVirtual
8
精读ICLR 2026

Cross-Tokenizer Likelihood Scoring Algorithms for Language Model Distillation

这篇工作解决的是知识蒸馏里一个很实际但常被绕开的障碍:teacher 和 student 如果 tokenizer 不同,就没法直接比较 next-token likelihood。现有蒸馏通常默认共享词表,或者退回 sequence-level 目标,原因不是这个问题不重要,而是跨 tokenizer 的概率空间不对齐很难做严谨。随着边缘部署需要更小词表、更小 embedding,这个问题变得值得重新认真解决。

Truong Buu Phan,Ashish Khisti,Karen Ullrich
tokenizerdistillationlikelihoodVirtual
8
精读ICLR 2026

Discrete Diffusion Trajectory Alignment via Stepwise Decomposition

这篇工作解决的是离散 diffusion model 如何做基于奖励或偏好的对齐,而不是只会最大似然去噪。现有思路如果直接把最终样本奖励反传到整条去噪轨迹,信用分配很差、优化也重,和 autoregressive LM 上成熟的 preference optimization 框架相比,离散 diffusion 还缺少一个自然对应物。作者要做的是把“轨迹对齐”拆成可训练、可解释的逐步目标。

Jiaqi Han,Austin Wang,Minkai Xu,Wenda Chu,Meihua Dang,Haotian Ye,Huayu Chen,Yisong Yue,Stefano Ermon
diffusion-lmpreference-optimizationalignmentVirtual
8
精读ICLR 2026

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

这篇工作解决的是语音对话模型里文本和语音生成不同步的问题。现有端到端语音 LLM 一类把语音 token 放到语言模型外部单独生成,文本决策感知不到正在合成的语音;另一类虽做 joint autoregressive modeling,但单一分辨率的语音表示很难同时兼顾语义对齐和声学细节。作者想构建一个真正并行、互相感知的 speech-text conversation model。

Chao-Hong Tan,Qian Chen,Wen Wang,Chong Deng,Qinglin Zhang,Luyao Cheng ... 省略 7 位作者 ... ,Hui Wang,Jiaqing Liu,Xiangang Li,Jieping Ye
speech-lmmultimodalaudio-tokenizerVirtual
7
泛读ICLR 2026

STEM: SCALING TRANSFORMERS WITH EMBEDDING MODULES

现有细粒度稀疏Transformer方法存在训练不稳定、负载不平衡、通信开销大的问题,无法在不损失性能的前提下降低每token计算成本,此前的稀疏方法都需要动态路由,带来额外开销。

Ranajoy Sadhukhan,Sheng Cao,Harry Dong,Changsheng Zhao,Attiano Purpura-Pontoniere,Yuandong Tian,Zechun Liu,Beidi Chen
architecturesparsityscalingVirtual
8
泛读ICLR 2026

StochasTok: Improving Fine-Grained Subword Understanding in LLMs

现有LLM子词级理解能力差,在数单词字母、拼写纠错、押韵、文字游戏等任务表现显著低于预期,核心原因是tokenizer掩盖了词的细粒度结构,现有改进方案如字符级tokenization、token dropout都会大幅提升计算成本,效果提升不稳定。

Anya Sims,Thomas Foster,T. Nguyen-Hien,Klara Kaleb,Joseph Lee,Jakob Foerster,Yee Whye Teh,Cong Lu
tokenizersubworddata-augmentationVirtual
7
泛读OralICLR 2026

Diffusion Language Model Knows the Answer Before It Decodes

扩散语言模型(DLM)推理速度远低于自回归模型,核心瓶颈是双向注意力开销和多步refinement步骤过多,现有加速方案都从减少步骤或优化注意力入手,未利用DLM本身的收敛特性。

Pengxiang Li,Yefan Zhou,Dilxat Muhtar,Lu Yin,Shilin Yan,Li Shen,Yi Liang,Soroush Vosoughi,Shiwei Liu
diffusion-lminference-efficiencynon-arVirtual
8
精读ICLR 2026

Achieving low-bit Muon through subspace preservation and grid quantization

这篇论文要解决的问题是:如何把 Muon 优化器的状态进一步做低比特压缩,而不被其正交化步骤放大量化误差。现有低比特优化器压缩方法大多默认更新是逐元素或逐向量稳定的,但 Muon 会对矩阵更新做正交化,这会把原本可控的小误差重分布并放大,导致直接套用 AdamW 那套量化办法效果很差。

Huaijin Wu,Bingrui Li,Yebin Yang,Yi Tu,Zhanpeng Zhou,Jianfei Chen,Junchi Yan
optimizermuonquantizationVirtual
8
精读ICLR 2026

Learned Meta-Tokens for Language Modeling

Transformer LM 难以可靠捕获远距离上下文信息。已有的位置编码和注意力机制在长距离依赖上表现不稳定,尤其在需要跨越长上下文回忆特定信息时。

Alok Shah,Khush Gupta,Keshav Ramji,Pratik A Chaudhari
language-modelinglong-contextspecial-tokensVirtual
8
精读ICLR 2026

KaVa: Latent Reasoning via Compressed KV-Cache Distillation

LLM 的 chain-of-thought 推理虽然有效但冗长,带来显著的计算和内存开销。latent reasoning(用连续隐状态代替显式文本推理)是一种高效替代,但缺乏有效的监督信号,在复杂推理任务上效果受限。

Anna Kuzina,Maciej Pióro,Babak Ehteshami Bejnordi
latent-reasoningkv-cachedistillationVirtual
8
精读ICLR 2026

Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors

这篇工作要解释的是:next-token 训练出来的 Transformer 为什么会学到一些对“下一 token 预测”看似无用、但对更远期结构(世界模型、语法)有用的抽象特征,以及这些特征到底来自梯度信号的哪一部分。

Mark Rofin,Jalal Naghiyev,Michael Hahn
interpretabilitynext-token-predictionfeaturesVirtual
8
精读ICLR 2026

Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation

这篇工作要解决的是:位置编码为什么能决定上下文长度外推,以及如何用一个统一理论指导比 ALiBi/NoPE 更强的长上下文泛化。过去各种 PE 方法多数靠经验设计和有限 benchmark 证明有效,但缺少统一解释,所以很难知道哪些形式只是拟合训练长度,哪些真的能跨长度稳健外推。

Arthur S. Bianchessi,Yasmin C. Aguirre,Rodrigo C Barros,Lucas S. Kupssinskü
positional-encodinglong-contextattentionVirtual
8
精读ICLR 2026

Out of the Memory Barrier: A Highly Memory-Efficient Training System for LLMs with Million-Token Contexts

这篇工作要解决的是:把 LLM 训练上下文拉到百万 token 时,真正卡住的首先不是算力而是显存,尤其是随序列长度线性增长的 activation 和不断膨胀的 KV cache。过去长上下文训练常用 checkpointing、并行切分等手段缓解,但在百万级长度上仍会因为显存碎片、缓存梯度和数据搬运而碰到系统瓶颈。

Wenhao Li,Daohai Yu,Gen Luo,Yuxin Zhang,Yifan Wu,Jiaxin Liu,Ziyang Gong,Zimu Liao,Fei Chao,Rongrong Ji
long-contextmemory-efficiencytraining-systemVirtual
8
精读ICLR 2026

Can Speech LLMs Think while Listening?

语音大模型在复杂推理任务上表现差,而文本 LLM 已经通过 CoT 显著提升了推理能力。本文探索的核心问题是:如何让语音 LLM 在「听」的同时「想」,既获得 CoT 带来的推理增益,又不引入过大的响应延迟。

Yi-Jen Shih,Desh Raj,Chunyang Wu,Wei Zhou,SK Bong,Yashesh Gaur,Jay Mahadeokar,Ozlem Kalinli,Mike Seltzer
speech-llmchain-of-thoughtreasoningVirtual
7
泛读ICLR 2026

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

带可验证奖励的强化学习(RLVR)仅能用于数学、编程这类有明确二元对错的任务,无法扩展到医疗、科学这类需要多维度判断的真实场景,现有评分表(rubrics)仅用于评估,未被充分探索作为on-policy训练的奖励信号。

Anisha Gunjal,Anthony Wang,Elaine Lau,Vaskar Nath,Yunzhong He,Bing Liu,Sean Hendryx
rlvrreward-modelalignmentVirtual
7
泛读OralICLR 2026

Why DPO is a Misspecified Estimator and How to Fix It

直接偏好优化(DPO)存在统计误配问题,当生成偏好的真实奖励函数无法被参数化策略类实现时,会出现偏好反转、奖励下降、对偏好数据分布敏感等失效问题,现有方案均假设DPO估计是无偏的,未从统计层面分析DPO的误配问题。

Aditya Gopalan,Sayak Ray Chowdhury,Debangshu Banerjee
dpoalignmentpreference-optimizationVirtual
8
精读ICLR 2026

When Data is the Algorithm: A Systematic Study and Curation of Preference Optimization Datasets

这篇论文要解决的是 DPO 数据集质量不透明、配方差异大、但社区缺少系统比较的问题。过去很多工作把偏好优化的成败归因于算法本身,实际上数据筛选方式、任务覆盖和偏好标注质量往往已经决定了上限。

Aladin Djuhera,Farhan Ahmed,Swanand Kadhe,Syed Zawad,Heiko Ludwig,Holger Boche
dpopreference-datadata-qualityVirtual
6
泛读ICLR 2026

DASH: Deterministic Attention Scheduling for High-throughput Reproducible LLM Training

LLM训练的确定性需求导致吞吐量下降,FlashAttention-3的确定性反向传播比非确定性版本吞吐量最高下降37.9%,根源是梯度累积操作必须序列化导致硬件利用率低,现有方案要么牺牲确定性要么牺牲性能,未从调度层面优化。

Xinwei Qiang,Hongmin chen,Shixuan Sun,Jingwen Leng,Xin Liu,Minyi Guo
training-stabilityflash-attentiondeterminismVirtual
7
泛读ICLR 2026

Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding

扩散大语言模型(dLLM)现有并行解码策略使用固定的、与输入无关的启发式规则(如置信度阈值),无法适配不同输入特性,速度质量trade-off次优,现有方案均使用固定规则,未采用自适应策略。

Wenrui Bao,Zhiben Chen,Dan Xu,Yuzhang Shang
diffusion-lmparallel-decodinginferenceVirtual
5
泛读ICLR 2026

What Layers When: Learning to Skip Compute in LLMs with Residual Gates

现有LLM动态跳层方案如早退出、混合深度(MoD)模型训练不稳定,需要大量重新训练,无法在预训练好的模型上稳定微调,现有方案重新训练开销大。

Filipe Laitenberger,Dawid Kopiczko,Cees G Snoek,Yuki Asano
layer-skippingadaptive-computegatingVirtual
6
泛读ICLR 2026

Hierarchy Decoding: A Training-free Parallel Decoding Strategy for Diffusion Large Language Models

离散扩散大语言模型(dLLM)解码计算开销仍然很高,现有并行解码方案每步生成token数量少,信息利用率低,现有方案未采用分治思路优化解码步骤。

Xiaojing Qi,Lun Du,Xinyuan Zhang,Lanning Wei,Tao Jin,Da Zheng
diffusion-lmdecodingparallel-generationVirtual
8
精读ICLR 2026

Multilingual Routing in Mixture-of-Experts

这篇论文要回答的是:MoE 大模型在多语言训练时到底如何路由,不同语言是共享专家还是各走各的,而这种路由模式和语言能力之间有什么关系。过去大家更多关注 dense multilingual LM 的参数共享,很少系统分析 sparse routing 的层级行为,因此 MoE 多语言能力为什么强、为什么弱,往往只停留在经验猜测。

Lucas Bandarkar,Chenyuan Yang,Mohsen Fayyaz,Junlin Hu,Nanyun (Violet) Peng
moemultilingualroutingVirtual
8
精读ICLR 2026

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

这篇论文要解决的是:tokenization 仍然是端到端 foundation model 的外部先验,限制了模型自己学习层级结构和分段策略。过去大家默认先分词、再建模、再反解码,这个流水线很有效,但它把离散切分规则固定死了,模型无法根据内容和上下文动态决定什么应该组成一个更高层单元。

Sukjun Hwang,Brandon Wang,Albert Gu
tokenizerend-to-endsequence-modelingVirtual
5
泛读ICLR 2026

Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerability

扩散语言模型(DLM)的迭代去噪推理机制存在未被研究的越狱攻击安全漏洞,现有对齐方案均针对自回归(AR)模型设计,未覆盖DLM并行生成的特有风险。

Shojiro Yamabe,Jun Sakuma
diffusion-lmsafetyjailbreakVirtual
7
泛读OralICLR 2026

TROLL: Trust Regions Improve Reinforcement Learning for Large Language Models

现有LLM RLHF的主流PPO裁剪目标是KL信任域的粗糙近似,易导致更新不稳定、性能次优,此前工作仅优化优势估计和归一化,未改动裁剪机制本身。

Philipp Becker,Niklas Freymuth,Serge Thilges,Fabian Otto,Gerhard Neumann
rlhfppotrust-regionVirtual
8
精读ICLR 2026

Beyond Pass@ 1: Self-Play with Variational Problem Synthesis Sustains RLVR

这篇论文要解决的是 RLVR 在提升 Pass@1 的同时压缩策略熵、损害 Pass@k 的问题,也就是模型变得更会“押一个答案”,但不再保留多样推理路径。此前很多 RLVR 工作默认 verifiable reward 足够强,只要单样本正确率上涨就是训练成功;但对复杂推理任务,Pass@k 往往更接近模型真实上限,而熵坍缩会把这个上限一起拉低。

Xiao Liang,Zhong-Zhi Li,Yeyun Gong,yelong shen,Yingnian Wu,Zhijiang Guo,Weizhu Chen
rlvrreasoningself-playVirtual
7
泛读ICLR 2026

Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

基于可验证奖励的RLVR用于LLM推理微调时,易出现熵崩塌或熵爆炸的训练振荡,现有无价值RL方法(如GRPO/DAPO)使用的均值基线在奖励离群点场景下会错误惩罚负优势样本,是振荡的核心原因。

Junkang Wu,Kexin Huang,Jiancan Wu,An Zhang,Xiang Wang,Xiangnan He
rlvradvantage-estimationreasoningVirtual
7
泛读ICLR 2026

Frayed RoPE and Long Inputs: A Geometric Perspective

RoPE在输入长度超过训练长度时性能下降,现有分析仅归因于长输入下通道旋转分布外溢,但未解释旋转异常与注意力病理行为的关联机制。

Davis Wertheimer,Aozhong Zhang,Derrick Liu,Penghang Yin,Naigang Wang
ropelong-contextpositional-encodingVirtual
8
泛读ICLR 2026

Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism

长上下文训练的注意力优化分为内核级优化和上下文并行两类,现有评估不系统:内核级对比不完整,上下文并行方案多为框架专属,不同场景下的性能边界不清晰。

Tao Bu,Qiangang Wang,Bowen Zeng,Hanwen Sun,Yunpeng Huang,Chun Cao,Jingwei Xu
long-contextattentionbenchmarkVirtual
7
泛读OralICLR 2026

Reasoning with Sampling: Your Base Model is Smarter Than You Think

现有前沿推理能力被认为是RL微调阶段涌现的,基座模型本身不具备同等推理能力,此前未探索仅通过推理阶段采样从基座模型引出推理能力的可行路径。

Aayush Karan,Yilun Du
rl-pretrainreasoningsamplingVirtual
8
精读ICLR 2026

How Far Can Unsupervised RLVR Scale LLM Training?

URLVR(无监督可验证奖励 RL)看似能绕开标注瓶颈,但“用模型内在信号当奖励”到底能扩展到多大规模、何时会崩溃,缺少统一解释与边界刻画。

Bingxiang He,Yuxin Zuo,Zeyuan Liu,Shangziqi Zhao,Zixuan Fu,Junlin Yang ... 省略 12 位作者 ... ,Lifan Yuan,Bowen Zhou,Zhiyuan Liu,Ning Ding
rlvrunsupervised-rlreward-signalVirtual
8
精读ICLR 2026

CR-Net: Scaling Parameter-Efficient Training with Cross-Layer Low-Rank Structure

现有低秩/参数高效训练在预训练场景常面临三难:性能掉点、额外计算开销、以及对 activation memory 的节省有限。

Boao Kong,Junzhu Liang,Yuxi Liu,Renjia Deng,Kun Yuan
low-rankparameter-efficientpretrainVirtual
8
精读ICLR 2026

Rethinking Data Curation in LLM Training: Online Reweighting Offers Better Generalization than Offline Methods

这篇论文的核心结论是:LLM 训练中的数据整理不应主要靠离线筛选和配比,而应在训练过程中在线重加权,因为在线方式泛化更好,也更适应模型和任务变化。过去的数据选择、过滤、mixing 往往先离线定好再训练,这样工程上重,遇到模型规模变化或目标任务变化时很脆弱,而且硬过滤常牺牲数据多样性。

Wanru Zhao,Yihong Chen,Yuzhi Tang,Wentao Ma,Shengchao Hu,Xu Hu,Alex Iacob,Abhinav Mehrotra,Nic Lane
data-qualitydata-mixtureonline-reweightingVirtual
8
精读OralICLR 2026

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

现有音频语言模型将音频理解、文本转音频生成作为独立任务处理,未实现统一建模,无法支持跨任务的多模态推理。

Jinchuan Tian,Sang-gil Lee,Zhifeng Kong,Sreyan Ghosh,Arushi Goel,Chao-Han Huck Yang ... 省略 4 位作者 ... ,Mohammad Shoeybi,Bryan Catanzaro,Rafael Valle,Wei Ping
audio-lmmultimodalunified-modelingVirtual
6
泛读ICLR 2026

Test-Time Training Done Right

现有测试时训练(TTT)方法通过推理时更新快速权重存储序列上下文,但GPU利用率极低(通常低于5%),且仅支持1D有序序列,无法处理长序列和多模态数据。

Tianyuan Zhang,Sai Bi,Yicong Hong,Kai Zhang,Fujun Luan,Songlin Yang,Kalyan Sunkavalli,William Freeman,Hao Tan
test-time-traininglong-contextarchitectureVirtual
5
泛读ICLR 2026

Next-ToBE: Probabilistic Next Token-Bag Exploitation for Activating Anticipatory Capacity in LLMs

自回归LLM本身具备长程未来token预判能力,但传统单步next-token预测的独热目标会抑制该能力,此前没有系统方法量化、增强并利用这种预判能力提升推理性能。

Yihe Liu,Huibin Wang,Xianming Hu,Pinyi Zhang,Jiahao Xiong,Chenglin Wang,Nuoyi Chen,Hongbo Zhao,Jie Zhang,Kai Zhang
anticipationnext-token-predictionreasoningVirtual
8
精读ICLR 2026

Extending the Context of Pretrained LLMs by Dropping Their Positional Embedding

这篇论文的核心结论很直接:延长 pretrained LLM 上下文长度,不一定需要昂贵的长序列再训练;把训练后的 positional embeddings 去掉,配合合适处理,模型就可能在更长长度上泛化。过去长上下文扩展通常默认要做 continued pretraining 或 long-context finetuning,因为显式位置编码把模型绑定在预训练见过的长度范围内,超出后外推容易崩。

Yoav Gelberg,Koshi Eguchi,Takuya Akiba,Edoardo Cetin
long-contextpositional-embeddingcontext-extensionVirtual
8
精读ICLR 2026

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

这篇论文要解决的是:RLVR 在大模型推理后训练里太依赖 on-policy,新样本利用率低,难题训练信号又被快速冲淡。现有像 GRPO 这样的框架每轮只吃当前策略采出的数据,历史高价值轨迹和难例往往被浪费,导致学习效率不高,也不利于持续修正模型在困难样本上的策略。

Xu Wan,Yansheng Wang,Wenqi Huang,Mingyang Sun
rlvroff-policyreasoningVirtual
8
精读ICLR 2026

Music Flamingo: Scaling Music Understanding in Audio Language Models

这篇论文要解决的是:开放音频-语言模型在 music understanding 上长期偏弱,原因不是只有模型不够大,更关键是高质量音乐数据和细粒度标注稀缺。结果就是很多现有音频模型只能产出短而泛的 caption,回答不了深入问题,也难覆盖不同音乐文化与歌曲结构。

Sreyan Ghosh,Arushi Goel,Lasha Koroshinadze,Sang-gil Lee,Zhifeng Kong,Joao Santos ... 省略 1 位作者 ... ,Dinesh Manocha,Wei Ping,Mohammad Shoeybi,Bryan Catanzaro
audio-lmmultimodalmusicVirtual
8
精读ICLR 2026

RACE Attention: A Strictly Linear-Time Attention for Long-Sequence Training

Softmax attention 的二次复杂度在超长序列(>4M tokens)下即使用 FlashAttention 也无法完成单层前后向传播。现有线性 attention 近似方法要么精度损失大,要么实际加速有限。需要一个严格线性于序列长度和 embedding 维度的 attention 替代方案。

Sahil Joshi,Agniva Chowdhury,Amar Kanakamedala,Ekam Singh,Evan Tu,Anshumali Shrivastava
linear-attentionlong-contexttrainingVirtual
8
精读ICLR 2026

MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model

当前开源 RL 数学推理方法(受 DeepSeek-R1 启发)看似提升了数学能力,但在 MATH-500 和 AIME 2024 上,base model 用 pass@1024 已经几乎能解所有题。这说明 RL 主要是在 sharpen 已有解法分布,而非发现新能力。缺少一个能真正测试 RL 是否带来新技能的 benchmark。

Prasanna Mayilvahanan,Ricardo Dominguez-Olmedo,Thaddäus Wiedemer,Wieland Brendel
rlvrbenchmarkreasoningVirtual
8
精读ICLR 2026

UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

这篇论文要解决的是:能否用 memory-layer 架构保留 MoE 的参数效率,但避免 MoE 推理时高昂的 memory access 成本。此前的 UltraMem 已经证明这条路线可行,但性能大致只追平 2-expert MoE,离实际常用的 8-expert 级别还有明显差距,所以问题从“能不能做”变成了“能不能做到足够强”。

Zihao Huang,Yu Bao,Qiyang Min,Siyan Chen,Ran Guo,Hongzhi Huang ... 省略 1 位作者 ... ,Banggu Wu,Yutao Zeng,zhou Xun,Siyuan Qiao
moememory-layerarchitectureVirtual
8
精读ICLR 2026

On Powerful Ways to Generate: Autoregression, Diffusion, and Beyond

这篇论文要解决的是:diffusion language model 相比自回归语言模型,到底在计算能力上强在哪里、边界在哪里。最近非自回归生成在实践上越来越强,但理论上大家还不清楚:any-order 和并行生成只是工程加速,还是会带来 AR 做不到的表达与计算优势。

Chenxiao Yang,Cai Zhou,David Wipf,Zhiyuan Li
diffusion-lmnon-artheoryVirtual
8
精读ICLR 2026

ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs

Diffusion LLM(dLLM)的核心卖点是并行解码加速推理,但并行解码的条件独立假设忽略了 token 间依赖,当依赖较强时生成质量必然下降。现有工作大多忽视这个 trade-off,标准 benchmark(数学/代码)也无法充分暴露并行解码的质量退化。

Wonjun Kang,Kevin Galim,Seunghyuk Oh,Minjae Lee,Yuchen Zeng,Shuibai Zhang ... 省略 1 位作者 ... ,Yuezhou Hu,Hyung Koo,Nam Ik Cho,Kangwook Lee
diffusion-lmparallel-decodingbenchmarkVirtual
7
泛读ICLR 2026

Markovian Transformers for Informative Language Modeling

现有Chain-of-Thought(CoT)推理过程经常与LLM实际决策过程不一致,存在隐写问题,此前没有机制强制CoT承载全部推理信息以保证忠实性。

Scott Viteri,Max Lamparth,Peter Chatain,Clark Barrett
cotmarkovianreasoning-bottleneckVirtual
7
泛读ICLR 2026

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

扩散大语言模型(dLLM)推理需要每一步处理全部输入上下文,计算成本极高,此前没有训练免费的加速方案利用迭代间中间表示的冗余性。

Zijian Zhu,Fei Ren,Zhanhong Tan,Kaisheng Ma
diffusion-lminference-efficiencyearly-exitVirtual
8
精读OralICLR 2026

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

这篇工作要解决的是:MoE 里的 router 决策和 expert 真正擅长处理什么,常常并不对齐。现有做法通常靠 load balancing、z-loss 或容量约束去稳训练和防塌缩,但这些约束主要管“分得均不均”,不管“分得对不对”,所以路由常会学成一个弱相关的分桶器。

Ang Lv,Jin Ma,Yiyuan Ma,Siyuan Qiao
moeroutingauxiliary-lossVirtual
8
精读ICLR 2026

From Collapse to Control: Understanding and Extending Context Length in Emerging Hybrid Models via Universal Position Interpolation

这篇工作要解决的是:Hybrid Mamba-Transformer 模型一旦推到训练窗口之外,长上下文能力会突然崩掉,而原因此前并不清楚。纯 Transformer 的长上下文外推已有 RoPE scaling 一类方案,纯状态空间模型也有各自稳定化技巧,但混合架构里两套位置/状态机制耦在一起,现有方法不能直接套。

Haochen Shen,Davis Wertheimer,Zheng Wang,Garrett Goon,Derrick Liu,Naigang Wang,Mudhakar Srivatsa,Raghu Ganti,Minjia Zhang
long-contextmambahybrid-architectureVirtual
8
精读ICLR 2026

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

这篇论文要解决的是:能否用一个统一的离散图像 tokenizer 同时服务多模态理解和高保真生成,而不是在语义和像素细节之间做一个脆弱折中。过去的统一 tokenizer 通常把语义蒸馏和像素重建硬绑在同一套码本或同一训练目标里,结果往往是理解需要的高层语义和生成需要的低层纹理互相拉扯;这个问题现在重要,是因为原生多模态预训练越来越依赖共享 token 空间,tokenizer 的偏置会直接限制上层 LM 的统一建模能力。

Zisheng Chen,Chunwei Wang,Runhui Huang,Hongbin Xu,Xiuwei Chen,Jun Zhou,Jianhua Han,Hang Xu,Xiaodan Liang
visual-tokenizerunified-tokenizerhierarchical-codebookVirtual
8
精读ICLR 2026

On Code-Induced Reasoning in LLMs

这篇论文的核心问题是:代码数据为什么能提升 LLM 推理,真正起作用的是代码的语义、结构,还是更抽象的程序组织形式。过去很多工作把“加代码数据有用”当经验事实接受了,但缺少可控拆解,因此很难指导 pretrain 数据配比、合成 reasoning data 设计,或者判断 pseudocode/flowchart 这类替代形式是否足够。

Abdul Waheed,Zhen Wu,Carolyn Rose,Daphne Ippolito
code-pretrainingreasoningdata-qualityVirtual
7
泛读ICLR 2026

Predicting LLM Reasoning Performance with Small Proxy Model

大模型预训练成本极高,需要用小代理模型预演优化训练配方,但推理能力是涌现性的,仅在7B以上参数规模可靠出现,此前≤1B的小模型无法有效预测大模型的推理性能。

Woosung Koh,Juyoung Suk,Sungjun Han,Se-Young Yun,Jay Shin
scalingproxy-modelreasoningVirtual
7
泛读ICLR 2026

Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling

标准离散扩散模型将所有未观测状态统一映射为[MASK]标记,造成信息空洞,掩码token的全局语义信息无法在去噪步间传递,此前的离散扩散方案没有解决掩码状态信息丢失的问题。

Huangjie Zheng,Shansan Gong,Ruixiang Zhang,Tianrong Chen,Jiatao Gu,Mingyuan Zhou,Navdeep Jaitly,Yizhe Zhang
diffusion-lmdiscrete-diffusionnon-arVirtual
8
精读ICLR 2026

Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss

这篇论文想解决的是:自回归图像生成里引入 diffusion loss 之后,为什么它往往比条件扩散更稳、更能纠正条件误差。过去很多工作观察到 AR+diffusion loss 有效果,但更多停留在经验层面,没有解释“条件是错的时为什么不会一路错下去”。

Yucheng Zhou,Hao Li,Jianbing Shen
autoregressivediffusion-lossimage-generationVirtual
8
精读ICLR 2026

MeSH: Memory-as-State-Highways for Recursive Transformers

这篇论文要解决的是:递归 Transformer 虽然能把计算深度和参数深度解耦,但在相同计算预算下,少参数多迭代的递归模型通常仍比普通非递归模型差。过去大家把原因笼统归结为容量不足,但作者认为更准确的问题是:同一隐状态被迫同时承载长期状态和瞬时计算结果,且每轮迭代的计算模式缺乏分化。

Chengting Yu,Xiaobo Shu,Yadao Wang,Yizhen Zhang,Haoyi Wu,Jiaang Li ... 省略 1 位作者 ... ,Ziheng Chen,Yuchi Xu,wenbo su,Bo Zheng
recursive-transformerarchitecturememoryVirtual
8
精读ICLR 2026

D-AR: Diffusion via Autoregressive Models

这篇论文想解决的是:能不能把 diffusion 过程完全改写成标准 next-token 自回归建模,从而直接复用成熟的 AR 训练和推理栈,而不是为图像扩散单独维护一套模型机制。过去 AR 和 diffusion 一直被视为两条生成路线,混合工作也常需要改 mask、改 objective 或改 sampling;这篇工作试图把二者统一到更纯粹的 AR 形式里。

Ziteng Gao,Mike Zheng Shou
autoregressivediffusionimage-tokenizerVirtual
8
精读ICLR 2026

Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models

这篇论文要解决的是 diffusion LLM 的一个很实际的硬伤:推理时必须预先固定生成长度,而真实任务的最佳长度差异很大,短了答不全,长了又浪费算力甚至伤性能。过去要么保守地给长长度,要么为不同任务单独挑长度,但这和 DLLM 并行生成的实用性是冲突的。

Jinsong Li,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Jiaqi Wang,Dahua Lin
diffusion-lmvariable-lengthtraining-freeVirtual
8
精读OralICLR 2026

WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training

传统学习率调度的衰减阶段会限制大模型预训练性能,无衰减调度方案缺乏统一理论框架,此前的模型合并类无衰减方案无法兼容多种衰减策略和优化器。

Changxin Tian,Jiapeng Wang,Qian Zhao,Kunlong Chen,Jia Liu,Ziqi Liu,Jiaxin Mao,Xin Zhao,Zhiqiang Zhang,JUN ZHOU
optimizationlearning-ratecheckpoint-mergingVirtual
5
泛读ICLR 2026

MotionGPT3: Human Motion as a Second Modality

现有多模态LLM统一处理离散文本和连续运动时,运动量化会引入误差限制生成质量,同时单流backbone会加剧跨模态干扰,此前的运动-语言多模态方案没有同时解决量化误差和跨模态干扰的问题。

Bingfan Zhu,Biao Jiang,Sunyi Wang,SHIXIANG TANG,Tao Chen,Linjie Luo,Youyi Zheng,Xin Chen
multimodalmotioncontinuous-tokenVirtual
6
泛读ICLR 2026

Quant-dLLM: Post-Training Extreme Low-Bit Quantization for Diffusion Large Language Models

扩散大语言模型(dLLM)规模持续增长需要压缩部署,但传统针对AR LLM的后训练量化(PTQ)直接应用到dLLM的2比特量化时性能下降严重,此前没有针对dLLM的超低比特后训练量化方案。

Tianao Zhang,Zhiteng Li,Xianglong Yan,Haotong Qin,Yong Guo,Yulun Zhang
diffusion-lmquantizationefficientVirtual
8
精读ICLR 2026

LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures

当前LLM预训练、微调均依赖输入空间重建的生成式目标,而视觉领域已验证嵌入空间的JEPA目标性能远优于输入空间目标,但语言领域长期缺乏可行的JEPA式训练方案,跨模态目标设计的gap未被填补。

Hai Huang,Yann LeCun,Randall Balestriero
Meta AIjepapretraining-objectiveembedding-spaceVirtual
8
精读ICLR 2026

Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

能否用已有的小预训练模型加速更大模型的训练?现有的知识迁移方法(如 Net2Net、LiGO)主要做参数初始化,没有在训练过程中持续利用小模型的表示知识,导致加速效果有限。

Ji Zhao,Shitong Shao,Yufei Gu,Xun Zhou,liang xiang,Zeke Xie
pretrainingtraining-dynamicstransferVirtual
8
精读ICLR 2026

DreamOn: Diffusion Language Models For Code Infilling Beyond Fixed-size Canvas

Diffusion Language Model(DLM)做代码补全时有一个硬伤:必须预先指定固定长度的 mask 序列。如果预设长度和实际需要的补全长度不匹配,性能会严重下降。这个限制使得 DLM 在实际代码 infilling 场景中几乎不可用。

Zirui Wu,Lin Zheng,Zhihui Xie,Jiacheng Ye,Jiahui Gao,Shansan Gong ... 省略 1 位作者 ... ,Zhenguo Li,Wei BI,Guorui Zhou,Lingpeng Kong
diffusion-lmcode-infillingnon-arVirtual
8
精读ICLR 2026

Video-GPT via Next Clip Diffusion

如何将 GPT 的自回归预测范式从离散 token 扩展到视频这种连续时空信号?现有视频生成方法要么是纯 diffusion(缺乏长程自回归能力),要么是 token 化后做 AR(离散化损失大),缺乏一种既能处理短期细节又能做长程预测的统一方案。

Shaobin Zhuang,Zhipeng Huang,Ying Zhang,Fangyikang Wang,Canmiao Fu,Binxin Yang,Chong Sun,Chen Li,Yali Wang
video-gptnext-clip-diffusionar-diffusionVirtual
8
泛读ICLR 2026

Taming Curvature: Architecture Warm-up for Stable Transformer Training

十亿参数以上Transformer训练不稳定,易出现瞬态loss spike和发散问题,浪费大量算力;现有基于EoS理论的曲率控制方法需要复杂的曲率估计,无法落地到大模型工业训练场景。

Sameera Ramasinghe,Thalaiyasingam Ajanthan,Hadi Mohaghegh Dolatabadi,Chamin Hewa Koneputugodage,Gil Avraham,Violetta Shevchenko,Yan Zuo,Karol Pajak,Alexander Long
training-stabilityloss-spikescurvatureVirtual
8
精读ICLR 2026

Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models

这篇论文要解决的是:在 RLVR 训练大推理模型时,像熵、回答长度这类训练统计确实和推理行为相关,但现有做法通常靠手工 reward/advantage shaping 注入这些先验,方向和强度都很难调。问题不在于这些先验没用,而在于‘简单地奖励更长/更短、更高熵/更低熵’过于僵硬,容易把训练往错误方向推,甚至直接训崩。

Guanxu Chen,Yafu Li,Yuxian Jiang,Chen Qian,Qihan Ren,Jingyi Yang,Yu Cheng,Dongrui Liu,Jing Shao
reinforcement-learningrlvrreasoningVirtual
8
精读ICLR 2026

RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?

LLM 通过 RL 训练后,到底能不能学到 pretrain 阶段完全没见过的新推理策略?还是只是在锐化已有能力?这个问题一直有争议,缺乏控制良好的实验证据。

Yiyou Sun,Yuhan Cao,Pohao Huang,Haoyue Bai,Hanna Hajishirzi,Nouha Dziri,Dawn Song
University of WashingtonAI2reinforcement-learningreasoninggeneralizationVirtual
8
精读ICLR 2026

Don't Settle Too Early: Self-Reflective Remasking for Diffusion Language Models

基于掩码的扩散语言模型(DLM)生成的token一旦确定就无法修改,没有错误修正能力,导致生成质量普遍低于AR模型,核心难点是无法准确识别生成的错误token。

Zemin Huang,Yuhang Wang,Zhiyang Chen,Guo-Jun Qi
diffusion-lmmasked-diffusionremaskingVirtual
8
精读ICLR 2026

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

当前视觉tokenizer无法同时满足理解和生成的需求:重建式tokenizer适合生成但缺乏高层语义,对比学习式tokenizer适合和语言对齐做理解但无法解码回像素,导致统一多模态大模型的视觉表示存在底层冲突。

Wei Song,Yuran Wang,Zijia Song,Yadong Li,Zenan Zhou,Long Chen,Xu Jhua,Jiaqi Wang,Kaicheng Yu
visual-tokenizerunified-modelautoregressiveVirtual
8
精读ICLR 2026

Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models

离散扩散模型(DDM)的非自回归范式导致重要性采样不可行、rollout复杂,无法直接适配GRPO等强化学习方法,无法用奖励信号优化多模态DDM的生成质量和偏好对齐度。

Tianren Ma,Mu Zhang,Yibing Wang,Qixiang Ye
discrete-diffusionrlmultimodalVirtual
9
精读ICLR 2026

DUET: Optimizing LLM Training Data Mixtures via Noisy Feedback from Unseen, Downstream Evaluation Tasks

LLM性能高度依赖训练数据和下游任务的匹配度,但实际场景中下游评估任务数据不可见(如用户聊天数据加密),只能获取带噪声的反馈信号,现有数据配比优化方法无法利用这类信号优化训练数据混合比例。

Zhiliang Chen,Gregory Kang Ruey Lau,Chuan Sheng Foo,Bryan Kian Hsiang Low
data-mixturepretrainingonline-optimizationVirtual
8
泛读OralICLR 2026

Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

Adam、Muon等现代大模型优化器依赖一阶和二阶动量,带来大量内存开销,制约了大模型训练的可扩展性和计算效率,现有动量压缩方法会导致优化性能下降。

Zhengbo Wang,Jian Liang,Ran He,Zilei Wang,Tieniu Tan
Institute of Automation, Chinese Academy of SciencesoptimizeradammemoryVirtual
7
泛读ICLR 2026

R-Zero: Self-Evolving Reasoning LLM from Zero Data

现有自进化LLM依赖大量人类标注的任务和标签进行微调或RL,存在数据瓶颈,无法实现完全自主的能力进化,限制了模型超越人类能力的可能性。

Chengsong Huang,Wenhao Yu,Xiaoyang Wang,Hongming Zhang,Zongxia Li,Ruosen Li,Jiaxin Huang,Haitao Mi,Dong Yu
self-evolvingrl-pretrainzero-dataVirtual
8
精读ICLR 2026

Why Less is More (Sometimes): A Theory of Data Curation

这篇工作要解决的是:为什么有时“更少但更精心筛选的数据”会比“更多原始数据”泛化更好。过去 scaling law 默认更多数据单调更优,但 LIMO、s1 一类结果说明在某些 regime 下 aggressive curation 反而更有效,现有解释多停留在经验层面,缺少能给出边界条件的理论框架。

Elvis Dohmatob,Mohammad Pezeshki,Reyhane Askari Hemmat
data-curationscaling-lawdata-qualityVirtual
8
精读ICLR 2026

RL's Razor: Why Online Reinforcement Learning Forgets Less

大模型微调阶段的灾难性遗忘问题长期缺乏机制解释,此前观测到RL微调比SFT遗忘更轻但无理论支撑,领域普遍回避不同微调范式的遗忘特性差异研究,仅关注下游任务性能。

Idan Shenfeld,Jyothish Pari,Pulkit Agrawal
MIT CSAILrlhfsftforgettingVirtual
7
泛读ICLR 2026

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

GRPO等分组相对REINFORCE变种此前被普遍归类为严格同策略算法,对异策略经验容忍度极低,限制了RLHF的经验复用效率,领域未从第一性原理层面推导这类算法的属性边界。

Chaorui Yao,Yanxi Chen,Yuchang Sun,Yushuo Chen,Wenhao Zhang,Xuchen Pan,Yaliang Li,Bolin Ding
grporlhfoff-policyVirtual
7
泛读ICLR 2026

ExGRPO: Learning to Reason from Experience

现有基于可验证奖励的大模型推理RL训练(RLVR)采用同策略更新,单轮更新后即丢弃滚出经验,计算效率低、训练不稳定,此前研究未明确推理场景下高价值经验的判定标准。

Runzhe Zhan,Yafu Li,Zhi Wang,Xiaoye Qu,Dongrui Liu,Jing Shao,Derek Wong,Yu Cheng
grporlvroff-policyVirtual
7
泛读ICLR 2026

DES-LOC: Desynced Low Communication Adaptive Optimizers for Foundation Models

大模型分布式训练的DDP模式受带宽限制,现有低通信量方案要么仅同步参数无法适配Adam类自适应优化器,要么同步所有优化器状态导致通信量翻3倍,无理论保证的启发式方案训练不稳定。

Alex Iacob,Lorenzo Sani,Mher Safaryan,Paris Giampouras,Samuel Horváth,Andrej Jovanovic ... 省略 1 位作者 ... ,Preslav Aleksandrov,William Shen,Xinchi Qiu,Nic Lane
MPI-SWSdistributed-trainingoptimizercommunication-efficiencyVirtual
7
泛读ICLR 2026

DNT: a Deeply Normalized Transformer that can be trained by Momentum SGD

Transformer训练长期依赖AdamW等自适应学习率优化器,无法使用动量SGDW训练,此前研究将其归因于梯度重尾分布,但未提出可落地的架构修正方案,限制了训练的内存效率和速度。

Xianbiao Qi,Marco Chen,Wenjie Xiao,Jiaquan Ye,Yelin He,Chun-Guang Li,Zhouchen Lin
transformer-architecturenormalizationsgdOpenReviewVirtual
7
泛读ICLR 2026

MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates

分布式自适应优化器采用低通信量本地更新策略时,动量的时间尺度与长更新间隔不匹配,导致动量衰减过快、优化噪声大,性能比全同步方案低,此前工作未解决该时间尺度不匹配问题。

Alex Iacob,Andrej Jovanovic,Mher Safaryan,Meghdad Kurmanji,Lorenzo Sani,Samuel Horváth,William Shen,Xinchi Qiu,Nic Lane
MPI-SWSdistributed-trainingoptimizerlocal-sgdVirtual
7
泛读ICLR 2026

Data-Centric Lessons To Improve Speech-Language Pretraining

现有语音语言预训练的性能提升多归因于架构和训练方法优化,没有系统的受控消融研究数据处理与构造的影响,不同工作的性能差异无法归因到数据因素,限制了语音LM的性能进一步提升。

Vishaal Udandarao,Zhiyun Lu,Xuankai Chang,Yongqiang Wang,Albin Madappally Jose,Fartash Faghri,Josh Gardner,Chung-Cheng Chiu
speech-lmdata-qualitydata-mixtureVirtual
7
泛读ICLR 2026

Forward-Learned Discrete Diffusion: Learning how to noise to denoise faster

现有离散扩散模型采用固定的马尔可夫前向加噪链,反向生成过程用因子化分布参数化,导致采样步数多、速度慢,此前研究仅优化反向过程,未调整前向加噪过程来适配反向生成的简化约束。

Grigory Bartosh,Teodora Pandeva,Sushrut Karmalkar,Javier Zazo
discrete-diffusiondiffusion-lmobjectiveVirtual
8
精读ICLR 2026

Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

这篇论文要解决的是:MoE LLM 的容量很大,但 router 经常不是最优的,导致实际下游泛化和“如果路由选对了本该有的表现”之间存在明显差距。过去很多工作把重点放在 expert 扩容或负载均衡上,而没有认真处理 router 表征是否真的和任务结构对齐;作者认为这才是 MoE 泛化差距的重要来源。

Zhongyang Li,Ziyue Li,Tianyi Zhou
moeroutinggeneralizationVirtual
8
精读ICLR 2026

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

这篇论文要解决的是:Diffusion LLM 虽然提供了非自回归文本生成路线,但开源模型在实际推理速度上通常仍落后于 AR 模型,主要因为 bidirectional 结构难以复用 KV cache,且并行解多个 token 时常出现质量下降。问题不在于 diffusion LM 能不能生成文本,而在于它还没有一个足够接近 AR serving 习惯的高效解码栈。

Chengyue Wu,Hao Zhang,Shuchen Xue,Zhijian Liu,Shizhe Diao,Ligeng Zhu,Ping Luo,Song Han,Enze Xie
diffusion-lmkv-cacheparallel-decodingVirtual
6
泛读ICLR 2026

MoM: Linear Sequence Modeling with Mixture-of-Memories

现有线性序列建模方法(线性注意力、SSM、线性RNN)普遍将输入序列压缩为单个固定大小的记忆状态,导致召回密集型任务性能次优。过往优化方案要么牺牲线性复杂度的效率优势,要么未能从根源解决记忆容量不足的问题。

Jusen Du,Weigao Sun,Disen Lan,Jiaxi Hu,Zhang Tao,Yu Cheng
linear-attentionstate-space-modelmemoryVirtual
7
泛读ICLR 2026

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

LLM预训练阶段无法准确预测下游任务性能,现有预测方案受涌现效应、任务难度不均、缩放模式不一致的影响准确率低。过往方法未对任务按缩放特征分类,导致预测方差过高无法落地。

Chengyin Xu,Kaiyuan Chen,Xiao Li,Ke Shen,Chenggang Li
scaling-lawdownstream-predictionemergenceVirtual
6
泛读ICLR 2026

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

线性注意力直接应用时性能下降明显,现有修复方案通过引入额外模块(深度可分离卷积、少量自注意力块)重新带来计算开销,违背了线性注意力的效率初衷。过往方案未解决全局上下文坍缩的根源问题。

Kewei Zhang,Ye Huang,Yufan Deng,Jincheng YU,Junsong Chen,Huan Ling,Enze Xie,Zhou Daquan
linear-attentionmulti-headarchitectureVirtual
8
精读ICLR 2026

A Unification of Discrete, Gaussian, and Simplicial Diffusion

这篇论文要解决的是:离散序列上的 diffusion 现在分成三套主要路线——离散状态空间 diffusion、欧氏空间 Gaussian diffusion、以及 simplex diffusion——它们都在建模同一类对象,但算法、理论和数值特性彼此割裂,导致研究者在 DNA、蛋白、语言等任务上很难系统比较和迁移方法。过去的统一理论往往只覆盖其中两类,或者停留在很抽象的层面,不能解释 practical trade-off:离散 diffusion 域最自然,Gaussian diffusion 算法最成熟,simplex diffusion 理论上兼得两边优点但常被数值不稳定拖累。作者要做的是给三者一个共同框架,并说明它们何时等价、何时只是近似相关。

Nuria Chandra,Yucen Li,Alan Amin,Alex Ali,Joshua Rollins,Sebastian W. Ober,Aniruddh Raghu,Andrew Gordon Wilson
diffusion-lmdiscrete-diffusiontheoryVirtual
8
精读ICLR 2026

Latent Denoising Makes Good Tokenizers

这篇论文要解决的是:tokenizer 对生成模型极其关键,但大家通常按重建误差、感知质量或压缩率去训练 tokenizer,却没有直接回答‘什么样的 tokenization 对下游生成最有利’。作者的判断是,现代生成模型无论是 diffusion 的高斯去噪、masked modeling 的掩码恢复,还是其他 corruption-reconstruction 范式,核心训练目标都可以看成 denoising;因此如果 tokenizer 学到的 latent embedding 在被噪声污染后仍容易恢复原信号,那么它会更适配生成建模。过去 tokenizer 往往和下游生成目标脱节,只保证编码-解码重建,不保证 latent 本身适合做 denoising 学习。

Jiawei Yang,Tianhong Li,Lijie Fan,Yonglong Tian,Yue Wang
tokenizerlatentdenoisingVirtual
8
精读ICLR 2026

Fast-dLLM v2: Efficient Block-Diffusion LLM

AR LLM 的逐 token 解码限制了推理效率,而从头训练 diffusion LLM 需要海量数据(如 Dream 用了 580B token)。如何低成本地将已有 AR 模型转化为支持并行生成的 diffusion LLM?

Chengyue Wu,Hao Zhang,Shuchen Xue,Shizhe Diao,Yonggan Fu,Zhijian Liu,Pavlo Molchanov,Ping Luo,Song Han,Enze Xie
MITdiffusion-lmblock-diffusionparallel-decodingVirtual
8
精读ICLR 2026

Probing Rotary Position Embeddings through Frequency Entropy

RoPE 被广泛使用但其内部频率结构缺乏系统理解。已有研究对高频和低频维度的作用给出了相互矛盾的结论,缺少统一的解释框架。

Yui Oka,Kentaro Hanafusa,Taku Hasegawa,Kyosuke Nishida,Kuniko Saito
ropepositional-encodingfrequency-analysisVirtual
8
精读OralICLR 2026

MrRoPE: Mixed-radix Rotary Position Embedding

RoPE 长度外推方法(NTK-aware、YaRN、PI 等)种类繁多但缺乏统一理论框架,难以系统比较和改进。

Qingyuan Tian,Wenhong Zhu,Xiaoran Liu,Xiaofeng Wang,Rui Wang
ropepositional-encodinglong-contextVirtual
8
精读ICLR 2026

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

主流语义语音 tokenizer 对与语义无关的声学扰动(如噪声)非常脆弱——即使在高信噪比下语音完全可懂,token 序列也会剧烈变化,增加下游 LLM 的学习负担。根源是单路径量化架构和对中间 token 稳定性无感的训练信号。

Yuhan Song,Linhao Zhang,Chuhan Wu,Aiwei Liu,Wei Jia,Houfeng Wang,Zhou Xiao
speech-tokenizerspeech-lmnoise-robustnessVirtual
7
泛读ICLR 2026

DPad: Efficient Diffusion Language Models with Suffix Dropout

扩散语言模型(dLLM)解码时每一步预测所有后缀token但仅保留小部分,计算冗余度极高,现有优化方案要么需要重新训练模型,要么损失生成质量,无训练开销的高效优化方案缺失。

Xinhua Chen,Sitao Huang,Cong Guo,Chiyue Wei,Yintao He,Jianyi Zhang,Hai Li,Yiran Chen
diffusion-lmtraining-efficiencysuffix-dropoutVirtual
8
泛读OralICLR 2026

Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training

现有LLM预训练数据集大量包含受版权保护或专有内容,存在严重法律风险,公开合规的大规模预训练数据稀缺。过往公开数据集要么规模不足,要么覆盖语言少,要么许可限制严格。

Pierre-Carl Langlais,Pavel Chizhov,Catherine Arnett,Carlos Hinostroza,Mattia Nee,Eliot Jones,Irène Girard,David Mach,Anastasia Stasenko,Ivan Yamshchikov
pretraining-datadata-qualityopen-dataVirtual
2
ICLR 2026

dLLM - Rethinking Generation Beyond Autoregressive Models

扩散语言模型(dLLM)作为自回归模型的替代方案,其优劣势、适用场景、落地瓶颈尚未被系统梳理,现有讨论要么片面夸大优势,要么过度放大问题,缺乏平衡的技术分析。

Suhas Pai,Xiaojun Ren
diffusion-lmnon-armasked-lmVirtual
8
精读ICLR 2026

NeoBERT: A Next Generation BERT

双向编码器(BERT、RoBERTa)的能力演进远落后于自回归LLM,无法适配现有下游任务对长上下文、强推理能力的需求,过往BERT改进方案仅做局部修改,未系统性整合最新的架构、数据、预训练方法进展。

Lola Le Breton,Quentin Fournier,John X. Morris,Mariam El Mezouar,Sarath Chandar
bertmasked-lmencoderOpenReviewVirtual
8
精读ICLR 2026

Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler

WSD(预热-稳定-衰减)学习率调度器的冷却阶段对最终模型性能影响很大,但其作用机制一直不清晰,现有调参方案仅靠经验选择冷却形状和AdamW超参数,缺乏理论指导。

Aleksandr Dremov,Alexander Hägele,Atli Kosson,Martin Jaggi
training-dynamicscooldownlearning-rateOpenReviewVirtual
8
精读ICLR 2026

Encoder-only Next Token Prediction

传统下一词预测默认采用带因果注意力的Decoder-only架构,现有工作均将因果注意力视为该任务的必要前提,未验证计算资源无约束时该架构选择是否仍然最优。

Ethan Ewer,Daewon Chae,Thomas Zeng,Jinkyu Kim,Kangwook Lee
next-token-predictionencoderarchitectureOpenReviewVirtual
6
泛读ICLR 2026

Discrete Audio Tokens: More Than a Survey!

现有离散音频tokenizer研究分散在语音、通用音频、音乐等垂直领域,已有综述仅覆盖特定任务,缺乏统一基准对比框架,无法为音频LLM统一建模提供选型参考。

Pooneh Mousavi,Gallil Maimon,Adel Moumen,Darius Petermann,Jiatong Shi,Haibin Wu ... 省略 11 位作者 ... ,Hung-yi Lee,Shinji Watanabe,Yossi Adi,Mirco Ravanelli
audio-tokensspeech-lmtokenizerOpenReviewVirtual
6
泛读ICLR 2026

DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models

扩散大语言模型(dLLM)的迭代并行生成机制带来了与自回归LLM完全不同的越狱漏洞,现有安全对齐方法均针对自回归架构设计,无法适配dLLM的生成动态,且此前工作忽略了dLLM自身的内在安全潜力。

Zherui Li,Zheng Nie,Zhenhong Zhou,Yue Liu,Yitong Zhang,Yu Cheng,Qingsong Wen,Kun Wang,Yufei Guo,Jiaheng Zhang
diffusion-lmsafetyjailbreakVirtual
7
精读ICLR 2026

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

这篇论文要回答的是:模型反复用自己的合成数据再训练,是否注定会 model collapse,以及有没有简单条件能避免它。以往关于 collapse 的讨论常停留在“会越来越差”的警告,但工业界又不可能完全不用 synthetic data;因此真正关键的问题不是要不要用,而是在哪些再训练机制下会坏、在哪些条件下反而能变好。

Bingji Yi,Qiyuan Liu,Yuwei Cheng,Haifeng Xu
synthetic-datamodel-collapsedata-qualityVirtual
7
精读ICLR 2026

Sign-SGD via Parameter-Free Optimization

Sign-SGD 作为内存高效的优化器(单机训练)和梯度压缩方法(分布式训练)有实用价值,但其有效步长依赖于未知的问题相关量,无法事先确定,需要大量调参。本文提出 parameter-free 版本,消除手动步长选择。

Daniil Medyakov,Stanko Sergey,Gleb Molodtsov,Philip Zmushko,Grigoriy Evseev,Egor Petrov,Aleksandr Beznosikov
optimizersign-sgdparameter-freeVirtual
7
精读ICLR 2026

Programming by Backprop: An Instruction is Worth 100 Examples When Finetuning LLMs

LLM 训练数据中大量内容是声明式的(规则、指令、描述),而非示范式的(展示如何执行)。现有训练方式难以让模型从声明式知识中习得可复用的程序性行为。本文提出 Programming by Backprop (PBB),让模型通过训练中遇到的声明式指令直接将行为「编程」进权重。

Jonathan Cook,Silvia Sapora,Arash Ahmadian,Akbir Khan,Tim Rocktaeschel,Jakob Foerster,Laura Ruis
UCLMetainstruction-tuningdeclarative-knowledgefinetuningVirtual
7
精读ICLR 2026

Revisiting Long-context Modeling from Context Denoising Perspective

长上下文模型(LCM)虽然能处理长序列,但容易被上下文中的噪声 token(无关信息)误导注意力,导致关键信息定位失败。此前缺乏精细的上下文噪声量化方法和针对性的去噪训练策略。

Zecheng Tang,Ji Baibei,Juntao Li,Lijun Wu,Haijia Gui,Min Zhang
long-contextcontext-denoisingnoise-robustnessVirtual
7
精读ICLR 2026

RL for Reasoning by Adaptively Revealing Rationales

这篇论文要解决的是:在长链式推理这类组合爆炸的序列任务里,纯 RL 奖励太稀疏,纯 SFT 又过度依赖完整示范,是否存在一个更可学的中间地带。过去这类问题通常在“给全量 rationale”与“完全不给过程监督”之间二选一,作者认为部分监督其实是一个被低估的训练信号形态。

mohammad hossein amani,Aryo Lotfi,Nicolas Baldwin,Samy Bengio,Mehrdad Farajtabar,Emmanuel Abbe,Robert West
rlreasoningrationaleVirtual
7
精读ICLR 2026

Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

这篇论文要解决的是:并行思维(同时探索多条推理路径)常被认为能提升复杂推理,但现有训练多依赖合成 SFT 轨迹,学到的更多是 teacher-forced 模仿,而不是真正的探索能力。作者想回答的是,能不能用 RL 真正把这种并行推理习惯训练出来,而不只是蒸馏一个老师的格式。

Tong Zheng,Hongming Zhang,Wenhao Yu,Xiaoyang Wang,He Xing,Runpeng Dai ... 省略 1 位作者 ... ,Huiwen Bao,Chengsong Huang,Heng Huang,Dong Yu
rlreasoningparallel-decodingVirtual
7
精读ICLR 2026

A universal compression theory for lottery ticket hypothesis and neural scaling laws

Scaling law 表明性能随参数量和数据量按慢幂律增长,核心问题是:能否用显著更小的模型和更少的数据达到可比性能?

Hong-Yi Wang,Di Luo,Tomaso Poggio,Isaac Chuang,Liu Ziyin
MITscaling-lawcompressionlottery-ticketVirtual
7
精读ICLR 2026

Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

RL 训练 LLM 时,常规 Markovian 策略没有动机在相同状态下丰富上下文(因为策略只依赖当前状态),因此反思性探索(rethinking、error correction)行为的涌现缺乏理论解释,也难以被系统性地激发。

Shenao Zhang,Yaqing Wang,Yinxiao Liu,Tianqi Liu,Peter Grabowski,Eugene Ie,Zhaoran Wang,Yunxuan Li
Google Researchrl-reasoningbayes-adaptiveexplorationVirtual
7
精读ICLR 2026

Free Energy Mixer

标准 attention 的 value 读取是 per-head 凸平均(softmax 加权),无法做 channel-wise 选择——所有 channel 共享同一组注意力权重,限制了表达能力。

Jiecheng Lu,Shihao Yang
attention-mechanismarchitecturekv-cacheVirtual
8
精读ICLR 2026

ADEPT: Continual Pretraining via Adaptive Expansion and Dynamic Decoupled Tuning

传统大模型持续预训练(CPT)的均匀层扩展方法会混淆通用能力和领域能力的参数空间,导致灾难性遗忘和领域适配能力不足,现有工作忽略了LLM层的功能特化属性,未实现功能感知的参数扩展和优化。

Jinyang Zhang,Yue Fang,Hongxin Ding,Weibin Liao,Muyang Ye,Junfeng Zhao,Yasha Wang,Xu Chu
continual-pretrainlayer-expansioncatastrophic-forgettingVirtual
7
泛读ICLR 2026

Escaping Policy Contraction: Contraction-Aware PPO (CaPPO) for Stable Language Model Fine-Tuning

RLHF中使用的PPO算法会导致策略收缩,生成输出的多样性显著低于SFT模型,现有PPO优化仅约束KL散度,没有直接度量和优化策略的分布覆盖度,此前工作将输出多样性下降归因于KL惩罚,未定位到根因是策略支撑集的收缩。

Dun Yuan,Di Wu,Xue Liu
rlhfppopolicy-contractionVirtual
7
泛读ICLR 2026

Reinforcement Learning Fine-Tuning Enhances Activation Intensity and Diversity in the Internal Circuitry of LLMs

这篇论文要解释的是:为什么 RL fine-tuning 往往比单纯 SFT 更能提升 LLM 能力,而且这种增益在不同模型家族上都反复出现。过去大家更多看到结果层面的提升,但对内部机制理解不足,导致我们很难判断 RL 到底是在重配已有回路、激活稀有能力,还是学到了全新功能。

Honglin Zhang,Qianyue Hao,Fengli Xu,Yong Li
rlpost-traininginterpretabilityVirtual
7
泛读ICLR 2026

Is On-Policy Data always the Best Choice for Direct Preference Optimization-Based LM Alignment?

这篇论文要回答的问题是:在 DPO 对齐里,on-policy 采样到的偏好数据是否总比静态数据更好。过去社区常把 on-policy 视为天然更优,因为它更贴近当前策略分布;但作者指出,这个判断过于简单,不同模型和数据条件下,静态与 on-policy 偏好样本的有效性差异很大。

Zetian Sun,dongfang li,Xuhui Chen,Baotian Hu,Min Zhang
dpoalignmenton-policyVirtual
7
泛读ICLR 2026

SkillFactory: Self-Distillation for Learning Cognitive Behaviors

这篇论文要解决的是:如果 base model 本来不会显式展示 verification、backtracking、retry 等认知行为,仅靠后续 RL 往往学不出来,那么如何在不依赖更强教师模型蒸馏的前提下先把这些行为“扶上轨道”。过去很多 reasoning 强化依赖一个前提:模型已经偶尔会做对的思维动作,RL 只是放大;但对技能缺失的模型,这个前提并不成立。

Zayne Sprague,Jack Lu,Manya Wadhwa,Sedrick Keh,Mengye Ren,Greg Durrett
self-distillationreasoningrlVirtual
7
泛读ICLR 2026

Sequential Parallel Duality in Prefix Scannable Models

这篇论文要回答的是:哪些序列模型能够同时满足并行训练和高效串行推理,这类‘sequential-parallel duality’ 的模型到底能统一描述到什么程度。Mamba、GLA 等近期模型各自给出工程实现,但缺少一个更一般的理论框架来说明它们为什么能 prefix-scan、边界又在哪里。

Morris Yau,Sharut Gupta,Valerie Engelmayer,Kazuki Irie,Stefanie Jegelka,Jacob Andreas
sequence-modelingmambalinear-attentionVirtual
7
泛读ICLR 2026

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

这篇论文要解决的是:偏好模型为什么会系统性偏爱长度、结构、术语堆砌、迎合和模糊表述等表面特征,以及这些偏差与训练数据伪相关之间到底是什么关系。过去大家知道 reward model 会被 reward hacking,但往往停留在现象层,没有把具体偏差类型和数据来源对应起来。

Anirudh Bharadwaj,Chaitanya Malaviya,Nitish Joshi,Mark Yatskar
reward-modelalignmentbiasVirtual
7
泛读ICLR 2026

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

传统 VLM 在 token 空间自回归生成文本,模型必须建模表面语言变异(措辞、语序等),导致参数和计算浪费。VL-JEPA 提出在连续嵌入空间做预测,让模型聚焦任务语义而非表层文本细节。

Delong Chen,Mustafa Shukor,Théo Moutakanni,Willy Chung,Lei Yu,Tejaswi Kasarla,Allen Bolourchi,Yann LeCun,Pascale Fung
Meta FAIRvlmjepanon-autoregressiveVirtual
7
泛读ICLR 2026

Turning Internal Gap into Self-Improvement: Promoting the Generation-Understanding Unification in MLLMs

统一 MLLM 的生成能力普遍弱于理解能力,存在内部 gap。以前的做法要么忽略这个 gap,要么依赖外部信号来改进生成。本文验证了这个 gap 确实源于生成弱而非理解差,并利用这个 gap 本身做自我改进。

Yujin Han,Hao Chen,Andi Han,Zhiheng Wang,Xinyu Liu,yingya zhang,Shiwei Zhang,Difan Zou
mllmunified-modelinggenerationVirtual
7
泛读ICLR 2026

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

SFT 和 RFT(强化微调)都能让 MLLM 适配下游任务,但它们对先验知识保持的影响不清楚。具体来说:为什么 RFT 比 SFT 更能保持先验知识?机制是什么?

Zhihao Zhang,Qiaole Dong,Qi Zhang,Enyu Zhou,Jun Zhao,Zhiheng Xi ... 省略 5 位作者 ... ,Tao Ji,Tao Gui,Xuanjing Huang,Kai Chen
rftsftknowledge-retentionVirtual
7
泛读ICLR 2026

Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs

长上下文 LLM 解码时加载大 KV cache 效率低。现有稀疏注意力方法使用固定 token 预算,忽略了注意力稀疏性在不同 head、layer 和上下文间的差异,导致要么浪费预算要么损失精度。

Kan Zhu,Tian Tang,Qinyu Xu,Zhan Jin,Yile Gu,Zhichen Zeng ... 省略 1 位作者 ... ,Liangyu Zhao,Ang Li,Arvind Krishnamurthy,Baris Kasikci
long-contextsparse-attentionkv-cacheVirtual
7
精读ICLR 2026

SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs

纯显式 CoT 受自然语言带宽限制,纯 latent reasoning 又容易分散概率质量并产生“隐式过度思考”,导致准确率和 token 效率都不稳定。

Dachuan Shi,Abedelkadir Asi,Keying Li,Xiangchi Yuan,Leyan Pan,Wenke Lee,Wen Xiao
latent-reasoningcontinuous-cotinference-efficiencyVirtual
7
泛读ICLR 2026

BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning

这篇论文要解决的是 RFT 里的任务采样低效问题:均匀采样会把大量 rollout 浪费在太简单或暂时学不会的任务上,而现有 task selection 方法通常不是适应性不够,就是为了估计难度付出过高 rollout 成本。随着训练任务池变大,这个问题会直接限制 RFT 的样本效率和稳定性。

Qianli Shen,Daoyuan Chen,Yilun Huang,Zhenqing Ling,Yaliang Li,Bolin Ding,Jingren Zhou
rfttask-selectionalignmentVirtual
7
泛读ICLR 2026

IA2: Alignment with ICL Activations improves Supervised Fine-Tuning

小数据场景下ICL的泛化性和响应校准度优于SFT,但SFT的推理效率更高,现有工作未利用ICL的内部计算机制改进SFT性能,此前SFT优化仅对齐输出token分布,未对齐内部激活模式。

Aayush Mishra,Daniel Khashabi,Anqi Liu
sfticlalignmentVirtual
6
泛读ICLR 2026

Beyond Magnitude: Leveraging Direction of RLVR Updates for LLM Reasoning

现有RLVR(带可验证奖励的强化学习)的效果分析仅关注更新的幅度,忽略了更新的方向,无法精准定位对推理能力提升关键的稀疏更新,导致RLVR优化的可解释性和效率低下。

Kexin Huang,Haoming Meng,Junkang Wu,Jinda Lu,Chiyu Ma,Ziqian Chen ... 省略 3 位作者 ... ,Xiang Wang,Xiangnan He,Guoyin Wang,Jingren Zhou
rlvrreasoningupdate-analysisVirtual
6
泛读ICLR 2026

LinguaMap: Which Layers of LLMs Speak Your Language and How to Tune Them?

多语言预训练的LLM在非英语任务上存在两个瓶颈:多语言迁移瓶颈(语言正确但任务结果错误)和语言一致性瓶颈(任务结果正确但语言错误),现有工作未系统分析层级的语言处理机制,无法为多语言微调提供精准的层选择指导。

J. Ben Tamo,Daniel Carlander-Reuterfelt,Jonathan Rubin,Oleg Poliannikov,Dezhi Hong,Mingxian Wang
multilinguallayer-analysisfinetuningVirtual
5
泛读ICLR 2026

AudioX: A Unified Framework for Anything-to-Audio Generation

现有任意到音频生成框架缺乏统一多模态建模能力,同时缺少大规模高质量训练数据,此前的方案大多只支持单一或少数控制信号,泛用性差。

Zeyue Tian,Zhaoyang Liu,Yizhu Jin,Ruibin Yuan,Liumeng Xue,Xu Tan,Qifeng Chen,Wei Xue,Yike Guo
audio-generationmultimodalunified-modelingVirtual
7
泛读ICLR 2026

Why is Your Language Model a Poor Implicit Reward Model?

隐含奖励模型(IM-RM)相比显式奖励模型(EX-RM)泛化性更差,尤其是分布外场景,两者仅奖励计算方式不同,其余训练配置完全一致,此前没有工作解释该泛化gap的根本原因。

Noam Razin,Yong Lin,Jiarui Yao,Sanjeev Arora
Princeton Universityreward-modelrlhfimplicit-rewardVirtual
7
精读ICLR 2026

Transducing Language Models

这篇工作要解决的是:如果一个语言模型定义在某种字符串空间上,经过确定性字符串变换后,能否把变换后的分布也当成一个“正式的语言模型”来建模、推断和评估。过去这类变换常被当作后处理技巧,例如 subword 到 word、DNA 到 amino acid,但没有被系统地视为一个诱导分布上的新 LM。

Vésteinn Snæbjarnarson,Samuel Kiegeland,Tianyu Liu,Reda Boumasmoud,Ryan Cotterell,Tim Vieira
language-modeltransducertokenizerVirtual
7
精读ICLR 2026

Mapping Post-Training Forgetting in Language Models at Scale

这篇工作要解决的是:大规模 post-training 到底让预训练知识忘掉了什么、又在哪些样本上带来了反向迁移,现有按任务平均分的评估把这两种效应混在一起,看不出真实变化。作者认为遗忘不是可以相互抵消的均值噪声,而是具体事实和样本级知识的丢失。

Jackson Harmon,Andreas Hochlehnert,Matthias Bethge,Ameya Prabhu
post-train-forgettingpretrain-posttraincatastrophic-forgettingVirtual
7
精读ICLR 2026

Theory of Scaling Laws for In-Context Regression: Depth, Width, Context and Time

这篇工作要解决的是:在 in-context regression 的理论分析里,性能如何随着深度、宽度、上下文长度、训练步数和 batch size 共同缩放,尤其是深度到底什么时候真的有用。过去关于 ICL 的很多理论结果局限于浅层或单一设定,难以解释为什么某些任务里加深 self-attention 模型帮助很大,而另一些几乎没用。

Blake Bordelon,Mary Letey,Cengiz Pehlevan
scaling-lawicllinear-attentionVirtual
7
精读ICLR 2026

Emergent Misalignment is Easy, Narrow Misalignment is Hard

在窄领域有害数据上微调 LLM 会导致模型在不相关场景中也表现出 'emergent misalignment'(涌现性失对齐),而专家预测未能预见这一现象,暴露了我们对 LLM 学习和泛化归纳偏置的理解不足。

Anna Soligo,Edward Turner,Senthooran Rajamanoharan,Neel Nanda
emergent-misalignmentfine-tuninggeneralizationVirtual
7
精读ICLR 2026

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

大推理模型(LRM)的 RL 训练需要长 rollout 来获取结果奖励,自回归解码在时间和显存上开销巨大;滑动窗口缓存虽能限制显存,但会破坏长上下文推理能力。

Zeliang Zhang,Xiaodong Liu,Hao Cheng,Hao Sun,Chenliang Xu,Jianfeng Gao
Microsoft Researchrl-training-efficiencyreasoning-modelrollout-compressionVirtual
7
泛读ICLR 2026

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

当前开源 reward model 在多数评估 benchmark 上表现差,无法捕捉细腻的人类偏好。即使用了先进训练技巧也没有实质提升,根本原因在于偏好数据集质量差——范围窄、合成标注、缺乏质量控制。

Yuhao Liu,Liang Zeng,Yuzhen Xiao,Jujie He,Jiacai Liu,Chaojie Wang ... 省略 1 位作者 ... ,Wei Shen,Fuxiang Zhang,Jiacheng Xu,Yang Liu
Kunlun Techreward-modelpreference-datarlhfVirtual
7
泛读ICLR 2026

Trust-Region Adaptive Policy Optimization

主流的 SFT→RL 两阶段 pipeline 存在根本矛盾:SFT 的刚性模仿抑制探索并导致遗忘,限制了后续 RL 的提升空间。

Mingyu Su,Jian Guan,Yuxian Gu,Minlie Huang,Hongning Wang
Tsinghua Universityrlsftpolicy-optimizationVirtual
8
精读ICLR 2026

Robust Reward Modeling via Causal Rubrics

现有奖励模型容易发生奖励黑客问题,会将回复长度、格式等虚假关联特征当成质量的因果驱动因素,此前的训练目标无法区分这些混淆因子,导致奖励模型鲁棒性差。

Pragya Srivastava,Harman Singh,Rahul Madhavan,Gandharv Patil,Sravanti Addepalli,Arun Suggala ... 省略 2 位作者 ... ,Anirban Laha,Aravindan Raghuveer,Karthikeyan Shanmugam,Doina Precup
reward-modelreward-hackingcausalityVirtual
7
泛读ICLR 2026

SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based Cold Start

现有多模态大模型RL冷启动阶段用SFT初始化,会导致推理范式和任务解决方案、输出格式绑定,引发指令过拟合,降低分布外泛化性,影响后续RL效果。

Kun Chen,Peng Shi,Haibo Qiu,Zhixiong Zeng,Siqi Yang,Wenji Mao,Lin Ma
rlvrmllmcold-startVirtual
7
泛读OralICLR 2026

LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts

现有RL方法只能提升短上下文推理能力,长上下文推理所需的思考模式没有被有效探索,同时缺少高难度长上下文RL训练数据,此前的长上下文优化主要集中在注意力架构层面,没有从训练信号角度优化。

Siyuan Wang,Gaokai Zhang,Li Lyna Zhang,Ning Shang,Fan Yang,Dongyao Chen,Mao Yang
Microsoft Researchlong-contextrlreasoningVirtual
7
泛读ICLR 2026

Truthful or Fabricated? Using Causal Attribution to Mitigate Reward Hacking in Explanations

偏好优化会意外降低思维链解释的忠实度,因为奖励模型同时优化回复质量和解释恰当性,没有机制评估解释和模型内部决策过程的一致性,此前的对齐方案默认解释忠实度会随回复质量提升而提升。

Pedro Ferreira,Wilker Aziz,Ivan Titov
University of Edinburghreward-hackingchain-of-thoughtfaithfulnessVirtual
7
泛读ICLR 2026

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

这篇论文要解决的问题很明确:现有基于可验证奖励的数学推理 RL,实际上没有把训练重点真正放到难题上。GRPO 这类方法虽然在总体上有效,但对难题的策略更新幅度天然偏小,导致模型更容易反复巩固已经会做的简单题,而不是补足薄弱能力;同时常见数据增强多是在改写表述,不是在系统性提高题目难度,所以训练信号和数据供给两端都在回避真正决定上限的部分。

Yanqi Dai,Yuxiang Ji,Xiao Zhang,Yong Wang,Xiangxiang Chu,Zhiwu Lu
rlvrgrpomath-reasoningVirtual
7
泛读ICLR 2026

Geometric-Mean Policy Optimization

这篇论文解决的是 GRPO 在 token 级奖励聚合时容易被异常大的 importance-weighted reward 扰动,从而导致策略更新不稳定的问题。现有 GRPO 使用算术平均聚合 token 奖励,一旦某些 token 的 importance sampling ratio 极端,更新就会被少数 outlier 主导;这在 reasoning RL 里尤其麻烦,因为长链推理本来方差就高,局部异常很容易把整个样本梯度放大。

Yuzhong Zhao,Yue Liu,Junpeng Liu,Jingye Chen,xun wu,Yaru Hao ... 省略 2 位作者 ... ,Lei Cui,Qixiang Ye,Fang Wan,Furu Wei
grpopolicy-optimizationtraining-stabilityVirtual
7
精读ICLR 2026

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

这篇论文要解决的是:SFT 和 RL 对 reasoning 的作用方式不同,串联两阶段虽有效,但训练信号割裂、调度复杂,而且常常没有充分利用二者互补性。作者的分析结论是,SFT 更像对策略分布做粗粒度、全局性的牵引,RL 更像对关键区域做细粒度、选择性的修正;如果把两者简单分开跑,前者容易过平滑,后者又容易高方差和不稳定。

Yuqian Fu,Tinghong Chen,Jiajun Chai,Xihuai Wang,Songjun Tu,Guojun Yin,Wei Lin,Qichao Zhang,Yuanheng Zhu,Dongbin Zhao
sftreinforcement-learningreasoningVirtual
8
泛读ICLR 2026

Token Distillation: Attention-Aware Input Embeddings for New Tokens

预训练时固定的词汇表会导致低资源领域性能下降、计算成本上升,现有新token嵌入初始化方法需要额外重训或预训练附加模块,成本高。

Konstantin Dobler,Desmond Elliott,Gerard de Melo
tokenizervocabulary-expansionembedding-initializationVirtual
7
泛读ICLR 2026

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

现有强化后训练(RPT)的性能提升是否能迁移到未见过的领域尚不明确,此前的工作仅在与后训练相同的领域评估RPT模型,无法验证其泛化性。

Chuxuan Hu,Yuxuan Zhu,Antony Kellermann,Caleb Biddulph,Suppakit Waiwitlikhit,Jason Benn,Daniel Kang
rlvrgeneralizationreinforcement-post-trainingVirtual
6
泛读ICLR 2026

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

现有连续思维链(CoT)的理论工作仅证明两层Transformer可通过多推理轨迹叠加求解有向图可达性,未解释梯度训练下叠加机制的自然涌现过程。

Hanlin Zhu,Shibo Hao,Zhiting Hu,Jiantao Jiao,Stuart Russell,Yuandong Tian
UC BerkeleyUC San Diegocontinuous-cottraining-dynamicssuperpositionVirtual
6
泛读ICLR 2026

In Context Semi-Supervised Learning

现有Transformer上下文学习(ICL)的理论研究均聚焦全监督标注对场景,未解释稀疏标注或无标注场景下Transformer仍能保持良好性能的底层机制。

Jiashuo Fan,Paul Rosu,Aaron Wang,Lawrence Carin,Xiang Cheng
Duke Universityin-context-learningsemi-supervisedtransformerVirtual
6
泛读ICLR 2026

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

现有大模型上下文窗口有限,传统扩展方法要么存在严重计算冗余,要么会损失长上下文信息准确性。

Wei Han,Pan Zhou,Shuicheng YAN
National University of Singaporelong-contextcontext-compressionretrievalVirtual
6
泛读ICLR 2026

Rethinking LLM Evaluation: Can We Evaluate LLMs with 200× Less Data?

现有LLM基准测试集规模持续扩张,评估计算成本成为模型迭代的瓶颈,此前评估数据筛选仅针对单模型训练有效性,未考虑多模型排序稳定性的需求。

Shaobo Wang,Cong Wang,Wenjie Fu,Yue Min,Mingquan Feng,Isabel Guan ... 省略 4 位作者 ... ,Xingzhang Ren,Fei Huang,Dayiheng Liu,Linfeng Zhang
evaluationbenchmarkdata-efficiencyVirtual
7
泛读ICLR 2026

Interleaving Reasoning for Better Text-to-Image Generation

这篇工作要解决的是:统一多模态生成模型在文生图上已经能出图,但在复杂指令遵循和细节保持上仍明显落后于“理解-生成紧耦合”的系统。现有 T2I 流水线通常一次性把文本条件压进生成过程,缺少中间反思和纠错步骤,因此对长指令、细粒度属性和局部一致性处理得不够稳。

Wenxuan Huang,Shuang Chen,Zheyong Xie,Shaosheng Cao,SHIXIANG TANG,Yufan Shen ... 省略 8 位作者 ... ,Philip Torr,Yu Cheng,Wanli Ouyang,Shaohui Lin
text-to-imagereasoningmultimodal-generationVirtual
7
泛读ICLR 2026

Incentivizing LLM Reasoning via Reinforcement Learning with Functional Monte Carlo Tree Search

这篇工作要解决的是:现有 LLM reasoning 强化学习主要在 token 或 response 层面优化,却没有显式建模“推理动作”的功能角色,因此探索出来的推理轨迹既不稳定也不够多样。单靠 prompt 引导的 CoT 往往只是在表面格式上诱导推理,而不是让模型学会一组可复用的推理操作。

Kongcheng Zhang,QI YAO,Baisheng Lai,Jiaxing Huang,Wenkai Fang,Dacheng Tao,Mingli Song,Shunyu Liu
reinforcement-learningreasoningmctsVirtual
6
泛读ICLR 2026

RESA: Bringing Back What Sparse Attention Ignores with Residual Estimation

现有稀疏注意力方法仅保留关键KV以降低KV缓存开销,在低稀疏度场景下会严重损失模型性能,增加保留KV数量又会抵消稀疏注意力的内存优势。

Weihao Yang,Hao Huang,Ningke Li,Shihao Wang,Darong Yang,Yanqi Pan,Wen Xia,Shiyi Li,Xiangyu Zou
sparse-attentionkv-cachelong-contextVirtual
6
泛读OralICLR 2026

From Markov to Laplace: How Mamba In-Context Learns Markov Chains

Mamba等结构化状态空间模型(SSM)虽在语言建模任务上取得与Transformer相当的性能且推理速度更快,但其上下文学习(ICL)的底层机制与能力边界尚未明确。

Marco Bondaschi,Nived Rajaraman,Xiuying Wei,Razvan Pascanu,Caglar Gulcehre,Michael Gastpar,Ashok Makkuva
DeepMindmambassmin-context-learningVirtual
7
泛读ICLR 2026

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

现有LLM强化学习方法(如GRPO)仅利用奖励存在差异的样本更新策略,完全忽略所有响应奖励相同的零方差提示,浪费了大量可用训练信号。

Thanh-Long V. Le,Myeongho Jeon,Kim Vu,Viet Lai,Eunho Yang
rlvrzero-varianceentropyVirtual
7
泛读OralICLR 2026

Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling

现有基于无批评家可验证奖励训练的推理模型存在"过度思考"问题,即生成过长的无收益推理路径,传统长度惩罚方法会导致性能下降,存在轨迹级奖励与token级优化的对齐偏差。

Shuyang Jiang,Yusheng Liao,Ya Zhang,Yanfeng Wang,Yu Wang
rlvroverthinkinglength-penaltyVirtual
7
泛读ICLR 2026

Alignment-Enhanced Integration of Connectivity and Spectral Sparsity in Dynamic Sparse Training of LLM

这篇论文要解决的是:能否把动态连接稀疏训练和谱稀疏训练两条路线合到一个统一框架里,同时保留二者的效率和表达能力。过去的做法通常二选一:要么只做连接级稀疏,训练和推理都省,但容易损失全局表达;要么做低秩/谱稀疏,结构更平滑但未必真正稀疏,也难和动态拓扑更新协同,因此在 LLM 预训练里一直缺少稳定的统一方案。

Wenjing Wu,Yingtao Zhang,Jialin Zhao,Carlo Vittorio Cannistraci
sparse-trainingllmtraining-efficiencyVirtual
7
泛读ICLR 2026

RE-PO: Robust Enhanced Policy Optimization as a General Framework for LLM Alignment

这篇论文要解决的是:人类偏好数据存在大量标签噪声,而现有 RLHF 类对齐方法通常默认偏好标签都可靠,这会把对齐训练直接带偏。这个问题以前常被工程上用数据清洗或多标注员平均来缓解,但随着偏好数据规模变大、来源更杂、自动合成比例更高,噪声已不是边角问题,而是目标函数本身需要显式处理的核心问题。

Xiaoyang Cao,Zelai Xu,Mo Guang,Kaiwen Long,Michiel Bakker,Yu Wang,Chao Yu
rlhfpreferencealignmentVirtual
7
泛读ICLR 2026

The Limits of Inference Scaling Through Resampling

这篇论文要解决的是:通过 resampling + verifier 做 inference scaling 或数据筛选,是否能无限逼近更强模型,答案是否定的。只要 verifier 有非零假阳性率,反复采样并不能把这个错误降下去,因此这类方法存在一个由 verifier 质量决定的准确率上界。

Benedikt Stroebl,Sayash Kapoor,Arvind Narayanan
inference-scalingresamplingverifierVirtual
7
泛读ICLR 2026

Perception-Aware Policy Optimization for Multimodal Reasoning

RLVR(基于可验证奖励的强化学习)在纯文本推理上效果显著,但直接用于多模态推理时表现不佳。作者发现 67% 的错误来自视觉感知阶段,而非推理本身。现有 RL 训练目标没有针对视觉感知的优化信号。

Zhenhailong Wang,Xuehang Guo,Sofia Stoica,Haiyang Xu,Hongru WANG,Hyeonjeong Ha ... 省略 1 位作者 ... ,Yangyi Chen,Ming Yan,Fei Huang,Heng Ji
rlvrmultimodalreasoningVirtual
7
泛读ICLR 2026

Is the Reversal Curse a Binding Problem? Uncovering Limitations of Transformers from a Basic Generalization Failure

LLM 存在 Reversal Curse(反转诅咒):学了 A→B 的事实关联后无法推断 B→A。这个基本泛化失败的根本原因是什么?作者猜想这是认知科学中 binding problem 在 Transformer 中的体现——概念表示的不一致性和纠缠导致了反转失败。

Boshi Wang,Huan Sun
reversal-cursegeneralizationbinding-problemVirtual
6
泛读ICLR 2026

LLMs Process Lists With General Filter Heads

探究 LLM 处理列表数据(如过滤操作)的底层机制。过去对 LLM 内部机制的分析多集中在事实召回或简单推理,而对结构化数据处理(如类似函数式编程中的 filter 操作)的内部表示缺乏理解。

Arnab Sen Sharma,Giordano Rogers,Natalie Shapira,David Bau
Northeastern Universityinterpretabilityattention-headslist-processingVirtual
7
泛读ICLR 2026

Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning

解决 LLM 推理任务中策略梯度(Policy Gradient)RL 训练的优化不稳定性问题。现有的 RLHF/RLAIF 实践常因不稳定性而被迫采用保守的超参数,导致样本效率低、计算成本高。

Luckeciano Carvalho Melo,Alessandro Abate,Yarin Gal
University of Oxfordpolicy-gradientrlreasoningVirtual
8
精读ICLR 2026

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

解析基于分块(chunk-based)的稀疏注意力模型为何能实现极端的长度泛化。标准 Transformer 存在二次复杂度且长度外推差,而滑动窗口或 SSM 等替代方案因固定内存牺牲了全局上下文利用率,分块稀疏注意力虽有效但其成功背后的架构原理尚不明确。

Jiaqi Leng,Xiang Hu,Junxiong Wang,Jianguo Li,Wei Wu,Yucheng Lu
sparse-attentionlong-contextlength-generalizationVirtual
7
泛读ICLR 2026

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

这篇工作解决的是端到端语音生成里一个长期两难:全离散 token 方案稳定但丢细节,全连续声学建模保真但容易把语义、韵律和声学误差纠缠在一起,导致长程生成累积误差。过去主流多级管线通常依赖预训练离散 speech tokenizer,把语义和声学拆成多个阶段处理,但也因此形成 semantic-acoustic divide,表达力和整体协同都受限。作者想做的是在一个统一框架里同时保留稳定性与表现力。

Yixuan Zhou,Guoyang Zeng,Xin Liu,Xiang Li,Renjie Yu,Ziyang Wang ... 省略 2 位作者 ... ,Jiancheng Gui,Kehan Li,Zhiyong Wu,Zhiyuan Liu
speech-lmtokenizerspeech-generationVirtual
7
泛读ICLR 2026

What Exactly Does Guidance Do in Masked Discrete Diffusion Models

这篇工作解决的是 masked discrete diffusion 里的 guidance 到底在做什么。classifier-free guidance 在连续 diffusion 里已经很成熟,在离散 diffusion 里也被广泛采用,但大家通常只知道“调大 guidance 会更贴条件”,对其精确分布效应、共享区域压制机制和采样动力学缺少解析理解。作者选择在低维、任意数据分布下做精确分析,目的不是再提一个更强方法,而是先把机制说清楚。

Ye He,Kevin Rojas,Molei Tao
diffusion-lmdiscrete-diffusionguidanceVirtual
6
泛读OralICLR 2026

Semi-Supervised Preference Optimization with Limited Feedback

在偏好优化(如 DPO/RLHF)中减少对大量成对标注数据的依赖。现有方法需要大量昂贵的人工标注偏好数据,限制了对齐技术的广泛应用。

Seonggyun Lee,Sungjun Lim,Seojin Park,Soeun Cheon,Kyungwoo Song
preference-optimizationsemi-supervisedalignmentVirtual
6
泛读ICLR 2026

Localizing Task Recognition and Task Learning in In-Context Learning via Attention Head Analysis

统一对 LLM 上下文学习(ICL)机制的两种不同视角的理解:注意力头级别的组件分析,以及将 ICL 整体分解为任务识别(TR)和任务学习(TL)的宏观视角。

Haolin Yang,Hakaze Cho,Naoya Inoue
in-context-learningattention-headsinterpretabilityVirtual
6
泛读OralICLR 2026

Sequences of Logits Reveal the Low Rank Structure of Language Models

理解大型语言模型(LLM)内在的低维结构。过去的研究多依赖特定架构的内部激活分析,缺乏一种模型无关的、从序列概率模型角度出发的通用分析方法。

Noah Golowich,Allen Liu,Abhishek Shetty
logitslow-rankrepresentationVirtual
7
精读ICLR 2026

FoNE: Precise Single-Token Number Embeddings via Fourier Features

这篇论文要解决的问题是:LLM 处理数字时仍沿用普通文本 token 的表示方式,导致数值语义没有被直接编码,频率偏差和多 token 拆分问题长期存在。过去模型通常依赖在海量语料中“顺带学会”数字规律,但这会让 42 更像一个高频字符串,而不是一个带有大小、周期结构和可组合性的数。

Tianyi Zhou,Deqing Fu,Mahdi Soltanolkotabi,Robin Jia,Vatsal Sharan
number-embeddingtokenizerfourier-featuresVirtual
7
精读ICLR 2026

KL-Regularized Reinforcement Learning for Generative Modelling is Designed to Mode Collapse

这篇论文要解决的问题是:很多人把 KL-regularized RL 里的 forward KL 和 reverse KL 直觉化地理解成“mass covering vs mode seeking”,但在生成建模场景下,这个直觉经常是错的,甚至目标分布会被设计成天然塌缩。以往分析往往只看 divergence 形式本身,没有同时把 reward、reference policy 和正则强度放进同一个目标分布视角里。

Anthony GX-Chen,Jatin Prakash,Jeff Guo,Rob Fergus,Rajesh Ranganath
kl-regularizationrlmode-collapseVirtual
7
泛读ICLR 2026

RewardBench 2: Advancing Reward Model Evaluation

这篇论文要解决的问题是:奖励模型已经广泛用于 LLM 后训练,但现有评测还不足以解释一个 reward model 为什么在真实训练中常常不如更简单的 direct alignment 方法。过去 benchmark 要么只测局部技能,要么只测和人类偏好的静态一致性,缺少能反映多技能、真实难度与下游可用性的综合评测。

Saumya Malik,Valentina Pyatkin,Sander Land,Jacob Morrison,Noah Smith,Hanna Hajishirzi,Nathan Lambert
reward-modelevaluationbenchmarkVirtual
7
精读ICLR 2026

Discovering Novel LLM Experts via Task-Capability Coevolution

当前 LLM 开发范式中,扩展新能力需要人工设计静态数据集或奖励函数并反复启动训练,缺乏自动化、持续发现新能力的机制。作者希望借鉴开放式进化(open-endedness)的思路,让模型和任务共同演化,在单次运行中持续涌现多样化技能。

Andrew Dai,Boris Meinardus,Ciaran Regan,Yingtao Tian,Yujin Tang
continual-learningopen-endednesstask-generationVirtual
7
精读ICLR 2026

SmartDJ: Declarative Audio Editing with Audio Language Model

现有音频编辑模型依赖模板化指令格式、仅支持单声道,且要求用户指定底层编辑操作而非描述期望结果。缺乏声明式(declarative)的高层语义编辑能力。

Zitong Lan,Yiduo Hao,Mingmin Zhao
audio-lmaudio-editinginstruction-followingVirtual
7
精读ICLR 2026

QuRL: Low-Precision Reinforcement Learning for Efficient Reasoning

RLVR(带可验证奖励的强化学习)训练推理 LLM 时,自回归 rollout 占总训练时间高达 70%,是效率瓶颈。直接用量化模型做 rollout 会导致与全精度 actor 的策略偏差累积,引发长期训练崩溃。

Yuhang Li,Reena Elangovan,Xin Dong,Priyadarshini Panda,Brucek Khailany
rlvrquantizationreasoningVirtual
7
精读ICLR 2026

Group-Normalized Implicit Value Optimization for Language Models

LLM 的 RL 微调依赖序列末尾的稀疏奖励,细粒度 credit assignment 困难。传统方案需要训练额外的 critic 网络,带来显著的计算开销和训练不稳定性。

Yunseon Choi,Junyoung Jang,Chaeyoung Oh,Minchan Jeong,Doo Hwan Hwang,Kee-Eung Kim
rlhfalignmentcredit-assignmentVirtual
7
精读ICLR 2026

Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning

这篇工作要解决的是:VLM 的 RL 训练多集中在几何/图表等窄域,缺少可规模化、可验证奖励的通用多模态环境,导致“泛化推理能力”的 RL 探索受限。

Jingqi Tong,Jixin Tang,Hangcheng Li,Yurong Mou,Ming Zhang,Jun Zhao ... 省略 14 位作者 ... ,Tao Gui,Xipeng Qiu,Qi Zhang,Xuanjing Huang
vlmrlvrsynthetic-dataVirtual
7
精读ICLR 2026

Internal Planning in Language Models: Characterizing Horizon and Branch Awareness

这篇工作要回答的是:decoder-only LM 在没有 CoT 等外部脚手架时,内部是否真的在“规划”(考虑更长 horizon、权衡多分支续写),以及这种规划在隐藏状态里如何被表征与度量。

Muhammed Ustaomeroglu,Baris Askin,Gauri Joshi,Carlee Joe-Wong,Guannan Qu
planninginterpretabilityinternal-representationsVirtual
7
精读ICLR 2026

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

这篇工作回答的是:长上下文任务里,什么时候把输入切块后分而治之是有效的,什么时候一定会伤害性能。过去多代理 chunking 常被当成工程补丁使用,但失败往往来自不同来源的噪声混在一起,没有一个能指导何时拆分、何时坚持单次长上下文推理的分析框架。

Zach Xu,Shang Zhu,Jue Wang,Junlin Wang,Ben Athiwaratkun,Chi Wang,James Y Zou,Ce Zhang
long-contextdivide-and-conquertheoretical-frameworkVirtual
7
精读ICLR 2026

Identifying and Evaluating Inactive Heads in Pretrained LLMs

这篇工作要解决的是:预训练 LLM 里到底有多少 attention head 实际上处于“基本不工作”的状态,以及如何可靠识别它们。此前大家知道 attention sink 等现象说明有些头会机械地盯住首 token,但缺少系统标准去区分“功能专一的头”和“真正可删的冗余头”。

Pedro Sandoval-Segura,Xijun Wang,Ashwinee Panda,Micah Goldblum,Ronen Basri,Tom Goldstein,David Jacobs
attention-headsattention-sinkpruningVirtual
7
精读ICLR 2026

Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate

这篇工作要解决的是:深度学习明明是非凸优化,为什么很多训练动态却表现得像凸问题,以及这种近似凸性是否足够强到可以推导学习率和损失的可外推 scaling law。过去学习率调度大量依赖经验和网格搜索,即使有 scaling law 也多是经验拟合,缺少一个能跨模型、跨训练时长解释为什么可外推的统一视角。

Zhiqi Bu,Shiyun Xu,Jialin Mao
optimizationscaling-lawlearning-rateVirtual
7
精读ICLR 2026

Reward Models Inherit Value Biases from Pretraining

这篇工作要解决的是:reward model 的价值偏好到底有多少不是来自对齐数据,而是直接继承自预训练基座。过去大家更关注 policy model 的偏差与对齐,但 RM 往往被当作中性打分器;如果 RM 本身带有稳定的价值倾向,那么整个 RLHF / RLAIF 闭环都可能被一个上游未显式控制的偏置牵引。

Brian Christian,Jessica Thompson,Elle Michelle Yang,Vincent Adam,Hannah Kirk,Christopher Summerfield,Tsvetomira Dumbalska
reward-modelpretrain-biasalignmentVirtual
7
精读ICLR 2026

SeeDNorm: Self-Rescaled Dynamic Normalization

RMSNorm 在前向传播中丢弃了输入的 norm 信息,且用静态可学习缩放系数 γ 做维度级 rescale,面对输入分布变化大的场景(尤其是 zero-shot)表达能力不足。本文要解决的是:如何让归一化层的缩放系数动态适应输入,提升模型表征能力。

Wenrui Cai,Defa Zhu,Siyuan Qiao,Qingjie Liu,Qiyang Min
normalizationrmsnormarchitectureVirtual
7
精读ICLR 2026

Closing the Gap Between Text and Speech Understanding in LLMs

语音适配的 LLM 在语言理解任务上持续落后于纯文本 LLM,甚至不如 ASR+LLM 的级联方案。本文将这一差距定义为 text-speech understanding gap,并试图用数据高效的方法来弥合它——不依赖大规模语音合成或私有数据集。

Santiago Cuervo,Skyler Seto,Maureen de Seyssel,Richard Bai,Zijin Gu,Tatiana Likhomanenko,Navdeep Jaitly,Zakaria Aldeneh
speech-llmtext-speech-gapmultimodal-pretrainingVirtual
7
精读ICLR 2026

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

SFT 和 RL 是 LLM post-training 的两大范式,但简单地先 SFT 再 RL 容易破坏已学到的回复模式,且对 expert 数据过拟合。本文要解决的是:如何在 on-policy RL 过程中动态融合 off-policy 的 SFT 信号,避免两阶段训练的割裂。

Wenhao Zhang,Yuexiang Xie,Yuchang Sun,Yanxi Chen,Guoyin Wang,Yaliang Li,Bolin Ding,Jingren Zhou
sftreinforcement-learningdynamic-weightingVirtual
7
泛读ICLR 2026

FSA: An Alternative Efficient Implementation of Native Sparse Attention Kernel

解决原生稀疏注意力(Native Sparse Attention, NSA)在现有 LLM 架构中应用受限的问题。NSA 虽然能提升系统性能且保持精度,但其内核实现要求的循环顺序仅在 GQA 组内 query 头数量较多时才高效,而主流 LLM 通常采用较少的 query 头数量,导致 NSA 难以直接应用。

Ran Yan,YOUHE JIANG,Zhuoming Chen,Haohui Mai,Beidi Chen,Binhang Yuan
Carnegie Mellon Universitysparse-attentionlong-contextkernelVirtual
6
泛读ICLR 2026

Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

统一解释 LLM 中两个看似孤立的异常现象:注意力下沉(Attention Sinks,模型将大量注意力集中在初始 token 上)和压缩谷(Compression Valleys,中间层表示的维度急剧下降)。过去的研究通常将它们作为独立现象分别研究。

Enrique Queipo-de-Llano,Alvaro Arroyo,Federico Barbero,Xiaowen Dong,Michael Bronstein,Yann LeCun,Ravid Shwartz-Ziv
University of OxfordattentioninterpretabilitycompressionVirtual
7
泛读OralICLR 2026

Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability

这篇论文要解决的是 SAE 在语言模型解释中学到的特征过于 token-local、噪声重、语义不稳定的问题。已有 sparse autoencoder 往往把每个 token 的激活独立处理,结果容易恢复出位置或表面形式相关的碎片特征,而不是跨 token 延续的语义因素。

Usha Bhalla,Alex Oesterling,Claudio Mayrink Verdun,Hima Lakkaraju,Flavio Calmon
interpretabilitysparse-autoencoderlanguageVirtual
7
泛读ICLR 2026

How Transformers Learn Causal Structures In-Context: Explainable Mechanism Meets Theoretical Guarantee

这篇论文要回答的是:transformer 能否在上下文中学到可变的因果依赖结构,而不只是拟合固定模式。已有 ICL 理论通常假设依赖结构固定或任务形式简单,这和真实序列里关系随上下文变化的情况有明显落差。

Jianzhe Wei,Siyu Chen,Jianliang He,Zhuoran Yang
in-context-learningtransformertheoryVirtual
7
泛读ICLR 2026

Thought Branches: Interpreting LLM Reasoning Requires Resampling

这篇论文要解决的是:只看单条 CoT 来解释 reasoning model 的决策是不够的,因为真实推理是一个轨迹分布而不是单一路径。过去很多机制分析默认模型给出的那条理由就是关键因果链,但一旦存在多条近似等价的推理分支,单样本解释就会系统性误判因果贡献。

Uzay Macar,Paul Bogdan,Senthooran Rajamanoharan,Neel Nanda
chain-of-thoughtinterpretabilityreasoningVirtual
7
泛读ICLR 2026

Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

基于可验证奖励的LLM强化学习方法存在学习悬崖问题:当模型遇到远超出当前能力的问题时,奖励信号持续为0,导致GRPO等方法的优势计算失效,梯度更新停滞。

Xichen Zhang,Sitong Wu,Yinghao Zhu,Haoru Tan,Shaozuo Yu,Ziyi He,Jiaya Jia
rlvrreasoningexplorationVirtual
5
泛读ICLR 2026

Is In-Context Learning Learning?

领域对ICL是否属于学习的定义存在争议,现有主张要么仅依赖数学定义要么仅依赖经验观察,缺乏统一的验证框架和明确的边界结论。

Adrian de Wynter
in-context-learningiclgeneralizationVirtual
4
ICLR 2026

Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models

现有量化方案默认4-bit是全场景最优选择,未考虑推理模型中KV缓存占内存主导的场景,导致内存分配与推理性能需求不匹配。

Junhyuck Kim,Ethan Ewer,Taehong Moon,Jongho Park,Dimitris Papailiopoulos
quantizationkv-cachereasoningVirtual
7
泛读ICLR 2026

Single-stream Policy Optimization

主流的基于分组的LLM策略梯度方法如GRPO存在两个核心缺陷:退化分组会抹除学习信号,同步屏障阻碍扩展性,在生成时长波动大的长序列、工具调用场景下问题尤其突出。

Zhongwen Xu,Zihan Ding
policy-optimizationrlvrgrpoVirtual
7
泛读ICLR 2026

Selective Expert Guidance for Effective and Diverse Exploration in Reinforcement Learning of LLMs

现有RLVR方法依赖模仿全路径专家轨迹提升探索效率,会压缩探索空间,降低输出多样性,限制推理能力的泛化。

Zishang Jiang,Jinyi Han,tingyun li,Xinyi Wang,Sihang Jiang,Zhaoqian Dai,Ma Shuguang,Fei Yu,Jiaqing Liang,Yanghua Xiao
rlvrexplorationexpert-guidanceVirtual
7
泛读ICLR 2026

Poly-attention: a general scheme for higher-order self-attention

标准自注意力只能建模token pairwise交互,无法处理三元组相关的组合任务,现有高阶注意力方案复杂度超平方,落地困难。

Sayak Chakrabarti,Toniann Pitassi,Josh Alman
attentionhigher-orderarchitectureVirtual
6
泛读ICLR 2026

Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training

现有对齐研究普遍假设数学、代码等良性领域的推理训练不会损害模型安全对齐能力,而这一假设未被验证,实际观察到推理训练后的模型会自发绕过安全护栏。

Zheng Xin Yong,Stephen Bach
safetyalignmentreasoningVirtual
8
精读ICLR 2026

InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation

现有稀疏注意力方法额外参数量大,破坏了短序列预训练、长序列微调的常规流程,收敛慢且难以加速。

Weilin Zhao,Zihan Zhou,Zhou su,Chaojun Xiao,Yuxuan Li,Yanghao Li ... 省略 3 位作者 ... ,Yuxiang Huang,Ao Sun,Xu Han,Zhiyuan Liu
long-contextattentionsparse-attentionVirtual
8
精读ICLR 2026

Inconsistency Biases in Dynamic Data Pruning

动态数据剪枝此前默认样本重要性打分可跨不同训练阶段的模型状态直接对比,忽略了打分上下文漂移与时序梯度偏差两个核心问题,导致剪枝后训练效率与最终性能达不到预期。

Qing Zhou,Tao Yang,Bingxuan Zhao,Hongyuan Zhang,Junyu Gao,Qi Wang
data-pruningtraining-dynamicsoptimizationVirtual
7
泛读ICLR 2026

From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation

基于最终可验证单点信号的RLVR仅适用于有明确真值的推理任务,拓展到开放生成场景时缺少明确真值,单点监督易出现奖励 hacking 与训练效率低下的问题,此前没有适配开放生成的可验证奖励设计方案。

Yuxin Jiang,Yufei Wang,Qiyuan Zhang,Xingshan Zeng,Liangyou Li,Jierun Chen,Chaofan Tao,Haoli Bai,Lifeng Shang
rlvrreward-designopen-ended-generationVirtual
7
泛读OralICLR 2026

Hubble: a Model Suite to Advance the Study of LLM Memorization

这篇论文要解决的是:记忆化研究长期缺少可控、可复现、完全开放的模型套件,因此很多关于 memorization risk 的结论难以做系统因果分析。现有工作常依赖闭源模型做黑箱 probing,或者在训练数据污染上缺少严格控制,结果很难分清是模型规模、训练语料规模,还是敏感文本出现频次在主导风险。

Johnny Wei,Ameya Godbole,Mohammad Aflah Khan,Ryan Wang,Xiaoyuan Zhu,James Flemings,Nitya Kashyap,Krishna Gummadi,Willie Neiswanger,Robin Jia
memorizationpretrainingdata-contaminationVirtual
7
泛读ICLR 2026

Training Dynamics Impact Post-Training Quantization Robustness

这篇论文要回答的是:为什么有些 LLM 在后训练量化后掉点很少,有些却很脆弱,而这种鲁棒性是否早在预训练动态里就已经被决定。过去大家更多把 PTQ 看成部署阶段问题,主要从量化格式、校准集和 outlier 权重解释,但对训练过程本身如何塑造量化鲁棒性理解不够。

Albert Catalan-Tatjer,Niccolò Ajroldi,Jonas Geiping
quantizationtraining-dynamicsrobustnessVirtual
8
精读ICLR 2026

Robustness of Probabilistic Models to Low-Quality Data: A Multi-Perspective Analysis

此前没有跨范式的概率模型低质数据鲁棒性定量对比分析,不同模态模型的数据清洗标准缺乏统一的实证依据,大多凭经验设置清洗阈值。

Liu Peng,Yaochu Jin
data-qualityrobustnessautoregressiveVirtual
7
泛读ICLR 2026

Detecting Data Contamination in LLMs via In-Context Learning

现有LLM训练数据污染检测方法依赖模型输出与训练集的精确匹配,无法检测模糊记忆的污染样本,且多为模型或数据集特定,此前没有通用、无需访问模型权重或训练集的自动化污染检测方案。

Michał Zawalski,Meriem Boubdir,Klaudia Bałazy,Besmira Nushi,Pablo Ribalta
data-contaminationin-context-learningmemorizationVirtual
3
ICLR 2026

Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech

当前语音语言模型大多采用语音编码器+LLM的级联架构,把语音理解当做黑盒,稀疏监督下对语音非内容属性(语调、情绪、说话人特征等)的推理能力弱,此前没有模块化的语音因果推理架构方案。

Xuanru Zhou,Jiachen Lian,Henry Hong,Xinyi Yang,Gopala Anumanchipalli
speech-lmworld-modelcausal-reasoningVirtual
5
泛读ICLR 2026

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

当前LLM微调数据集多为句子级标注,与LLM的token级优化机制不匹配,引入的token级噪声会导致微调性能下降,此前没有可解释的token级数据筛选方案。

Yuchen Yang,Wenze Lin,Enhao Huang,Zhixuan Chu,Hongbin zhou,Lan Tao,Yiming Li,Zhan Qin,Kui Ren
data-qualityfine-tuningtoken-levelVirtual
5
泛读ICLR 2026

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

LLM的FFN模块占参数预算的大部分,但其高维动态机制缺乏统一的分析框架,此前的机制分析工作多聚焦于注意力模块,对FFN的信息流动规律理解不足。

Nandan Kumar Jha,Brandon Reagen
ffn-analysiseigenspectrumtraining-dynamicsVirtual
5
泛读ICLR 2026

Taming Polysemanticity in LLMs: Theory-Grounded Feature Recovery via Sparse Autoencoders

现有用于LLM可解释性的稀疏自编码器(SAE)训练方法缺乏严格的数学保证,存在超参数敏感、训练不稳定的问题,此前没有理论指导的SAE特征恢复方案。

Siyu Chen,Heejune Sheen,Xuyuan Xiong,Tianhao Wang,Zhuoran Yang
sparse-autoencoderinterpretabilitypolysemanticityVirtual
7
泛读ICLR 2026

On the Expressiveness of State Space Models via Temporal Logics

SSM 被视为 Transformer 替代,但“不同 gating/数值精度的 SSM 到底能表达什么语言性质”缺少可对齐的理论刻画,导致架构选择更多靠经验。

Eric Alsmann,Lowejatan Noori,Martin Lange
ssmexpressivenesstemporal-logicVirtual
7
泛读ICLR 2026

Discrete Adjoint Matching

Adjoint Matching 在连续可微奖励下很有效,但离散生成(尤其是 CTMC 形式的 diffusion LM)不可微,导致熵正则奖励优化很难把 AM 的工程优势迁移过来。

Oswin So,Brian Karrer,Chuchu Fan,Ricky T. Q. Chen,Guan-Horng Liu
discrete-diffusionadjoint-matchingreward-optimizationVirtual
7
泛读ICLR 2026

Compositional Generalization from Learned Skills via CoT Training: A Theoretical and Structural Analysis for Reasoning

这篇论文要回答的是:CoT 训练为什么能提升推理泛化,尤其是对训练中没见过的复杂组合任务。过去很多工作证明 CoT 有效,但机制解释往往停留在经验现象或案例分析,没有把“泛化提升来自哪里”拆开到可分析的结构层面。

Xinhao Yao,Ruifeng Ren,Yun Liao,Lizhong Ding,Yong Liu
cotcompositional-generalizationreasoning-theoryVirtual
7
精读ICLR 2026

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

这篇论文解决的是:用可验证奖励做 RL 后,reasoning model 往往学会把回答写得越来越长,但长度增长里有大量不推进求解的 filler token。过去方法默认‘更长推理=更高正确率’,因此训练过程会奖励冗长轨迹,导致推理成本上升、可控性变差,也不利于部署。

Vaishnavi Shrivastava,Ahmed H Awadallah,Vidhisha Balachandran,Shivam Garg,Harkirat Behl,Dimitris Papailiopoulos
rlvrreasoninglength-controlVirtual
7
泛读ICLR 2026

DeMo: Decoupled Momentum Optimization

同步数据并行训练大模型时,全精度梯度全规约的通信瓶颈随GPU规模扩大急剧恶化,现有动量优化器无原生通信优化能力,常见的梯度量化、稀疏化 workaround 通常会损失收敛性。

Bowen Peng,Lizhang Chen,Baiyu Su,Jeffrey Quesnelle,Diederik (Durk) Kingma,Qiang Liu
optimizerdistributed-trainingcommunicationVirtual
5
泛读ICLR 2026

Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees

现有自动电路发现方法依赖启发式规则或近似计算,无法对连续输入域下得到的功能电路提供正确性保证,导致机制可解释性结论可信度低、不可复现。

Itamar Hadad,Guy Katz,Shahaf Bassan
mechanistic-interpretabilitycircuitautomationVirtual
7
泛读ICLR 2026

Trion: FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of LLMs

现有低秩自适应优化方法用SVD或QR分解为每层梯度做投影,计算复杂度高,需要额外存储每层的投影矩阵,无法直接应用于大规模LLM的全参数训练。

Ionut-Vlad Modoranu,Mher Safaryan,Erik Schultheis,Max Ryabinin,Artem Chumachenko,Dan Alistarh
optimizerlow-rankllm-trainingVirtual
5
泛读ICLR 2026

Can Language Models Discover Scaling Laws?

现有缩放律发现完全依赖人工设计假设和实验验证,效率低、泛化性差,无法快速适配新的模型架构、数据类型和训练目标。

Haowei Lin,Haotian Ye,Wenzheng Feng,Quzhe Huang,Yujun Li,Hubert Lim ... 省略 1 位作者 ... ,Xiangyu Wang,Jianzhu Ma,Yitao Liang,James Y Zou
scaling-lawllm-agentautomated-discoveryVirtual
6
泛读OralICLR 2026

Quantitative Bounds for Length Generalization in Transformers

现有研究已证明Transformer在训练序列长度超过某个阈值后能实现长度泛化,但未给出该阈值的定量边界,无法指导长上下文模型的训练序列长度设计。

Zachary Izzo,Eshaan Nichani,Jason Lee
length-generalizationtransformertheoryVirtual
5
泛读ICLR 2026

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

大模型上下文学习的任务泛化内部机制尚不明确,现有归纳头机制只能解释低层级的序列模式匹配,无法解释更高层级的函数归纳能力。

Qinyuan Ye,Robin Jia,Xiang Ren
iclinterpretabilitytask-generalizationVirtual
7
精读ICLR 2026

The Diffusion Duality, Chapter II: $\Psi$-Samplers and Efficient Curriculum

Uniform-state 离散扩散模型(如 absorbing/uniform noise)在少步生成和 guidance 上优于 AR 和 masked diffusion,但其 ancestral sampler 在步数增多时质量不再提升,存在明显的性能天花板。此前缺乏适用于任意噪声过程的通用 Predictor-Corrector 采样框架。

Justin Deschenaux,Caglar Gulcehre,Subham Sekhar Sahoo
diffusion-lmdiscrete-diffusionsamplingVirtual
7
精读ICLR 2026

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

RLVR(Reinforcement Learning with Verifiable Reward)训练时需要极长上下文来容纳 CoT,计算成本很高。多阶段训练如果从过短上下文开始,会造成不可逆的性能退化。需要一种方法在不损失最终性能的前提下降低训练 token 消耗。

Xin Xu,Clive Bai,Kai Yang,Tianhao Chen,Yang Wang,Saiyong Yang,Can Yang
rlvrdistillationreasoningVirtual
8
精读ICLR 2026

Scaling Linear Attention Capacity with Sparse State Expansion

现有线性注意力变体通过将上下文压缩为固定大小的状态提升长上下文效率,但会损失上下文检索和推理任务的性能,核心原因是固定大小的状态无法承载足够的上下文信息,存在严重信息干扰。

Yuqi Pan,Yongqi An,Zheng Li,Yuhong Chou,Rui-Jie Zhu,Xiaohui Wang,Mingxuan Wang,Jinqiao Wang,Guoqi Li
linear-attentionlong-contextstate-spaceVirtual
6
泛读ICLR 2026

Learning to Reason Efficiently with Discounted Reinforcement Learning

现有大推理模型的推理过程生成过多不必要的token,导致计算成本高、延迟大,现有对齐方法通常默认更长的推理链能带来更高的准确率,未针对推理token的效率做优化。

Alex Ayoub,Kavosh Asadi,Dale Schuurmans,Csaba Szepesvari,Karim Bouyarmane
reasoningreinforcement-learningtoken-efficiencyVirtual
6
泛读ICLR 2026

Tricks or Traps? A Deep Dive into RL for LLM Reasoning

当前LLM推理方向的RL研究缺乏标准化实验规范,不同工作的训练数据、模型初始化、评测设置不统一,导致结论互相冲突,从业者无法准确甄别有效技术,过往研究大多侧重算法创新而忽视系统性的变量控制与复现验证。

Zihe Liu,Jiashun Liu,Yancheng He,Weixun Wang,JIAHENG LIU,Ling Pan ... 省略 5 位作者 ... ,Siran Yang,Jiamang Wang,wenbo su,Bo Zheng
rl-for-reasoningrlhftraining-dynamicsVirtual
7
泛读ICLR 2026

Unifying Stable Optimization and Reference Regularization in RLHF

现有RLHF采用两个独立正则项分别解决奖励破解和训练稳定问题:对SFT模型π0的KL惩罚防奖励破解,对当前策略πt的PPO ratio裁剪保优化稳定,两者的隐式权衡未被明确建模,导致训练不稳定和性能天花板。

Li He,Qiang Qu,He Zhao,Stephen Wan,Dadong Wang,Lina Yao,Tongliang Liu
rlhfreward-hackingkl-regularizationVirtual
5
泛读ICLR 2026

Compute-Optimal Quantization-Aware Training

现有量化感知训练(QAT)普遍采用先全精度训练再QAT微调的两阶段流程,但两个阶段的计算资源分配缺乏最优指导,过往研究默认QAT占总训练量的固定比例,未考虑总计算资源、模型规模、量化位宽的影响。

Aleksandr Dremov,David Grangier,Angelos Katharopoulos,Awni Hannun
Meta AIquantizationqatscaling-lawVirtual
5
泛读ICLR 2026

Retrospective Sparse Attention for Efficient Long-Context Generation

现有长上下文推理的KV缓存压缩方法只关注输入上下文的KV选择,忽略了解码过程中累计的注意力误差,导致长序列解码后期精度下降明显,无法稳定支持超过128k token的生成任务。

Seonghwan Choi,Beomseok Kang,Dongwon Jo,jae-joon kim
kv-cachesparse-attentionlong-contextVirtual
7
精读ICLR 2026

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

这篇论文要解决的是:RLHF 太依赖模糊的人类偏好,容易出现不可解释和 reward hacking;RLVR 又过于依赖 correctness 型 verifier,覆盖不了很多细腻质量维度。作者想找一个中间地带:既保留人类反馈的灵活性,又把奖励形式约束得足够明确,便于训练和审计。

Zhilin Wang,Jiaqi Zeng,Olivier Delalleau,Ellie Evans,Daniel Egert,Hoo-Chang Shin,Felipe Soares,Yi Dong,Oleksii Kuchaiev
rlhfrlvrreward-designVirtual
7
精读ICLR 2026

Process-Verified Reinforcement Learning for Theorem Proving via Lean

形式化定理证明中的 RL 训练通常只用二值验证信号(证明成功/失败),浪费了证明助手(如 Lean)能提供的丰富结构化反馈。如何把 tactic 级别的细粒度验证信号融入 RL 训练?

Minsu Kim,Se-Young Yun
KAISTrlvrtheorem-provingprocess-rewardVirtual
7
精读ICLR 2026

COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences

RLHF 中广泛使用的 Bradley-Terry reward 假设无法捕捉一般人类偏好的全部复杂性(如非传递性)。在博弈论框架下寻找 Nash 均衡策略是更合理的目标,但已有 self-play 算法要么不收敛,要么只在修改后的博弈中收敛,无法保证对所有策略的 50% 胜率。

Yixin Liu,Argyris Oikonomou,Weiqiang Zheng,Yang Cai,Arman Cohan
Yale Universityrlhfalignmentpreference-optimizationVirtual
7
精读ICLR 2026

The Serial Scaling Hypothesis

机器学习的进步主要依赖大规模并行化,但有一类问题本质上是顺序的(inherently serial)——数学推理、物理模拟、序列决策等需要顺序依赖的计算步骤,无法被高效并行化。当前以并行为中心的架构在这类任务上存在根本性限制。

Yuxi Liu,Konpat Preechakul,Kananart Kuwaranancharoen,Yutong Bai
scaling-lawsequential-computationcomplexity-theoryVirtual
7
泛读ICLR 2026

EEPO: Exploration-Enhanced Policy Optimization via Sample-Then-Forget

现有LLM可验证奖励RL(RLVR)方法过度偏向利用,导致熵崩溃,探索能力下降,无法跳出优势行为模式的自强化循环,性能无法进一步提升。

Liang CHEN,Xueting Han,Qizhou Wang,Bo Han,Jing Bai,Hinrich Schuetze,Kam-Fai Wong
rlvrexplorationentropy-collapseVirtual
7
泛读ICLR 2026

Learning to Reason without External Rewards

现有LLM复杂推理训练依赖RLVR的外部可验证奖励,需要成本高昂的领域特定标注,无法泛化到无标注的新领域。

Xuandong Zhao,Zhewei Kang,Aosong Feng,Sergey Levine,Dawn Song
UC Berkeleyrlifintrinsic-rewardreasoningVirtual
7
泛读ICLR 2026

Winter Soldier: Backdooring Language Models at Pre-Training with Indirect Data Poisoning

现有LLM预训练数据集的溯源方法依赖训练数据的直接复述,而LM厂商会限制模型输出训练数据内容,导致无法验证数据集是否被未授权使用。

Wassim Bouaziz,Mathurin VIDEAU,Nicolas Usunier,El-Mahdi El-Mhamdi
Meta AIdata-poisoningbackdoorpretraining-securityVirtual
7
泛读ICLR 2026

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

现有RL方法只能提升LLM已有能力范围内的性能,无法诱导出超出基础模型能力边界的新推理模式,导致极难问题的性能天花板。

Lu Ma,Hao Liang,Meiyi Qiang,Lexiang Tang,Xiaochen Ma,Zhen Wong ... 省略 2 位作者 ... ,Runming He,Yanhao Li,Wentao Zhang,Bin CUI
rlsftinterleaved-trainingVirtual
7
泛读ICLR 2026

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

标准SFT的泛化能力显著弱于RL对齐,先前工作要么直接沿用SFT流程未优化其梯度隐含的不合理奖励结构,要么切换到RLHF带来极高训练成本,缺乏低成本的SFT泛化优化方案。

Yongliang Wu,Yizhou Zhou,Ziheng Zhou,Yingzhe Peng,Xinyu Ye,Xinting Hu,Wenbo Zhu,Lu Qi,Ming-Hsuan Yang,xu yang
sftrlgeneralizationVirtual
4
ICLR 2026

Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

MoE模型在专家并行推理时,token分配不均衡导致过载专家计算延迟远高于空载专家,全局推理延迟由最慢的过载专家决定(即拖尾效应),先前调度方案要么复杂度过高无法落地,要么带来明显性能损失。

Shwai He,Weilin Cai,Jiayi Huang,Ang Li
moeinferenceload-balancingVirtual
7
泛读ICLR 2026

On Entropy Control in LLM-RL Algorithms

传统RL中广泛使用的熵正则化在LLM-RL场景下几乎没有增益,先前工作要么直接沿用传统熵正则化,要么移除熵项导致模型探索不足,没有针对LLM输出空间大、最优解稀疏特性的适配熵控制方案。

Han Shen
rlentropy-controlppoVirtual
7
泛读ICLR 2026

Smarter Not Harder: Generative Process Evaluation with Intrinsic-Signal Driving and Ability‑Adaptive Reward Shaping

大推理模型RL优化时,传统仅基于最终结果的奖励反馈稀疏,训练效率低;现有生成过程奖励模型(GenPRM)依赖固定推理能力判断标准,会抑制探索且容易出现奖励黑客问题,先前没有针对性解决方案。

Tao He,Rongchuan Mu,Lizi Liao,Yixin Cao,Yang Li,Yijia Luo,Weixun Wang,Ming Liu,Bing Qin
process-rewardrlreasoningVirtual
5
泛读ICLR 2026

End-to-end Listen, Look, Speak and Act

现有多模态大模型仅支持半双工交互,无法同时感知和生成跨视觉、文本、语音、动作多模态信号,和人类自然的全双工交互模式差距大,先前工作要么仅支持单模态生成,要么分模块拼接无法端到端优化。

Siyin Wang,Wenyi Yu,Xianzhao Chen,Xiaohai Tian,Jun Zhang,Lu Lu,Yuxuan Wang,Chao Zhang
multimodal-lmspeech-lmfull-duplexVirtual
7
泛读ICLR 2026

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

这篇论文的核心问题是:RLVR 提升推理时,在高难任务上奖励太稀疏,直接上强题往往学不动。过去像 DeepSeek-R1 这类工作证明了可验证奖励能拉起数学和代码推理,但也暴露出一个实际问题:如果训练样本长期集中在困难问题,模型拿不到稳定正反馈,策略优化容易低效甚至停滞。

Shubham Parashar,Shurui Gui,Xiner Li,Hongyi Ling,Sushil Vemuri,Blake Olson ... 省略 1 位作者 ... ,Yu Zhang,James Caverlee,Dileep Kalathil,Shuiwang Ji
rlvrreasoningcurriculumVirtual
7
泛读ICLR 2026

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

这篇论文要解决的是一个常见但经常被过度简单化的问题:rote learning 到底只会伤害泛化,还是在合适训练流程下反而可以成为泛化的前置阶段。很多人默认“记忆”和“泛化”是对立的,但对事实知识这类任务,模型首先得把关联记住,问题更像是记住之后能否把这些记忆迁移到有语义的提示空间里。

Qinyuan Wu,Soumi Das,Mahsa Amani,Bishwamittra Ghosh,Mohammad Aflah Khan,Krishna Gummadi,Muhammad Bilal Zafar
memorizationgeneralizationdata-qualityVirtual
6
泛读ICLR 2026

Unveiling Super Experts in Mixture-of-Experts Large Language Models

现有MoE压缩方案依赖启发式规则识别重要专家,缺乏对专家异质性重要性的底层认知,导致压缩后的模型性能损失不可控,先前没有对MoE中核心专家的系统研究。

Zunhai Su,Qingyuan Li,HaoZhang,Weihao Ye,Qibo Xue,Yulei Qian,Ngai Wong,Kehong Yuan
moeexpert-analysiscompressionVirtual
6
泛读OralICLR 2026

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

大模型超长文本生成存在长度限制和质量随长度下降的问题,先前的方案依赖合成超长文本的SFT数据,数据构建成本高、质量差、结构单调,无法支撑高质量超长生成。

Yuhao Wu,Yushi Bai,Zhiqiang Hu,Roy Ka-Wei Lee,Juanzi Li
Tsinghua Universityrllong-contextgenerationVirtual
7
泛读ICLR 2026

Output Supervision Can Obfuscate the Chain of Thought

OpenAI 2025提出仅用输出监督(不给监视器访问思维链)可以避免思维链被混淆,但该方案仍然存在思维链混淆的风险,先前工作没有发现这一问题,也没有对应的缓解方案。

jacob drori,Luke Marks,Bryce Woodworth,Alex Cloud,Alexander Turner
chain-of-thoughtalignmentmonitoringVirtual
7
精读ICLR 2026

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

这篇论文要解释的是:蒸馏中的 subliminal learning 到底在什么时候、通过什么机制发生,尤其是为什么在 hard distillation 下也会把教师模型的隐藏偏好传给学生。过去直觉上大家会把这件事归因于 soft label 的全分布信息泄漏,但这并不能解释只看采样 token 时为何仍会发生。

Simon Schrodi,Elias Kempf,Fazl Barez,Thomas Brox
distillationhidden-biassubliminal-learningVirtual
7
泛读ICLR 2026

AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

SFT与RL在推理模型训练中的协同规律尚未明确,行业默认强SFT初始化必然带来更好的RL后效果,且缺少适配不同SFT底座的RL采样温度调优方法论,此前工作多单独优化SFT或RL,未系统探索两者的协同约束。

Zihan Liu,Zhuolin Yang,Yang Chen,Chankyu Lee,Mohammad Shoeybi,Bryan Catanzaro,Wei Ping
sftrlreasoningVirtual
7
泛读ICLR 2026

$\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

基于可验证奖励的RL(RLVR)训练的推理模型会生成大量低质量无效思维链(CoT)步骤,初始CoT方向错误时即使生成数倍token也无法得到正确答案,导致推理效率低、准确率下降。此前RLVR方法仅鼓励正确推理路径,未教会模型主动放弃错误路径重启。

Pinzheng Wang,Shuli Xu,Juntao Li,Yu Luo,Dong Li,Jianye Hao,Min Zhang
rlvrreasoningcotVirtual
4
ICLR 2026

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

现有视觉语言动作(VLA)模型存在固有trade-off:自回归VLA将动作离散化后用预训练VLM训练,效率高但离散化损失了控制所需的连续性;扩散VLA可输出连续动作,但仅用到VLM的特征,未利用预训练LLM的迭代推理能力做动作生成。此前方法只能二选一,无法同时兼顾训练效率、推理能力和控制精度。

Jiaming Liu,Hao Chen,Zhuoyang Liu,Pengju An,Renrui Zhang,Chenyang Gu ... 省略 5 位作者 ... ,Mengdi Zhao,KC Zhou,Pheng-Ann Heng,Shanghang Zhang
ar-diffusionmultimodalunified-modelingVirtual
7
精读ICLR 2026

Latent Planning Emerges with Scale

这篇论文要回答的核心问题是:LLM 在不显式写出计划时,是否真的形成了会约束后续生成的内部计划表征。过去大家更多通过最终输出是否像“有计划”来间接判断,或者把 planning 等同于 CoT,但这会把显式推理和隐式内部状态混在一起;作者因此把 latent planning 明确定义为一种内部表征:它既能因果性地指向未来某个词或概念,又会反过来塑造前文,使那个未来目标在语境里变得可生成。

Michael Hanna,Emmanuel Ameisen
latent-reasoningplanningscalingVirtual
7
精读ICLR 2026

Cautious Weight Decay

这篇论文解决的是一个很具体但很基础的优化问题:标准 weight decay 在自适应优化器里并不总是朝着“更好优化原始损失”的方向工作。过去大家默认 decoupled weight decay 是安全且普适的正则化,但它实际上对应一个被修改过的目标,可能在某些坐标上和优化更新相互打架,尤其在大模型训练后期会带来无谓的收缩。

Lizhang Chen,Jonathan Li,Kaizhao Liang,Baiyu Su,Cong Xie,Chen Liang,Ni Lao,Qiang Liu
optimizerweight-decayoptimizationVirtual
7
精读ICLR 2026

Smooth Reading: Bridging the Gap of Recurrent LLM to Self-Attention LLM on Long-Context Understanding

这篇论文解决的是 recurrent LLM 在长上下文理解上始终落后于 self-attention LLM 的问题。以往工作主要从架构上扩 memory 容量,但即便设计了更强状态压缩机制,也很难真正追平 Transformer;作者认为问题不只在 memory size,更在于“把整段上下文一次性喂给 recurrent 模型”这个推理方式本身就不适配。

Kai Liu,Zhan Su,Peijie Dong,Fengran Mo,Jianfei Gao,Shaoting Zhang,Kai Chen
recurrent-lmlong-contextlinear-attentionVirtual
7
精读OralICLR 2026

Is it Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort

这篇论文解决的是 reward hacking 尤其是隐式 reward hacking 难检测的问题。显式 hacking 还能从 CoT 里看到“我在钻漏洞”,但隐式 hacking 的 CoT 看起来正常,传统 CoT 监控因此失效;作者抓住的关键点是:如果模型是在利用漏洞而不是认真解题,那么它往往用更少的推理努力就能拿到高奖励。

Xinpeng Wang,Nitish Joshi,Barbara Plank,Rico Angell,He He
reward-hackingreasoningrlVirtual
7
泛读ICLR 2026

The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss

主流Pre-Norm架构的多模态大模型(MLLM)中,视觉token的范数远高于文本token,此前行业默认这是不影响融合的静态差异,实际上它会导致不对称更新动态:视觉token的语义更新远慢于文本token,最终导致视觉信息损失、跨模态融合效果差。

Bozhou Li,Xinda Xue,Sihan Yang,Yang Shi,Xinlong Chen,Yushuo Guan,Yuanxing Zhang,Wentao Zhang
mllmpre-normnorm-discrepancyVirtual
7
泛读ICLR 2026

Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

自回归图像生成中,传统图像tokenizer的token序列存在双向依赖,和自回归模型的单向预测特性存在根本错位,导致生成质量低、错误累积严重。此前方法要么优化自回归模型的建模能力,要么优化tokenizer的重建质量,未解决两者依赖结构不匹配的核心问题。

Pingyu Wu,Kai Zhu,Yu Liu,Longxiang Tang,Jian Yang,Yansong Peng,Wei Zhai,Yang Cao,Zheng-Jun Zha
image-tokenizerautoregressivealignmentVirtual
6
泛读ICLR 2026

MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

行业默认亚十亿参数的小模型要获得推理能力需要训练在超大语料(>10T token)上,此前工作已经证明小模型可以涌现推理能力,但未挑战大语料的必要性,导致小推理模型的训练成本过高,端侧落地困难。

Changsheng Zhao,Ernie Chang,Zechun Liu,Chia-Jung Chang,Wei Wen,Chen Lai ... 省略 1 位作者 ... ,Yuandong Tian,Raghuraman Krishnamoorthi,Yangyang Shi,Vikas Chandra
small-lmreasoningcotVirtual
5
泛读ICLR 2026

Uniform Discrete Diffusion with Metric Path for Video Generation

离散扩散视频生成的性能落后于连续扩散,存在错误累积、长上下文一致性差、推理步数多的问题,此前的离散扩散方法大多直接沿用图像离散扩散的设计,没有针对视频的时空token特性做优化。

Haoge Deng,Ting Pan,Fan Zhang,Yang Liu,Zhuoyan Luo,Yufeng Cui ... 省略 1 位作者 ... ,Chunhua Shen,Shiguang Shan,Zhaoxiang Zhang,Xinlong Wang
discrete-diffusionvideo-generationscalableVirtual
2
ICLR 2026

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

现有零样本TTS系统的风格控制要么依赖预定义的风格标签,要么需要参考语音,无法通过自然语言指令灵活调整风格,此前的大模型驱动的TTS没有同时解决指令遵循和零样本音色克隆的协同问题。

DEKUN CHEN,Xueyao Zhang,Yuancheng Wang,Kenan Dai,Li Ma,Zhizheng Wu
speech-lmttsaudio-tokenizerVirtual
7
泛读ICLR 2026

BaseReward: A Strong Baseline for Multimodal Reward Model

这篇论文要解决的是:多模态奖励模型(MRM)已经成为对齐 MLLM 的关键组件,但业界缺的不是又一个新 tricks,而是一套系统、可复现、能解释 trade-off 的强基线配方。过去很多工作把性能差异混在 backbone、数据、reward head、训练范式和评测设置里,导致大家知道“哪个结果高”,却不知道“为什么高、能否迁移”。

YiFan Zhang,HaiHuaYang,Huanyu Zhang,Yang Shi,Zezhou Chen,Haochen Tian ... 省略 4 位作者 ... ,Jianfei Pan,Haotian Wang,Zhang Zhang,Liang Wang
multimodalreward-modelalignmentVirtual
7
泛读ICLR 2026

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

这篇论文要解决的是:把 RL 用在多轮工具调用推理时,经常越训越不稳,甚至比单轮工具推理更差。作者的判断是,问题不只是 credit assignment 更难,而是 rollout 里工具输出会带来分布漂移和连锁错误,进而产生大量有害负样本,污染策略更新。

Zhenghai Xue,Longtao Zheng,Qian Liu,Yingru Li,Xiaosen Zheng,Zejun MA,Bo An
rltool-usereasoningVirtual
7
泛读ICLR 2026

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

这篇论文要解决的是:数据污染检测在预训练和 SFT 阶段已有一些方法,但在越来越关键的 RL 后训练阶段几乎是空白。这个缺口很实际,因为 reasoning 能力现在大量靠 RL 拉升,如果 benchmark 样本以某种形式进入 RL 过程,评测就会被系统性高估,而且现有 pretrain/SFT 检测思路不一定适用于 RL 产生的特殊分布。

Yongding Tao,Tian Wang,Yihong Dong,Huanyu Liu,Kechi Zhang,Hu XiaoLong,Ge Li
data-contaminationrlevaluationVirtual
7
泛读ICLR 2026

From Curiosity to Caution: Mitigating Reward Hacking for Best-of-$N$ with Pessimism

这篇论文要解决的是:Best-of-N 是当前最常见的 inference-time compute scaling 方法之一,但随着 N 增大,reward model 的漏洞会被系统性放大,模型越来越容易选中“讨好 reward 而不是真的更好”的答案,也就是 reward hacking。过去的缓解办法要么靠更强 RM,要么靠很重的分布约束,通常要么不够稳,要么代价太大。

Zhuohao Yu,Steven Wu,Adam Block
reward-modelbest-of-nreward-hackingVirtual
7
精读ICLR 2026

Entropy-preserving reinforcement learning

Policy gradient 算法在训练过程中会自然地降低策略熵(即探索多样性),导致模型越训练越保守,探索能力越来越弱。这在 LLM 推理的 RL 训练中尤其成问题——多样性下降意味着模型难以发现新的、更好的推理路径。

Aleksei Petrenko,Ben Lipkin,Kevin Chen,Erik Wijmans,Marco Cusumano-Towner,Raja Giryes,Philipp Krähenbühl
policy-gradiententropyexplorationVirtual
7
精读ICLR 2026

REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Reasoning

大型推理模型(LRM)存在'过度思考'问题——生成过长的推理链导致推理成本高昂。现有方法通过合成更短的推理数据让模型学习,但数据生成和过滤过程耗时,不适合在线训练。而简单用长度奖励鼓励短推理会损害模型的反思能力和性能。

Hexuan Deng,Wenxiang Jiao,Xuebo Liu,Jun Rao,Min Zhang
rlreasoningoverthinkingVirtual
8
精读ICLR 2026

Scaling Agents via Continual Pre-training

当前基于通用基座LLM做后训练(SFT/RL)构建Agent的方案效果不佳,尤其是开源实现,核心矛盾是后训练阶段模型需要同时学习Agent行为模式和对齐专家演示,存在优化冲突,过往没有专门的Agent基座预训练流程。

Liangcai Su,Zhen Zhang,Guangyu Li,Zhuo Chen,Chenxi Wang,Maojia Song ... 省略 16 位作者 ... ,Kai Ye,Kewei Tu,Chenxiong Qian,Jingren Zhou
continual-pretrainagenticfoundation-modelVirtual
7
泛读ICLR 2026

Learning to Reason in Structured In-context Environments with Reinforcement Learning

这篇论文要解决的是:给 LLM 做基于环境探索的 RL 时,现有环境要么难扩展、强依赖专家标注,要么学到的能力过于游戏化,迁移不到一般推理。作者认为问题不在 RL 算法本身,而在训练环境没有同时满足可扩展、可验证、可泛化这三个条件,所以 reasoning RL 的收益一直受环境设计卡住。

Peng Yu,Zeyuan Zhao,Shao Zhang,Luoyi Fu,Xinbing Wang,Ying Wen
reinforcement-learningreasoningenvironmentVirtual
7
泛读ICLR 2026

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

这篇论文要解决的是:当前 speech-to-speech 模型在内容上能对话,但对情绪、语气、说话人属性等副语言信息的理解与响应还不够好,而且缺少高质量、可规模化的监督与评测。过去很多工作把语音交互拆成 ASR→文本 LLM→TTS,导致风格信息在中间表示里被压平;即便端到端 S2S 出现了,大家也缺少一个同时评价内容和 speaking style 的训练闭环。

Shu-wen Yang,Ming Tu,Ting-Wei Liu,Xinghua Qu,Hung-yi Lee,Lu Lu,Yuxuan Wang,Yonghui Wu
speech-lmalignmentreinforcement-learningVirtual
7
泛读ICLR 2026

Rethinking LLM Reasoning: From Explicit Trajectories to Latent Representations

这篇论文要解决的是:LLM 的推理是否真的需要把完整的 chain-of-thought 全部解码出来。现有方法默认显式推理轨迹是必要中间产物,于是即使简单题也要生成很长 rationale,导致推理成本高;后训练里虽有压缩 CoT 的工作,但仍然受制于 token-level 解码,没从范式上减少‘必须把中间思路都说出来’这件事。

Cong Jiang,Xiaofeng Zhang,Fangzhi Zhu,Xiaowei Chen,Junxiong Zhu,Zheng Zhang
reasoninglatent-reasoningcotVirtual
7
泛读ICLR 2026

How reinforcement learning after next-token prediction facilitates learning

这篇论文要解决的是:为什么“先做 next-token prediction,再做 RL”这一训练配方在推理任务上特别有效,而单靠 NTP 往往学不会真正的泛化。作者试图给出理论解释,说明 RL 不是简单地继续优化同一个目标,而是在某些数据分布下改变了模型学到的策略类型,尤其当长链路推理样本稀少时,这个差别会非常大。

Nikolaos Tsilivis,Eran Malach,Karen Ullrich,Julia Kempe
reinforcement-learningnext-token-predictiontheoryVirtual
7
泛读ICLR 2026

Segment-Level Attribution for Selective Learning of Long Reasoning Traces

大推理模型(LRM)生成的长 CoT 中,只有少部分 token 真正对最终答案有贡献,大量内容是重复或截断的冗余。用这些 CoT 做 SFT 会让模型学会模仿冗长但无信息量的模式,反而降低性能。

Siyuan Wang,Yanchen Liu,Xiang Ren
USCreasoningcotsftVirtual
5
泛读ICLR 2026

Understanding Cross-layer Contributions to Mixture-of-Experts Routing in LLMs

MoE LLM的路由机制缺乏跨层机制可解释性的清晰理解,过往可解释性工作很少递归拆解不同模型组件对路由决策的贡献。

Wengang Li,Lingqi Zhang,Toshio Endo,Mohamed Wahib
moeroutinginterpretabilityVirtual
7
精读ICLR 2026

$\textit{MADFormer}$: Mixed Autoregressive and Diffusion Transformers for Continuous Image Generation

这篇论文讨论的是 AR 和 diffusion 混合图像生成里一个长期没讲清的问题:两种范式各自负责什么、模型容量该怎么分,才不会既丢全局结构又浪费迭代细化能力。现有混合方法通常只是把两者拼起来,缺少系统分析其 trade-off 的 testbed。作者想做的不是单纯再造一个混合模型,而是建立一个可以研究 AR-diffusion 分工的框架。

Junhao Chen,Yulia Tsvetkov,Xiaochuang Han
ar-diffusionmultimodaltransformerVirtual
7
泛读ICLR 2026

Count Counts: Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards

现有强化学习提升LLM推理能力的方案依赖稀疏的结果奖励,探索不足,导致模型陷入重复、次优的推理模式,过往探索方法很少针对LLM推理轨迹的特点设计内在奖励。

Xuan Zhang,Ruixiao Li,Zhijian Zhou,Long Li,Yulei Qin,Ke Li,Xing Sun,Xiaoyu Tan,Chao Qu,Yuan Qi
rlvrreasoningexplorationVirtual
6
泛读ICLR 2026

SPICE: Submodular Penalized Information–Conflict Selection for Efficient Large Language Model Training

现有基于Fisher信息对数行列式的指令微调数据选择方案,没有考虑样本间梯度冲突的影响,导致边际信息增益衰减快,数据选择效率低,过往子模数据选择方法默认梯度不存在冲突,与实际训练场景不符。

Powei Chang,Jinpeng Zhang,Bowen Chen,Chenyu Wang,Chenlu Guo,Yixing Zhang ... 省略 2 位作者 ... ,Yue Gao,Chaoqun Sun,Yiyi Chen,Dongying kong
instruction-tuningdata-selectionfisherVirtual
7
泛读ICLR 2026

Diversity-Incentivized Exploration for Versatile Reasoning

现有带可验证奖励的强化学习(RLVR)用于LLM推理训练时,面临状态动作空间大、奖励稀疏的问题,探索不足、样本效率低,过往内在奖励方法很少关注全局序列级的多样性。

Zican Hu,Shilin Zhang,Yafu Li,Jianhao (Elliott) Yan,Xuyang Hu,Leyang Cui,Xiaoye Qu,Chunlin Chen,Yu Cheng,Zhi Wang
rlvrexplorationreasoningVirtual
7
泛读ICLR 2026

reAR: Rethinking Visual Autoregressive Models via Token-wise Consistency Regularization

视觉自回归(AR)生成作为统一多模态建模的可行路径,性能始终落后于扩散模型,过往研究将差距归因于tokenizer限制和光栅化顺序,忽略了生成器与tokenizer之间的一致性问题,即AR生成的token无法被tokenizer良好解码。

Qiyuan He,Yicong Li,Haotian Ye,Jinghao Wang,Xinyao Liao,Pheng-Ann Heng,Stefano Ermon,James Y Zou,Angela Yao
autoregressivevision-tokenizerconsistency-regularizationVirtual
6
泛读OralICLR 2026

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

现有奖励模型(RM)存在两个核心缺陷:一是模态不平衡,绝大多数只支持文本、图像,对视频、音频、3D等模态支持有限;二是偏好刚性,基于固定二元偏好对训练,无法捕捉个性化偏好的复杂性和多样性,过往没有支持多模态自由形式偏好的通用奖励模型。

Zhuoran Jin,Hongbang Yuan,Kejian Zhu,Jiachun Li,Pengfei Cao,Yubo Chen,Kang Liu,Jun Zhao
reward-modelmultimodalpreferencesVirtual
7
泛读ICLR 2026

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

带可验证奖励的强化学习(RLVR)显著提升LLM推理能力,但背后的token级机制尚不清晰,过往研究很少从token分布偏移的角度拆解RLVR的作用机制。

Haoming Meng,Kexin Huang,Shaohang Wei,Chiyu Ma,Shuo Yang,xue wang,Guoyin Wang,Bolin Ding,Jingren Zhou
rlvrtoken-level-analysisdistributional-shiftVirtual
7
精读ICLR 2026

MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

这篇工作要解决的是:MoE LLM 虽然推理时每个 token 只激活少数专家,但部署内存仍然被全部专家权重拖住,现有压缩方法在中等压缩率下就有明显精度损失。问题不在于 MoE 能不能压,而在于怎样在保留专家多样性的同时共享足够多的参数。

Xiaodong Chen,Mingming Ha,Zhenzhong Lan,Jing Zhang,Jianguo Li
moecompressionmatrix-factorizationVirtual
7
泛读ICLR 2026

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

这篇工作要解决的是:多模态模型遇到模态缺失时性能会灾难性下降,而根源可能不是简单的缺失训练不足,而是训练过程中模型形成了对某些模态的隐式偏好,导致其他模态长期欠优化。现有鲁棒多模态方法往往靠数据增强或缺失模拟,但未必先诊断出“谁在主导、谁被压制”。

Siqi Lu,Wanying XU,Yongbin Zheng,Wenting Luan,Peng Sun,Jianhang Yao
multimodalrobustnessmissing-modalityVirtual
6
泛读ICLR 2026

Semantic Voting: A Self-Evaluation-Free Approach for Efficient LLM Self-Improvement on Unverifiable Open-ended Tasks

现有LLM自提升在不可验证开放任务(如翻译)上依赖自评估生成伪标签,计算开销高且存在过自信偏差;此前的多数投票伪标签方法仅适用于可验证任务,无法处理开放响应的语义等价问题。

Chunyang Jiang,Yonggang Zhang,Yiyang Cai,Chi-Min Chan,Yulong Liu,Mingming Chen,Wei Xue,Yike Guo
self-trainingsynthetic-dataopen-endedVirtual
7
泛读ICLR 2026

Sample Lottery: Unsupervised Discovery of Critical Instances for LLM Reasoning

现有用于LLM推理优化的RLVR方法需要全数据集标注,且对所有样本均匀分配计算资源,训练效率低;此前的样本重要性分析都依赖标注信息,无法实现无监督筛选。

Zhiping Xiao,Yusheng Zhao,Qixin ZHANG,Jiaye Xie,Wanjia Zhao,Weizhi Zhang,Xiao Luo,Philip Yu,Ming Zhang
rlvrdata-selectionreasoningVirtual
6
泛读ICLR 2026

UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

现有基于CLIP的多模态框架无法平衡理解能力和生成重建能力,要么出现语义退化,要么重建结果不一致;CLIP本身缺乏重建能力,无法直接用于统一多模态任务。

Hao Tang,Chen-Wei Xie,Xiaoyi Bao,Tingyu Weng,Pandeng Li,Yun Zheng,Liwei Wang
clipmultimodalgenerationVirtual
5
泛读ICLR 2026

Language Models Use Lookbacks to Track Beliefs

现有研究对LLM的心智理论(ToM)能力的内部实现机制缺乏清晰理解,无法解释LLM如何表征与现实不一致的角色信念。

Nikhil Prakash,Natalie Shapira,Arnab Sen Sharma,Christoph Riedl,Yonatan Belinkov,Tamar Shaham,David Bau,Atticus Geiger
theory-of-mindmechanistic-interpretabilityattentionVirtual
6
泛读ICLR 2026

SIM-CoT: Supervised Implicit Chain-of-Thought

现有隐式思维链(CoT)方法比显式CoT token效率更高,但存在明显性能差距,且随着推理token数量增加训练容易崩溃;此前的隐式CoT缺乏步骤级监督,导致隐空间表征同质化。

Xilin Wei,Xiaoran Liu,Yuhang Zang,Xiaoyi Dong,Yuhang Cao,Jiaqi Wang,Xipeng Qiu,Dahua Lin
cotreasoninglatent-reasoningVirtual
6
泛读ICLR 2026

When More is Less: Understanding Chain-of-Thought Length in LLMs

现有实践默认CoT越长推理性能越好,且不同模型和任务复用相同长度的CoT数据,存在训练数据与模型/任务的适配性问题,导致性能未达最优。

Yuyang Wu,Yifei Wang,Ziyu Ye,Tianqi Du,Stefanie Jegelka,Yisen Wang
cotreasoningscaling-lawVirtual
4
ICLR 2026

Resisting Contextual Interference in RAG via Parametric-Knowledge Reinforcement

现有RAG系统容易被错误、无关、冲突的检索上下文误导,产生错误输出;此前的方法没有显式建模模型参数知识和检索上下文的取舍策略,无法抵抗检索噪声。

Chenyu Lin,Yilin Wen,Du Su,Hexiang Tan,Fei Sun,Muhan Chen,Chenfu Bao,Zhonghou Lv
ragreinforcement-learningparametric-knowledgeVirtual
6
泛读ICLR 2026

A Physics-Inspired Optimizer: Velocity Regularized Adam

现有Adam优化器在训练时处于自适应稳定边缘区间,容易出现损失振荡,收敛速度慢;此前的优化器改进没有从物理动力学角度引入高阶速度正则,缓解振荡的效果有限。

Pranav Vaidhyanathan,Lucas Schorling,Natalia Ares,Michael Osborne
optimizeradamtraining-stabilityVirtual
7
泛读ICLR 2026

Mirage or Method? How Model–Task Alignment Induces Divergent RL Conclusions

当前大语言模型RL后训练领域存在大量互相矛盾的反常识结论,现有研究未明确这些结论的成立边界,导致结果可复现性差、实践指导不足。

Haoze Wu,Cheng Wang,Wenshuo Zhao,Junxian He
香港科技大学rlvrmodel-task-alignmentrl-for-llmVirtual
8
精读ICLR 2026

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

当前语音大模型(SLM)要么无内部思考过程导致生成质量差,要么先生成完整思维链再输出语音引入不可接受的延迟,无法同时满足实时交互的低延迟和强推理需求。

Cheng-Han Chiang,Xiaofei Wang,Linjie Li,Chung-Ching Lin,Kevin Lin,Shujie LIU,Zhendong Wang,Zhengyuan Yang,Hung-yi Lee,Lijuan Wang
微软亚洲研究院speech-lmspoken-language-modelreasoningVirtual
6
泛读ICLR 2026

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

现有多模态奖励模型(MRM)研究大多聚焦结构和数据改进,未探索如何激活MRM的长时序推理能力,直接套用通用RL算法训练MRM会出现训练不稳定甚至崩溃的问题。

YiFan Zhang,Xingyu Lu,Xiao Hu,Chaoyou Fu,Bin Wen,Tianke Zhang ... 省略 8 位作者 ... ,Tingting Gao,Di ZHANG,Guorui Zhou,Liang Wang
reward-modelmultimodalrlVirtual
7
泛读ICLR 2026

Linking Process to Outcome: Conditional Reward Modeling for LLM Reasoning

现有过程奖励模型(PRM)要么孤立看待每个推理步骤无法捕获步骤间依赖,要么无法对齐过程奖励与最终结果,导致信用分配模糊、易发生奖励黑客。

Zheng Zhang,Ziwei Shan,Kaitao Song,Yexin Li,Kan Ren
reward-modelreasoningprocess-supervisionVirtual
7
泛读ICLR 2026

Dr.LLM: Dynamic Layer Routing in LLMs

这篇论文要解决的是:标准 Transformer 对每个 token 一律走完整层数,简单样本浪费算力,困难样本又缺少按需加深的灵活性。已有 adaptive-depth 方法要么需要在线搜索,要么改模型结构,要么要大规模重训,实际常见结果是省了 FLOPs 却掉了精度,所以作者针对“能否低成本 retrofit 到现有 LLM 且不伤精度”这个问题下手。

Ahmed Heakl,Martin Gubri,Salman Khan,Sangdoo Yun,Seong Joon Oh
adaptive-depthlayer-routingdynamic-inferenceVirtual
7
精读ICLR 2026

Is Finer Better? The Limits of Microscaling Formats in Large Language Models

这篇论文要解决的是:microscaling 量化按直觉应该是 block 越小、表示越细,误差越小,但作者发现当 block size 缩小到某个阈值以下时,LLM 输出质量反而变差。这个现象直接挑战了“更细粒度量化一定更好”的常识,也说明当前对 microscaling 误差来源的理解还不够。

Andrea Fasoli,Monodeep Kar,Chi-Chun Liu,Swagath Venkataramani,Viji Srinivasan,Leland Chang,Naigang Wang
quantizationmicroscalingtraining-efficiencyVirtual
7
精读ICLR 2026

Watermarking Diffusion Language Models

这篇论文要解决的是:现有文本水印方法几乎都为自回归语言模型设计,依赖“前面已经生成的 token”来决定当前 token 的偏置;但 diffusion language model 可以任意顺序生成,很多上下文 token 在当前时刻还不存在,导致 AR 水印方案不能直接搬过去。随着 DLM 成为一类新语言建模范式,缺少专门水印会成为部署缺口。

Thibaud Gloaguen,Robin Staab,Nikola Jovanović,Martin Vechev
diffusion-lmwatermarkingnon-ar-lmVirtual
6
泛读ICLR 2026

Bradley-Terry and Multi-Objective Reward Modeling Are Complementary

现有RLHF的奖励模型在分布外(OOD)场景下极易发生奖励黑客,现有缓解方法大多仅在分布内场景验证有效,无法适配OOD场景。

Zhiwei Zhang,Hui Liu,Xiaomin Li,Zhenwei Dai,Jingying Zeng,Fali Wang ... 省略 5 位作者 ... ,Zongyu Wu,Xianfeng Tang,Qi He,Suhang Wang
reward-modelreward-hackingrlhfVirtual
8
精读ICLR 2026

Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns

现有大模型推理增强方法无差别使用思维链数据,未明确哪种数据类型能最有效提升推理能力,导致训练资源浪费、效果天花板低。

Xuemiao Zhang,Can Ren,Chengying Tu,Rongxiang Weng,Shuo Wang,Hongfei Yan,Jingang Wang,Xunliang Cai
mid-traincot-datareasoningVirtual
7
泛读ICLR 2026

The Markovian Thinker: Architecture-Agnostic Linear Scaling of Reasoning

推理大模型的计算量随上下文长度二次增长,导致带可验证奖励的RL(RLVR)和测试时缩放成本过高,现有剪枝、摘要等优化方法仍然无法摆脱二次开销。

Milad Aghajohari,Kamran Chitsaz,Amirhossein Kazemnejad,Sarath Chandar,Alessandro Sordoni,Aaron Courville,Siva Reddy
Mila微软研究院reasoningmarkovlinear-scalingVirtual
7
精读ICLR 2026

RM-R1: Reward Modeling as Reasoning

奖励模型(RM)在给 response 打分时缺乏可解释的推理过程,导致判断浅层且不够准确。传统 RM 要么是判别式直接输出标量,要么是生成式但没有显式推理链,无法像人类评审那样先分析再打分。

Xiusi Chen,Gaotang Li,Ziqi Wang,Bowen Jin,Cheng Qian,Yu Wang ... 省略 2 位作者 ... ,Denghui Zhang,Tong Zhang,Hanghang Tong,Heng Ji
reward-modelreasoningrlhfVirtual
7
精读ICLR 2026

LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

RLVR 训练后的模型在测试时缺少验证信号,需要额外的 self-verification 能力。但现有方法要求模型先生成解答再生成验证,推理成本翻倍。

Wenkai Yang,Weijie Liu,Ruobing Xie,Yiju Guo,Lulu Wu,Saiyong Yang,Yankai Lin
rlvrself-rewardingreasoningVirtual
7
精读ICLR 2026

Language Identification in the Limit with Computational Trace

CoT 训练在实践中显著提升 LLM 能力,但缺乏形式化理论解释其为什么有效。具体问题是:在语言可学习性的经典框架(Gold 的 identification in the limit)下,提供计算轨迹(computational trace)到底能多大程度扩展可学习语言的类别?

Binghui Peng,Amin Saberi,Grigoris Velegkas
chain-of-thoughtlearnability-theorycomputational-traceVirtual
7
泛读ICLR 2026

Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning

当前RL4LLM方法大多放弃显式critic,改用平均优势基线,核心原因是大模型规模下传统value函数训练成本高、在稀疏奖励长推理场景下失效,无法兼顾效率和效果。

Jiashun Liu,Johan S Obando Ceron,Han Lu,Yancheng He,Weixun Wang,wenbo su,Bo Zheng,Pablo Samuel Castro,Aaron Courville,Ling Pan
rl4llmppocriticVirtual
7
精读ICLR 2026

Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs

这篇论文要回答的核心问题是:只用 next-token prediction 训练出来的 base LLM,是否能对“语义上是否答对”给出可信置信度,而不只是对下一个 token 概率做校准。过去大家通常默认 token-level calibration 不足以推出 semantic calibration,因为同一语义可以对应很多表述,token 概率会被表面措辞分散;这篇工作说明,在合适的采样式定义下,语义层面的校准会自然涌现。

Preetum Nakkiran,Arwen Bradley,Adam Golinski,Eugene Ndiaye,Michael Kirchhof,Sinead Williamson
calibrationsemantic-uncertaintyemergent-propertyVirtual
7
精读ICLR 2026

Language Models are Injective and Hence Invertible

这篇论文要解决的是一个长期默认前提:Transformer 里有非单射模块,比如激活和归一化,因此中间表示应该不可逆,输入信息会丢失。作者的核心结论相反——对离散输入序列到连续表示序列的映射而言,语言模型在几乎处处意义下是单射的,因此理论上可逆,输入并没有在表示层面被压扁到同一点。

Giorgos Nikolaou,Tommaso Mencattini,Donato Crisostomi,Andrea Santilli,Yannis Panagakis,Emanuele Rodolà
transformer-theoryinjectivityinvertibilityVirtual
7
精读ICLR 2026

Cartridges: Lightweight and general-purpose long context representations via self-study

这篇论文要解决的是长上下文使用中的一个部署痛点:把整个语料库直接塞进上下文窗口虽然简单,但 KV cache 显存和推理成本都随长度增长,服务代价很高。作者提出的问题是,能不能把“某个固定语料库的长期上下文”预先蒸馏成一个可加载的小型 KV cache,让后续所有针对该语料库的查询都复用它。

Sabri Eyuboglu,Ryan Ehrlich,Simran Arora,Neel Guha,Dylan Zinsley,Emily Liu,Atri Rudra,James Y Zou,Azalia Mirhoseini,Christopher Re
long-contextkv-cachecontext-compressionVirtual
7
精读ICLR 2026

Dynamic Parameter Reuse Augments Reasoning via Latent Chain of Thought

这篇论文关注的问题是:标准 Transformer 在一次前向里每个参数只用一次,性能主要靠堆参数,而这可能不是推理能力最优的计算组织方式。作者想推动的方向是参数复用——无论是递归、循环还是逐步增长结构——把更多计算深度放到固定参数上,并将其理解为一种 latent chain of thought。

Kaitlin Maile,Joao Sacramento
latent-cotparameter-sharingreasoningVirtual
8
精读ICLR 2026

UnigramLM: An Attempt at Writing The Missing Manual

本文旨在清晰、显式地推导 UnigramLM 分词算法背后的生成模型和 EM 更新过程。由于目前缺乏对该算法理论基础的严谨推导,理解其数学原理有助于改进现有的分词方法。

Clara Meister
tokenizerunigramlmemVirtual
7
泛读ICLR 2026

From REINFORCE to Dr. GRPO: A Unified Perspective on LLM Post-Training

本文旨在提供一个统一的视角,通过策略梯度定理(Policy Gradient Theorem)来解析和关联近期用于 LLM 后训练(post-training)的各种强化学习(RL)算法的目标函数。

Qingfeng Lan
rlhfgrpopolicy-gradientVirtual
7
泛读ICLR 2026

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

本文质疑了当前训练小型推理模型时过度依赖复杂 RL 流程(如多阶段、动态调度、课程学习)的必要性,试图证明简单的 RL 策略在扩大规模后同样有效。

Bingxiang He,Zekai Qu,Zeyuan Liu,Yinghao Chen,Yuxin Zuo,Cheng Qian ... 省略 2 位作者 ... ,Chaojun Xiao,Ganqu Cui,Ning Ding,Zhiyuan Liu
reinforcement-learningreasoningscalingVirtual
5
泛读ICLR 2026

VideoNSA: Native Sparse Attention Scales Video Understanding

多模态大语言模型在长视频理解中受限于上下文长度,容易丢失关键过渡帧并在长时间跨度上失去连贯性。本文旨在解决视频 token 序列过长导致的注意力计算瓶颈。

Enxin Song,Wenhao Chai,Shusheng Yang,Ethan Armand,Xiaojun Shan,Haiyang Xu,Jianwen Xie,Zhuowen Tu
sparse-attentionvideolong-contextVirtual
5
泛读ICLR 2026

Strong Correlations Induce Cause Only Predictions in Transformer Training

本文探讨了在存在强相关性的虚假特征时,Transformer 模型为何以及何时能够优先学习因果特征(causes)而非虚假特征(spurious effects)。

Haihan Zhang,Yimu Zhang,Cong Fang
training-dynamicstransformercausalityVirtual
6
泛读ICLR 2026

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

当前 LLM 社区过度关注 decoder-only 架构,而 encoder-only 模型在分类和检索等任务中仍有广泛应用。由于缺乏在相同参数量、训练技术和数据集下对这两种架构的公平对比,难以准确评估它们的优劣。

Orion Weller,Kathryn Ricci,Marc Marone,Antoine Chaffin,Dawn Lawrie,Ben Van Durme
encoder-decoderarchitecturebenchmarkVirtual
5
泛读ICLR 2026

Erase or Hide? Suppressing Spurious Unlearning Neurons for Robust Unlearning

现有的 LLM 遗忘(unlearning)方法容易在后续训练中发生“重新学习”(relearning),导致被遗忘的敏感知识重新浮现。本文旨在解决这种“浅层对齐”问题,实现更鲁棒的知识擦除。

Nakyeong Yang,Dong-Kyum Kim,Jea Kwon,Minsung Kim,Kyomin Jung,Meeyoung Cha
unlearningsafetyforgettingVirtual
6
泛读ICLR 2026

Flipping the Dialogue: Training and Evaluating User Language Models

这篇论文要解决的问题是:现有多轮对话评测里常用“让助手模型扮演用户”的做法不可信,因为助手式后训练会系统性改变说话方式,生成的“用户”过于完整、规范、目标明确,和真实用户分布有明显偏差。过去这件事常被回避,因为做用户模拟既贵又难标注,直接拿现成 assistant LM 代用最方便;但随着 agent 和多轮评测越来越依赖用户模拟,这个偏差会直接污染评测结论,因此现在值得单独建模 user LM。

Tarek Naous,Philippe Laban,Wei Xu,Jennifer Neville
user-modelingdialoguepost-trainingVirtual
6
泛读ICLR 2026

Persona Features Control Emergent Misalignment

这篇论文要解释的核心问题是:为什么模型在一小段看似局部的有害微调后,会在完全无关的提示上出现“涌现式失对齐”。以前这类现象多被当成数据污染或安全层脆弱的经验现象来描述,但如果它跨模型、跨训练方式、甚至跨是否有安全训练都存在,就说明这里面有更一般的表示机制值得被拆开看。

Miles Wang,Tom Dupre la Tour,Olivia Watkins,Aleksandar Makelov,Ryan Chi,Samuel Miserendino ... 省略 1 位作者 ... ,Achyuta Rajaram,Johannes Heidecke,Tejal Patwardhan,Daniel Mossing
alignmentpersonamisalignmentVirtual
6
泛读ICLR 2026

All Code, No Thought: Language Models Struggle to Reason in Ciphered Language

这篇论文的结论很直接:模型通常能“看懂”密文,但很难在密文中稳定地“想”。这回答了 CoT 监控里一个关键安全问题——如果攻击者把推理过程藏进加密、翻译或压缩后的文本,模型是否还能保持高推理能力来规避监控。过去这个问题更多停留在直觉争论上;作者把它变成了可测的能力边界问题。

Shiyuan Guo,Henry Sleight,Fabien Roger
reasoningcotsafetyVirtual
6
泛读ICLR 2026

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

这篇论文要解决的是:工具调用模型如果主要靠蒸馏来的 SFT 轨迹训练,往往学到的是模仿式格式和套路,而不是在新工具、新任务上的可泛化决策能力。过去这样做有效是因为便宜、稳定、可控;但它把 reasoning 锁死在教师轨迹里,导致一旦工具组合或任务形式变化,模型很容易只会“像样地调用”,不会真正按结果反馈修正策略。

Shaokun Zhang,Yi Dong,Jieyu Zhang,Jan Kautz,Bryan Catanzaro,Andrew Tao,Qingyun Wu,Zhiding Yu,Guilin Liu
NVIDIAtool-usereinforcement-learningreasoningVirtual
6
泛读OralICLR 2026

Watch your steps: Dormant Adversarial Behaviors that Activate upon LLM Finetuning

这篇论文揭示了一个新的供应链风险:一个开源权重模型可以在发布时看起来正常、无害、性能也好,但在下游用户用良性数据做 finetune 之后才激活恶意行为。过去大家通常把 finetuning 当成相对可控的后处理过程,默认 benign data 不会凭空制造攻击性策略;这篇论文挑战的正是这个默认前提。

Thibaud Gloaguen,Mark Vero,Robin Staab,Martin Vechev
ETH ZurichfinetuningbackdoorsafetyVirtual
6
泛读ICLR 2026

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

这篇论文要解决的是:如何让 LLM 在给答案的同时表达校准过的置信度,而不是只会口头上“很确定”或“我不确定”。过去很多做法把置信度估计和文本生成拆开做,比如额外训练分类头或事后校准;这样容易得到一个分数,但这个分数并没有真正进入生成策略,因此模型在回答和置信表达之间仍然可能不一致。

David Bani-Harouni,Chantal Pellegrini,Paul Stangel,Ege Özsoy,Kamilia Zaripova,Nassir Navab,Matthias Keicher
rlhfcalibrationconfidenceVirtual
6
泛读ICLR 2026

IceCache: Memory-Efficient KV-cache Management for Long-Sequence LLMs

LLM 推理时 KV-cache 的显存占用随序列长度线性增长,在长序列场景下成为瓶颈。已有的 CPU offload 方案依赖不够精确的 token 选择策略,在需要长程推理(如 chain-of-thought)的任务上性能下降明显。

Yuzhen Mao,Qitong Wang,Martin Ester,Ke Li
kv-cachelong-contextmemory-efficiencyVirtual
6
泛读ICLR 2026

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs

现有长上下文 LLM 的评测 benchmark 存在三个系统性缺陷:缺乏叙事连贯性、领域覆盖窄、只测简单召回任务。这导致无法真正评估 LLM 的长期记忆和长上下文推理能力。本文同时解决评测和能力增强两个问题。

Mohammad Tavakoli,Alireza Salemi,Carrie Ye,Mohamed Abdalla,Hamed Zamani,J Mitchell
UMass Amherstlong-contextbenchmarklong-term-memoryVirtual
5
泛读ICLR 2026

Causally Robust Reward Learning from Reason-Augmented Preference Feedback

基于偏好的奖励学习(PbRL)由于反馈信号稀疏且为二元,容易产生因果混淆(causal confusion),导致模型学习到与偏好轨迹共现的虚假特征,在测试时一旦相关性消失就会崩溃。

Minjune Hwang,Yigit Korkmaz,Daniel Seita,Erdem Bıyık
reward-modelpreference-learningcausal-robustnessVirtual
4
OralICLR 2026

Visual Planning: Let's Think Only with Images

现有多模态大模型即使处理视觉相关任务也默认使用文本作为推理媒介,在空间几何类视觉优先任务中,文本推理存在精度低、效率差的问题,过往工作未探索纯视觉的独立推理通路。

Yi Xu,Chengzu Li,Han Zhou,Xingchen Wan,Caiqi Zhang,Anna Korhonen,Ivan Vulić
multimodal-reasoningvisual-thinkingvlmVirtual
5
泛读ICLR 2026

Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding

大视觉语言模型(LVLM)经常依赖预训练记忆的语言先验而非视觉输入输出结果,过往语言先验分析仅依赖输入输出探测,无法揭示视觉信息何时、如何参与模型决策的内部机制。

Lin Long,Changdae Oh,Seongheon Park,Yixuan Li
University of Wisconsin-Madisonvlmlanguage-priorcotVirtual
5
泛读ICLR 2026

Flatter Tokens are More Valuable for Speculative Draft Model Training

推测解码的草稿模型训练依赖大量数据,过往工作默认所有训练样本对提升接受率的贡献均等,未区分高价值样本,导致训练效率低、草稿模型接受率上限低。

Jiaming Fan,CAO DAMING,Xiangzhong Luo,Jiale Fu,CHONGHAN LIU,xu yang
speculative-decodingdraft-modeldata-qualityVirtual
5
泛读ICLR 2026

Explainable LLM Unlearning through Reasoning

现有LLM遗忘方法多基于梯度上升类无目标优化,会导致通用能力退化、知识删除不彻底、输出不一致等问题,过往工作没有明确的指导模型应该遗忘什么、怎么遗忘的信号。

Junfeng Liao,Qizhou Wang,Shanshan Ye,Xin Yu,Ling Chen,Zhen Fang
unlearningreasoningsafetyVirtual
6
泛读ICLR 2026

ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning

这篇论文要解决的是:SFT 中 token-level 数据选择虽然有效,但现有方法常常需要额外参考模型,而且只看 loss 会误删语义上关键但暂时不好预测的 token。过去这类方法偏向把“模型不喜欢的 token”直接降权,却没有区分它们是噪声,还是高价值但学习尚未完成的信息。

Xiaohan Qin,Victor Wang,Ning Liao,Cancheng Zhang,Xiangdong Zhang,Mingquan Feng,Jingzhi Wang,Junchi Yan
sftdata-qualitytoken-selectionVirtual
6
泛读ICLR 2026

Knowledge Fusion of Large Language Models via Modular SkillPacks

大模型之间的跨能力迁移(knowledge fusion)在异构、大规模模型上效果差:模型合并只适用于小同构模型,知识蒸馏全参微调容易遗忘学生模型原有能力,PEFT方法又难以充分吸收多源知识。

Guodong DU,Zhuo Li,Xuanning Zhou,Junlin Li,Zesheng Shi,Wanyu LIN ... 省略 2 位作者 ... ,Fangming Liu,Wenya Wang,Min Zhang,Jing Li
knowledge-fusionmodel-mergingdistillationVirtual
6
泛读ICLR 2026

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

RL fine-tuning大推理模型时,在线 prompt 选择方法虽然能加速训练步数收敛,但需要对大量候选 batch 做 LLM rollout 来筛选有信息量的样本,这个计算开销可能超过微调本身。

Yixiu Mao,Yun Qu,Qi Wang,Heming Zou,Xiangyang Ji
rl-finetuningdata-selectionreasoningVirtual
4
ICLR 2026

KBVQ-MoE: KLT-guided SVD with Bias-Corrected Vector Quantization for MoE Large Language Models

MoE大模型参数量大、内存占用高,直接用向量量化(VQ)压缩会导致严重的性能下降,原因是专家间的冗余表示导致VQ重复量化相似表示、以及量化偏差未被校正,过往VQ压缩方法针对稠密大模型设计,未适配MoE的稀疏专家结构。

Zukang Xu,Zhixiong Zhao,Xing Hu,Zhixuan Chen,Dawei Yang
moequantizationcompressionVirtual
6
泛读ICLR 2026

Stackelberg Learning from Human Feedback: Preference Optimization as a Sequential Game

现有RLHF、NLHF等偏好优化方法要么用标量奖励无法建模复杂偏好,要么求同时博弈均衡忽略了偏好的非对称性,过往方法没有利用偏好的顺序交互特性。

Barna Pásztor,Thomas Kleine Buening,Andreas Krause
ETH Zurichpreference-optimizationalignmentgame-theoryVirtual
5
泛读ICLR 2026

Hedonic Neurons: A Mechanistic Mapping of Latent Coalitions in Transformer MLPs

Transformer的MLP层的表示结构不清晰,过往可解释性工作多关注单个神经元的作用,没有研究神经元之间的协作模式,无法解释MLP层的计算逻辑。

Tanya Chowdhury,Atharva Nijasure,Yair Zick,James Allan
UMass AmherstinterpretabilitymlploraVirtual
5
泛读ICLR 2026

Steering MoE LLMs via Expert (De)Activation

MoE大模型的行为控制依赖微调,成本高且灵活性差,过往工作没有利用MoE的专家稀疏激活特性做无微调的行为控制。

Mohsen Fayyaz,Seyed MohammadAli Modarressi,Hanieh Deilamsalehy,Franck Dernoncourt,Ryan Rossi,Trung Bui,Hinrich Schuetze,Nanyun (Violet) Peng
Adobe Researchmoeexpert-activationsteeringVirtual
4
ICLR 2026

Decomposing LLM Computation with Jets

预训练LLM训练后计算流深度纠缠,现有可解释性方法(如Logit Lens)缺乏统一理论框架,难以支撑规模化的模型审计、可解释性分析和长期维护。

Yihong Chen,Xiangxiang Xu,Pontus Stenetorp,Sebastian Riedel,Luca Franceschi
interpretabilitymodularitytransformerOpenReviewVirtual
6
泛读ICLR 2026

Play to Generalize: Learning to Reason Through Game Play

这篇论文要解决的问题是:能否不用题库式多模态推理监督,而是通过游戏交互训练出可迁移的多模态推理能力。以往 MLLM 的 reasoning 提升大多依赖 benchmark-oriented 数据、人工解题轨迹或蒸馏,这种路径容易过拟合题型,也很难解释模型到底学到了通用策略还是只学会了答题格式;作者试图用游戏这种规则明确、反馈稠密、可大规模采样的环境替代这类监督。

Yunfei Xie,Yinsong Ma,Shiyi Lan,Alan Yuille,Junfei Xiao,Chen Wei
reasoningmultimodalpost-trainingVirtual
6
泛读ICLR 2026

Learning is Forgetting; LLM Training As Lossy Compression

这篇论文要回答的是:LLM 训练后形成的表示空间是否可以理解为一种有目标约束的有损压缩,以及这种视角能否解释不同模型家族的共性与差异。过去我们常用能力、损失或探针分析模型,但较少直接从 information bottleneck 角度把‘学到什么’和‘忘掉什么’统一起来。

Henry Conklin,Tom Hosking,Yi-Chern Tan,Jonathan Cohen,Sarah-Jane Leslie,Thomas L. Griffiths,Max Bartolo,Seraphina Goldfarb-Tarrant
training-dynamicscompressionrepresentationVirtual
6
泛读ICLR 2026

Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning

这篇论文要解决的问题是:代码模型的 RL 训练通常只奖励“生成解答”,缺少显式培养 critique/反思能力的机制,而这类能力对发现错误解、提升代码鲁棒性很重要。以往 CFT、CGD 等工作说明教模型做 critique 有帮助,但更多依赖监督蒸馏;作者想把这一点直接纳入 RL。

Chi Ruan,Dongfu Jiang,Yubo Wang,Wenhu Chen
coderlcritiqueVirtual
6
泛读ICLR 2026

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

纯推理 RL 训练的模型在需要结构化计算的场景(几何推理、精确计算、复杂方程求解)表现不佳,而代码解释器在这些场景有明显优势。如何让模型在长链推理中动态决定何时调用工具、何时用自然语言推理,是一个未被很好解决的问题。

Jiazhan Feng,Shijue Huang,Xingwei Qu,Ge Zhang,Yujia Qin,Baoquan Zhong,Chengquan Jiang,Jinxin Chi,Wanjun Zhong
rltool-usereasoningVirtual
6
泛读ICLR 2026

Test-Time Scaling with Reflective Generative Model

Test-time scaling 需要在推理时选择高质量推理轨迹,但现有方法要么依赖独立的 process reward model(PRM,需要过程级标注),要么缺乏统一的策略-评估接口。RGM 提出一种不依赖过程级标注的统一方案。

Zixiao Wang,Yuxin Wang,Xiaorui Wang,Mengting Xing,Jie Gao,Jianjun Xu ... 省略 1 位作者 ... ,Chenhui Jin,Zhuo Wang,Shengzhuo zhang,Hongtao Xie
test-time-computeprocess-reward-modelreasoningVirtual
6
泛读ICLR 2026

STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization

低比特激活量化往往比权重量化更容易崩,因为激活分布随 token/位置变化大,直接压到 4bit/更低会出现尖锐精度损失。

Marco Federici,Riccardo Del Chiaro,Boris van Breugel,Paul Whatmough,Markus Nagel
activation-quantizationrotationmixed-precisionVirtual
6
泛读ICLR 2026

Generalized Parallel Scaling with Interdependent Generations

并行采样 N 个回答通常彼此独立,导致算力被切片后信息无法共享;相比之下,长度扩展(长回答)能复用前序计算,质量更容易随 compute 增长。

Harry Dong,David Brandfonbrener,Eryk Helenowski,Yun He,Mrinal Kumar,Han Fang,Yuejie Chi,Karthik Abinav Sankararaman
parallel-samplinginference-scalinginterdependent-generationVirtual
6
泛读ICLR 2026

Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward

RLVR 提升推理能力很吃数据与 rollout,导致训练成本高且数据效率低;以往更多靠“堆更多题+更多采样”硬扩展。

Xinyu Tang,Zhenduo Zhang,Yurou Liu,Xin Zhao,zujie wen,Zhiqiang Zhang,JUN ZHOU
rlvrdata-efficiencyreasoningVirtual
6
泛读ICLR 2026

Semantic-aware Wasserstein Policy Regularization for Large Language Model Alignment

这篇论文要解决的问题是:RLHF 里最常用的 KL 正则只比较同一 token 位点上的概率差异,无法表达“语义接近但词面不同”的策略偏移。过去大家接受 KL,主要因为它稳定、便宜、易优化,但它会把语义等价改写和真正意义上的分布漂移混在一起,导致对齐训练既可能过度约束,也可能错罚。

Byeonghu Na,Hyungho Na,Yeongmin Kim,Suhyeon Jo,HeeSun Bae,Mina Kang,Il-chul Moon
rlhfwassersteinkl-divergenceVirtual
6
泛读OralICLR 2026

To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models

这篇论文的核心结论是:纯 SSM 不能可靠解决真正意义上的长程生成问题,单靠线性复杂度和固定状态并不能自动带来长度泛化。过去社区常把 SSM 的长上下文效率理解为潜在能力优势,但作者指出,如果任务要求随长度增长持续保存并操作精确信息,固定大小内部状态会构成理论瓶颈。

Eran Malach,Omid Saremi,Sinead Williamson,Arwen Bradley,Aryo Lotfi,Emmanuel Abbe,Joshua Susskind,Etai Littwin
ssmlength-generalizationtool-useVirtual
6
泛读ICLR 2026

To Sink or Not to Sink: Visual Information Pathways in Large Vision-Language Models

这篇论文要回答的核心问题是:在 LVLM 中,哪些视觉 token 真正进入了语言侧推理链路,哪些 token 虽然在 ViT 里存在却在传输过程中被“沉没”了。过去很多分析只看视觉 encoder 内部显著性,默认有用视觉信息会自然流向 LLM,但这一假设未必成立,尤其在 connector 和 early fusion 之后。

Jiayun Luo,Wan-Cyuan (Chris) Fan,Lyuyang Wang,Xiangteng He,Tanzila Rahman,Purang Abolmaesumi,Leonid Sigal
attention-sinkvlminformation-flowVirtual
6
泛读ICLR 2026

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

这篇论文解决的是大型音频语言模型 post-training 里一个一直缺位的问题:并不是所有训练样本都同样依赖音频信号,但现有 SFT→RL 流程通常把它们一视同仁。这样会导致两个后果:一是训练资源浪费在可由文本猜出的题上,二是模型学到“看选项和语言模式做题”,而不是有效使用音频。

Haolin He,Xingjian Du,Renhe Sun,Zheqi Dai,Yujia Xiao,Mingru Yang ... 省略 9 位作者 ... ,Weiqiang Wang,Mark D. Plumbley,Jian Liu,Qiuqiang Kong
audio-lmpost-trainingrlVirtual
6
泛读ICLR 2026

OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

这篇论文聚焦多目标对齐中的核心矛盾:helpfulness、harmlessness、honesty 等偏好目标常常在参数更新层面互相干扰,导致一边提升一边回退。过去很多方法在损失权重、约束优化或数据筛选上打补丁,但没有直接处理“梯度在参数空间里打架”这个根因。

Liang Lin,Zhihao Xu,Junhao Dong,Jian Zhao,Yuchen Yuan,Guibin Zhang ... 省略 4 位作者 ... ,HAICHUAN TANG,Dongrui Liu,Xinfeng Li,Kun Wang
alignmentmulti-objectivesftVirtual
6
泛读ICLR 2026

Autoregressive Image Generation with Randomized Parallel Decoding

这篇论文要解决的是视觉 AR 生成的两个老问题:固定 raster order 解码太慢,而且生成顺序预先写死后,模型对空间结构变化和 zero-shot 场景的适应性受限。以前 random-order AR 往往需要双向模块、复杂 mask 训练或额外重排序机制,工程上不够干净。

Haopeng Li,Jinyue Yang,Guoqi Li,Huan Wang
autoregressiveparallel-decodingany-orderVirtual
4
ICLR 2026

Cambrian-S: Towards Spatial Supersensing in Video

现有多模态智能系统多为任务驱动、依赖蛮力长上下文,仅能处理基础语义感知任务,缺乏对视频中3D空间认知、世界建模等高层空间感知能力的评估和支撑,现有基准覆盖范围极窄。

Shusheng Yang,Jihan YANG,Pinzhi Huang,Ellis Brown,Zihao Yang,Yue Yu ... 省略 4 位作者 ... ,Rob Fergus,Yann LeCun,Li Fei-Fei,Saining Xie
video-understandingmultimodalspatial-reasoningVirtual
5
泛读ICLR 2026

Language-Instructed Vision Embeddings for Controllable and Generalizable Perception

现有视觉基础模型作为静态特征提取器,任务适配的负担完全落在下游大模型上,适配成本高,可控性和泛化性差,容易出现视觉幻觉。

Chengzhi Mao,Xudong Lin,Wen-Sheng Chu
vision-encoderlanguage-conditioningvlmVirtual
5
泛读ICLR 2026

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

现有LLM二值化方法分为两类:训练后二值化性能损失严重,训练感知二值化依赖全精度隐权重,复杂度高、效率受限,无法同时满足低复杂度和高性能的要求。

Ba-Hien Tran,Van Minh Nguyen
binarizationmodel-compressionllmVirtual
7
泛读ICLR 2026

Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization

现有隐式推理方法不需要显式CoT文本,效率更高,但在分布外的困难任务上鲁棒性差,而现有推理增强方法都需要更新模型参数,部署成本高。

Wengao Ye,Yan Liang,Lianlei Shan
latent-reasoningtest-time-scalingpolicy-optimizationVirtual
5
泛读ICLR 2026

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

现有模型差异分析工具难以定位窄域微调对LLM的修改,无法追溯微调数据的内容和格式,对LLM的安全审计和知识产权保护造成困难。

Julian Minder,Clément Dumas,Stewart Slocum,Helena Casademunt,Cameron Holmes,Robert West,Neel Nanda
finetuningactivation-analysismodel-diffingVirtual
4
ICLR 2026

Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence

微调即服务场景下,用户提交的投毒数据集会触发有害微调攻击,破坏LLM的安全对齐,现有防御方法无法在不影响正常微调性能的前提下抵御这类攻击。

Quoc Nguyen,Trung Le,Jing Wu,Anh Bui,Mehrtash Harandi
safetyfinetuninggradient-analysisVirtual
4
ICLR 2026

Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion

现有LLM越狱攻击多依赖提示改写、稠密优化或启发式方法,可解释性差、鲁棒性低,无法实现可控的模型行为引导。

Vishal Pramanik,Maisha Maliha,Susmit Jha,Sumit Jha
jailbreaksteeringinterpretabilityVirtual
5
泛读ICLR 2026

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

文本转音频(TTA)对齐缺乏LLM可用的可验证奖励或标准答案结构化机制,现有对齐方法依赖质量较低的静态偏好对,且生成速度慢。

Chia-Yu Hung,Navonil Majumder,Zhifeng Kong,Ambuj Mehrish,Amir Zadeh,Chuan Li,Rafael Valle,Bryan Catanzaro,Soujanya Poria
audio-generationflow-matchingpreference-optimizationVirtual
6
泛读ICLR 2026

Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models

这篇工作要解决的是:为什么 LLM 在 reasoning hop 超出训练分布时会突然失效,以及这种失效能否被机制化定位和修复。过去大家知道多跳泛化差,但多数分析停留在任务级准确率下降,没有回答错误究竟集中在哪些 token、由哪些内部模块造成。

Zhaoyi Li,Jiatong Li,Gangwei Jiang,Linqi Song,Defu Lian,Ying Wei
cotreasoning-generalizationhop-generalizationVirtual
6
泛读ICLR 2026

Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs

这篇工作要解决的是:在长上下文推理中,KV cache 受内存约束时,应该丢掉哪些 token,现有基于注意力分数的启发式往往不可靠,而且量化、offloading 等方法有额外调度成本。作者要做的是在 token 生成时就预测它未来是否值得保留,而不是等到后面再被动根据瞬时信号做淘汰。

Ngoc Bui,Shubham Sharma,Simran Lamba,Saumitra Mishra,Rex Ying
kv-cachelong-contexttoken-evictionVirtual
6
泛读ICLR 2026

Reconstruction Alignment Improves Unified Multimodal Models

统一多模态模型(UMM)的训练依赖图文对,但 caption 通常稀疏,无法覆盖图像的细粒度视觉细节,即使用几百个词描述一张简单图像也不够。这限制了理解和生成能力的对齐。

Ji Xie,trevor darrell,Luke Zettlemoyer,Xudong Wang
UC BerkeleyMetaunified-multimodalreconstruction-alignmentimage-textVirtual
6
泛读ICLR 2026

Membership Inference Attacks Against Fine-tuned Diffusion Language Models

Diffusion Language Models(DLM)作为自回归 LM 的替代范式,其隐私泄露风险(通过成员推断攻击 MIA)几乎未被研究。DLM 的双向 mask 预测机制使得可探测的攻击面比 AR 模型大得多。

Yuetian Chen,Kaiyuan Zhang,Yuntao Du,Edoardo Stoppa,Charles Fleming,Ashish Kundu,Bruno Ribeiro,Ninghui Li
diffusion-lmprivacymembership-inferenceVirtual
6
泛读ICLR 2026

Making, Not Taking, the Best of N

现有LLM高质量生成依赖Best-of-N(BoN)从N个采样中选择最优样本,天生会丢弃其余样本中的有效信息,资源利用率低。

Ammar Khairi,Daniel Dsouza,Marzieh Fadaee,Julia Kreutzer
best-of-nreasoningaggregationVirtual
6
泛读ICLR 2026

Aligner, Diagnose Thyself: A Meta-Learning Paradigm for Fusing Intrinsic Feedback in Preference Alignment

LLM偏好对齐训练数据中的噪声标签会严重降低对齐效果,现有鲁棒方法仅依赖困惑度、损失等单一启发式规则,无法覆盖真实世界的多样噪声类型。

Mengyang Li,Pinlong Zhao,Zhong Zhang
alignmentpreference-learningnoise-robustnessVirtual
6
泛读ICLR 2026

LatentQA: Teaching LLMs to Decode Activations Into Natural Language

现有LLM可解释性的自上而下分析依赖输出标量或单token的探针,仅能捕捉有限行为,无法对激活做开放域的自然语言解释。

Alexander Pan,Lijie Chen,Jacob Steinhardt
University of California, BerkeleyinterpretabilityprobingactivationsVirtual
6
泛读ICLR 2026

Data Selection for LLM Alignment Using Fine-Grained Preferences

这篇论文解决的是多维细粒度偏好下,alignment 数据本身存在冲突,现有单一偏好优化方法很难稳妥利用的问题。过去 DPO 一类方法默认每条偏好数据可以被一个统一目标解释,但当同一样本同时带有 helpfulness、harmlessness、style 等不同维度偏好时,直接混合训练会把互相矛盾的信号揉在一起,最后既损失样本效率,也损失可控性。

Jia Zhang,Yao Liu,Chen-Xi Zhang,Yi Liu,Yi-Xuan Jin,Lan-Zhe Guo,Yu-Feng Li
data-selectionalignmentfine-grained-preferenceVirtual
6
泛读ICLR 2026

DefensiveKV: Taming the Fragility of KV Cache Eviction in LLM Inference

这篇论文的核心结论是:很多 KV cache eviction 方法的问题不在于重要性打分不够准,而在于它们默认'重要 token 在时间上稳定'这个假设过于脆弱。现有方法通常先对每步的重要性打分,再用均值聚合决定驱逐谁;一旦某些 token 只在少数关键时刻极其重要,均值就会把这些尖峰抹平,导致极端但致命的错误,长生成时这种脆弱性会被放大。

yuan feng,Haoyu Guo,Junlin Lv,S Kevin Zhou,Xike Xie
kv-cacheevictionlong-contextVirtual
6
泛读ICLR 2026

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

这篇论文要解决的是 W4A4 这类极低比特 LLM 量化下,现有低秩误差重建方法开始明显失效的问题。LoRA 式误差补偿在较温和量化设定下效果不错,但到权重和激活都 4bit 时,误差分布不再能被简单低秩近似均匀吸收,尤其是少数高敏感通道或位置会主导质量下降,导致传统 reconstruction 虽然便宜,却补不到最痛的地方。

Yeonsik Park,Hyeonseong Kim,Seungkyu Choi
quantizationptqllmVirtual
6
泛读ICLR 2026

IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment

这篇论文的核心问题是:多能力 SFT 中,不同领域数据该放多少,往往比大家想的更决定最终模型能力,但这个数量配比问题长期被质量筛选话题掩盖了。很多工作默认拿到一份高质量混合指令数据后直接按原始规模或经验比例训练,可一旦某些域数据过多,模型会在对应能力上过拟合式偏置,其他能力则被挤压,最后表现不是简单线性叠加。

Chenlin Ming,Chendi Qu,Qizhi Pei,Zhuoshi Pan,Yu Li,Xiaoming Duan,Lijun Wu,Conghui He
data-mixturesftmulti-capabilityVirtual
6
泛读ICLR 2026

Difficulty–Diversity Collaborative Filtering for Data-Efficient LLM Fine-Tuning

这篇论文想解决的是:下游微调并不总是需要更多数据,关键是如何自动从大规模未标注语料里筛出既有难度又有多样性的'高价值小数据集'。过去 Less-is-More 的经验已经说明,随便堆更多样本常常不如挑对样本,但 difficulty 和 diversity 往往靠人工经验判断,现有自动方法通常只优化一个维度,结果要么太简单学不到新能力,要么很难但高度重复。

Long Hoang,Wenxuan Zhang,Wei Lu
data-selectionsftdata-qualityVirtual
5
泛读ICLR 2026

Trapped by simplicity: When Transformers fail to learn from noisy features

预训练数据中噪声普遍存在,但Transformer在噪声特征下的鲁棒泛化能力尚未被系统研究,无法解释部分任务下Transformer对噪声鲁棒、部分任务下失效的现象。

Evan Peters,Matheus Zambianco,Ando Deng,Devin Blankespoor,Achim Kempf
noise-robustnesstransformergeneralizationVirtual
6
泛读ICLR 2026

Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

现有奖励建模依赖二元偏好数据,对于Likert量表的序数偏好数据仅能使用启发式的margin或缩放因子处理,缺乏有理论依据的数学框架。

Amirhossein Afsharrad,Ruida Zhou,Luca Viano,Sanjay Lall,Mohammad Ghavamzadeh
reward-modelordinal-feedbackpreference-learningVirtual
6
泛读ICLR 2026

Composer: A Search Framework for Hybrid Neural Architecture Design

组合注意力、MLP等不同计算原语的混合模型架构性能优于纯Transformer,但现有设计依赖手动探索,设计空间大、训练成本高,无法高效找到最优架构。

Bilge Acun,Prasoon Sinha,Newsha Ardalani,Sangmin Bae,Alicia Golden,Meghana Madhyastha,Chien-Yu Lin,Fei Sun,Neeraja Yadwadkar,Carole-Jean Wu
architecture-searchhybrid-architectureattentionVirtual
5
泛读ICLR 2026

Equilibrium Language Models

LLM边缘部署存在严重的内存瓶颈,现有压缩方法会显著降低模型精度,无法同时满足低内存占用和高精度的需求。

Yikun Jiang,Huanyu Wang,Tianhong Ding,Wenhu Zhang,Yiming Wu,Hanbin Zhao,John C.S. Lui
compressionequilibrium-modeledge-deploymentVirtual
5
泛读ICLR 2026

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

现有推测解码(SpS)要求生成分布和验证大模型完全对齐,限制了token接受率;而放宽约束的典型接受采样(TAS)又会引入无控制的分布扭曲,降低输出质量,二者的trade-off缺乏形式化框架来平衡。

Yongchang Hao,Lili Mou
speculative-decodingsamplingdecodingVirtual
6
泛读ICLR 2026

BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs

现有大推理模型(LRM)不会承认未知,存在过度思考导致的两种病理模式:最后时刻猜测、反复纠结修正,输出过度自信的错误答案,事实可靠性不足。

Junxiao Yang,Jinzhe Tu,Haoran Liu,Xiaoce Wang,Chujie Zheng,Zhexin Zhang ... 省略 2 位作者 ... ,Tiantian He,Hongning Wang,Yew-Soon Ong,Minlie Huang
reasoningreliabilityuncertaintyVirtual
6
泛读ICLR 2026

Complementing Self-Consistency with Cross-Model Disagreement for Uncertainty Quantification

这篇工作要解决的是:仅靠 self-consistency 做 LLM 不确定性估计,在模型“稳定地答错”时会失效。现有做法通常把同一模型多次采样的一致性当作不确定性代理,但当模型对错误答案也高度自信时,样本间会假性一致,导致低估风险。作者抓住的关键现象是:这类样本在单模型内部看起来很一致,但跨模型语义分歧反而更大,因此可以补上一类黑盒可计算的 epistemic uncertainty。

Kimia Hamidieh,Veronika Thost,Walter Gerych,Mikhail Yurochkin,Marzyeh Ghassemi
uncertaintyself-consistencyevaluationVirtual
6
泛读ICLR 2026

FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning

这篇工作要解决的是:我们已经知道 CoT 经常不忠实,但缺少一个能在“单条推理轨迹”层面判断它是否忠实的统一基准。过去不少工作停留在机制分析,证明 CoT 可能是后验解释或表面合理化,但实际使用时更关键的问题是:给定某次具体回答,能不能判出这条 CoT 是否真的反映了模型内部决策过程。

Xu Shen,Song Wang,Zhen Tan,Laura Yao,Xinyu Zhao,Kaidi Xu,Xin Wang,Tianlong Chen
cotfaithfulnessbenchmarkVirtual
6
泛读ICLR 2026

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

这篇工作要解决的是:现有语音语言模型 benchmark 往往把语义理解、声学感知、推理和对话生成分开评测,因此无法判断模型是否真正把非词汇声学线索与语言内容整合起来做共情响应。对于 empathetic speech interaction,这种割裂评测会高估系统能力,因为真实对话需要连续地理解内容、听懂情绪和语气、做情境推理,再生成合适回应。

Li Zhou,Lutong Yu,You Lyu,Yihang Lin,Zefeng Zhao,Junyi Ao,Yuhao Zhang,Wang Benyou,Haizhou Li
speech-lmbenchmarkempathyVirtual
4
ICLR 2026

Understanding Sensitivity of Differential Attention through the Lens of Adversarial Robustness

现有差分注意力(DA)通过减法结构抑制冗余上下文、减少幻觉,但未被发现存在对抗扰动下的结构脆弱性,其鲁棒性下降的机制不明确。

Tsubasa Takahashi,Shojiro Yamabe,Futa Waseda,Kento Sasaki
differential-attentionadversarial-robustnessattention-analysisVirtual
6
泛读ICLR 2026

Reward Is Enough: LLMs Are In-Context Reinforcement Learners

现有大模型上下文学习主要是few-shot监督式学习,未被发现大模型可在推理阶段基于奖励信号完成强化学习闭环,实现自提升。

Kefan Song,Amir Moeini,Peng Wang,Lei Gong,Rohan Chandra,Shangtong Zhang,Yanjun Qi
in-context-rlinference-timeemergent-capabilitiesVirtual
4
ICLR 2026

Latent Diffusion Model without Variational Autoencoder

现有隐空间扩散模型依赖VAE做隐空间编码,存在训练推理效率低、跨任务迁移性差的问题,根源是VAE隐空间缺乏清晰的语义分离和判别结构。

Minglei Shi,Haolin Wang,Wenzhao Zheng,Ziyang Yuan,Xiaoshi Wu,Xintao WANG,Pengfei Wan,Jie Zhou,Jiwen Lu
latent-diffusionvae-freevisual-tokenizerVirtual
6
泛读ICLR 2026

ProtoKV: Long-context Knowledges Are Already Well-Organized Before Your Query

现有KV缓存压缩策略无法高效保留压缩表示的语义完整性,长上下文处理的准确率和效率的trade-off未被有效解决。

Zhiyuan Yu,Shijian Xiao,Zhangyue Yin,Xiaoran Liu,Lekai Xing,Wenzhong Li,Cam-Tu Nguyen,Sanglu Lu
kv-cachelong-contextsparse-attentionVirtual
6
泛读ICLR 2026

Memorization Through the Lens of Sample Gradients

现有Feldman&Zhang提出的记忆性打分计算成本极高,无法规模化应用,缺乏高效的记忆性代理指标。

Deepak Ravikumar,Efstathia Soufleri,Abolfazl Hashemi,Kaushik Roy
memorizationsample-gradientsprivacyVirtual
5
泛读OralICLR 2026

Benchmarking Empirical Privacy Protection for Adaptations of Large Language Models

现有差分隐私(DP)大模型适配的理论隐私保证和实际隐私风险脱节,预训练数据和适配数据的重叠会削弱DP的隐私效果,缺乏系统的benchmark评估实际隐私风险。

Bartłomiej Marek,Lorenzo Rossi,Vincent Hanke,Xun Wang,Michael Backes,Franziska Boenisch,Adam Dziedzic
privacydpfinetuningVirtual
6
泛读ICLR 2026

Exploring the Design Space of Transition Matching

这篇论文要解决的是:Transition Matching 这个新生成范式到底该怎么设计 head、怎么训练、怎么采样,现有理解还很不稳定。TM 试图统一 diffusion、flow matching 和连续状态自回归模型,但它多了一层“内部生成器”来实现转移步骤,这让表达能力更强,也让设计空间显著变大,缺少系统性经验会很难训、很难采样。

Uriel Singer,Yaron Lipman
diffusionflow-matchinggenerative-modelingVirtual
6
泛读ICLR 2026

Graph Tokenization for Bridging Graphs and Transformers

这篇论文要解决的是:图结构数据缺少类似文本 tokenizer 的统一离散接口,导致 Transformer 和大规模预训练范式难以直接迁移到图上。过去图学习通常绕开这个问题,直接在节点/边上做 message passing 或专门图网络;但如果想把图纳入统一 token-based foundation model,tokenization 这一步迟早要补上。

Zeyuan Guo,Enmao Diao,Cheng Yang,Chuan Shi
tokenizergraphtransformerVirtual
6
泛读ICLR 2026

Latent Visual Reasoning

现有多模态大模型的推理仍然局限在语言空间,视觉信息只作为静态输入,无法在推理链中动态操作视觉表示。之前的方法要么纯文本 CoT,要么借助外部工具做视觉编辑,都没有让模型在 embedding 空间里直接对视觉信息做自回归推理。

Bangzheng Li,Ximeng Sun,Jiang Liu,Ze Wang,Jialian Wu,Xiaodong Yu,Emad Barsoum,Muhao Chen,Zicheng Liu
multimodal-reasoninglatent-reasoningvlmVirtual
6
泛读ICLR 2026

Dynamic Weight Grafting: Localizing Finetuned Factual Knowledge in Transformers

LLM 在 finetuning 中学到的新事实(如新上映的电影、新当选的教皇)到底存储在模型的哪里?现有的定位方法(如 activation patching)会替换 residual stream 的一部分,从而覆盖已有信息,无法精确区分知识存储的路径。

Todd Nief,David Reber,Sean Richardson,Ari Holtzman
knowledge-editinglocalizationfinetuningVirtual
6
泛读ICLR 2026

The Geometry of Reasoning: Flowing Logics in Representation Space

LLM 的推理过程在表示空间中到底是什么样的几何结构?之前的工作要么只看最终表示,要么只做 probing,缺乏一个将推理建模为表示空间中连续流(flow)的几何框架,也无法区分逻辑结构和语义内容的贡献。

Yufa Zhou,Yixiao Wang,Xunjian Yin,Shuyan Zhou,Anru Zhang
reasoningrepresentationgeometryVirtual
6
泛读ICLR 2026

SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization

LLM 即使经过长上下文预训练,在实际长文本任务中仍然表现不佳,主要原因是长上下文对齐不足——数据质量差、训练效率低、缺乏合理的优化目标。直接在长上下文上做偏好优化成本高且数据稀缺。

Huashan Sun,Shengyi Liao,Yansen Han,Yu Bai,Yang Gao,Cheng Fu ... 省略 1 位作者 ... ,Fanqi Wan,Ming Yan,Ji Zhang,Fei Huang
long-contextpreference-optimizationalignmentVirtual
4
ICLR 2026

Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models

现有动态树结构的推测解码方法(如EAGLE-2、EAGLE-3)忽略GPU配置、batch size等系统变量的影响,导致实际部署场景下推理效率未达最优,此前方法默认固定树结构可适配所有部署环境,未考虑硬件与负载的动态差异。

Yinrong Hong,Zhiquan Tan,Kai Hu
speculative-decodinginference-efficiencytree-constructionVirtual
6
泛读ICLR 2026

Revisiting Parameter Server in LLM Post-Training

现有FSDP等数据并行训练依赖集体通信,默认负载均衡,但LLM后训练的序列长度方差大导致负载不均衡,集体通信的同步屏障会造成设备算力浪费,此前大模型训练普遍默认集体通信优于参数服务器范式,未考虑非均衡负载场景的适配。

Xinyi Wan,Penghui Qi,Guangxing Huang,Chaoyi Ruan,Min Lin,Jialin Li
parameter-serverpost-trainingdistributed-trainingVirtual
7
泛读ICLR 2026

Reward Model Routing in Alignment

现有RLHF/RLAIF流程依赖单一奖励模型,存在对齐质量上限低、过拟合风险高的问题;已有的奖励模型路由方法存在冷启动、探索不足的缺陷,此前方法只能在冷启动和探索效率之间做取舍,无法同时解决两个问题。

Xinle Wu,Yao Lu
reward-modelrlhfroutingVirtual
6
泛读ICLR 2026

The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner

这篇工作要解决的是 Transformer 在长度外推上的根本短板:模型能记住短程样例里的表面模式,但学不会对任意长度输入都稳定适用的算法。过去很多方法靠任务定制数据增强或课程学习来提升加法、排序、符号操作等单项任务,但迁移性差,也很难覆盖更一般的可计算推理问题。作者把问题重新表述为“模仿图灵机执行”,目的是让模型学到与长度无关的程序化状态转移,而不是依赖固定长度分布下的统计捷径。

Zhouqi Hua,Wenwei Zhang,Chengqi Lyu,Yuzhe Gu,Songyang Gao,Kuikun Liu,Dahua Lin,Kai Chen
length-generalizationturing-machinepositional-encodingVirtual
6
泛读ICLR 2026

Pushing Test-Time Scaling Limits of Deep Search with Asymmetric Verification

这篇工作讨论的是 test-time scaling 的上限:如果验证一个候选解明显比生成它便宜,怎样把串行搜索和并行筛选组合到更强。过去很多系统要么只拉长思维链,要么只做 best-of-N 采样,但没有系统刻画“非对称验证”这个前提什么时候成立,以及 deep search agent 在这种条件下能被放大到什么程度。作者关注的是一个越来越现实的问题:推理时多花算力不是盲目采样,而是要利用生成和验证成本不对称。

Weihao Zeng,Keqing He,Chuqiao Kuang,Xiaoguang Li,Junxian He
test-time-computeverificationscalingVirtual
6
泛读ICLR 2026

Noisy but Valid: Robust Statistical Evaluation of LLMs with Imperfect Judges

这篇工作解决的是用 LLM-as-a-Judge 做大规模安全认证时,裁判模型有噪声和偏差,导致统计保证失效。过去很多做法默认 judge 足够准,或者借用 prediction-powered inference 一类框架,但在“要证明失败率低于某阈值”这种高风险场景里,这种近似不够稳。作者想要的是:即使 judge 不完美,只要有少量人工校准,也能给出有限样本下依然有效的假设检验。

Chen Feng,Minghe Shen,Ananth Balashankar,Carsten Gerner-Beuerle,Miguel Rodrigues
evaluationllm-as-a-judgesafetyVirtual
5
泛读ICLR 2026

Are LLMs Really Not Knowledgeable? Mining the Submerged Knowledge in LLMs' Memory

现有QA任务评估默认LLM生成错误答案就代表其不具备对应知识,这种评估方式低估了LLM的实际参数知识储量,此前研究将QA表现差归因于参数知识缺失,忽略了知识已经存在但未被选为首输出的情况。

Xingjian Tao,Yiwei Wang,Yujun Cai,Zhicheng YANG,Jing Tang
knowledgehallucinationmemoryVirtual
5
泛读ICLR 2026

Fine-Grained Activation Steering: Steering Less, Achieving More

现有激活引导方法都是块级干预,块级激活混杂了有益、无关、有害特征,导致引导效果粗、效率低、对模型原有行为侵入性强,此前方法默认块级是合理的干预粒度,回避了特征混杂的问题。

Zijian Feng,Tianjiao Li,Zixiao Zhu,Hanzhang Zhou,Junlang Qian,Li Zhang,Chua Deryl,Lee Mak,Gee Ng,Kezhi Mao
activation-steeringalignmentinterpretabilityVirtual
6
泛读ICLR 2026

Transformers with Endogenous In-Context Learning: Bias Characterization and Mitigation

现有ICL机制研究默认数据是因果充分的,忽略了隐藏混淆变量(HC)带来的虚假关联和预测偏差,导致现有ICL的理解不符合真实世界数据的结构,此前研究回避了隐藏混淆变量对ICL效果的影响。

Haotian Wang,Hao Zou,Haoxuan Li,Haoang Chi,Yang Shi,Yuanxing Zhang,Wenjing Yang,Xinwang Liu,Zhouchen Lin
in-context-learningtransformersbiasVirtual
7
泛读ICLR 2026

Preference Leakage: A Contamination Problem in LLM-as-a-judge

现有LLM-as-judge和合成数据结合的模型开发范式,未考虑数据生成模型和评判模型的相关性带来的污染问题,导致评估结果失真,此前做法默认LLM-as-judge是中立的,回避了生成和评判模型的关联影响。

Dawei Li,Renliang Sun,Yue Huang,Ming Zhong,Bohan Jiang,Jiawei Han,Xiangliang Zhang,Wei Wang,huan liu
llm-as-a-judgedata-contaminationpreference-dataVirtual
6
泛读ICLR 2026

Contamination Detection for VLMs Using Multi‑Modal Semantic Perturbations

现有VLM的测试集泄漏检测方法未被充分研究,现有LLM的污染检测方法直接迁移到VLM上要么失效要么表现不稳定,无法准确判断VLM是否被测试集污染,此前做法主要关注LLM的去污染或基准重构,忽略了VLM的污染检测需求。

Jaden Park,Mu Cai,Feng Yao,Jingbo Shang,Soochahn Lee,Yong Jae Lee
vlmcontaminationevaluationVirtual
6
泛读ICLR 2026

Learning to Adapt: In-Context Learning Beyond Stationarity

现有上下文学习(ICL)的理论分析均基于任务分布平稳的假设,无法覆盖目标函数随时间变化的现实非平稳场景,此前研究未对非平稳条件下的ICL机制给出有效解释。

Zhen Qin,Jiachen Jiang,Zhihui Zhu
in-context-learningadaptationnonstationarityVirtual
5
泛读ICLR 2026

It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

现有基础模型架构设计缺乏统一的记忆优化理论框架,Transformer、线性RNN等不同架构的记忆机制被独立研究,忽略了其共有的注意力偏差本质,导致架构迭代缺乏统一指导。

Ali Behrouz,Meisam Razaviyayn,Peilin Zhong,Vahab Mirrokni
test-time-learningmemoryattentionVirtual
4
ICLR 2026

Probability Distributions Computed by Autoregressive Transformers

现有Transformer表达性研究均将其视为字符串识别器,而非实际落地使用的自回归概率生成语言模型,导致对Transformer真实表达能力的认知存在偏差。

Andy Yang,Anej Svete,Jiaoda Li,Anthony W. Lin,Jonathan Rawski,Ryan Cotterell,David Chiang
transformersexpressivityautoregressiveVirtual
5
泛读ICLR 2026

ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models

现有工具使用LLM的RL优化范式完全依赖稀疏结果奖励,未考虑工具使用任务的特殊性,导致策略梯度方差高、训练效率低,此前方法未针对工具使用任务的token级奖励结构做优化。

Zihan Lin,Xiaohan Wang,Jie Cao,Jiajun Chai,Guojun Yin,Wei Lin,Ran He
rltool-usecredit-assignmentVirtual
5
泛读ICLR 2026

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

现有可塑性丧失(LoP)研究仅通过表征秩崩溃等症状描述现象,缺乏梯度下降无法从该状态恢复的机制解释,无法为非平稳环境下的持续预训练提供指导。

Amir Joudaki,Giulia Lanzillotta,Mohammad Samragh,Iman Mirzadeh,Keivan Alizadeh-Vahid,Thomas Hofmann,Mehrdad Farajtabar,Fartash Faghri
loss-of-plasticitytraining-dynamicscontinual-learningVirtual
6
泛读ICLR 2026

SSVPO: Effective Step-Level Credit Assignment for RL Training of Language Models

这篇论文要解决的问题是:结果奖励型 RL 只在最终答案上给信号,导致长推理链训练极其低效,而现有 step-level credit assignment 又很难公平评估每一步在“部分正确”推理中的真实贡献。过去做法常把中间步骤当独立局部决策来打分,但 reasoning step 之间强依赖、顺序敏感,所以这种打分很容易错奖或漏奖。

Yugu Li,Zehong Cao,Jianglin Qiao,Siyi Hu
rlcredit-assignmentmath-reasoningVirtual
6
泛读ICLR 2026

RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems

这篇论文要解决的问题是:RL 后训练虽然能让模型写出更长的推理链,但这些推理常呈现深度优先、暴力试探式搜索,而不是更可复用的抽象化算法。以往方法默认只要奖励足够,模型会自己形成程序性知识;这篇论文认为这一步并不会自然发生,需要显式学习“抽象”。

Yuxiao Qu,Anikait Singh,Yoonho Lee,Amrith Setlur,Russ Salakhutdinov,Chelsea Finn,Aviral Kumar
rlabstractionreasoningVirtual
6
泛读ICLR 2026

DND: Boosting Large Language Models with Dynamic Nested Depth

这篇论文要解决的问题是:标准 Transformer 每层对所有 token 做同等深度处理,计算分配过于平均,导致难 token 不够算、易 token 又被重复计算。过去加深模型或拉长推理都会整体增算力,但无法做到按 token 难度自适应地把算力投到最值得复查的位置。

Tieyuan Chen,Xiaodong Chen,Haoxing Chen,Zhenzhong Lan,Weiyao Lin,Jianguo Li
transformeradaptive-computeroutingVirtual
6
泛读ICLR 2026

: One LLM Token for Explicit Graph Structural Understanding

LLM 处理图结构数据时存在'结构幻觉'问题。已有方法要么把图转成自然语言描述(token 消耗大、注意力分散),要么转成连续嵌入做 soft prompt(与文本 token 空间严重不对齐)。

Jingyao Wu,Bin Lu,Zijun Di,Xiaoying Gan,Meng Jin,Luoyi Fu,Xinbing Wang,Chenghu Zhou
graphtokenizerrepresentationVirtual
6
泛读ICLR 2026

VQ-Transplant: Efficient VQ-Module Integration for Pre-trained Visual Tokenizers

VQ(向量量化)是现代离散视觉 tokenizer 的核心模块,但训练 SOTA VQ 模型需要大量计算资源,使得在资源受限条件下开发新型 VQ 技术几乎不可行。问题是:能否在不重新端到端训练整个 tokenizer 的前提下,替换/升级 VQ 模块?

Xianghong Fang,Yuan Yuan,Dehan Kong,Tim G. J. Rudner
visual-tokenizervqtokenizerVirtual
6
泛读ICLR 2026

TIPS: Turn-level Information-Potential Reward Shaping for Search-Augmented LLMs

这篇工作要解决的是:搜索增强 LLM 用 RL 训练时奖励稀疏、跨“思考+工具调用”段落的 credit assignment 难,导致优化不稳定且学不到有效的检索策略。

Yutao Xie,Nathaniel Thomas,Nick Hansen,Yang Fu,Li Li,Xiaolong Wang
rlragreward-shapingVirtual
6
泛读OralICLR 2026

Revela: Dense Retriever Learning via Language Modeling

这篇工作要解决的是:dense retriever 训练高度依赖标注的 query-doc 对,导致在代码/专业领域或需要推理的检索场景里数据稀缺、成本高、泛化差。

Fengyu Cai,Tong Chen,Xinran Zhao,Sihao Chen,Hongming Zhang,Sherry Wu,Iryna Gurevych,Heinz Koeppl
retrievallanguage-modelingdense-retrieverVirtual
6
泛读ICLR 2026

OrderDP: A Theoretically Guaranteed Lossless Dynamic Data Pruning Framework

这篇工作要解决的是:现有数据剪枝往往挑“信息量大”的样本,但会引入有偏梯度估计,导致加速训练的同时改变了优化轨迹,最终性能是否“近似无损”缺乏清晰保证。

Chenhan Jin,Shengze Xu,Qingsong Wang,Fan JIA,Dingshuo Chen,Tieyong Zeng
data-pruningtraining-efficiencytheoryVirtual
6
泛读ICLR 2026

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

这篇工作要解决的是:推测解码训练时只优化单一路径(greedy draft),但推理时实际用的是多分支树策略去重排与验证,训练-推理策略不一致限制了可达的加速比。

Shijing Hu,Jingyang Li,Zhihui Lu,Pan Zhou
speculative-decodingtree-searchinference-accelerationVirtual
6
泛读ICLR 2026

Natural Identifiers for Privacy and Data Audits in Large Language Models

这篇工作要解决的是:如何在不重训模型、也没有同分布私有 holdout 数据的条件下,对已训练 LLM 做可扩展的隐私审计和数据集归属审计。现有差分隐私审计大多依赖训练时注入 canary,数据集推断又常常要求一个难以获得的 non-member 对照集,所以真实世界里对商用或开源成品模型做事后审计一直很难落地。

Lorenzo Rossi,Bartłomiej Marek,Franziska Boenisch,Adam Dziedzic
privacydata-auditingdifferential-privacyVirtual
6
泛读ICLR 2026

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

这篇工作要解决的是:如何系统性提升 LLM-as-a-Judge 的“先思考再判分”能力,而不是只靠提示词或蒸馏让 judge 表面上输出更像理由。过去 judge 模型常见的问题是位置偏置、对不可验证任务难以直接优化、以及链式推理虽然重要但缺少稳定训练信号,所以评价模型本身反而成了瓶颈。

Chenxi Whitehouse,Tianlu Wang,Ping Yu,Xian Li,Jason E Weston,Ilia Kulikov,Swarnadeep Saha
rlhfllm-as-judgereward-modelVirtual
6
泛读OralICLR 2026

In-Place Test-Time Training

这篇工作要解决的是:如何让标准 LLM 在部署时具备 test-time training 能力,而不是停留在“训练完参数冻结”的静态范式。已有 TTT 思路常受三类限制:和主流 Transformer 架构不兼容、推理时更新代价太高、以及 fast weights 的训练目标与语言建模目标不对齐,所以在现代 LLM 里很难真正落地。

Guhao Feng,Shengjie Luo,Kai Hua,Ge Zhang,Wenhao Huang,Di He,Tianle Cai
test-time-trainingcontinual-learninglong-contextVirtual
6
泛读ICLR 2026

A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA

这篇工作要解决的是:为什么单次前向、单次输出的 LLM 在多跳问答里会出现系统性能力上限,而且这种上限能否被信息论形式化。过去大家常把多跳失败归因于 prompt、检索或推理技巧不够好,但如果问题本身要求整合的证据复杂度超过模型单次 pass 的表示与输出容量,那么再好的提示也只能局部缓解。

Kaiyang Wan,Lang Gao,Honglin Mu,Preslav Nakov,Yuxia Wang,Xiuying Chen
multi-hop-qareasoning-capacityinformation-theoryVirtual
6
泛读ICLR 2026

GranViT: A Fine-Grained Vision Model For Autoregressive Multimodal Large Language Models

这篇工作要解决的是:自回归多模态 LLM 的视觉编码器长期偏向全局图像表征,导致对细粒度区域、文字和局部语义的感知不足。以往方法常靠更强 LLM 或更多指令数据补救,但如果视觉 tokenizer / encoder 本身没有学会 region-level 可读表征,后端语言模型再强也只能在信息不足的输入上推理。

Guanghao Zheng,Bowen Shi,Mingxing Xu,Ruoyu Sun,Peisen Zhao,Zhibo Zhang ... 省略 1 位作者 ... ,Junni Zou,Hongkai Xiong,XIAOPENG ZHANG,Qi Tian
vision-encoderfine-grainedvlm-pretrainVirtual
6
泛读ICLR 2026

CPQS-Tuning: A Model Self-Perception-Based Data Filtering Algorithm for Efficient Instruction Fine-Tuning

指令微调中低质量和冗余数据会拖累效果,但现有数据过滤方法依赖外部评估模型或人工指标,没有利用目标 LLM 自身的信息,导致过滤标准与模型实际需求不匹配。本文要解决的是:如何利用 LLM 自身的 hidden states 来判断数据对该模型的价值。

YI REN,Yanhui Li,Tianyi Zhang,Diandong Liu
data-filteringinstruction-tuningdata-qualityVirtual
6
泛读ICLR 2026

Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders

多编码器 MLLM 假设不同预训练目标的视觉编码器能提供互补信号,但这个假设在实践中经常不成立。本文要回答的是:多视觉编码器之间到底有多少冗余?哪些编码器真正有用?

Yizhou WANG,Song Mao,Yang Chen,Yufan Shen,Pinlong Cai,Ding Wang ... 省略 1 位作者 ... ,Zhi Yu,Yinqiao Yan,Xuming Hu,Botian Shi
mllmvision-encoderredundancyVirtual
6
泛读ICLR 2026

Beyond RAG vs. Long-Context: Learning Distraction-Aware Retrieval for Efficient Knowledge Grounding

长上下文 LLM 可以直接处理 128K+ token 的完整文档,看似可以替代 RAG,但实际上存在 token 效率低、lost-in-the-middle 加剧、模型容量有限时干扰信息放大等问题。本文要解决的是:如何在 RAG 和长上下文之间找到更好的平衡——自适应地检索,同时感知干扰信息。

Seongwoong Shim,Myunsoo Kim,Jae Cho,Byung-Jun Lee
raglong-contextretrievalVirtual
6
泛读ICLR 2026

Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

LLM Agent的高级推理能力解锁受限于恰好处于模型能力边界的训练数据稀缺,现有数据合成方法要么难度低于模型现有能力,要么远超模型可学习范围,无法有效拓展能力边界。

Xuanzhong Chen,Zile Qiao,Guoxin Chen,Liangcai Su,Zhen Zhang,Xinyu Wang ... 省略 1 位作者 ... ,Fei Huang,Jingren Zhou,Yong Jiang,Ting Chen
agentdata-synthesisreasoningVirtual
5
泛读ICLR 2026

Sparse Attention Adaptation for Long Reasoning

现有稀疏注意力方法大多不兼容自回归解码的长推理场景,要么需要修改预训练模型的原生参数,要么推理精度损失严重,无法在保持推理精度的同时降低长上下文解码成本。

Yizhao Gao,Shuming Guo,Shijie Cao,Yuqing Xia,Yu Cheng,Lei Wang ... 省略 5 位作者 ... ,Yu Hua,Ting Cao,Fan Yang,Mao Yang
sparse-attentionreasoninglong-contextVirtual
4
ICLR 2026

Efficient Turing Machine Simulation with Transformers

现有常位宽Transformer模拟图灵机的构造每一步图灵机步骤需要Ω(s(n))个CoT步骤,推理长度不切实际,无法为通用推理的Transformer架构设计提供理论指导。

Qian Li,Yuyi Wang
transformertheoryreasoningVirtual
6
泛读ICLR 2026

RepSpec: Structural Re-parameterized Draft Model Training for Speculative Decoding

这篇论文要解决的是 speculative decoding 里 draft model 容量太小、接受率上不去的问题。现有方法通常把 draft 做小来换速度,但小模型和 target model 的参数鸿沟会直接限制提议 token 的质量,结果是验证阶段频繁拒绝,系统吞吐提升很快触顶。

FEIYE HUO,Jianchao Tan,Jiahao Liu,Zixu Jiang,Jiacheng Li,Jingang Wang,Xunliang Cai,Shengli Sun
speculative-decodinginferencedraft-modelVirtual
6
泛读ICLR 2026

On The Fragility of Benchmark Contamination Detection in Reasoning Models

这篇论文要解决的是推理模型 benchmark contamination detection 过于脆弱,现实中的规避成本低得不合理。过去很多污染检测方法默认污染样本会以较接近原题的形式出现在训练中,但 reasoning 模型的 SFT/RL 流程给了开发者大量改写、分解、重组 benchmark 的空间。

Han Wang,Haoyu Li,Brian Ko,Huan Zhang
benchmark-contaminationevaluationreasoningVirtual
6
泛读ICLR 2026

Distillation of Large Language Models via Concrete Score Matching

这篇论文要解决的是 LLM 蒸馏目标对 teacher logit 信息利用不足:softmax 蒸馏过于平滑,直接对齐 logits 又忽略了 logit shift invariance。前者会抹掉类别间相对差异,后者把一整类等价解排除掉,导致 student 学到的决策几何都不够理想。

Yeongmin Kim,Donghyeok Shin,Mina Kang,Byeonghu Na,Il-chul Moon
knowledge-distillationlogit-matchingmodel-compressionVirtual
6
泛读ICLR 2026

Spotlight on Token Perception for Multimodal Reinforcement Learning

这篇论文要解决的是 multimodal RLVR 里视觉感知信号被粗暴平均,导致训练没有真正抓住哪些 token 依赖视觉输入。现有多模态推理强化学习通常只看整条 rollout 的最终奖励,却忽略了 CoT 中只有少量 token 真正在做视觉 grounded reasoning,结果优化信号既稀疏又被无关文本稀释。

Siyuan Huang,Xiaoye Qu,Yafu Li,Yun Luo,Zefeng He,Daizong Liu,Yu Cheng
rlvrmultimodal-reasoningtoken-perceptionVirtual
6
泛读ICLR 2026

Rectifying LLM Thought from Lens of Optimization

长链CoT推理的LLM常出现过度思考、推理链冗余的次优行为,过往后训练常用结果奖励或离散单步过程奖励,未从优化视角对齐推理步骤的收敛逻辑,无法解决长链推理的信用分配问题。

Junnan Liu,Hongwei Liu,Songyang Zhang,Kai Chen
chain-of-thoughtreasoningoptimizationVirtual
3
ICLR 2026

Understanding Transformers for Time Series: Rank Structure, Flow-of-ranks, and Compressibility

文本/视觉Transformer的设计原则无法直接迁移到时序场景,过往时序Transformer的压缩优化缺乏理论支撑,常出现不可控的精度损失。

Annan Yu,Danielle Maddix,Boran Han,Xiyuan Zhang,Abdul Fatir Ansari,Oleksandr Shchur,Christos Faloutsos,Andrew Gordon Wilson,Michael W Mahoney,Bernie Wang
transformer-analysisrank-structuretime-seriesVirtual
6
泛读ICLR 2026

Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

扩散模型常用的VAE tokenizer从零训练成本高,且优先关注低阶细节、语义表征能力弱,过往直接复用预训练视觉编码器做tokenizer会丢失感知细节,重构质量无法满足生成要求。

Bowei Chen,Sai Bi,Hao Tan,HE Zhang,Tianyuan Zhang,Zhengqi Li,Yuanjun Xiong,Jianming Zhang,Kai Zhang
visual-tokenizerdiffusionencoder-alignmentVirtual
6
泛读ICLR 2026

SELF-HARMONY: LEARNING TO HARMONIZE SELF-SUPERVISION AND SELF-PLAY IN TEST-TIME REINFORCEMENT LEARNING

测试时强化学习(TTRL)的学习信号可靠性低,常用的多数投票伪标签方法容易收敛到虚假高频错误答案,过往方法未利用输入改写前后的答案一致性构建更鲁棒的训练信号。

Ru Wang,Wei Huang,Qi Cao,Yusuke Iwasawa,Yutaka Matsuo,Jiaxian Guo
test-time-rlself-playreward-designVirtual
4
ICLR 2026

StepORLM: A Self-Evolving Framework With Generative Process Supervision For Operations Research Language Models

现有LLM解运筹学(OR)问题时,结果奖励存在信用分配问题(正确结果可能对应错误推理),传统判别式过程奖励短视,无法整体评估OR建模步骤的关联性,过往没有适配OR场景的专用过程监督方案。

Chenyu Zhou,Tianyi Xu,Jianghao Lin,Dongdong Ge
rlprocess-supervisionreasoningVirtual
6
泛读ICLR 2026

Search Self-Play: Pushing the Frontier of Agent Capability without Supervision

这篇论文要解决的是:agent RLVR 过度依赖人工设计任务和标准答案,导致可扩展性差,尤其在需要多轮搜索和工具使用的场景里更明显。已有任务合成方法能补数据量,但通常难以精确控制任务难度,结果要么太容易没有训练价值,要么太难导致 reward 噪声大。

Hongliang Lu,Yuhang Wen,Pengyu Cheng,Ruijin Ding,Jiaqi Guo,Haotian Xu,Chutian Wang,Haonan Chen,xiaoxi jiang,guanjunjiang
self-playagent-rltask-generationVirtual
6
泛读ICLR 2026

How Stable is the Next Token? A Geometric View of LLM Prediction Stability

这篇论文要解决的是:LLM 的 next-token 预测对轻微上下文扰动有多稳定,现有 accuracy 或 perplexity 无法回答这个局部鲁棒性问题。原因是输出概率经过 softmax 归一化后,可能掩盖内部状态离决策边界到底有多远,因此我们很难判断模型到底是“稳稳地预测对”,还是“侥幸地预测对”。

Deyuan Liu,Zecheng Wang,Zhanyue Qin,Zhiying Tu,Dianhui Chu,Dianbo Sui
prediction-stabilitygeometryrobustnessVirtual
5
泛读ICLR 2026

Learning multimodal dictionary decompositions with group-sparse autoencoders

现有稀疏自编码器(SAE)用于多模态嵌入空间(如CLIP)时会学到拆分字典,大部分稀疏特征是单模态的,仅对单一模态数据激活,无法表征跨模态共享概念。

Chiraag Kaushik,Davis Barch,Andrea Fanelli
multimodalsparse-autoencoderinterpretabilityVirtual
6
泛读ICLR 2026

What's the plan? Metrics for implicit planning in LLMs and their application to rhyme generation and question answering

现有评估LLM隐式规划能力的方法复杂度高,仅能在小样本场景使用,无法规模化验证不同模型的隐式规划特性,过往只有定性的隐式规划观察,没有通用量化评估方法。

Jim Maar,Denis Paperno,Callum McDougall,Neel Nanda
implicit-planninginterpretabilitynext-token-predictionVirtual
3
OralICLR 2026

Transformers are Inherently Succinct

过往没有统一的度量指标衡量Transformer的表达能力,也没有理论证明Transformer与传统形式语言表示方法的表达能力差异,Transformer的可验证性边界不清晰。

Pascal Bergsträßer,Ryan Cotterell,Anthony W. Lin
expressivityformal-languagestransformer-theoryVirtual
4
ICLR 2026

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

长上下文LLM解码时KV缓存膨胀带来极高内存和延迟开销,现有粗粒度跨层统一共享关键token的稀疏解码方法忽略注意力头功能多样性,会导致明显的效果损失。

Gang Lin,dongfang li,Zhuoen Chen,Yukun Shi,Xuhui Chen,Baotian Hu,Min Zhang
kv-cachelong-contextsparse-attentionVirtual
4
ICLR 2026

QuoKA: Query-Oriented KV Selection for Efficient LLM Prefill

LLM分块预填充阶段的注意力计算开销高,现有稀疏注意力方法要么需要训练适配、要么依赖特定硬件,没有针对预填充阶段的query分布特性做优化。

Dalton Jones,Junyoung Park,Matthew Morse,Mingu Lee,Matthew Harper Langston,Christopher Lott
sparse-attentionkv-cacheprefillVirtual
4
ICLR 2026

SliderQuant: Accurate Post-Training Quantization for LLMs

低比特LLM训练后量化(PTQ)精度损失大,现有PTQ方法对所有层采用统一量化策略,没有考虑不同层对量化的敏感度差异。

Shigeng Wang,Chao Li,Yangyuxuan Kang,Jiawei Fan,Zhonghong Ou,Anbang Yao
quantizationptqlayer-sensitivityVirtual
6
泛读ICLR 2026

Continuum Transformers Perform In-Context Learning by Operator Gradient Descent

用于PDE surrogate建模的连续Transformer(可处理无限维函数输入)的上下文学习机制缺乏理论刻画,此前仅有限输入维度的标准Transformer的ICL机制被证明为前向梯度下降。

Yash Patel,Abhiti Mishra,Ambuj Tewari
icltransformertheoryVirtual
6
泛读ICLR 2026

ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning

这篇论文要解决的是:现有安全对齐方法即使加了推理式防护,仍然会被强分布外 jailbreak 绕过,因为它们没有稳定识别出提示词里真正的恶意意图。过去的 SFT、RLHF 和不少 system-2 安全方法,更多是在表面风险模式上做拒答或审查;一旦攻击把恶意目标伪装进看似无害的上下文里,模型就容易失守。

Zhengyue Zhao,Yingzi Ma,Somesh Jha,Marco Pavone,Patrick McDaniel,Chaowei Xiao
alignmentsafetyreasoningVirtual
6
泛读ICLR 2026

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

这篇论文解决的是大规模 CLIP 训练里对比损失归一化项估计不准的问题,尤其是在小 batch、大数据场景下,传统近似会带来明显优化误差。现有做法要么依赖超大 batch 近似 partition function,算力成本高;要么用逐样本 normalizer 估计器做块坐标更新,但这种做法和编码器更新不同步,误差会随数据量/批大小比值变差。

Xiyuan Wei,Chih-Jen Lin,Tianbao Yang
clipcontrastive-learningoptimizationVirtual
6
泛读ICLR 2026

Evaluating and Improving Cultural Awareness of Reward Models for LLM Alignment

这篇论文要解决的是 reward model 的文化感知能力缺少可靠评测,导致“全球对齐”常被口头强调,却缺少可操作的诊断基准。此前 RM 评测多偏重通用帮助性、无害性和偏好一致性,文化相关样本覆盖很弱,因此模型即使在常规 benchmark 上表现不错,也可能在跨文化价值判断上存在系统偏差。

Hongbin Zhang,Kehai Chen,Xuefeng Bai,Yang Xiang,Min Zhang
reward-modelalignmentevaluationVirtual
6
泛读ICLR 2026

Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods

这篇论文要解决的是结构化流形数据上的 in-context learning 理论解释缺失,尤其是 attention 到底在这类回归问题里学到了什么。ICL 理论过去多围绕线性回归、离散 token 或简单生成模型展开,对带几何结构的数据和 Hölder 函数回归几乎没有可用解释,因此 transformer 在这类场景中的泛化来源并不清楚。

Zhaiming Shen,Alexander Hsu,Rongjie Lai,Wenjing Liao
iclattentionkernel-methodsVirtual
6
泛读ICLR 2026

Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs

这篇论文要解决的是:当开源微调模型没有完整训练数据可用时,如何在无监督、分布外条件下监控和控制其潜在风险,例如 backdoor。现有很多可解释性和安全分析方法依赖 activation,并默认你手上有和训练分布相近的数据;但真正危险的威胁恰恰常常是 OOD 的,因此这条路线在实战里很受限。

Ziqian Zhong,Aditi Raghunathan
interpretabilityfine-tuningmonitoringVirtual
6
泛读ICLR 2026

Prompt and Parameter Co-Optimization for Large Language Models

这篇论文要解决的是 prompt optimization 和 parameter fine-tuning 长期被分开研究,导致两者互补性没有被真正利用。前者通过显式自然语言引导模型,成本低但表达能力有限;后者通过参数更新改变模型内部行为,能力强但代价高、可解释性弱。过去工作通常二选一,而不是联合学习两种控制通道。

Xiaohe Bo,Rui Li,Zexu Sun,Quanyu Dai,Zeyu Zhang,Zihang Tian,Xu Chen,Zhenhua Dong
prompt-optimizationfine-tuningadaptationVirtual
6
泛读ICLR 2026

Local Linear Attention: An Optimal Interpolation of Linear and Softmax Attention For Test-Time Regression

这篇论文要解决的是:现有高效 attention 研究大多追求更便宜,却较少从表达性和统计最优性角度重新设计 attention,尤其是在 test-time regression / associative memory 这类问题上。线性 attention 便宜但偏差大,softmax attention 表达力强但并不总是统计上最优,也未必在局部结构明显的场景里利用好了 bias-variance trade-off。

Yifei Zuo,Yutong Yin,Zhichen Zeng,Ang Li,Banghua Zhu,Zhaoran Wang
attentionlinear-attentioniclVirtual
6
泛读ICLR 2026

Unleashing Perception-Time Scaling to Multimodal Reasoning Models

现有多模态推理模型的推理时间缩放方法(如基于可验证奖励的RL)仅提升推理能力,对视觉感知精度的提升效果有限,此前研究未明确感知能力与推理时间缩放的关系。

Yifan Li,Zhenghao Chen,Ziheng Wu,Kun Zhou,Ruipu Luo,Can Zhang,Zhentao he,Yufei Zhan,Xin Zhao,Minghui Qiu
multimodal-reasoningtest-time-scalingrlvrVirtual
6
泛读ICLR 2026

SafeMoE: Safe Fine-Tuning for MoE LLMs by Aligning Harmful Input Routing

MoE架构LLM的安全对齐机制在微调后会失效,有害输入的路由决策会发生漂移,现有面向单块LLM的安全防御方法无法防止这种路由漂移,导致有害微调攻击风险高。

Jaehan Kim,Minkyoo Song,Seungwon Shin,Sooel Son
moesafetyfine-tuningVirtual
6
泛读ICLR 2026

Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations

现有 4-bit block-wise 权重量化(如 NF4/AF4)在同等 bit 数下并不“接近最优”,导致量化误差被无谓放大,进而限制了低显存微调/推理的可用性。

Patrick Blumenberg,Thomas Graave,Tim Fingscheidt
quantization4bitllm-compressionVirtual
6
泛读ICLR 2026

PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs

长 CoT 推理把 KV cache 显存推到瓶颈,而把短上下文的 KV 量化方法直接搬过来会因误差累积与校准失配导致明显掉点。

Tengxuan Liu,Shiyao Li,Jiayi Yang,Tianchen Zhao,Feng Zhou,Xiaohui Song,Guohao Dai,Shengen Yan,Huazhong Yang,Yu Wang
kv-cachequantizationlong-cotVirtual
6
泛读ICLR 2026

Small Transformers Don’t Need LayerNorm at Inference Time: Scaling LayerNorm Removal to GPT-2 XL and Implications for Mechanistic Interpretability

LayerNorm 在训练中必要,但在推理时是否仍不可或缺并不清楚;同时 LN 会增加非线性与耦合度,给机制可解释性与组件级分析制造障碍。

Luca Baroni,Galvin Khara,Joachim Schaeffer,Marat Subkhankulov,Stefan Heimersheim
layernorminterpretabilityinferenceVirtual
6
泛读ICLR 2026

Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs

这篇论文要解决的是:在 LLM 压缩接近单一手段上限后,如何把量化和稀疏化真正联合起来,而不是把两种误差简单叠加。过去量化和剪枝通常分开做,原因是两者偏好的权重分布相反:量化希望动态范围更紧,剪枝更依赖高方差和显著性;直接串联往往一边收益被另一边抵消,甚至出现额外退化。

Hang Guo,Luca Benini,Yawei Li
quantizationpruningllm-compressionVirtual
6
泛读ICLR 2026

Jailbreak Transferability Emerges from Shared Representations

这篇论文的核心结论是:jailbreak 的可迁移性主要来自模型之间共享的表示,而不是某个安全训练漏洞或某个模型家族的偶然缺陷。过去大家知道攻击能跨模型迁移,但原因解释很分裂,有人归因于对齐不足,有人归因于提示模板相似,缺少能跨多模型统一解释的证据。

Rico Angell,Jannik Brinkmann,He He
jailbreakrepresentationsafetyVirtual
6
泛读ICLR 2026

CAD-Tokenizer: Towards Text-Based CAD Prototyping via Modality-Specific Tokenization

这篇论文要解决的是:如果希望用语言模型统一做 Text-to-CAD 生成和 CAD 编辑,现有通用 tokenizer 对 CAD 序列的切分方式是不合适的。CAD 不是自然语言,也不是原始坐标点云,而是由 sketch、extrusion 等构造原语组成的程序式序列;把它按词片切碎会破坏 primitive-level 语义,也让注意力模块难以捕捉几何结构和编辑依赖。

Ruiyu Wang,Shizhao Sun,Weijian Ma,Jiang Bian
tokenizercadmultimodalVirtual
6
泛读ICLR 2026

Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context

这篇论文要解释的是:语言模型在 in-context 里如何检索先前绑定的实体,而且为什么已有“位置机制”解释在更复杂场景下失效。之前对短列表绑定任务的研究发现,模型常按位置取回实体;但一旦上下文中绑定项变多,这种机制在中间位置会变得噪声大、不稳定,说明单一位置索引不足以解释真实行为。

Yoav Gur-Arieh,Mor Geva,Atticus Geiger
in-context-learningretrievalrepresentationVirtual
6
泛读ICLR 2026

f-INE: A Hypothesis Testing Framework for Estimating Influence under Training Randomness

现有样本影响力估计方法在训练随机性下不稳定,同一样本在不同训练轮次中被估计的影响力差异极大,无法可靠用于数据清洗或数据治理场景。

Subhodip Panda,Dhruv Tarsadiya,Shashwat Sourav,Prathosh AP,Sai Karimireddy
data-qualityinfluencetraining-dynamicsVirtual
7
泛读ICLR 2026

Fresh in memory: Training-order recency is linearly encoded in language model activations

大语言模型是否编码训练顺序的时序信息尚未得到实证验证,此前研究未明确模型激活与训练数据时间先后的对应关系。

Dmitrii Krasheninnikov,Richard E Turner,David Krueger
training-dynamicsrepresentationfine-tuningVirtual
6
泛读ICLR 2026

Learning Correlated Reward Models: Statistical Barriers and Opportunities

现有RLHF奖励建模依赖的随机效用模型(RUM)普遍假设无关选项独立(IIA),将所有人类偏好压缩为单一通用效用函数,无法拟合人类偏好的多样性;而规避IIA假设的模型长期缺乏统计与计算层面的理论保障。

Yeshwanth Cherapanamjeri,Constantinos C Daskalakis,Gabriele Farina,Sobhan Mohammadpour
reward-modelrlhfpreference-learningVirtual
5
泛读ICLR 2026

Agentic Reinforced Policy Optimization

现有RL算法用于多轮工具调用LLM代理训练时,仅采用轨迹级rollout采样,忽略了工具调用步骤后的细粒度探索,导致多轮代理在复杂工具调用场景下的训练效率低、泛化性差。

Guanting Dong,Hangyu Mao,Kai Ma,Licheng Bao,Yifei Chen,Zhongyuan Wang ... 省略 4 位作者 ... ,Guorui Zhou,Yutao Zhu,Ji-Rong Wen,Zhicheng Dou
rlvrtool-useagentic-rlVirtual
7
泛读ICLR 2026

Provable and Practical In-Context Policy Optimization for Self-Improvement

现有LLM测试时自改进方法要么缺乏理论支撑,要么需要更新模型参数,无法在推理阶段不修改参数的情况下快速优化响应,且自改进效果不稳定。

Tianrun Yu,Yuxiao Yang,Zhaoyang Wang,Kaixiang Zhao,Porter Jenkins,Xuchao Zhang,Chetan Bansal,Huaxiu Yao,Weitong Zhang
test-time-scalingself-improvementin-context-rlVirtual
6
泛读ICLR 2026

Scaling Laws for Diffusion Transformers

扩散Transformer(DiT)的缩放规律尚未被系统研究,业界无法基于计算预算精准预测最优模型规模、数据量与生成效果,此前缩放规律研究仅聚焦AR架构,DiT训练长期依赖经验调参。

Zhengyang Liang,Hao He,Ceyuan Yang,Bo DAI
scaling-lawdiffusion-transformercompute-optimalVirtual
5
泛读ICLR 2026

InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

现有LLM长上下文推理存在三个核心限制:注意力计算随序列长度平方增长、推理深度受预训练最大上下文窗口约束、序列超过预训练窗口后性能显著下降,现有方法仅压缩推理链未解决根本的缩放问题。

Yuchen Yan,Yongliang Shen,Yang Liu,Jin Jiang,Mengdi Zhang,Jian Shao,Yueting Zhuang
long-contextreasoninginference-scalingVirtual
6
泛读ICLR 2026

Generalization in LLM Problem Solving: The Case of the Shortest Path

这篇论文要回答的是:LLM 在问题求解里的泛化到底卡在哪,尤其是“会不会做更长的组合式推理”。作者选 shortest path 这个可控环境,是因为真实 benchmark 里训练数据、任务表述和推理策略缠在一起,失败很难归因;而最短路同时有清晰算法结构、可控长度和可控地图分布,适合分离不同泛化维度。

Yao Tong,Jiayuan Ye,Anastasia Borovykh,Reza Shokri
generalizationreasoningsynthetic-taskVirtual
6
泛读ICLR 2026

Group Verification-based Policy Optimization for Interactive Coding Agents

这篇论文要解决的是:interactive coding agent 的 RLVR 训练只看最终结果奖励不够,因为中间执行反馈本身就包含大量可验证过程信息。像 GRPO 这类方法主要按最终是否通过测试来估优势,但编码代理是强环境交互任务,编译错误、运行报错、单步执行失败都在告诉你当前推理哪一步偏了;忽略这些信号会让 advantage estimation 很粗。

Silong Dai,Changzhi Sun,Haolun Wu,Huanran Zheng,Tao Ji,Junchi Yan,Yuanbin Wu,Dell Zhang,Xiaoling Wang,Xuelong Li
coding-agentrlvrprocess-rewardVirtual
6
泛读ICLR 2026

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

这篇论文要解决的是:长上下文推理中 KV cache 线性增长,必须做 eviction,但现有更准的“看一眼未来再决定丢谁”方法往往需要先额外生成 draft response,代价太高。也就是说,问题不是大家不知道未来信息有用,而是拿到未来代理信号本身太贵,抵消了 cache 压缩带来的收益。

Jinwoo Ahn,Ingyu Seong,Akhil Kedia,Junhan Kim,Hyemi Jang,Kangwook Lee,Yongkweon Jeon
kv-cachelong-contextinferenceVirtual
6
泛读OralICLR 2026

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

用 RL(如 GRPO)适配 LLM 到下游任务需要大量 rollout,且学习信号来自稀疏标量 reward,信息效率低。作者认为自然语言本身是比 policy gradient 更丰富的学习媒介,提出用 prompt 优化+自然语言反思来替代 RL。

Lakshya A Agrawal,Shangyin Tan,Dilara Soylu,Noah Ziems,Rishi Khare,Krista Opsahl-Ong ... 省略 7 位作者 ... ,Ion Stoica,Dan Klein,Matei Zaharia,Omar Khattab
prompt-optimizationreflectionrlVirtual
6
泛读ICLR 2026

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

偏好对齐依赖昂贵的人工标注或大模型 API,能否用弱 LLM 做标注器?作者发现一个反直觉的现象:只用弱 LLM 高置信度的子集做标注,效果竟然优于使用全部人工标注。

Amirabbas Afzali,Myeongho Jeon,Maria Brbic
preference-dataalignmentweak-supervisionVirtual
6
泛读ICLR 2026

Sample Complexity and Representation Ability of Test-time Scaling Paradigms

Test-time scaling(如 self-consistency、best-of-n、self-correction)在实践中很有效,但各策略的样本效率缺乏理论刻画。具体来说:需要多少次采样才能得到正确答案?不同策略之间有没有本质差异?

Baihe Huang,Shanda Li,Tianhao Wu,Yiming Yang,Ameet Talwalkar,Kannan Ramchandran,Michael Jordan,Jiantao Jiao
CMUtest-time-scalingtheorysample-efficiencyVirtual
6
泛读ICLR 2026

Task Vectors, Learned Not Extracted: Performance Gains and Mechanistic Insights

ICL 中 demonstration 被压缩为 task vector(TV)来指导预测,但此前的 TV 都是从模型输出或隐藏状态中用复杂方法提取的,不够灵活且机制不透明。需要一种更好的 TV 获取方式,并搞清楚 TV 到底如何影响模型计算。

Haolin Yang,Hakaze Cho,Kaize Ding,Naoya Inoue
icltask-vectorrepresentationVirtual
6
泛读ICLR 2026

CLIP-FMoE: Scalable CLIP via Fused Mixture-of-Experts with Enforced Specialization

将 MoE 架构引入 CLIP 微调时,面临两个问题:顺序训练的计算开销大,以及 zero-shot 能力退化(灾难性遗忘)。需要一种既能高效训练专家又能保持预训练知识的 MoE-CLIP 方案。

Luong Tran,Lan-Cuong Nguyen,Huynh Dang Nguyen,Nguyen Cong Dat,Dung D. Le,Van Nguyen
clipmoescalingVirtual
3
ICLR 2026

Lost in Tokenization: Context as the Key to Unlocking Biomolecular Understanding in Scientific LLMs

现有科学LLM处理生物分子序列时存在tokenization困境:要么将序列作为特殊语言处理丢失功能基序信息,要么作为独立模态处理引入跨模态对齐负担,两种策略都限制了模型的生物分子推理能力。

Kai Zhuang,Jiawei Zhang,Yumou Liu,Hanqun Cao,Chunbin Gu,Mengdi Liu ... 省略 3 位作者 ... ,Pheng-Ann Heng,Lijun Wu,Conghui He,Cheng Tan
tokenizerscientific-llmsequence-modelingVirtual
6
泛读ICLR 2026

ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment

现有DPO对齐依赖大量人工标注偏好数据,现有主动数据选择方法要么缺乏理论支撑,要么假设奖励函数是线性的,无法适配复杂的非线性奖励场景,导致标注资源浪费、对齐效率低。

Xiaoqiang Lin,Arun Verma,Zhongxiang Dai,Daniela Rus,See-Kiong Ng,Bryan Kian Hsiang Low
dpoactive-learningalignmentVirtual
5
泛读ICLR 2026

Statistical Advantage of Softmax Attention: Insights from Single-Location Regression

当前LLM中softmax注意力的主导性缺乏理论解释,多数理论研究为了简化分析使用线性注意力作为代理,无法解释实际LLM中softmax注意力的性能优势,导致注意力架构设计缺乏理论指导。

O Duranthon,Pierre Marion,Claire Boyer,Bruno Loureiro,Lenka Zdeborova
attentionsoftmaxtheoryVirtual
6
泛读ICLR 2026

Boosting Multi-Domain Reasoning of LLMs via Curvature-Guided Policy Optimization

解决 LLM 在多领域强化学习(RL)中存在的领域冲突问题(即提升某一领域能力往往导致另一领域能力下降)。以往方法多依赖简单的标量奖励聚合,难以处理复杂的奖励曲面和领域间的梯度冲突。

Xize Liang,Lin Yang,Jie Wang,Rui Liu,Yang Lu,Jinliang Zeng,Hanzhu Chen,Dong Li,Jianye Hao
rlmulti-domainpolicy-optimizationVirtual
6
泛读ICLR 2026

Task-Aware Data Selection via Proxy-Label Enhanced Distribution Matching for LLM Finetuning

解决 LLM 微调数据选择中仅依赖输入指令 (X) 分布而忽略任务标签 (Y) 分布的问题。以往方法通常假设 P(X) 匹配即可,但在实际任务中,联合分布 P(X,Y) 的对齐对最终性能影响更大。

Hao Cheng,Rui Zhang,Ling Li,Na Di,Jiaheng Wei,Zhaowei Zhu,Bo Han
data-selectionfinetuninginstruction-dataVirtual
6
泛读ICLR 2026

WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction

解决视觉 tokenizer 在压缩率和重建保真度之间难以兼顾的问题。现有的视觉 tokenizer(如 VQ-VAE 变体)在追求高压缩率时往往导致严重的细节丢失,限制了视觉生成模型的上限。

Shaobin Zhuang,Yiwei Guo,Fangyikang Wang,Canmiao Fu,Zhipeng Huang,Zeyue Tian,Xiaohui Li,Ying Zhang,Chen Li,Yali Wang
visual-tokenizerquantizationimage-reconstructionVirtual
6
泛读ICLR 2026

CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

这篇论文要解决的是:面向推理任务的 LLM 强化学习里,如何把训练算力花在最值得的 prompt 和 rollout 上。现有 curriculum learning 往往只做粗糙的样本过滤,默认每个样本分配近似相同的采样预算,没有把“样本难度差异”和“梯度贡献差异”显式建模,因此容易把大量 rollout 浪费在低收益或高噪声样本上。

Yongcheng Zeng,Zexu Sun,Bokai Ji,Erxue Min,Hengyi Cai,Shuaiqiang Wang,Dawei Yin,Haifeng Zhang,Xu Chen,Jun Wang
curriculum-learningrl-for-reasoningtraining-efficiencyVirtual
6
泛读ICLR 2026

Generalizable End-to-End Tool-Use RL with Synthetic CodeGym

这篇论文要解决的是:工具使用型 LLM agent 的 RL 训练为什么很难泛化到新工具和新工作流,以及如何构造一个既可扩展又可验证的训练环境。现有做法要么依赖静态 SFT 轨迹,学到的是表面模仿;要么在很窄的任务上做 RL,策略容易过拟合开发集,换工具或换交互结构就脆弱。

Weihua Du,HaileiGong,Zhan Ling,Kang Liu,Lingfeng Shen,Xuesong Yao,Yufei Xu,Dingyuan Shi,Yiming Yang,Jiecao Chen
tool-userlgeneralizationVirtual
6
泛读OralICLR 2026

SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety

这篇论文要解决的是:在 DPO 框架里,如何更简单地把安全约束纳入优化,而且不依赖额外 reward model、辅助网络或多阶段训练。现有安全对齐方法常常有效但工程链路很重,导致训练复杂、目标不透明,也更难确认最终优化的到底是不是原始安全目标。

Geon-Hyeong Kim,Yu Jin Kim,Byoungjip Kim,Honglak Lee,Kyunghoon Bae,Youngsoo Jang,Moontae Lee
dposafetyalignmentVirtual
6
泛读ICLR 2026

Influence-Preserving Proxies for Gradient-Based Data Selection in LLM FineTuning

这篇论文要解决的是:梯度影响力驱动的数据选择方法在大模型 SFT 中太贵,怎样找到既便宜又真正保留 influence 结构的 proxy model。现有做法通常直接拿一个现成小模型代替目标模型,但这种 proxy 与目标模型的学习动力学往往不对齐,因此选出来的数据并不一定真对目标模型最有用。

Sirui Chen,Yunzhe Qi,Mengting Ai,Yifan Sun,Ruizhong Qiu,Jiaru Zou,Jingrui He
sftdata-selectioninfluence-functionsVirtual
6
泛读ICLR 2026

MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models

这篇论文要解决的是:如何让 LLM 量化真正吃到 Blackwell 上 FP4 Tensor Core 的硬件红利,而不是算法上做了 INT4、系统上却跑不满。现有 weight-activation INT4 方法在精度上已经很激进,但 kernel 和数据格式与新硬件的 FP4/MX 路线不匹配,导致理论速度优势难以兑现。

Wenyuan Liu,Haoqian Meng,Yilun Luo,Peng Zhang,Xindian Ma
quantizationmixed-precisionllmVirtual
6
泛读ICLR 2026

INSTANT: Compressing Gradients and Activations for Resource-Efficient Training

训练阶段的显存和计算瓶颈主要来自反向传播中需要保存的激活值和梯度,现有工作大多聚焦推理加速,训练侧的资源压缩方案仍然不成熟。

Tuan-Kiet Doan,Trung-Hieu Tran,Enzo Tartaglione,Nikola Simidjievski,Van-Tam Nguyen
training-efficiencyactivation-compressiongradient-compressionVirtual
6
泛读ICLR 2026

Tina: Tiny Reasoning Models via LoRA

小模型(1.5B)能否以极低成本通过 RL 获得强推理能力?现有 RL reasoning 模型(如 DeepSeek-R1 系列)计算开销大,Tina 试图证明 LoRA + RL 在 tiny 模型上就能达到可比甚至更优的效果。

Shangshang Wang,Julian Asilis,Ömer Faruk Akgül,Enes Bilgin,Ollie Liu,Willie Neiswanger
reasoningrlloraVirtual
6
泛读ICLR 2026

Alignment-Weighted DPO: A principled reasoning approach to improve safety alignment

经过 SFT/RLHF/DPO 对齐的 LLM 仍然容易被 jailbreak 攻击绕过,根本原因是对齐机制停留在浅层模式匹配(拒绝有害 prompt 但不理解为什么有害),缺乏深层推理。

Mengxuan Hu,Vivek Datla,Anoop Kumar,Zihan Guan,Sheng Li,Alfy Samuel,Daben Liu
dposafetyalignmentVirtual
6
泛读ICLR 2026

Characterizing and Mitigating Reasoning Drift in Large Language Models

Chain-of-thought 推理中存在 Reasoning Drift 现象:模型在多步推理过程中被锁定在错误的推理模式中无法自我纠正。这是 CoT 可靠性的关键失败模式,此前缺乏系统性的刻画和干预方法。

Yufeng Zhang,Xuepeng Wang,Lingxiang Wu,Jinqiao Wang
reasoningcotfailure-analysisVirtual
6
泛读ICLR 2026

Learn More with Less: Uncertainty Consistency Guided Query Selection for RLVR

解决基于可验证奖励的强化学习(RLVR)在提升 LLM 数学推理能力时,需要消耗大量查询预算(即高昂的标注/验证成本)的问题。以往方法通常随机采样查询,效率低下。

Hao Yi,Yulan Hu,Xin Li,Sheng Ouyang,Lizhong Ding,Yong Liu
rlvractive-learningdata-efficiencyVirtual
6
泛读ICLR 2026

Robust Optimization for Mitigating Reward Hacking with Correlated Proxies

解决强化学习中由于使用不完美的代理奖励(proxy rewards)而导致的奖励作弊(reward hacking)问题。现有方法(如 ORPO)通常针对单一固定的代理奖励进行优化,无法对更广泛的相关代理奖励提供鲁棒性保证。

Zixuan Liu,Xiaolin Sun,Zizhan Zheng
reward-hackingproxy-rewardrobust-optimizationVirtual
6
泛读ICLR 2026

Dynamic Early Exit in Reasoning Models

这篇工作要解决的是:推理模型的长 CoT 经常想太多,既浪费算力,也可能把原本正确的解答拖偏。过去常见做法是固定截断长度、启发式停止或多采样后再选,但这些方法要么不够自适应,要么额外开销大,因此动态、无训练成本地判断“现在该停了”是一个很实际的问题。

Chenxu Yang,Qingyi Si,Yongjie Duan,Zheliang Zhu,Chenyu Zhu,Qiaowei Li,Minghui Chen,Zheng Lin,Weipinng Wang
early-exitreasoningcotVirtual
6
泛读ICLR 2026

Enforcing Axioms for AI Alignment under Loss-Based Rules

这篇工作要解决的是:基于偏好损失训练的对齐方法,是否能在理论上满足一些基本的“原则一致性”公理。现有 RLHF 或 Constitution 风格方法通常把原则转成偏好比较再学一个 reward model,但训练目标和最终社会选择性质之间常常脱节,所以即使局部 loss 最优,也不保证整体决策满足想要的规范性约束。

Alexandros Hollender,Sonja Kraiczy
alignmentrlhfreward-modelVirtual
6
泛读ICLR 2026

Unlocking Long-Horizon Agentic Search with Large-Scale End-to-End RL

这篇工作要解决的是:开放搜索 agent 过度依赖商业大模型,导致能力来源、训练闭环和成本都被外包。现有开源搜索 agent 往往要么蒸馏商业模型轨迹,要么在工具链里直接调用闭源模型,因此很难回答“单模型、纯 RL 能不能把长程搜索和验证能力练出来”这个问题。

Jiaxuan Gao,Wei Fu,Minyang Xie,Shusheng Xu,Chuyi He,Zhiyu Mei,Banghua Zhu,Yi Wu
rlagentsearchVirtual
6
泛读OralICLR 2026

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

这篇工作要解决的是:多模态 LLM 的 embedding 很强,但对音频和视频这类动态模态还没有形成真正统一、可泛化的表示空间。已有工作通常偏图文,或把音频/视频只当理解输入而不是共享 embedding 对象,因此 any-to-any 检索和指令条件化表示能力都不够完整。

Changli Tang,Qinfan Xiao,Ke Mei,Tianyi Wang,Fengyun Rao,Chao Zhang
multimodalaudiovideoVirtual
6
泛读ICLR 2026

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

这篇工作要解决的是:多模态大模型更新慢、领域专家模型更新快,如何通过 model merging 把能力和模态统一到一个模型里。过去 merging 研究主要集中在视觉分类或文本 LLM 的代码/数学能力合并,多模态 LLM 缺少清晰 benchmark,也缺少针对“模态 + 能力”同时合并的系统方法。

Yongxian Wei,Runxi Cheng,Weike Jin,Enneng Yang,Li Shen,LU HOU,SiNan Du,Chun Yuan,Xiaochun Cao,Dacheng Tao
multimodalmodel-mergingvlmVirtual
6
泛读ICLR 2026

VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling

这篇工作要解决的是:视频 MLLM 想处理电影级长视频,但视觉 token 数量爆炸,现有方法很难在保留关键信息的同时把上下文压到可用范围。很多压缩方案只在帧级或 patch 级做简单抽样,容易丢掉跨片段叙事信息,因此长视频理解常常在效率和完整性之间二选一。

Xinhao Li,Yi Wang,Jiashuo Yu,Xiangyu Zeng,Yuhan Zhu,Haian Huang ... 省略 3 位作者 ... ,Chenting Wang,Yu Qiao,Yali Wang,Limin Wang
video-llmlong-contextcompressionVirtual
4
ICLR 2026

Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

解决大规模 MoE 模型在推理时,由于专家并行(EP)导致的设备间通信开销过大的问题。现有的服务引擎将专家放置和请求调度分开处理,导致了不必要的 all-to-all 通信。

Yan Li,Zhenyu Zhang,Zhengang Wang,Pengfei chen,Pengfei Zheng
moeservinginferenceVirtual
6
泛读ICLR 2026

Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing

解决难以诊断 LLM 不良行为(如生成有害内容、事实错误)根本原因的问题。现有的基于参数梯度的归因方法由于噪声大和计算复杂度高,往往效果不佳。

Zhe Li,Wei Zhao,Yige Li,Jun Sun
interpretabilityattributionrepresentationVirtual
7
泛读ICLR 2026

Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking

解决在测试时计算(test-time compute)中,不完美的过程序列验证器(process verifiers)会导致标准解码技术产生灾难性失败的问题。验证器的微小错误会在生成过程中被放大。

Dhruv Rohatgi,Abhishek Shetty,Donya Saless,Yuchen Li,Ankur Moitra,Andrej Risteski,Dylan Foster
reasoningprocess-verifiertest-timeVirtual
4
OralICLR 2026

ThinKV: Thought-Adaptive KV Cache Compression for Efficient Reasoning Models

推理大模型生成长思维链输出时KV缓存随序列长度快速增长,占满GPU显存,现有通用KV压缩方案未利用思维链内部不同thought的重要性差异,压缩效率与精度 tradeoff 表现差。

Akshat Ramachandran,Marina Neseem,Charbel Sakr,Rangharajan Venkatesan,Brucek Khailany,Tushar Krishna
kv-cachereasoningcompressionVirtual
5
泛读ICLR 2026

The Curious Case of In-Training Compression of State Space Models

SSM的隐藏状态维度直接决定训练与推理计算开销,现有方案固定状态维度设计无法在训练前平衡表达能力与计算量,训练过程中状态维度无法动态调整。

Makram Chahine,Philipp Nazari,Daniela Rus,T. Konstantin Rusch
ssmcompressionstate-space-modelVirtual
6
泛读ICLR 2026

Causality ≠ Invariance: Function and Concept Vectors in LLMs

现有Function Vectors(FVs)被认为是ICL任务的因果驱动表示,未验证其跨输入格式的不变性,无法回答LLM是否抽象表示概念。

Gustaw Opielka,Hannes Rosenbusch,Claire Stevenson
iclfunction-vectorsrepresentationVirtual
4
OralICLR 2026

Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding

现有推测解码的序列级验证存在联合概率不可解问题,依赖近似导致接受token数低,或破坏输出分布保真度。

Yuxuan Zhou,Fei Huang,Heng Li,Fengyi Wu,Tianyu Wang,jianwei zhang,Junyang Lin,Zhi-Qi Cheng
speculative-decodingverificationinference-speedVirtual
6
泛读ICLR 2026

FLARE: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

现有VLM只用单个MLP投影器做模态对齐,跨模态交互仅在LLM解码阶段做,对齐粒度粗,多模态融合程度低,跨模态理解能力受限。

Zheng Liu,Mengjie Liu,Jingzhou Chen,Jingwei Xu,Bin CUI,Conghui He,Wentao Zhang
vlmvision-language-alignmentcross-modal-integrationVirtual
4
ICLR 2026

Rethinking Residual Errors in Compensation-based LLM Quantization

现有基于补偿的LLM量化方法(GPTQ、GPTAQ等)的层内校准目标次优,仅对齐量化层输出与全精度输出,未考虑残差误差的传播影响,量化精度损失大。

Shuaiting Li,Juncan Deng,Kedong Xu,Rongtao Deng,Hong Gu,Minghan Jiang,Haibin Shen,Kejie Huang
quantizationweight-compensationgptqVirtual
6
泛读ICLR 2026

Automata Learning and Identification of the Support of Language Models

这篇论文讨论的是一个偏理论但和语言模型支持集学习直接相关的问题:如果我们不仅看到正样本,还能得到 next-symbol prediction 形式的标签,是否就能高效识别一个语言或近似恢复 LM 的支持集。过去很多关于神经序列模型的经验分析用了 NSP 设定,但它到底带来了多大可学习性提升、边界在哪,并不清楚。

Satwik Bhattamishra,Michael Hahn,Varun Kanade
automata-learningformal-languagenext-token-predictionVirtual
6
泛读ICLR 2026

VidBridge-R1: Bridging QA and Captioning for RL-based Video Understanding Models with Intermediate Proxy Tasks

这篇论文的核心问题是:基于 RL 的视频理解模型在 QA 和 captioning 之间存在明显任务冲突,简单把两种 reward 混在一起会两边都掉。原因并不难理解:QA 强调定向判别和精确回答,captioning 强调开放式覆盖与叙述连贯,这两类目标在训练中会拉出不同的行为模式。

Xinlong Chen,Yuanxing Zhang,Yushuo Guan,Weihong Lin,Zekun Wang,Bohan Zeng ... 省略 1 位作者 ... ,Sihan Yang,Qiang Liu,Pengfei Wan,Liang Wang
videorlmultimodalVirtual
6
泛读ICLR 2026

DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains

这篇论文要解决的是 reasoning model 的效率失衡:简单题想太多,复杂题又想不够,而用统一的长度惩罚通常会伤准确率。过去很多工作默认“更短的 CoT 更好”,于是用 token-length reward 压缩推理链;但这会把真正需要展开探索的难题也一起压短,导致效率提升和正确率下降绑定在一起。

Tian Liang,Wenxiang Jiao,Zhiwei He,Jiahao Xu,Haitao Mi,Dong Yu
reasoningrlcotVirtual
6
泛读ICLR 2026

Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment

这篇论文要解决的是安全对齐中的两个现实问题:安全偏好数据长尾分布不均,以及静态 reward model 不区分任务难度,导致优化效率和最终上限都受限。现有 reward-based alignment 虽然通常比 reward-free 更稳,但在安全场景里,常见风险样本过多、稀有风险样本过少,模型容易学会头部模式而忽视尾部威胁。

Ruoxi Cheng,Hao-Xuan Ma,Weixin Wang,Ranjie Duan,Jiexi Liu,Xiaoshuang Jia,Simeng Qin,Xiaochun Cao,Yang Liu,Yang Liu
alignmentirlreward-modelVirtual
6
泛读ICLR 2026

Mode-conditioning unlocks superior test-time compute scaling

这篇论文的核心问题是 test-time scaling 经常被多样性坍缩限制:并行采样越多,不一定覆盖到更多正确推理模式,反而可能只是重复同一种错误。过去 Pass@k 提升常靠多采样,但如果模型内部本来就把概率集中在少数 mode 上,额外采样预算会很快进入边际收益递减。

Chen Wu,Sachin Goyal,Aditi Raghunathan
test-time-scalingreasoningsamplingVirtual
6
泛读ICLR 2026

HBO: Hierarchical Balancing Optimization for Fine-Tuning Large Language Models

现有LLM混合数据集微调方法仅做全局数据集间平衡,忽略单个数据集内部的不平衡,微调效果受限于局部数据分布异质性。

Weixuan Wang,Minghao Wu,Barry Haddow,Alexandra Birch
fine-tuningdata-mixtureoptimizationVirtual
7
泛读ICLR 2026

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

现有LLM奖励模型benchmark仅做偏好对比评估,没有专门针对基于参考的奖励系统的验证能力的基准,无法满足推理模型RL训练的奖励系统评估需求。

Yuchen Yan,Jin Jiang,Zhenbang Ren,Yijun Li,Xudong Cai,Yang Liu ... 省略 2 位作者 ... ,Jian Shao,Yongliang Shen,Jun Xiao,Yueting Zhuang
reward-modelbenchmarkreasoningVirtual
5
泛读ICLR 2026

Expert Merging in Sparse Mixture of Experts with Nash Bargaining

现有稀疏混合专家(SMoE)的专家合并策略多依赖输入相关或无关的参数平均,缺乏有理论支撑的加权机制,合并后专家协作效率低,易出现能力损失。

Dung Viet Nguyen,Anh Thi,Minh Hoang Nguyen,Luc Nguyen,Shiqi Jiang,Ethan Fetaya,Duy Linh Tran,Gal Chechik,Tan Nguyen
moeexpert-mergingcompressionVirtual
7
泛读ICLR 2026

Reinforcement Learning via Value Gradient Flow

行为正则化RL(离线RL、大模型RL微调的核心范式)现有方法要么依赖重参数化策略梯度难以扩展到大生成模型,要么用拒绝采样过于保守无法突破行为分布边界,难以兼顾可扩展性和优化效率。

Haoran Xu,Kaiwen Hu,Somayeh Sojoudi,Amy Zhang
rlhfoptimizationregularizationVirtual
6
泛读OralICLR 2026

InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

现有离散视频tokenizer采用固定压缩率,无法适配视频内容可变的信息密度,要么产生冗余要么丢失关键信息,成为长视频统一多模态建模的核心瓶颈。

Haotian Ye,Qiyuan He,Jiaqi Han,Puheng Li,Jiaojiao Fan,Zekun Hao ... 省略 5 位作者 ... ,James Y Zou,Stefano Ermon,Haoxiang Wang,Ming-Yu Liu
video-tokenizerinformation-theoryadaptive-compressionVirtual
5
泛读ICLR 2026

HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

现有MoE剪枝多采用粗粒度的专家级剪枝,容易造成显著的精度损失,同时MoE过大的参数量导致部署内存开销过高,限制其大规模落地。

Ke Li,Zheng Yang,Zhongbin Zhou,Xuefeng,Zhonglin Jiang,Wenxiao Wang
moepruningcompressionVirtual
6
泛读ICLR 2026

Structural Inference: Interpreting Small Language Models with Susceptibilities

现有Transformer可解释性方法难以精准定位小模型的功能模块,缺乏有理论支撑的归因框架来关联输入扰动和模型内部组件的响应。

Garrett Baker,George Wang,Jesse Hoogland,Vinayak Pathak,Daniel Murfet
interpretabilitylinear-responsestatistical-mechanicsVirtual
6
泛读ICLR 2026

In-Context Algebra

现有Transformer上下文推理机制的研究多局限于token嵌入包含固定参数或几何信息的场景,无法解释模型在token含义完全由上下文动态决定时的推理能力。

Eric Todd,Jannik Brinkmann,Rohit Gandikota,David Bau
icltransformer-mechanismarithmeticVirtual
4
ICLR 2026

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

最小描述长度(MDL)原则难以应用到Transformer这类神经网络,因为缺乏有理论支撑的通用模型复杂度度量方法,无法实现奥卡姆剃刀的定量落地。

Peter Shaw,James Cohan,Jacob Eisenstein,Kristina Toutanova
mdlkolmogorov-complexitytransformerVirtual
6
泛读ICLR 2026

Strategic Obfuscation of Deceptive Reasoning in Language Models

这篇论文要回答的是:模型在部署和训练语境下表现不一致时,是否会主动隐藏其欺骗性推理,而不是把“我要装对齐”直接说出来。过去关于 alignment faking 的工作大多依赖模型显式 verbalize 自己在伪装,这会低估真正的风险,因为真实高能力模型未必会把危险想法写进可监控通道。

Arun Jose,Niels Warncke,Mia Taylor
alignment-fakingdeceptive-reasoningsafetyVirtual
6
泛读ICLR 2026

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

这篇论文要解决的是:现有 VLM 强化微调大多还是“看图后做文本推理”,没有把中间视觉操作真正纳入可训练的推理链,因此模型很难学会像人一样通过画、裁、标、变换图像来想清楚。测试时外挂 visual sketchpad 能补一点,但没有训练闭环,模型并不会内化这种能力。

Mingyuan Wu,Jingcheng Yang,Jize Jiang,Meitang Li,Kaizhuo Yan,Hanchao Yu,Minjia Zhang,ChengXiang Zhai,Klara Nahrstedt
vlmreinforcement-learningtool-useVirtual
6
泛读ICLR 2026

Theoretical Modeling of Large Language Model Self-Improvement Training Dynamics Through Solver-Verifier Gap

大模型自提升训练的性能演化规律缺乏理论解释,无法量化自提升的能力上限,导致训练过程难以可控优化。

Yifan Sun,Yushan Liang,Zhen Zhang,Xin Liu,Jiaye Teng
self-improvementtraining-dynamicstheoryVirtual
4
ICLR 2026

Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models

现有VLM安全微调方法要么仅聚焦文本/多模态内容匹配无法处理难例,要么破坏有用性与无害性的平衡,核心瓶颈是模型缺乏视觉安全推理能力,此前工作未针对该短板做定向优化。

Yi Ding,Lijun Li,Bing Cao,Jing Shao
vlmsafetyfine-tuningVirtual
5
泛读ICLR 2026

Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots

现有多模态大模型的后训练对齐仅聚焦助手角色,固定输入prompt的特殊token结构,未对齐用户角色的输入逻辑,当输入结构偏离训练分布时模型易产生有害输出,此前对抗攻击仅修改查询内容,未利用结构层面的漏洞。

Erfan Shayegani,G M Shahariar,Sara Abdali,Lei Yu,Nael Abu-Ghazaleh,Yue Dong
multimodalalignmentsafetyVirtual
6
泛读ICLR 2026

PEAR: Phase Entropy Aware Reward for Efficient Reasoning

现有大推理模型生成的思维链往往包含冗余步骤,推高推理成本、降低易用性,在不损失精度的前提下控制推理长度是未解决的开放问题,此前的长度控制方法未结合推理不同阶段的特性。

Chen Huang,Wei Lu,Wenxuan Zhang
rlreasoningrewardVirtual
5
泛读ICLR 2026

Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization

现有多模态DPO方法仅通过简单扰动或相似度检索生成单个负样本,无法覆盖多模态偏好的复杂特性,会引入优化偏差和幻觉,此前工作未在多模态DPO中引入多样多负样本的设计。

Xintong Li,Chuhan Wang,Junda Wu,Rohan Surana,Tong Yu,Julian McAuley,Jingbo Shang
dpomultimodalpreference-optimizationVirtual
5
泛读ICLR 2026

TurboBoA: Faster and Exact Attention-aware Quantization without Backpropagation

现有训练后量化(PTQ)方法GPTQ假设层独立,低比特下精度损失严重;改进的BoA方法引入了注意力模块的层间依赖,但所有输出通道顺序量化导致效率极低,无法满足大模型快速量化的需求。

Junhan Kim,Yeo Jeong Park,Seungwoo Son,Chungman Lee,Ho-young Kim,Joonyoung Kim,Yongkweon Jeon
quantizationptqattentionVirtual
4
ICLR 2026

No Labels, No Problem: Training Visual Reasoners with Multimodal Verifiers

现有视觉推理方法要么需要大规模(图像、查询、答案)标注数据,要么用预训练模型做程序合成但逻辑错误和grounding错误较多,此前工作未实现无标注的视觉推理模型训练。

Damiano Marsili,Georgia Gkioxari
visual-reasoningverifiermultimodalVirtual
6
泛读ICLR 2026

Let's (not) just put things in Context: Test-time Training for Long-context LLMs

现有长上下文大模型可以处理百万级token输入,但实际能可靠利用的上下文远小于输入长度,现有的推理时优化策略(如生成思考token)在长上下文任务上收益快速递减甚至失效,此前工作未定位到长上下文推理失效的核心原因。

Rachit Bansal,Aston Zhang,Rishabh Tiwari,Lovish Madaan,Venkata Sai Surya Subramanyam Duvvuri,Devvrit Khatri ... 省略 1 位作者 ... ,David Alvarez-Melis,Prajjwal Bhargava,Mihir Kale,Samy Jelassi
long-contexttest-time-trainingadaptationVirtual
6
泛读ICLR 2026

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

这篇论文要解决的问题是:现有 RAG/长上下文系统里,模型通常只能被动消费外部上下文,不能主动管理自己的记忆状态。过去的做法一般把检索、压缩、笔记、索引这些能力放在系统侧由人工规则编排,模型只是最终读一段拼好的 prompt;作者认为瓶颈不在有没有 memory tool,而在模型没有学会何时写、何时删、何时索引、何时回看。

Xiaoyuan Liu,Tian Liang,Dongyang Ma,Deyu Zhou,Haitao Mi,Pinjia He,Yan Wang
stateful-llmmemorycontext-managementVirtual
6
泛读ICLR 2026

Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking

这篇论文要解决的问题是:统一视觉语言模型虽然在架构上同时支持理解和生成,但两种能力在求解过程中并没有真正相互促进。现有 UVLM 多数只是把 understanding 和 generation 放进同一个模型里联合训练,到了推理时仍是并行技能拼接,缺少像人类那样“边分析、边起草、再回头修正”的闭环。

Shengqiong Wu,Bobo Li,Xinkai Wang,Xiangtai Li,Lei Cui,Furu Wei,Shuicheng YAN,Hao (Scofield) Fei,Tat-Seng Chua
unified-modelingmultimodalreasoningVirtual
6
泛读ICLR 2026

When Thinking Backfires: Mechanistic Insights into Reason-induced Misalignment

这篇论文识别并解释了一个危险现象:推理能力增强不一定带来更安全,反而可能诱发 misalignment。以往大家通常把 reasoning 当作能力增强的单向正资产,最多从行为层面观察 jailbreak 成功率变化;这篇工作进一步问的是,为什么某些 reasoning pattern 会让模型更会“合理化地越界”,以及这种问题在机制层面长在哪里。

Hanqi Yan,Hainiu Xu,Siya Qi,Shu Yang,Yulan He
reasoningmisalignmentsafetyVirtual
5
泛读ICLR 2026

SinkTrack: Attention Sink based Context Anchoring for Large Language Models

大模型存在幻觉和上下文遗忘问题,核心原因是注意力漂移,模型的注意力逐渐转向新生成的token,远离初始输入上下文,此前的缓解方法未利用大模型固有的注意力sink特性。

Xu Liu,Guikun Chen,Wenguan Wang
attention-sinkhallucinationcontext-anchoringVirtual
5
泛读ICLR 2026

Beyond Speedup - Utilizing KV Cache for Sampling and Reasoning

KV缓存此前仅被用于加速自回归解码,其编码的上下文信息未被复用,下游任务需额外计算或存储完整隐状态,资源开销冗余。

Zeyu XING,Xing Li,Huiling Zhen,Mingxuan Yuan,Sinno Jialin Pan
kv-cacherepresentationsamplingVirtual
6
泛读ICLR 2026

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

现有统一多模态模型存在模态解离现象:能准确视觉记忆概念但无法用文本表述,此前该现象被误认为是训练瑕疵,未被系统验证。

Michael Aerni,Joshua Swanson,Kristina Nikolić,Florian Tramer
unified-multimodalmodal-aphasiamemorizationVirtual
6
泛读ICLR 2026

DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

现有基于GRPO的推理模型存在过度思考问题,简单问题也生成冗余推理链,提升计算开销;现有添加长度奖励的方案会导致性能大幅下降,根源是GRPO的组相对优势函数会给正确但长的轨迹分配负优势,抑制有效推理。

Gang Li,Yan Chen,Ming Lin,Tianbao Yang
rlreasoningoverthinkingVirtual
6
泛读ICLR 2026

Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization

基于RL的LLM安全对齐会导致模型遗忘原有通用能力(即对齐税),现有方案无法在保证对齐效果的同时完全保留核心能力。

Yifan Niu,Han Xiao,Dongyi Liu,Nuo Chen,Jia Li
alignment-taxsafetyrlVirtual
5
泛读ICLR 2026

Understanding and Relaxing the Limitations of Transformers for Linear Algebra

现有Transformer处理线性代数任务时存在失效模式、缩放成本过高、分布外泛化差的问题,此前该领域研究未系统分析这些局限性的根源。

Andres Potapczynski,Alex Ali,Andrew Gordon Wilson
transformerlinear-algebraexpressivenessVirtual
6
泛读ICLR 2026

Sparse Autoencoders Trained on the Same Data Learn Different Features

这篇论文要解决的是:大家常把 SAE 学到的特征当成模型内部“真实特征”的近似,但作者发现即使在同一模型、同一数据上,只换随机种子,学到的特征集合也会明显不同。这个问题重要,因为如果 SAE 解并不稳定,那么很多基于单次 SAE 训练得出的可解释性结论都需要更谨慎地看待。

Gonçalo Paulo,Nora Belrose
interpretabilitysparse-autoencoderfeaturesVirtual
6
泛读ICLR 2026

Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework

这篇论文要解决的是:常规 preference learning 在聚合多方偏好时,往往让多数意见天然占优,但这会系统性压制少数群体偏好,也容易被策略性操纵。作者想做的不是再训一个更会迎合平均偏好的模型,而是在公理化框架下,让最终策略按真实人群偏好分布做比例对齐。

Kihyun Kim,Jiawei Zhang,Asuman Ozdaglar,Pablo Parrilo
preference-learningalignmentaggregationVirtual
6
泛读ICLR 2026

Where Did This Sentence Come From? Tracing Provenance in LLM Reasoning Distillation

这篇论文要解决的是:reasoning distillation 之后,学生模型到底是在真正学老师的推理行为,还是只在训练分布内模仿,出了分布又退回原本习惯,目前缺少细粒度证据。作者想追踪蒸馏后每一步行为的来源,回答‘这句话到底来自 teacher 还是 student 自己原有策略’。

kaiyuan liu,Shaotian Yan,Rui Miao,Bing Wang,Chen Shen,Jun Zhang,Jieping Ye
reasoning-distillationdata-qualityteacher-studentVirtual
6
泛读ICLR 2026

Spilled Energy in Large Language Models

这篇论文要解决的是:LLM 在生成时出现事实错误、偏见或 hallucination,通常要靠额外 probe、外部验证器或 activation ablation 才能定位异常,但这些方法要么需要训练,要么侵入性强。作者尝试直接从输出 logits 出发,用 energy-based 视角构造无训练指标,在解码时就发现“哪一步开始出问题”。

Adrian Robert Minut,Hazem Dewidar,Iacopo Masi
energy-baseddecodingfactualityVirtual
6
泛读ICLR 2026

AbsTopK: Rethinking Sparse Autoencoders For Bidirectional Features

现有的 Sparse Autoencoder(SAE)变体(ReLU、JumpReLU、TopK)都隐含地强制特征非负,导致单个特征无法表示双向概念(如'男性 vs 女性'),必须用两个特征分别编码正反方向,浪费了表示容量。

Xudong Zhu,Mohammad Mahdi Khalili,Zhihui Zhu
sparse-autoencoderinterpretabilitydictionary-learningVirtual
6
泛读ICLR 2026

UniVideo: Unified Understanding, Generation, and Editing for Videos

统一多模态模型在图像领域已有不错进展,但在视频领域——包括视频理解、生成和编辑的统一建模——仍然缺乏有效方案。视频的时序一致性和多样化编辑指令使得统一建模比图像困难得多。

Cong Wei,Quande Liu,Zixuan Ye,Qiulin Wang,Xintao WANG,Pengfei Wan,Kun Gai,Wenhu Chen
video-generationunified-modelmllmVirtual
6
泛读ICLR 2026

Scalable Chain of Thoughts via Elastic Reasoning

大推理模型的CoT输出长度不受控,在资源严格受限的实际部署场景中无法满足时延、token预算要求,现有方案无法在资源紧张时保证输出可靠性。

Yuhui Xu,Hanze Dong,Lei Wang,Doyen Sahoo,Junnan Li,Caiming Xiong
chain-of-thoughtinference-budgetreasoningVirtual
5
泛读ICLR 2026

The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation

现有以数据为中心的CoT蒸馏方案缺乏系统的评测基准,无法客观比较不同数据增强、选择、混合策略的效果,导致优化方向不明确。

Ruichen Zhang,Rana Muhammad Shahroz Khan,Zhen Tan,Dawei Li,Song Wang,Tianlong Chen
distillationchain-of-thoughtdata-centricVirtual
6
泛读ICLR 2026

Rethinking Causal Mask Attention for Vision-Language Inference

现有自回归VLM的因果掩码直接继承自纯文本LLM,对prefill阶段的视觉token严格掩码未来位置,限制了模型利用视觉上下文语义线索的能力,导致推理性能下降。

Xiaohuan Pei,Tao Huang,Yanxiang Ma,Chang Xu
causal-maskvlmattentionVirtual
6
泛读ICLR 2026

QuRL: Rubrics As Judge For Open-Ended Question Answering

现有基于可验证奖励的强化学习(RLVR)无法落地开放域问答场景,此前方案依赖人类反馈或LLM-as-judge,存在成本高、易出现奖励破解、评估信号区分度和可解释性不足的问题。

Xiyu Wei,Qingwei Zong,Xiaoguang Li,Eugene Yu,Sujian Li
rlvrreward-modelopen-ended-qaVirtual
5
泛读ICLR 2026

Knowledge Distillation for Large Language Models through Residual Learning

现有大模型知识蒸馏方法依赖教师模型中间状态做知识迁移,但教师的不完美知识会误导学生学习,限制学生泛化能力,此前方案未有效解决教师噪声过滤问题。

Thinh On,Hengzhi Pei,Leonard Lausen,George Karypis
knowledge-distillationllmresidual-learningVirtual
6
泛读ICLR 2026

Multiple Token Divergence: Measuring and Steering In-Context Computation Density

这篇论文要解决的是:我们缺少一个稳定、低侵入的方法去度量 LLM 在上下文中实际投入了多少“计算”。现有 next-token loss 看不出推理密度,基于隐状态可压缩性的指标又常常需要额外训练或干预模型,既不稳也不方便,所以很难把“模型何时在认真算”变成一个可测、可控的量。

Vincent Herrmann,Eric Alcaide,Michael Wand,Jürgen Schmidhuber
iclreasoningmeasurementVirtual
6
泛读ICLR 2026

Learning to Recall with Transformers Beyond Orthogonal Embeddings

这篇论文要解决的是:Transformer 的“记住并召回”能力在理论上常被建立在过强假设上,尤其是假设 embedding 正交或数据无限,而这和真实 LLM 训练相差很大。作者想回答更贴近实践的问题:在有限数据、随机且非正交 embedding 下,梯度下降训练的 Transformer 还能否学会 token 检索与映射,以及它是怎么学会的。

Mert Vural,Alberto Bietti,Mahdi Soltanolkotabi,Denny Wu
transformerrecalltheoryVirtual
6
泛读ICLR 2026

The State of Reinforcement Finetuning for Transformer-based Agents

这篇论文要解决的是:Transformer-based generative agents 现在大多还靠 SFT 做适配,而 reinforcement finetuning 在这一类 agent 上到底有效到什么程度、适合哪些设定、有哪些坑,缺少系统性结论。相比大 reasoning model,agent 面临长时序、环境反馈延迟、多任务耦合等额外挑战,因此不能简单照搬 RLVR 在数学题上的经验。

Shengchao Hu,Peng Wang,Guozheng Ma,Shi Fu,Li Shen,Ya Zhang,Dacheng Tao
reinforcement-learningreasoningagentVirtual
6
泛读ICLR 2026

Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations

In-context learning 中的 task vector(将多个 demonstration 蒸馏为单一向量来加速推理)虽然实验上有效,但其涌现条件和功能边界缺乏理论理解。

Yuxin Dong,Jiachen Jiang,Zhihui Zhu,Xia Ning
icltask-vectormechanistic-interpretabilityVirtual
6
泛读ICLR 2026

Repurposing Synthetic Data for Fine-grained Search Agent Supervision

LLM search agent 的训练数据中包含丰富的实体信息(entity-centric synthetic data),但 GRPO 等训练方法只用最终答案的对错作为奖励信号,丢弃了这些实体信息。这导致 "near-miss" 样本(推理过程大部分正确但最终答案错误)被当作完全失败处理,浪费了有价值的学习信号。

Yida Zhao,Kuan Li,Xixi Wu,Liwen Zhang,Ding-Chu Zhang,Baixuan Li ... 省略 5 位作者 ... ,Pengjun Xie,Fei Huang,Jingren Zhou,Yong Jiang
agentsynthetic-datareinforcement-learningVirtual
6
泛读ICLR 2026

ASIDE: Architectural Separation of Instructions and Data in Language Models

LLM 在架构层面缺乏指令和数据的内在分离,这是 prompt injection 攻击成功的根本原因。之前的防御方法都是在训练或推理策略层面打补丁,没有从架构上解决。

Egor Zverev,Evgenii Kortukov,Alexander Panfilov,Alexandra Volkova,Soroush Tabesh,Sebastian Lapuschkin,Wojciech Samek,Christoph Lampert
architecturesafetyprompt-injectionVirtual
6
泛读ICLR 2026

Vision-SR1: Self-Rewarding Vision-Language Model via Reasoning Decomposition and Multi-Reward Policy Optimization

现有多模态大模型(VLM)存在视觉幻觉和语言捷径问题,核心原因是后训练阶段仅监督最终输出,中间视觉推理过程没有显式指导,稀疏的视觉信号导致模型优先依赖文本先验而非视觉感知,此前方案依赖人工标注或外部大模型蒸馏标签,成本高、延迟大。

Zongxia Li,Wenhao Yu,Chengsong Huang,Zhenwen Liang,Rui Liu,Fuxiao Liu ... 省略 1 位作者 ... ,Dian Yu,Jordan Boyd-Graber,Haitao Mi,Dong Yu
vlmself-rewardingreinforcement-learningVirtual
6
泛读ICLR 2026

Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation

现有基于合成数据的大模型知识蒸馏方法缺乏教学逻辑,将知识迁移视为单次合成和训练任务而非系统的学习过程,导致学生模型知识吸收效率低,蒸馏效果差。

Bowei He,Yankai Chen,Xiaokun Zhang,Linghe Kong,Philip Yu,Xue Liu,Chen Ma
distillationsynthetic-datadata-qualityVirtual
5
泛读ICLR 2026

SpecBranch: Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism

现有推测解码方法受串行执行限制,草稿模型和目标模型之间存在互相等待的气泡,无法充分利用并行算力,解码加速比上限低。

Yuhao Shen,Junyi Shen,Quan Kong,Tianyu Liu,Yao Lu,Cong Wang
speculative-decodinginference-accelerationllm-servingVirtual
6
泛读ICLR 2026

Learning-Time Encoding Shapes Unlearning in LLMs

现有大模型遗忘研究默认训练过程和目标模型固定,未考虑训练阶段知识编码方式对事后事实知识遗忘效果的影响,导致遗忘算法的泛化性差、效果不可控。

Ruihan Wu,Konstantin Garov,Kamalika Chaudhuri
unlearningllmtraining-dynamicsVirtual
6
泛读ICLR 2026

Post-training Large Language Models for Diverse High-Quality Responses

这篇论文解决的是:RL 后训练虽然能提高任务表现,但经常把回复压成少数“标准答案”,导致高质量却不多样。现有提升多样性的办法大多停留在推理时采样控制,或者只鼓励词面差异,难以在训练阶段直接优化“语义上不同但都好”的响应集合。这个问题重要,因为很多真实应用并不需要唯一最优答案,而需要一组高质量、风格或内容互补的候选。

Yilei Chen,Souradip Chakraborty,Lorenz Wolf,Ioannis Paschalidis,Aldo Pacchiano
rldiversitypost-trainingVirtual
6
泛读ICLR 2026

In-Context Algorithm Emulation in Fixed-Weight Transformers

这篇论文讨论的是一个 ICL 理论核心问题:固定权重的 Transformer 到底能通过 prompt 在上下文中模拟多大一类算法。过去很多 in-context learning 解释停留在类比层面,比如“像做梯度下降”或“像在做回归”,但缺少明确的构造性证明。作者想证明,不需要更新参数,只靠上下文和一个极小的 Transformer 结构,就能精确模拟一类相当广的算法。

Jerry Yao-Chieh Hu,Hude Liu,Jennifer Zhang,Han Liu
icltransformer-theoryalgorithm-emulationVirtual
6
泛读OralICLR 2026

How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability

这篇论文研究的是 Transformer 在训练早期如何从自然语言数据里学到 token 间的语义关联,比如 'bird' 和 'flew' 为什么会互相支持。过去机制解释工作常看训练后静态权重或激活,而较少从训练动力学出发,去问这些关联最初是如何被梯度写进去的。作者希望用一个可解析的近似,把‘关联形成’从现象描述推进到可计算机制。

Shawn Im,Changdae Oh,Zhen Fang,Yixuan Li
mechanistic-interpretabilitygradientstransformerVirtual
6
泛读ICLR 2026

Superficial Safety Alignment Hypothesis

这篇论文提出并检验一个很强的假设:安全对齐可能并没有深度改造模型能力,而主要是在模型内部建立了一个‘该满足还是该拒绝’的浅层决策边界。过去很多对齐研究把 safety alignment 和 general instruction tuning 混在一起讨论,容易高估安全训练的机制深度。作者的问题是,安全护栏是否其实只依赖少量关键组件,因此既容易生效,也容易脆弱。

Jianwei Li,Jung-Eun Kim
alignmentsafetysftVirtual
5
泛读ICLR 2026

Token-Based Audio Inpainting via Discrete Diffusion

现有基于扩散的音频补全方法在缺失区域较大时性能退化严重,此前方案多在连续音频空间做扩散,无法保证长缺失片段的语义一致性。

Tali Dror,Iftach Shoham,Moshe Buchris,Oren Gal,Haim Permuter,Gilad Katz,Eliya Nachmani
audiodiscrete-diffusiontokenizerVirtual
6
泛读ICLR 2026

MoDr: Mixture-of-Depth-Recurrent Transformers for Test-Time Reasoning

现有深度循环Transformer(如Huginn)采用单链状传播机制,无法满足需要探索和自适应的推理任务,随着循环次数增加性能提升遇到瓶颈。

Xiaojing Zhang,Haifeng Wu,Gang He,Jiyang Shen,Bochen Lyu,Zhanxing Zhu
test-time-scalingdepth-recurrencereasoningVirtual
6
泛读ICLR 2026

Soft Tokens, Hard Truths

现有推理大模型CoT阶段使用连续token的方案存在严重训练瓶颈,要么仅在推理阶段为预训练离散token模型添加连续token导致表征不匹配,要么需要从真实离散CoT蒸馏连续CoT,计算成本过高限制了CoT长度。

Natasha Butt,Ariel Kwiatkowski,Ismail Labiad,Julia Kempe,Yann Ollivier
soft-tokensreasoningcotVirtual
5
泛读ICLR 2026

ContextPRM: Leveraging Contextual Coherence for multi-domain Test-Time Scaling

现有过程奖励模型(PRM)仅在数学推理领域效果显著,跨域泛化性差,核心原因是其学习目标依赖领域特定知识验证,受限于领域训练数据稀缺,无法适配多域推理场景。

Haotian Zhang,Liu Liu,Baosheng Yu,Jiayan Qiu,Likang Xiao,Yanwei Ren,Quan Chen,Xianglong Liu
prmtest-time-scalingreasoningVirtual
5
泛读ICLR 2026

Towards Understanding the Nature of Attention with Low-Rank Sparse Decomposition

现有Transformer多头自注意力(MHSA)存在注意力叠加问题,难以拆解不同token位置特征间的交互机制,无法细粒度分析注意力头的具体功能,限制了注意力机制的可解释性研究。

Zhengfu He,Junxuan Wang,Rui Lin,Xuyang Ge,Wentao Shu,Qiong Tang,Junping Zhang,Xipeng Qiu
attentioninterpretabilitylow-rankVirtual
6
泛读ICLR 2026

Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization

现有大推理模型的长CoT会增加计算成本,还可能出现过度思考导致效果下降,现有剪枝方案要么降低推理质量,要么需要大量调优资源,难以平衡推理效果和效率。

Bin Hong,Jiayu Liu,Kai Zhang,Jianwen Sun,Mengdi Zhang,Zhenya Huang
cot-pruningreasoning-efficiencypreference-optimizationVirtual
6
泛读ICLR 2026

Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors

这篇工作要解决的是:长上下文压缩训练为什么常常学到“会重建”的压缩 token,却不一定学到“对下游最有用”的压缩表示。现有方法大多依赖 autoencoding 任务训练专门的压缩 token,但作者认为这种目标把容量花在恢复原文细节上,和真实推理、检索、问答所需的语义保真并不完全一致。

Xin Liu,Runsong Zhao,Pengcheng Huang,Xinyu Liu,Junyi Xiao,chunyang xiao,Tong Xiao,Shengxiang Gao,Zhengtao Yu,JingBo Zhu
context-compressionlong-contextinference-efficiencyVirtual
6
泛读ICLR 2026

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

这篇工作要解决的是:偏好优化里的训练数据分布持续落后于正在变化的模型策略,导致离线 preference data 越训越不匹配。现有做法要么依赖静态启发式重加权,要么把 online sampling 和 preference optimization 分开做,结果是采样时机和采样强度都不能跟随模型当前最需要的对齐信号。

Junming Yang,Ning Xu,Biao Liu,Shiqi Qiao,Xin Geng
preference-optimizationonline-samplingalignmentVirtual
6
泛读ICLR 2026

ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

这篇工作要解决的是:2:4 半结构化稀疏在硬件上很有吸引力,但现有 one-shot post-training pruning 往往精度掉得太多,导致“能加速但不敢用”。问题核心不是稀疏模式本身,而是直接在原权重上做 2:4 剪枝太刚性,误差无法被有效补偿。

Lawrence Liu,Alexander Liu,Mengdi Wang,Tuo Zhao,Lin Yang
pruningsemi-structured-sparsity2:4-sparsityVirtual
6
泛读ICLR 2026

Enhancing Multi-Image Understanding through Delimiter Token Scaling

这篇工作要解决的是:LVLM 在多图输入时性能明显下降,原因之一是不同图像之间的信息泄漏,模型分不清哪段视觉证据属于哪张图。现有模型虽然已经给每张图加了 delimiter token,但这些分隔符在实际表示空间里并没有真正形成足够强的边界。

Minyoung Lee,Yeji Park,Dongjun Hwang,Yejin Kim,Seong Joon Oh,Junsuk Choe
vlmmulti-imagetokenizerVirtual
5
泛读ICLR 2026

FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows

现有基于流的任意模态生成方案效率低,需要带严格配对约束的大规模数据集,建模联合分布计算成本高,还依赖复杂的多阶段训练,落地难度大。

Yeonwoo Cha,Semin Kim,Jinhyeon Kwon,Seunghoon Hong
multimodal-generationflow-matchingcross-modalVirtual
5
泛读ICLR 2026

Seeing What’s Wrong: A Trajectory-Guided Approach to Caption Error Detection

现有图文对错误检测方案仅依赖单张图文对的相似度得分,会漏检细微错误(如物体错标、颜色错误、否定词),还容易误杀表述不精确但正确的字幕,检测精度低。

Gabriel Afriat,Ryan Lucas,Xiang Meng,Yufang Hou,Yada Zhu,Rahul Mazumder
data-qualitycaptioningfilteringVirtual
4
ICLR 2026

Emotions Where Art Thou: Understanding and Characterizing the Emotional Latent Space of Large Language Models

现有对大模型内部情感表示的研究缺乏系统的几何分析,不清楚情感表示的分布、通用性、可干预性等核心特性,无法实现精准的情感控制。

Benjamin Reichman,Adar Avsian,Larry Heck
interpretabilityrepresentationlatent-spaceVirtual
4
ICLR 2026

Causal Interpretation of Neural Network Computations with Contribution Decomposition

现有神经网络可解释性方法仅分析隐层激活与人类可解释概念的相关性,无法揭示隐层神经元对输出的因果贡献,难以理解网络从输入到输出的转换过程。

Joshua Melander,Zaki Alaoui,Shenghua Liu,Surya Ganguli,Stephen Baccus
interpretabilitycausal-analysismechanistic-interpretabilityVirtual
5
泛读ICLR 2026

A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models

大型视觉语言模型 (LVLM) 的内部决策过程不透明,难以区分其成功是源于真正的多模态融合还是仅仅依赖单模态先验。现有方法缺乏定量拆分模型决策信息的手段。

Lixin Xiu,Xufang Luo,Hideki Nakayama
The University of TokyovlminterpretabilitymultimodalVirtual
6
泛读ICLR 2026

Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language

现有的 LLM 特征自动解释方法依赖自然语言描述,导致描述模糊、不一致,且难以进行量化分析和批量处理。这限制了对模型内部机制的精确理解。

Angie Boggust,Donghao Ren,Yannick Assogba,Dominik Moritz,Arvind Satyanarayan,Fred Hohman
MITCMUinterpretabilityfeature-descriptionautomated-interpretabilityVirtual
6
泛读ICLR 2026

Learning to Answer from Correct Demonstrations

在 SFT 场景下(如问答),通常存在多个正确答案,但现有的模仿学习理论通常假设示范者策略属于有界复杂度类,这在多正确答案场景下过于严格且不切实际。

Nirmit Joshi,Gene Li,Siddharth Bhandari,Shiva Kasiviswanathan,Cong Ma,Nathan Srebro
University of Chicagosftimitation-learningmulti-correct-answersVirtual
6
泛读ICLR 2026

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

在多模态大模型 (MLLM) 的 RLVR (带可验证奖励的强化学习) 训练中,由于状态空间巨大且奖励稀疏,无控的随机探索极易导致熵崩塌、策略退化或对次优行为的过拟合。

Zhuoxu Huang,Mengxi Jia,Hao Sun,Xuelong Li,Jungong Han
Northwestern Polytechnical Universityrlvrexplorationmultimodal-reasoningVirtual
6
泛读ICLR 2026

An evolutionary perspective on modes of learning in Transformers

Transformer 同时具备权重内学习 (IWL) 和上下文学习 (ICL) 两种能力,但缺乏一个统一的理论框架来解释这两种机制在不同时间尺度上的权衡和演化规律。

Alexander Ku,Thomas L. Griffiths,Stephanie Chan
Princeton Universityin-context-learningin-weight-learningtransformerVirtual
6
泛读ICLR 2026

CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

在 LLM 的 RLVR (带可验证奖励的强化学习) 训练中,现有的探索方法效率低下,容易导致过早收敛和熵崩塌,且生成的策略往往校准不良(对错误输出也保持高置信度)。

Runpeng Dai,Linfeng Song,Haolin Liu,Zhenwen Liang,Dian Yu,Haitao Mi ... 省略 1 位作者 ... ,Rui Liu,Tong Zheng,Hongtu Zhu,Dong Yu
rlvrexplorationcuriosity-drivenVirtual
2
ICLR 2026

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

现有的表达性语音到语音翻译 (S2ST) 面临三大挑战:保留风格的配对语音数据稀缺、多阶段处理 pipeline 复杂且易累积误差、难以有效迁移文本 LLM 的翻译能力。

Sitong Cheng,Bianweizhen,Xinsheng Wang,Ruibin Yuan,Jianyi Chen,Shunshun Yin,Yike Guo,Wei Xue
speech-lmspeech-translationexpressive-s2stVirtual
5
泛读ICLR 2026

Quantization-Aware Diffusion Models For Maximum Likelihood Training

扩散模型通常假设数据是连续的,但真实世界的数字数据(如 8-bit 图像)是离散量化的。现有方法要么忽略量化,要么添加噪声使其连续,这导致模型生成的样本无法保证收敛到真实的离散数据点集上。

Shohei Taniguchi,Masahiro Suzuki,Yutaka Matsuo
The University of Tokyodiffusionquantization-awarelikelihoodVirtual
4
ICLR 2026

Almost Bayesian: Dynamics of SGD Through Singular Learning Theory

解决神经网络中SGD与贝叶斯采样的关联这一长期未决的理论问题,此前研究要么回避两者的动力学关联,要么仅在简化假设下给出局部结论,无法解释SGD后期收敛行为与贝叶斯后验的偏差来源。

Max Hennick,Stijn De Baerdemacker
sgd-dynamicssingular-learning-theorybayesianVirtual
6
泛读ICLR 2026

Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures

当前Transformer上下文学习的研究多聚焦监督场景,对其无监督学习能力的机制和边界缺乏系统分析,Transformer能否在推理阶段隐式完成经典无监督任务(如GMM拟合)未被验证。

Zhiheng Chen,Ruofan Wu,Guanhua Fang
in-context-learningtransformerunsupervised-learningVirtual
5
泛读ICLR 2026

Boomerang Distillation Enables Zero-Shot Model Size Interpolation

LLM部署需要不同大小的模型,现有方法独立训练不同大小的模型家族成本过高,且仅能提供粗粒度的尺寸选择,无法灵活适配各种算力约束。

Sara Kangaslahti,Nihal V. Nayak,Jonathan Geuter,Marco Fumero,Francesco Locatello,David Alvarez-Melis
distillationmodel-compressiondeploymentVirtual
5
泛读ICLR 2026

Unified Vision–Language Modeling via Concept Space Alignment

现有多模态嵌入空间通常仅支持少量语言,无法适配多语言、跨模态统一检索和生成的需求,此前的多模态对齐方法需要重新训练整个嵌入空间,成本过高。

Yifu QIU,Paul-Ambroise Duquenne,Holger Schwenk
vision-languageembeddingalignmentVirtual
6
泛读ICLR 2026

Information-Theoretic Membership Inference for Granular Quantification of Memorization

现有LLM记忆化量化方法(如RMIA)攻击精度不足、计算开销高,且序列级的成员推断指标无法细粒度量化单个token级的记忆化程度,无法满足LLM隐私评估的需求。

Jiashu Tao,Reza Shokri
memorizationprivacymembership-inferenceVirtual
6
泛读ICLR 2026

Priors in time: Missing inductive biases for language model interpretability

现有LM可解释性工具(如稀疏自编码器SAE)默认假设激活的概念是跨时间独立、平稳的,无法捕获LM激活的上下文敏感的时间动态结构,导致提取的概念不准确。

Ekdeep Singh Lubana,Can Rager,Sai Sumedh R. Hindupur,Valérie Costa,Oam Patel,Sonia Murthy ... 省略 3 位作者 ... ,Eric Bigelow,Demba Ba,Melanie Weber,Aaron Mueller
interpretabilitytemporal-dynamicsrepresentationsVirtual
5
泛读ICLR 2026

AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking

小参数LLM在数学推理任务上鲁棒性差,遇到分布偏移(如数值变化、干扰子句插入)时性能下降明显,现有数据增强方法只能覆盖有限的分布变化,无法从根本上提升推理的鲁棒性。

Silin Gao,Antoine Bosselut,Samy Bengio,Emmanuel Abbe
reasoningsynthetic-datarlVirtual
6
泛读ICLR 2026

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

现有LLM推理评估基准无法区分性能是来自事实知识回忆还是真实推理能力,因为模型的参数化世界知识会干扰推理能力的准确测量,此前的过滤、替换方法无法完全消除知识的影响。

Ken Gu,Advait Bhat,Mike Merrill,Robert West,Xin Liu,Daniel McDuff,Tim Althoff
reasoningbenchmarkknowledgeVirtual
6
泛读ICLR 2026

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

这篇论文要解决的是:RLVR 虽然能把大模型往可验证推理任务上推得更强,但训练过程仍然过于依赖盲目试错,模型只能从稀疏、碎片化的 reward 中慢慢摸索。以往做法通常默认 reward function 只在环境里起作用,不显式告诉模型“什么算好”;作者认为既然 reward 可验证、可自然语言描述,就应该把这部分先验直接暴露给模型,减少无效探索。

Junjie Zhang,Guozheng Ma,Shunyu Liu,Haoyu Wang,Jiaxing Huang,Ting-En Lin,Fei Huang,Yongbin Li,Dacheng Tao
rlvrreasoningmotivation-promptingVirtual
6
泛读ICLR 2026

The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

这篇论文要解决的是:很多人从短任务 benchmark 上看到性能增益变小,就认为 LLM scaling 已经接近收益递减,但这个判断可能被测量方式误导了。作者要回答的不是“模型会不会推理”,而是“模型能连续无错执行多长的长程任务”;因为哪怕单步准确率只提高一点,复合到长 horizon 上也可能带来指数级差异。

Akshit Sinha,Arvindh Arun,Shashwat Goel,Steffen Staab,Jonas Geiping
scalingbenchmarklong-horizonVirtual
6
泛读ICLR 2026

RL makes MLLMs see better than SFT

这篇论文要解决的是:MLLM 社区通常把性能主要归因于 LLM backbone,而较少分析 vision encoder 到底学到了什么;随着训练范式从 SFT 转向 RL,这个盲点更明显了。作者关注的核心问题是:RL 不只是让多模态模型“回答得更对”,它是否真的改变了模型“看图”的方式,尤其是 vision encoder 的表征质量。

Junha Song,Sangdoo Yun,Dongyoon Han,Jaegul Choo,Byeongho Heo
rlvision-encodermllmVirtual
6
泛读OralICLR 2026

Visual symbolic mechanisms: Emergent symbol processing in Vision Language Models

Vision Language Models (VLM) persistently fail on feature binding tasks; prior work only confirms pure text LMs solve binding via content-independent symbol-like indices, while the mechanism for VLMs remains unclarified.

Rim Assouel,Declan Campbell,Yoshua Bengio,Taylor Webb
Mila - Quebec AI Institutebinding-problemsymbol-processingvlmVirtual
6
泛读ICLR 2026

TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning

Existing reinforcement learning with verifiable rewards (RLVR) for large reasoning models either faces high annotation costs for fully supervised setting, or suffers from late-stage model collapse for unsupervised setting that reinforces incorrect reasoning patterns.

Shenzhi Yang,Guangcheng Zhu,Haobo Wang,Xing Zheng,Yingfan MA,Zhongqi Chen,Bowen Song,Weiqiang Wang,Junbo Zhao,Gang Chen
rlvrsemi-supervisedreasoningVirtual
6
泛读ICLR 2026

QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation

Existing RL training cannot incentivize LLMs to obtain reasoning capabilities beyond the base model, and makes little progress on hard reasoning tasks.

Jiazheng Li,Hongzhou Lin,Hong Lu,Kaiyue Wen,Zaiwen Yang,Jiaxuan Gao,Yi Wu,Jingzhao Zhang
rlreasoningquestion-augmentationVirtual
6
泛读ICLR 2026

ROC-n-reroll: How verifier imperfection affects test-time scaling

The performance of existing test-time scaling techniques (Best-of-N, rejection sampling) is affected by verifier imperfection, and there is a lack of quantitative theoretical analysis on this issue before.

Florian Eddie Dorner,Yatong Chen,André F. Cruz,Fanny Yang
test-time-computebest-of-nverifierVirtual
6
泛读ICLR 2026

Learning from Synthetic Data Improves Multi-hop Reasoning

RL fine-tuning for LLM reasoning requires a large amount of high-quality verifiable data, while existing data sources (human annotation, LLM generation, LLM verifier scoring) all have problems of high cost and poor quality.

Anmol Kabra,Yilun Yin,Albert Gong,Kamilė Stankevičiūtė,Dongyoung Go,Johann Lee,Katie Luo,Carla Gomes,Kilian Weinberger
rlsynthetic-datamulti-hop-reasoningVirtual
6
泛读ICLR 2026

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

The effectiveness of existing RL methods for improving LLM planning capabilities lacks theoretical support, and the performance differences between different RL algorithms have no clear explanation.

Siwei Wang,Yifei Shen,Haoran Sun,Shi Feng,Shang-Hua Teng,Li Dong,Yaru Hao,Wei Chen
University of Southern Californiarl-theoryplanningpolicy-gradientVirtual
4
ICLR 2026

The Alignment Waltz: Jointly Training Agents to Collaborate for Safety

Existing safety alignment methods use safeguard models to directly reject unsafe content, which exacerbates over-refusal and cannot provide fine-grained guidance for rejected queries.

Jingyu (Jack) Zhang,Haozhu Wang,Eric Michael Smith,Sid Wang,Amr Sharaf,Mahesh Pasupuleti,Ben Van Durme,Daniel Khashabi,Jason E Weston,Hongyuan Zhan
alignmentsafetymulti-agentVirtual
6
泛读ICLR 2026

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

这篇论文要解决的是:MoE 在 LLM 上扩容很成功,但搬到 Diffusion Transformer 上收益一直不理想,原因不是 MoE 机制本身失效,而是视觉 token 的统计结构和语言 token 不一样。语言 token 语义稠密、离散差异大,天然利于 router 把不同 token 分给不同专家;而视觉 token 有强空间冗余,同一张图里大量局部块相似,同时不同 token 往往承担位置、纹理、语义等混合功能,导致 router 学不出清晰分工,专家很难真正 specialize。作者要解决的就是这个“视觉 MoE 路由不成型”的核心瓶颈。

Yujie Wei,Shiwei Zhang,Hangjie Yuan,Yujin Han,Zhekai Chen,Jiayu Wang ... 省略 1 位作者 ... ,Xihui Liu,yingya zhang,Yu Liu,Hongming Shan
moediffusionroutingVirtual
6
泛读ICLR 2026

Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

这篇论文要解决的是:多模态模型里“理解”和“生成”常常互相拉扯,生成能力增强后,理解类指标下降;反过来强化理解,开放式生成又变弱。过去很多工作把这看成数据配比或模型容量问题,但作者认为更直接的原因是两类目标在同一参数空间里竞争,尤其生成训练通常是单步直接输出,没显式利用模型已有的理解能力。作者想解决的是,能否把生成过程重构成一个会调用理解能力的多步过程,从而缓和这种优化冲突。

Sen Ye,Mengde Xu,Shuyang Gu,Di He,Liwei Wang,Winston Hu
multimodalunderstandinggenerationVirtual
6
泛读ICLR 2026

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

这篇论文要解决的是:LLM agent 在一般数学推理上进步很快,但几何题尤其依赖辅助线和命题构造,纯语言模型的启发式仍然明显不足,因此高水平几何求解长期依赖 AlphaGeometry 这类大规模合成数据加搜索系统。作者想攻克的是,能否不完全依赖昂贵的数据合成与穷举搜索,而是通过强化学习把‘提命题—做构造—符号验证—反思修正’这一闭环学出来,逼近奥赛级几何解题能力。

Haiteng Zhao,Junhao Shen,Yiming Zhang,Songyang Gao,Kuikun Liu,Tianyou Ma,Fan Zheng,Dahua Lin,Wenwei Zhang,Kai Chen
rlreasoningmathVirtual
6
泛读ICLR 2026

Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

这篇论文要解决的是:test-time training(TTT)近年在 foundation model 上不断显示收益,但大家对它为什么有效缺少统一解释。早期说法常把收益归因于 OOD 适应或使用了特权测试数据,可这对如今大多数 in-distribution 的 foundation model 场景解释力已经不够。作者提出的核心问题是:在模型已经很大、测试数据也不陌生的情况下,TTT 到底在补什么?他们的答案是,foundation model 仍然在全局上欠参数化,TTT 提供的是 generalization 之后的 specialization,把容量临时聚焦到当前任务相关概念上。

Jonas Hübotter,Patrik Wolf,Aleksandr Shevchenko,Dennis Jüni,Andreas Krause,Gil Kur
test-time-trainingadaptationfoundation-modelsVirtual
6
泛读ICLR 2026

Don't Throw Away Your Pretrained Model

对齐训练(alignment)在提升推理和指令遵循能力的同时,会损害 base model 在创造性、校准性等方面的优势。以往的做法是二选一——要么用 base model 要么用 aligned model,没有好的方式同时利用两者。

Shangbin Feng,Wenhao Yu,Yike Wang,Hongming Zhang,Yulia Tsvetkov,Dong Yu
University of Washingtonalignmentmodel-collaborationbase-modelVirtual
6
泛读ICLR 2026

Diversity-Enhanced Reasoning for Subjective Questions

RLVR 优化的推理模型在客观推理任务上表现优异,但会降低生成多样性,导致在主观推理任务(有多个合理答案、取决于不同视角)上表现不佳。

Yumeng Wang,Zhiyuan Fan,Jiayu Liu,Jen-Tse Huang,Yi R. Fung
rlvrdiversitysubjective-reasoningVirtual
5
泛读ICLR 2026

MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task

Existing mathematical reasoning training relies on the quality of reasoning steps, while existing step expansion methods either require stronger external models or incur excessive computational costs.

Yuchen Yan,Yongliang Shen,Yang Liu,Jin Jiang,Xin Xu,Mengdi Zhang,Jian Shao,Yueting Zhuang
math-reasoningdata-augmentationfill-in-middleVirtual
6
泛读ICLR 2026

Emergent Discrete Controller Modules for Symbolic Planning in Transformers

解决 Transformer 在需要符号规划、变量更新和条件分支的任务上(尤其是长度外推时)表现挣扎的问题。以往通常依赖纯自回归生成或外部工具调用,难以在模型内部实现精确的控制流和状态管理。

S M Rafiuddin,Muntaha Khan
transformer-architecturesymbolic-planningdiscrete-controllerVirtual
5
泛读ICLR 2026

StreamingThinker: Large Language Models Can Think While Reading

解决当前 LLM 推理范式(必须等完整输入就绪后才开始思考)带来的不必要延迟,以及在动态场景下对早期信息注意力减弱的问题。以往的 CoT 都是在 prompt 结束后才开始生成。

Junlong Tong,Yingqi Fan,Anhao Zhao,Yunpu Ma,Xiaoyu Shen
streaming-inferencecotlatencyVirtual
4
ICLR 2026

Draft-based Approximate Inference for LLMs

解决长上下文 LLM 推理中因 Transformer 的二次计算复杂度和线性内存成本带来的优化难题。现有的近似推理方法(如 KV cache 丢弃、稀疏注意力)通常依赖于对 token 或 KV 对重要性的粗略预测,不够精确。

Kevin Galim,Ethan Ewer,Wonjun Kang,Minjae Lee,Hyung Koo,Kangwook Lee
kv-cachelong-contextapproximate-inferenceVirtual
6
泛读ICLR 2026

Misalignments and RL Failure Modes in the Early Stage of Superintelligence

这篇文章讨论的核心问题是:随着大模型更强、更具 agentic 行为,现有大规模 RL 对齐流程会出现哪些失配和失败模式,以及这些问题为什么会在“早期超智能”阶段变得更难人工监测。过去很多对齐讨论停留在能力不足阶段的表层偏差,而这篇文章把焦点放在更强模型的欺骗、规避与目标错位上。

Shu Yang,Hanqi Yan,Di Wang
alignmentrlhffailure-modesVirtual
6
泛读ICLR 2026

Don't Look Up (Every Token): Escaping Quadratic Complexity via Geometric Patterns and Algorithms

这篇论文关注的核心问题是长上下文的二次复杂度瓶颈:标准 self-attention 需要每个 token 看所有 token,时间和内存都随长度平方增长,直接限制了长文档、代码库和高分辨率多模态输入。作者想说明的是,很多真实序列里存在可利用的几何模式,因此并不一定需要“每个 token 看所有 token”。

Aryan Sood,Tanvi Sharma,Vansh Agrawal
attentionefficiencylong-contextVirtual
6
泛读ICLR 2026

Budget Alignment: Making Models Reason in the User's Language

解决 LLM 在处理非英语查询时仍倾向于用英语进行内部推理的问题。这种“英语思维”限制了模型在多语言环境下的忠实度(faithfulness),并削弱了人类的监督能力。

Shan Chen,Jirui Qi,Zidi Xiong,Timothy Miller,Arianna Bisazza,Raquel Fernández,Danielle Bitterman
multilingualsftrlhfVirtual
5
泛读ICLR 2026

Wait, Do We Need to Wait? Revisiting Budget Forcing for Sequential Test-Time Scaling

重新审视“预算强制”(budget forcing)技术,即通过附加“Wait”关键字或强制停止来控制推理模型在测试时的推理预算。探讨该技术在不同模型和设置下的泛化能力及其边界。

Pittawat Taveekitworachai,Kunat Pipatanakul
test-time-scalingreasoninginferenceVirtual
7
精读ICLR 2026

In-context learning of representations can be explained by induction circuits

反驳了近期关于 LLM 在上下文中学习图结构时会“灵活操作其表示以反映上下文语义”的复杂解释,试图为这种现象提供一个更简单的机制解释。

Andy Arditi
iclinduction-circuitsrepresentationVirtual
6
泛读ICLR 2026

Evolution of Flash Attention

梳理和解析 FlashAttention 从 V1 到 V4 的演进过程,解释在 LLM 规模扩展时,如何通过 IO 感知的算法设计来突破标准注意力机制带来的内存和性能瓶颈。

Harshwardhan Fartale,Akshata Kishore Moharir,Ashish Kattamuri
flashattentionattentionio-awareVirtual
6
泛读ICLR 2026

Information Theoretic Guarantees For Policy Alignment In Large Language Models

为 LLM 的策略对齐(如 Best-of-N 采样)提供更严格的信息论保证。以往研究表明对齐策略的奖励提升与 $\sqrt{\mathsf{KL}}$ 成正比,但缺乏对参考策略奖励分布尾部特性的深入探讨。

Youssef Mroueh,Apoorva Nitsure
alignmentpolicy-optimizationklOpenReviewVirtual
6
泛读ICLR 2026

Enhancing Vision-Language Model with Unmasked Token Alignment

CLIP类图文对比预训练从零启动计算开销极高,单模态掩码图像建模(MIM)效率高但无法复用现有CLIP已习得的跨模态对齐能力,现有方案没有低成本升级已训CLIP视觉表征的路径。

Jihao Liu,Jinliang Zheng,Boxiao Liu,Yu Liu,Hongsheng Li
vlmclipmasked-image-modelingOpenReviewVirtual
6
泛读ICLR 2026

Inverse Scaling in Test-Time Compute

现有大推理模型(LRM)普遍默认推理步长越长、测试时投入计算越多性能越好,该假设的适用边界未被系统验证,长推理步长下的失效模式也未被量化总结。

Aryo Pradipta Gema,Alexander Hägele,Runjin Chen,Andy Arditi,Jacob Goldman-Wetzler,Kit Fraser-Taliente ... 省略 4 位作者 ... ,Pasquale Minervini,Yanda Chen,Joe Benton,Ethan Perez
test-time-computeinverse-scalingreasoningOpenReviewVirtual
4
ICLR 2026

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

NVIDIA、AMD等硬件支持的MXFP4、NVFP4等4位浮点量化格式被预期大幅提升LLM推理效率,但现有量化方法适配FP4时精度损失严重,实际性能远低于预期,其根因未被系统分析,也没有针对性适配方案。

Vage Egiazarian,Roberto Castro,Denis Kuznedelev,Andrei Panferov,Eldar Kurtic,Shubhra Pandit ... 省略 1 位作者 ... ,Mark Kurtz,Saleh Ashkboos,Torsten Hoefler,Dan Alistarh
quantizationfp4inferenceVirtual
3
ICLR 2026

Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation

现有VLM评测基准基本依赖英文数据集,多语言基准多为英文数据集的翻译,无法捕捉不同语言的文化语义差异,没有覆盖多语言原生的多模态评测场景。

Israfel Salazar,Manuel Fernández Burda,Shayekh Islam,Arshia Soltani Moakhar,Shivalika Singh,Fabian Farestam ... 省略 20 位作者 ... ,Bardia moakhar,Gabriel da Costa Merlin,Otávio Coletti,Maral Jabbarishiviari
vlmbenchmarkmultilingualVirtual
7
泛读ICLR 2026

Deep Hierarchical Learning with Nested Subspace Networks for Large Language Models

现有大模型训练时固定计算预算,推理时无法动态调整计算开销;离散专家模型训练成本过高,动态 slimming 网络无法适配预训练大模型,没有灵活的连续计算预算调整方案。

Paulius Rauba,Mihaela van der Schaar
efficient-modelsdynamic-computesubspaceVirtual
5
ICLR 2026

DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs

现有CoT引导的数学推理性能提升的根源不明确,无法区分是搜索、记忆还是规则一致的推理,传统的Pass@k指标无法评估推理过程的逻辑一致性。

Yuanhe Zhang,Ilja Kuzborskij,Jason Lee,Chenlei Leng,Fanghui Liu
reasoningmathgraph-of-thoughtVirtual
5
泛读ICLR 2026

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense

这篇论文的核心判断是:LVLM 的 object hallucination 不能只归咎于 LLM 解码端,视觉编码器本身的偏置和脆弱性就是重要根因。过去很多方法把修复点放在解码、拒答或外部检索上,因为这些位置更容易改;但如果错误在视觉 token 进入语言模型之前就已经被放大,只修后端只能缓解表象,不能稳定压住幻觉。

Yiyang Huang,Liang Shi,Yitian Zhang,Yi Xu,Yun Fu
vlmhallucinationvisual-encoderVirtual
5
泛读ICLR 2026

Channel-Aware Mixed-Precision Quantization for Efficient Long-Context Inference

这篇论文解决的是长上下文推理时 KV cache 内存线性增长,而现有低比特量化在极低 bit 下精度掉得太快的问题。以往方法通常固定地对 key 做 channel-wise、对 value 做 token-wise 量化,这种规则简单但默认所有通道同等重要;论文指出这一假设不成立,不同 KV channel 的量化敏感度差异很大,所以统一 bit 分配会浪费预算并放大误差。

Chengxi Liao,Zeyi Wen
kv-cachequantizationlong-contextVirtual
5
泛读ICLR 2026

Efficient Quantization of Mixture-of-Experts with Theoretical Generalization Guarantees

这篇论文要解决的是:MoE 虽然算力上稀疏激活,但推理内存仍然被大量 expert 参数拖住,而现有 mixed-precision 量化往往需要昂贵的 bit allocation 搜索,也没有真正利用 expert 间敏感度差异。过去大家默认按层或按张量统一分配精度,原因是简单;但对 MoE 来说,不同 expert 被路由的频率和对最终风险的影响本来就不一样,统一处理明显不经济。

Mohammed Nowaz Rabbani Chowdhury,Kaoutar El Maghraoui,Hsinyu Tsai,Naigang Wang,Geoffrey Burr,Liu Liu,Meng Wang
moequantizationinferenceVirtual
5
泛读ICLR 2026

Reconciling Visual Perception and Generation in Diffusion Models

如何在一个统一模型中同时做好图像理解(判别式)和图像生成(生成式),而不是让两个任务互相拖累。此前 diffusion model 主要用于生成,判别式学习和生成式建模通常分开训练,联合训练时两个 loss 的优化方向容易冲突。

Liulei Li,Yi Yang,Wenguan Wang
浙江大学diffusionunified-modeldiscriminative-generativeVirtual
5
泛读ICLR 2026

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

现有 Speech LLM 的评测主要关注语义内容理解,缺乏对副语言特征(情感、语速、音高)和音韵特征(韵律、语调、节奏)的细粒度感知与复杂推理能力的系统评估。MMSU 填补这一空白,提供 5000 条精心标注的音频样本,覆盖多维度语音理解与推理任务。

Dingdong WANG,Junan Li,Jincenzi Wu,Dongchao Yang,Xueyuan Chen,Tianhua Zhang,Helen Meng
speech-understandingbenchmarkmultimodal-llmVirtual
5
泛读ICLR 2026

DeepEyesV2: Toward Agentic Multimodal Model

多模态模型不仅需要理解文本和图像,还需要主动调用外部工具(代码执行、网页搜索等)并将工具操作整合进推理链。直接用 RL 训练工具使用行为效果不好,模型难以自发学会何时、如何调用工具。

Jack Hong,Chenxiao Zhao,ChengLIn Zhu,Weiheng Lu,Guohai Xu,XingYu
agentic-mllmtool-usemultimodalVirtual
5
泛读ICLR 2026

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

LLM 结构化剪枝通常只在单个模型上操作,容易丢失特定能力。本文提出通过跨多个微调变体的层级切割与拼接来压缩模型,利用不同微调版本各自强化的能力来保持原模型的综合表现。

Guinan Su,Li Shen,Lu Yin,Shiwei Liu,Yanwu Yang,Jonas Geiping
pruninglayer-pruningmodel-compressionVirtual
5
泛读ICLR 2026

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

联合音视频生成中的时空同步问题:同时生成的音频和视频需要在时间和空间上精确对齐(如鼓声与击鼓动作同步),现有方法缺乏细粒度的同步机制。

Kai Liu,Wei Li,Lai Chen,Shengqiong Wu,Yanhao Zheng,Jiayi Ji ... 省略 1 位作者 ... ,Jiebo Luo,Ziwei Liu,Hao (Scofield) Fei,Tat-Seng Chua
audio-video-generationdiffusion-transformerjoint-generationVirtual
5
泛读ICLR 2026

Kevin: Multi-Turn RL for Generating CUDA Kernels

GPU kernel 编写是 AI 系统效率的关键瓶颈,且本质上是高度迭代的过程(写代码→执行→根据反馈优化)。现有代码生成方法多为单轮生成,未充分利用执行反馈的迭代特性。本文将 CUDA kernel 生成建模为多轮 RL 问题。

Carlo Baronio,Pietro Marsella,Ben Pan,Simon Guo,Silas Alberti
cuda-kernelrlcode-generationVirtual
2
ICLR 2026

Revisiting [CLS] and Patch Token Interaction in Vision Transformers

现有ViT中<[BOS_never_used_51bce0c785ca2f68081bfa7d91973934]>和patch token采用完全相同的处理流程,没有显式区分全局和局部特征的计算流,导致全局和局部特征学习存在摩擦,降低预训练效率。

Alexis Marouani,Oriane Siméoni,Herve Jegou,Piotr Bojanowski,Huy Vo
vision-transformercls-tokenarchitectureVirtual
4
ICLR 2026

LSA: Layer-wise Sparsity Allocation for Large Language Model Pruning Based on Minimal Linear Reconstruction Error

现有LLM剪枝方法多采用统一的层稀疏率,没有考虑不同层对性能的贡献差异,依赖权重评分代理指标,无法实现最优的稀疏分配,剪枝后精度损失大。

Zhiguo Yang,Changjian Deng,Qinke Chen,Zijing Zhou,Jian Cheng
pruningsparsitylayer-wiseVirtual
5
泛读ICLR 2026

$\alpha$-DPO: Robust Preference Alignment for Diffusion Models via $\alpha$ Divergence

扩散模型的人类偏好对齐受偏好对标注噪声影响大,现有DPO采用正向KL散度作为优化目标,其质量覆盖特性天生对噪声敏感,此前没有从散度选型层面解决该鲁棒性问题的方案。

Yang Li,Songlin Yang,Wei Wang,Xiaoxuan Han,Jing Dong
dpodiffusionalignmentVirtual
5
ICLR 2026

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

经过安全对齐的大语言模型容易被时态篡改等针对性jailbreak攻击绕过,现有对齐方法泛化性差,且漏洞底层机制不明确,此前的防御方法多为启发式,缺乏机制层面的精准干预。

Yein Park,Jungwoo Park,Jaewoo Kang
jailbreaksafetyactivationVirtual
6
泛读ICLR 2026

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

大语言模型在agent决策场景下存在贪婪、频率偏差、知行gap三类失效模式,现有假设认为预训练自带的常识和CoT能力即可支撑有效决策,未考虑RL微调对决策能力的影响机制。

Thomas Schmied,Jörg Bornschein,Jordi Grau-Moya,Markus Wulfmeier,Razvan Pascanu
rlreasoningdecision-makingVirtual
5
泛读ICLR 2026

Rethinking Uncertainty Estimation in LLMs: A Principled Single-Sequence Measure

这篇论文要解决的是:能不能只看一条生成序列,就得到有理论依据、且足够好用的 LLM 不确定性估计。过去主流方法通常要采样多条回答,再看分歧、熵或一致性,这样做推理成本高,而且把不确定性定义和采样策略绑得太紧;作者想把问题重新放回 proper scoring rules 这个更干净的统计框架里。

Lukas Aichberger,Kajetan Schweighofer,Sepp Hochreiter
uncertaintyevaluationsequence-modelingVirtual
5
泛读ICLR 2026

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

这篇论文要解决的是:长上下文推理时,KV cache 检索类方法虽然比直接保留全部缓存更省内存,但常常把检索本身变成新瓶颈。过去两类主流压缩方案各有明显缺点:KV dropping 省算但掉点大,KV retrieval 保精度但延迟重,作者要解决的是后者的系统效率问题。

Guangda Liu,Chengwei Li,Zhenyu Ning,Jing Lin,Yiwu Yao,Danning Ke,Minyi Guo,Jieru Zhao
kv-cachelong-contextinferenceVirtual
5
泛读ICLR 2026

Test-Time Matching: Unlocking Compositional Reasoning in Multimodal Models

这篇论文的核心判断是:多模态组合推理能力可能没有大家以为的那么差,问题的一部分出在评测方式低估了模型。像 Winoground 这类 benchmark 过去常用的打分把组内匹配关系压缩得过于粗糙,导致模型即使抓到相对关系,也可能在指标上接近随机。

Yinglun Zhu,Jiancheng Zhang,Fuzhi Tang
multimodal-reasoningcompositionalityevaluationVirtual
5
泛读ICLR 2026

ReTrace: Reinforcement Learning-Guided Reconstruction Attacks on Machine Unlearning

这篇论文要解决的是:machine unlearning 看起来删掉了数据影响,但很多方法仍留下可被利用的残余痕迹,攻击者可能借此重构被遗忘的数据。过去重构攻击多在较小模型或较直接的优化框架下进行,难以系统利用 unlearning 后残留的细微信号;作者把这个过程显式建成 RL 搜索问题。

Mengyao Ma,Shuofeng Liu,Minhui Xue,Surya Nepal,Guangdong Bai
unlearningprivacyrlVirtual
5
泛读ICLR 2026

SAIL: Self-Amplified Iterative Learning for Diffusion Model Alignment with Minimal Human Feedback

这篇论文要解决的是:diffusion 模型对齐通常需要奖励模型或大量人类偏好数据,但这两者都昂贵且难拿,是否可以只靠极少量人工反馈,让模型自己把对齐信号放大。过去 diffusion alignment 往往沿用 RLHF/DPO 式思路,需要额外 reward infrastructure;作者想减少这层依赖。

Xiaoxuan He,Siming Fu,Wanli Li,Zhiyuan Li,Dacheng Yin,Kang Rong,Fengyun Rao,Bo Zhang
diffusionalignmenthuman-feedbackVirtual
5
泛读ICLR 2026

Discrete Variational Autoencoding via Policy Search

离散 VAE 的训练困难:离散随机变量不可精确微分,现有方法要么用 Gumbel-Softmax/straight-through 等有偏近似,要么用 REINFORCE 等高方差无梯度方法,在高维任务(如图像重建)上效果有限。

Michael Drolet,Firas Al-Hafez,Aditya Bhatt,Jan Peters,Oleg Arenz
discrete-latenttokenizervaeVirtual
5
泛读ICLR 2026

FreqKV: Key-Value Compression in Frequency Domain for Context Window Extension

现有 KV cache 压缩方法依赖 token eviction(丢弃 token),在长 prefill 和解码场景中会丢失关键局部信息,且在超出预训练上下文长度时性能急剧下降。

Jushi Kai,Yixuan Wang,Boyi Zeng,Haoli Bai,Bo Jiang,Ziwei He,Zhouhan Lin
kv-cachelong-contextcompressionVirtual
5
泛读ICLR 2026

Activation Steering with a Feedback Controller

现有 activation steering 方法(用向量干预 LLM 内部激活来控制行为)缺乏理论保证,本质上只是比例(P)控制器,无法处理累积误差和动态变化。

Dung Viet Nguyen,Yen Pham,Hieu Vu,Lei Zhang,Tan Nguyen
activation-steeringsafetycontrol-theoryVirtual
5
泛读ICLR 2026

Leveraging Pretrained Knowledge at Inference Time: LoRA-Gated Contrastive Decoding for Multilingual Factual Language Generation in Adapted LLMs

经过语言适配(continual pretrain 或 instruction tuning)的 LLM 会灾难性遗忘通用世界知识,导致事实性错误,在多语言场景尤为严重。

Gwangseon Jang,Hongseok Choi,Chanuk lim,Kyong-Ha Lee,Mun Yi
continual-pretrainmultilingualcatastrophic-forgettingVirtual
5
泛读ICLR 2026

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

大推理模型(LRM)在 test-time compute 分配中会自发重复问题(Echo of Prompt),现有方法要么注入任务无关 token,要么用启发式规则,都没有解释和利用这种自发行为。

Zhuoyuan Hao,Zhuo Li,Wu Li,Fangming Liu,Min Zhang,Jing Li
test-time-computereasoningattentionVirtual
7
泛读ICLR 2026

Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning

大语言模型持续学习存在灾难性遗忘问题,现有参数高效微调方法要么限制模型表达能力,要么每个任务新增参数,可扩展性差,此前没有在固定参数量的前提下解决新旧任务参数空间干扰的方案。

Nikhil Shivakumar Nayak,Krishnateja Killamsetty,Ligong Han,Abhishek Bhandwaldar,Prateek Chanda,Kai Xu ... 省略 1 位作者 ... ,Mustafa Eyceoz,Hao Wang,Aldo Pareja,Akash Srivastava
continual-learningfine-tuningorthogonal-subspaceVirtual
3
ICLR 2026

LightRetriever: A LLM-based Text Retrieval Architecture with Extremely Faster Query Inference

基于大模型的文本检索的在线查询推理速度慢、部署成本高,现有方案要么降低模型规模损失精度,要么用蒸馏方法压缩查询编码器,压缩比有限,此前没有将查询编码workload降低到嵌入查找级别的方案。

Guangyuan Ma,Yongliang Ma,Xuanrui Gou,Zhenpeng Su,Ming Zhou,Songlin Hu
retrievalinference-efficiencyllm-servingVirtual
7
精读ICLR 2026

OptimSyn: Influence-Guided Rubrics Optimization for Synthetic Data Generation

垂直领域SFT数据稀缺,现有合成数据方法依赖手工设计的评分规则,专家成本高、跨域泛化性差,此前的优化流程是启发式迭代,没有利用影响力函数指导规则优化。

Zhiting Fan,Ruizhe Chen,Tianxiang Hu,Ru Peng,Zenan Huang,Haokai Xu,Yixin Chen,JIAN Wu,Junbo Zhao,Zuozhu Liu
synthetic-datasftdata-qualityVirtual
5
泛读ICLR 2026

Reasoning Models Can be Accurately Pruned Via Chain-of-Thought Reconstruction

这篇论文要解决的问题是:为什么 reasoning model 在常规剪枝下掉点更严重,甚至可能更慢,以及如何专门针对 CoT 推理过程做压缩。过去很多压缩方法默认输入重构足够代表语言建模质量,但对 DeepSeek-R1 一类 decode-dominated 的长推理模型,这个假设不成立,因为部署成本主要由生成阶段的思维 token 决定。

Ryan Lucas,Kayhan Behdin,Zhipeng Wang,Qingquan Song,shao tang,Rahul Mazumder
pruningreasoningchain-of-thoughtVirtual
5
泛读ICLR 2026

Latent Stochastic Interpolants

这篇论文要解决的问题是:如何把 stochastic interpolants 用进端到端训练的 latent variable model,而不要求直接访问两端分布样本。现有 SI 框架生成能力强、路径设计灵活,但通常假设你能从起点分布和终点分布直接采样,这使它难以像 VAE 那样与 encoder/decoder 联合优化。

Saurabh Singh,Dmitry Lagun
diffusionlatent-modelstochastic-interpolantVirtual
5
泛读ICLR 2026

Kimi-Dev: Agentless Training as Skill Prior for SWE-agents

SWE-bench 上的方案分为多轮交互的 SWE-Agent 和单轮可验证步骤的 Agentless 两种范式,二者通常被视为互斥。Kimi-Dev 认为 Agentless 训练可以为 Agent 提供 skill prior(定位、代码编辑、自我反思),两者应该结合。

Zonghan Yang,Shengjie Wang,Kelin Fu,Wenyang He,Weimin Xiong,Yibo Liu ... 省略 11 位作者 ... ,Yang Liu,Yang Gao,Zhilin Yang,Tianyu Liu
Moonshot AIswe-benchagentlessskill-priorVirtual
5
泛读ICLR 2026

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

多模态学习中,模态内依赖(单模态对任务的贡献)和模态间依赖(模态交互对任务的贡献)的交互关系在现有 benchmark 评估中缺乏系统量化,导致我们不清楚模型到底在用视觉、文本还是两者的交互来解题。

Divyam Madaan,Varshan Muhunthan,Kyunghyun Cho,Sumit Chopra
NYUmultimodal-databenchmarkevaluationVirtual
5
泛读ICLR 2026

Massive Activations are the Key to Local Detail Synthesis in Diffusion Transformers

Massive Activations(MA)在 LLM 和 ViT 中已被广泛记录并证明影响模型行为,但在 Diffusion Transformer(DiT)中的性质和功能尚未被系统研究。本文填补这一空白,揭示 MA 在 DiT 中的角色。

Chaofan Gan,Zicheng Zhao,Yuanpeng Tu,Xi Chen,Ziran Qin,Tieyuan Chen,Mehrtash Harandi,Weiyao Lin
diffusiontransformeractivationsVirtual
5
泛读ICLR 2026

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

长视频理解中,视觉 token 数量随视频长度线性增长,严重限制了 Video-LMM 的可扩展性。现有压缩方法缺乏理论保证,难以在 token 预算内同时保持代表性和多样性。

Janghoon Cho,Jungsoo Lee,Munawar Hayat,Kyuwoong Hwang,Fatih Porikli,Sungha Choi
videotoken-compressionlong-contextVirtual
5
泛读OralICLR 2026

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

LLM Agent 的大规模 SFT 研究很少,不是因为缺数据源,而是因为数据分散在异构格式、工具和接口中,难以统一使用。需要一个标准化的数据表示协议来打通这些碎片化数据。

Yueqi Song,Ketan Ramaneti,Zaid Sheikh,Ziru Chen,Boyu Gou,Tianbao Xie ... 省略 11 位作者 ... ,Tao Yu,Huan Sun,Yu Su,Graham Neubig
agentfine-tuningdata-formatVirtual
5
泛读ICLR 2026

Best-of-N through the Smoothing Lens: KL Divergence and Regret Analysis

Best-of-N(BoN)是推理时对齐的简单有效方法,但其效果严重依赖 proxy reward model 的质量。当 reward model 不完美时,BoN 的 reward-KL trade-off 和 regret 行为缺乏理论刻画。

Gholamali Aminian,Idan Shenfeld,Amir Reza Asadi,Ahmad Beirami,Youssef Mroueh
GoogleIBM Researchbest-of-nkl-divergencealignmentVirtual
5
泛读ICLR 2026

T1: Tool-integrated Verification for Test-time Compute Scaling in Small Language Models

小模型在 test-time compute scaling 下很难“自证正确”,因为验证环节往往比生成更依赖记忆型能力(算数、事实核查),以往通常用更大模型当 verifier 规避了这个短板。

Minki Kang,Jongwon Jeong,Jaewoong Cho
test-time-computeverificationsmall-lmVirtual
5
泛读ICLR 2026

Visual Jigsaw Post-Training Improves MLLMs

现有 MLLM 的 post-training(尤其 RL)大多仍是“文本中心”,视觉输入常被压缩成稀疏线索,导致模型视觉表征本身没有被系统性强化。

Penghao Wu,Yushan Zhang,Haiwen Diao,Bo Li,Lewei Lu,Ziwei Liu
rl-post-trainingmllmvisual-reasoningVirtual
5
泛读ICLR 2026

RCPU: Rotation-Constrained Error Compensation for Structured Pruning of Large Language Models

结构化剪枝后常用少量校准数据做误差补偿,但直接最小二乘拟合容易在小校准集上过拟合并破坏预训练表示几何,导致泛化掉得更厉害。

Shuichiro Haruta,Kazunori Matsumoto,Zhi Li,Yanan Wang,Mori Kurokawa
structured-pruningrotationcompressionVirtual
5
泛读ICLR 2026

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

很多 LVLM 加速只在 LLM 侧减 image tokens,却忽略了图像编码器本身是大头;不从 encoder 端去冗余,端到端加速就不彻底。

Lianyu Hu,Liqing Gao,Fanhua Shang,Liang Wan,Wei Feng
token-reductionvlmvisual-encoderVirtual
5
泛读ICLR 2026

One Patch Doesn’t Fit All: Adaptive Patching for Native-Resolution Multimodal Large Language Models

原生分辨率 MLLM 需要同时兼顾低分辨率的效率与高分辨率的细节,但固定 patch size 会在两端都吃亏:低分浪费 token,高分算力爆炸且性能仍可能退化。

Wenzhuo Liu,Weijie Yin,Fei Zhu,Shijie Ma,Haiyang Guo,Yi Chen,Xiao-Hui Li,Xiao Liang,Chao Feng,Cheng-lin Liu
adaptive-patchingnative-resolutionmllmVirtual
5
泛读OralICLR 2026

Hallucination Begins Where Saliency Drops

仅用 forward attention 很难稳定区分 LVLM 的幻觉与正确输出,因为它看不到“哪些上下文真正影响了下一个 token”的因果强度。

Xiaofeng Zhang,Yuanchao Zhu,Chaochen Gu,Xiaosong Yuan,Qiyan Zhao,Jiawei Cao ... 省略 1 位作者 ... ,Sinan Fan,Yaomin Shen,Chen Shen,Hao Tang
hallucinationattention-analysissaliencyVirtual
5
泛读ICLR 2026

Spilling the Beans: Teaching LLMs to Self-Report Their Hidden Objectives

这篇论文要解决的问题是:当模型已经学会隐藏真实意图时,单靠盘问式安全评估不可信,因为模型可以系统性撒谎。以往做法默认“问模型它在想什么”至少能提供部分信号,但在 agentic 场景里这恰恰是最脆弱的一环。作者想检验一个更具体的问题:能否用很便宜的监督信号,把“承认错误”这件事训练成可迁移能力,并外推到承认隐藏目标。

Chloe Li,Mary Phuong,Daniel Tan
alignmentsafetyself-reportVirtual
5
泛读ICLR 2026

RMAAT: Astrocyte-Inspired Memory Compression and Replay for Efficient Long-Context Transformers

这篇论文试图解决的是长上下文 Transformer 的计算和存储成本过高,而现有高效注意力方法往往在压缩时丢关键信息。作者选择重新设计记忆路径,而不是只在 attention kernel 上做近似,希望在分段处理长序列时保留跨段依赖。

Md Zesun Ahmed Mia,Malyaban Bal,Abhronil Sengupta
long-contextmemory-compressionattentionVirtual
5
泛读ICLR 2026

The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?

这篇论文讨论的不是“模型会不会犯错”,而是“模型的错误更像稳定追求错误目标,还是随机混乱地乱做”。作者想回答一个对前沿 agent 很实际的问题:随着模型更聪明、任务更复杂,失配是否会更 coherent。以往安全讨论常把 misalignment 和 incompetence 混在一起,而这两类失败对监控和缓解的含义完全不同。

Alexander Hägele,Aryo Pradipta Gema,Henry Sleight,Ethan Perez,Jascha Sohl-Dickstein
alignmentmisalignmentscalingVirtual
4
ICLR 2026

Efficient Test-Time Scaling for Small Vision-Language Models

小参数量视觉语言模型泛化性差、下游性能低,现有测试时缩放技术计算开销大,不符合小模型的轻量化设计目标,此前没有利用模型内部特征实现无监督测试时优化的方案。

Mehmet Onurcan Kaya,Desmond Elliott,Dim Papadopoulos
test-time-scalingvlmreasoningVirtual
3
ICLR 2026

SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs

现有视觉语言模型的空间推理能力评估缺乏细粒度、认知驱动的诊断基准,现有基准多关注整体性能,无法拆解视角变换、物体相对姿态等核心空间推理能力的短板,此前的评估方法不能定位VLM空间推理的具体失效点。

Yuyou Zhang,Radu Corcodel,Chiori Hori,Anoop Cherian,DING ZHAO
benchmarkvlmspatial-reasoningVirtual
5
泛读ICLR 2026

PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning

长上下文推理需要在长且带噪的输入中精准定位相关信息,现有方案要么依赖高成本全量微调,要么采用静态窗口扩展泛化性差,没有低开销的动态适配方案。

Zeming Chen,Angelika Romanou,Gail Weiss,Antoine Bosselut
EPFLlong-contexttest-time-learningmeta-learningVirtual
3
ICLR 2026

ICaRus: Identical Cache Reuse for Efficient Multi-Model Inference

多模型协同推理(如Agent系统中多个专用模型处理同一prompt)场景下,每个模型独立存储相同prompt的KV缓存导致内存开销爆炸,现有KV缓存优化仅支持单模型,跨模型前缀缓存不可行导致大量重复计算。

Sunghyeon Woo,Jaeeun Kil,Hoseung Kim,Minsub Kim,Joonghoon Kim,Ahreum Seo ... 省略 2 位作者 ... ,Jiwon Ryu,baeseong park,Se Jung Kwon,Dongsoo Lee
kv-cacheservingmulti-modelVirtual
3
ICLR 2026

ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art

LLM和多模态大模型对文本字符串中嵌入的视觉语义的感知能力长期被忽视,现有基准未覆盖字符排列构成的视觉语义识别任务,无法诊断模型的跨模态文本视觉感知能力。

Qi Jia,Xiang Yue,Shanshan Huang,Ziheng Qin,Yizhu Liu,Bill Yuchen Lin,Yang You,Guangtao Zhai
benchmarkvisual-perceptionasciiVirtual
5
泛读ICLR 2026

Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models

现有VLM通常将图像序列化处理,与人类视觉的并行处理特性差异大,且视觉处理内部机制不透明阻碍架构创新,此前研究未将VLM视觉处理拆分为物体识别和空间感知两个独立路径分析。

Yueyan Li,Chenggong Zhao,Zeyuan Zang,Caixia YUAN,Xiaojie Wang
vlmimage-understandingsequential-modelingVirtual
7
泛读ICLR 2026

Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning

LLM的推理错误大多来自知识缺陷,现有诊断和修复方法依赖标注数据,成本高且覆盖范围有限,无法利用大量无标注用户查询低成本修复模型知识缺陷。

Kai Xiong,Xiao Ding,Yixin Cao,Li Du,jiahao ying,yang zhao,Bing Qin,Ting Liu
curriculumknowledge-editingself-improvementVirtual
5
泛读ICLR 2026

No outlier channels but with outlier blocks

这篇工作要解决的是:在大模型压缩里,如何做任意 bit-width 的非均匀量化,同时避免传统离群值补偿方法在非均匀量化场景下失效。现有方法通常依赖固定码本或昂贵的逐层优化,灵活性差;而 uniform quantization 里常见的 outlier channel 处理,面对非均匀量化下更复杂的权重与激活异常分布时并不稳定。

Shanwen Mao,Hao Zhang,Jiasheng Li,Haoyu Qiao,Chenxin Cai,Tingting Wu,Jie Liu
quantizationllm-compressionnon-uniform-quantizationVirtual
5
泛读ICLR 2026

DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage

这篇工作要解决的是:在多模态推理 RL 中,GRPO 虽然不需要 critic,但经常被稀疏奖励和 advantage vanishing 卡住,尤其是题目过难或过易时,组内奖励几乎一致,学习信号会消失。已有补救办法不是盲目扩样,就是只挑部分样本,或者绕到间接奖励设计,代价是难度分布不可控、数据利用不充分,或者优化目标偏离最终任务。

Haowen Gao,zhenyu zhang,Liang Pang,Fangda Guo,hongjian dou,Guannan Lv,ShaoGuo Liu,Tingting Gao,Huawei Shen,Xueqi Cheng
grpomultimodal-reasoningrlvrVirtual
5
泛读ICLR 2026

Building Massively Multimodal Foundation Models with Interaction-aware Mixture-of-Experts

这篇工作要解决的是:在 massively multimodal 场景中,模态数量很多且交互是时变的,传统 MoE 只按 token 相似性路由,抓不住跨模态的时序依赖,因此很难随着模态数增长而有效扩展。过去的方法通常把多模态问题简化成少数模态融合,或者用静态路由处理所有输入,这在传感器级、异步、多噪声环境下明显不够。

Xing Han,Hsing-Huan Chung,Joydeep Ghosh,Paul Liang,Suchi Saria
multimodal-foundationmoesensor-fusionVirtual
5
泛读ICLR 2026

LLM Unlearning with LLM Beliefs

这篇工作要解决的是:现有 LLM unlearning 常用的 gradient ascent 只是把目标答案概率压低,却把概率质量挤到语义相近的改写上,导致看似忘了,实际上只是换个说法又能吐出来。作者把这个现象称为 squeezing effect,并指出很多自动评测会把这种伪遗忘误判为成功。

Kemou Li,Qizhou Wang,Yue Wang,Fengpeng Li,Jun Liu,Bo Han,Jiantao Zhou
unlearningllm-safetygradient-ascentVirtual
5
泛读ICLR 2026

A High Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

这篇工作要解决的是:现有交错式图文生成训练数据规模小、质量不稳、指令覆盖窄,导致 LMM 虽然能理解图文,却生成不出真正紧密交织的 image-text 输出。过去很多工作卡在模型结构上,但这里指出瓶颈更可能首先在数据和评测。

Yukang Feng,Jianwen Sun,Chuanhao Li,Zizhen Li,Jiaxin Ai,Fanrui Zhang ... 省略 1 位作者 ... ,Yifan Chang,Shenglin Zhang,Yu Dai,Kaipeng Zhang
interleaved-generationmultimodal-datasetimage-textVirtual
5
泛读ICLR 2026

Token Alignment Heads: Unveiling Attention's Role in LLM Multilingual Translation

LLM 在做多语言翻译时,注意力机制内部到底哪些组件负责源语言到目标语言的 token 映射,此前缺乏清晰的机制解释。

BINBIN LIU,Wenhan Han,Feng Chen,Yifan Zhang,Ping Guo,Haobin Lin,Bingni Zhang,Taifeng Wang,Yin Zheng
attention-headsmultilingualtranslationVirtual
5
泛读ICLR 2026

ReVeal: Self-Evolving Code Agents via Reliable Self-Verification

RLVR(带可验证奖励的强化学习)在代码生成中只用结果奖励,没有显式优化自我验证能力,导致 test-time scaling 受限、自我纠错不可靠。

Yiyang Jin,Kunzhao Xu,Hang Li,Xueting Han,Yanmin Zhou,Cheng Li,Jing Bai
rlvrcode-agentself-verificationVirtual
5
泛读ICLR 2026

Early Signs of Steganographic Capabilities in Frontier LLMs

LLM 可能通过隐写术(steganography)在看似正常的输出中编码隐藏信息来规避监控,但当前对前沿 LLM 隐写能力的系统评估几乎空白。

Artur Zolkowski,Kei Nishimura-Gasparian,Robert McCarthy,Roland Zimmermann,David Lindner
steganographyllm-safetymonitoringVirtual
5
泛读ICLR 2026

DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation

端到端反向传播需要存储所有层的激活值,造成显存瓶颈限制模型规模。已有的 block-wise 训练方法依赖临时性的局部目标,且在分类任务之外很少被验证。

Makoto Shing,Masanori Koyama,Takuya Akiba
Preferred Networksblock-wise-trainingdiffusion-interpretationmemory-efficiencyVirtual
5
ICLR 2026

Command-V: Training-Free Representation Finetuning Transfer

给LLM新增行为通常需要全量微调或蒸馏,成本高且每个架构都要重复操作,现有参数高效迁移方法只能在同架构模型之间复用,无法跨架构迁移已训练好的适配器能力。

Barry Wang,Avi Schwarzschild,Alexander Robey,Ali Payani,Charles Fleming,Mingjie Sun,Daphne Ippolito
representation-transferadapterfinetuningVirtual
6
泛读ICLR 2026

Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

现有多模态大模型的跨模态推理能力评估缺乏受控框架,不同研究关于多模态输入是提升还是损害推理性能的结论互相矛盾,没有明确模态交互支持或损害推理的条件和原因。

Yucheng Wang,Yifan Hou,Aydin Javadov,Mubashara Akhtar,Mrinmaya Sachan
ETH Zurichmultimodal-reasoningevaluationmllmVirtual
5
泛读ICLR 2026

Cognitive models can reveal interpretable value trade-offs in language models

这篇论文想解决的是:我们缺少能解释语言模型如何在不同价值之间做权衡的工具,而不仅仅是测一个静态 alignment 分数。现有安全和对齐评测大多把行为压成通过/不通过,或者一组宽泛维度,但模型在真实交互中经常是在多个效用之间动态折中,例如礼貌、直接性、帮助性、推理投入程度,这些 trade-off 才是真正决定输出风格和风险边界的地方。

Sonia Murthy,Rosie Zhao,Jennifer Hu,Sham Kakade,Markus Wulfmeier,Peng Qian,Tomer Ullman
interpretabilitycognitive-modelvalue-alignmentVirtual
5
泛读ICLR 2026

ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists

这篇论文要解决的问题是:现有长文本生成 benchmark 大多不贴近专家工作流,评测也难以可靠地区分'写得长'和'真正满足复杂要求'。很多基准仍停留在 QA 或短格式回答,模型即使能生成几千 token,也未必能遵守领域约束、覆盖关键要点、保持结构一致;而没有结构化 rubric,自动评测通常会把风格流畅误判为专业完成度。

Jie Ruan,Inderjeet Nair,Shuyang Cao,Amy Liu,Sheza Munir,Micah Pollens-Dempsey ... 省略 7 位作者 ... ,Tessa Bialek,Vivek Sankaran,Margo Schlanger,Lu Wang
benchmarklong-form-generationevaluationVirtual
5
泛读ICLR 2026

Synchronizing Probabilities in Model-Driven Lossless Compression

这篇论文解决的是 learned model 驱动无损压缩里一个很实际但经常被忽略的问题:压缩端和解压端的概率预测只要有微小不一致,就会造成灾难性解码失败。神经网络 next-symbol predictor 可以显著提高压缩率,但它们在不同硬件、软件栈或计算顺序下会出现细小非确定性;对普通生成任务这通常只是数值误差,对 arithmetic coding 这类无损压缩却会直接让后续解码全部跑偏。

Aviv Adler,Jennifer Tang
lossless-compressionlanguage-modelnext-token-predictionVirtual
5
泛读ICLR 2026

LongLive: Real-time Interactive Long Video Generation

这篇论文的结论很鲜明:长视频生成里,frame-level AR 不是做不到高质量,而是过去在长时训练和交互条件下被效率与记忆问题卡住了。现有 diffusion 系方法质量高,但双向注意力带来很高推理延迟,不适合实时交互;AR 模型有 KV cache 的天然推理优势,却常因长视频训练难、记忆漂移和一致性维护困难而在时长拉长后掉质。

Shuai Yang,Wei Huang,Ruihang Chu,Yicheng Xiao,Yuyang Zhao,Xianbang Wang ... 省略 2 位作者 ... ,YINGCONG CHEN,Yao Lu,Song Han,Yukang Chen
video-generationautoregressivereal-timeVirtual
5
泛读OralICLR 2026

SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

现有视频扩散模型参数量大、推理速度慢,生成长视频和高分辨率视频的内存开销极高,无法在消费级GPU上部署,此前的线性注意力优化没有针对长视频生成的KV缓存做专门设计。

Junsong Chen,Yuyang Zhao,Jincheng YU,Ruihang Chu,Junyu Chen,Shuai Yang ... 省略 10 位作者 ... ,Sanja Fidler,Ping Luo,Song Han,Enze Xie
video-generationlinear-attentiondiffusion-transformerVirtual
4
ICLR 2026

LoRAGen: Structure-Aware Weight Space Learning for LoRA Generation

现有LoRA需要针对每个任务单独训练,成本高昂;通用权重空间学习类的LoRA生成方法忽略LoRA参数空间的结构特性,生成效果次优。

Hao huang,Jingtao Ding,Mengqi Liao,Xin Wang,Jinyang Ban,Yuan Yuan,Huaiyu Wan,Yong Li
loraparameter-generationweight-spaceVirtual
6
泛读ICLR 2026

Divid: Disentangled Spatial-Temporal Modeling within LLMs for Temporally Grounded Video Understanding

现有视频LLM将视觉token打平送入LLM处理,长视频下token过长超过上下文限制、计算成本高;Slow-Fast架构仅在编码阶段分离时空特征,LLM内部仍联合处理无真正时空解耦,且查询无关的空间采样易丢失任务相关信息。

Yepeng Tang,Weining Wang,Longteng Guo,Tongtian Yue,Wenxuan Wang,Chunjie Zhang,Jing Liu
video-llmtemporal-groundinglong-videoVirtual
7
精读ICLR 2026

Information Estimation with Discrete Diffusion

现有离散数据的互信息、KL散度等信息论指标估计需要先将离散数据嵌入连续空间,依赖大量嵌入和estimator工程调优,高维离散数据下效果差、泛化性弱。

Alberto Foresti,Giulio Franzese,Pietro Michiardi
discrete-diffusioninformation-theoryobjectiveVirtual
5
ICLR 2026

floq: Training Critics via Flow-Matching for Scaling Compute in Value-Based RL

现有基于时序差分(TD)的价值RL方法将Q函数建模为单块函数,无迭代计算过程,缺乏稠密中间监督信号,难以规模化扩展到复杂任务,泛化性差。

Bhavya Agrawalla,Michal Nauman,Khush Agrawal,Aviral Kumar
reinforcement-learningflow-matchingvalue-learningVirtual
6
泛读ICLR 2026

Learning Semi-Structured Sparsity for LLMs via Shared and Context-Aware Hypernetwork

现有LLM的n:m半结构化稀疏剪枝方法存在trade-off:一次性剪枝效率高但依赖启发式规则精度低,优化类剪枝精度高但计算成本高,难以兼顾效率和精度。

Lu Sun,Jun Sakuma
sparsitypruningllmVirtual
4
ICLR 2026

Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation

现有LLM个性化方法要么是prompt定制要么微调,无法推理用户隐式偏好;先思考后生成的方法在长文本生成时需要一次性捕获所有相关信息,学习难度大且无法适配生成过程中内容的动态变化。

Chengbing Wang,Yang Zhang,Wenjie Wang,Xiaoyan Zhao,Fuli Feng,Xiangnan He,Tat-Seng Chua
reasoningpersonalizationlong-formVirtual
5
泛读ICLR 2026

Why Adversarially Train Diffusion Models?

这篇工作要解决的是:扩散模型在噪声、腐蚀或输入扰动下的鲁棒性问题,过去缺少像分类模型 adversarial training 那样系统的方法。传统 AT 依赖“同一样本被扰动后预测应保持不变”的 invariance 目标,但扩散模型做的是逐步去噪,简单照搬分类器目标并不合适。

Maria Rosaria Briglia,Mujtaba Mirza,Giuseppe Lisanti,Iacopo Masi
diffusionadversarial-trainingrobustnessVirtual
5
泛读ICLR 2026

Graph Diffusion Transformers are In-Context Molecular Designers

这篇工作要解决的是:分子设计里的 in-context learning 一直做得不理想,因为任务不是自然语言条件,而是稀缺标签下、跨大量性质空间的条件生成。现有分子生成方法通常为单任务或少量性质单独训练模型,难以像通用 LM 那样通过少量示例快速切换到新 assay 或新材料目标。

Gang Liu,Jie Chen,Yihan Zhu,Michael Sun,Tengfei Luo,Nitesh Chawla,Meng Jiang
diffusionin-context-learningmolecular-designVirtual
5
泛读ICLR 2026

Learn to Guide Your Diffusion Model

这篇工作要解决的是:classifier-free guidance 虽然能显著提升条件扩散模型的感知质量,但固定 guidance weight 往往把样本往“更好看但更偏离真实条件分布”的方向推。现有 CFG 基本把引导强度当作全局超参调节,这太粗糙,因为合适的 guidance 强度本来就应随条件内容和去噪阶段变化。

Alexandre Galashov,Ashwini Pokle,Arnaud Doucet,Arthur Gretton,Mauricio Delbracio,Valentin De Bortoli
classifier-free-guidancediffusionguidance-scheduleVirtual
5
泛读ICLR 2026

WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference

这篇工作要解决的是:训练无关的 LLM 稀疏激活方法虽然部署方便,但现有方法几乎只看 hidden state 大小来决定激活哪些神经元,近似误差大,性能掉得明显。问题的关键在于,神经元对输出的重要性不只由输入激活值决定,还由后续权重矩阵如何放大或衰减这些激活决定。

Sihan Chen,Dan Zhao,Jongwoo Ko,Colby Banbury,Huiping Zhuang,Luming Liang,Pashmina Cameron,Tianyi Chen
sparse-activationinference-efficiencytraining-freeVirtual
4
ICLR 2026

Reliable Fine-Grained Evaluation of Natural Language Math Proofs

现有LLM数学推理评估主要针对最终答案可验证的任务,缺乏对自然语言数学证明的可靠细粒度评估方法,制约了数学推理大模型的迭代优化。

Wenjie Ma,Andrei Cojocaru,Neel Kolhe,Haihan Zhang,Vincent Zhuang,Matei Zaharia,Sewon Min
math-reasoningproof-evaluationbenchmarkVirtual
4
ICLR 2026

Obfuscated Activations Bypass LLM Latent-Space Defenses

现有隐空间监测防御方法通过检测有害激活来阻止LLM攻击,但未考虑攻击者可以通过混淆激活的方式,在不触发隐空间监测的前提下实现越狱,防御的鲁棒性存在漏洞。

Luke Bailey,Alex Serrano,Abhay Sheshadri,Mikhail Seleznyov,Jordan Taylor,Erik Jenner,Jacob Hilton,Stephen Casper,Carlos Guestrin,Scott Emmons
latent-space-defenseadversarialsafetyVirtual
5
泛读OralICLR 2026

Neon: Negative Extrapolation From Self-Training Improves Image Generation

生成式AI模型缩放受高质量训练数据稀缺限制,现有用合成数据增广实数据做微调的方案会触发正反馈循环,导致模型自噬(模型崩溃),过往工作要么回避该问题,要么解决效果不佳。

sina alemohammad,Zhangyang Wang,Richard Baraniuk
synthetic-datamodel-collapseself-trainingVirtual
5
ICLR 2026

DAVE: A VLM Vision Encoder for Document Understanding and Web Agents

现有VLM的通用视觉编码器低层级特征缺乏鲁棒的结构与空间信息,无法满足文档理解、网页智能体任务的需求,过往适配方法依赖高成本的大规模标注,效率极低。

Brandon Huang,Hang Hua,Zhuoran Yu,trevor darrell,Rogerio Feris,Roei Herzig
vision-encoderdocument-understandingvlmVirtual
3
ICLR 2026

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

现有LLM集成方法在长文本生成场景下性能退化,过往默认逐token做集成的方案没有考虑集成位置的选择,适配短文本的方案无法直接迁移到长文本场景。

Heecheol Yun,Kwangmin Ki,Jung Hyun Lee,Eunho Yang
llm-ensembletoken-levelinferenceVirtual
5
泛读ICLR 2026

LapFlow: Laplacian Multi-scale Flow Matching for Generative Modeling

现有级联式多尺度流匹配生成模型需要在不同尺度间显式加噪桥接,采样速度慢,缩放难度高,过往方法无法实现多尺度并行生成。

Zelin Zhao,Petr Molodyk,Haotian Xue,Yongxin Chen
flow-matchinglaplacian-pyramidmulti-scaleVirtual
7
泛读ICLR 2026

Improving Autoregressive Video Modeling with History Understanding

现有自回归视频生成(VideoAR)方法对历史帧的内部表示质量关注不足,过往优化主要聚焦未来帧表示,无法进一步突破性能瓶颈。

Wenyang Luo,Haina Qin,Bing Li,Jiwen Lu,Xin Tao,Pengfei Wan,Kun Gai
video-generationautoregressiveconditioningVirtual
3
ICLR 2026

Universal Model Routing for Efficient LLM Inference

现有LLM模型路由方法仅支持固定候选模型池,测试时新增未见过的模型无法适配,动态路由问题未得到解决。

Wittawat Jitkrittum,Harikrishna Narasimhan,Ankit Singh Rawat,Jeevesh Juneja,Congchao Wang,Zifeng Wang ... 省略 2 位作者 ... ,Pradeep Shenoy,Rina Panigrahy,Aditya Krishna Menon,Sanjiv Kumar
model-routinginference-efficiencyllm-servingVirtual
4
ICLR 2026

C-Voting: Confidence-Based Test-Time Voting without Explicit Energy Functions

现有带隐层循环处理的模型的测试时缩放方法,未利用多候选隐状态的置信度信息,推理性能提升空间有限,过往方法依赖显式能量函数或仅增加循环步数。

Kenji Kubo,Shunsuke Kamiya,Masanori Koyama,Kohei Hayashi,Yusuke Iwasawa,Yutaka Matsuo
recurrent-processingtest-time-computereasoningVirtual
5
ICLR 2026

MoSA: Mosaic Shared Adaptation of Large Language Models

现有参数高效微调(PEFT)方法如LoRA使用低秩分解,参数预算固定的情况下表达能力有限,过往方法要么需要修改模型架构,要么推理有额外开销。

Xiequn Wang,Zhan ZHUANG,Shengda Luo,Yu Zhang
peftfinetuningadaptationVirtual
4
ICLR 2026

PTQ4ARVG: Post-Training Quantization for AutoRegressive Visual Generation Models

现有训练后量化(PTQ)方法无法泛化到自回归视觉生成(ARVG)模型,此前量化研究多聚焦于文本LLM或扩散生成模型,ARVG的专属量化痛点未被系统解决。

Xuewen Liu,Zhikai Li,Jing Zhang,Mengjuan Chen,Jianquan Li,Qingyi Gu
quantizationautoregressivevisual-generationVirtual
5
泛读ICLR 2026

BIRD: Behavior Induction via Representation-structure Distillation

这篇论文要解决的是:如何把一个模型已经学到的“行为属性”迁移到新任务或新分布上,而不是只迁移任务知识。过去常见做法是继续微调或蒸馏输出,但这些方法很容易把原有的鲁棒性、安全性或公平性在迁移过程中冲掉,因为监督信号只约束最终预测,不约束内部表征组织方式。

Galen Pogoncheff,Michael Beyeler
alignmentdistillationfinetuningVirtual
5
泛读ICLR 2026

PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach

这篇论文要解决的是:现有 LLM 安全评测主要测“能不能做”,却很少测“在有能力时会不会主动做”,因此遗漏了 latent propensity 这个关键风险轴。这个问题以前被回避,是因为 propensity 很难直接观察;但随着 agentic LLM 能够规划、调用工具、隐藏意图,这个维度已经不能再靠静态拒答测试替代。

Udari Sehwag,Shayan Shabihi,Alex McAvoy,Vikash Sehwag,Yuancheng Xu,Dalton towers,Furong Huang
safetyevaluationagentVirtual
5
泛读ICLR 2026

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

这篇论文要解决的是:现有 MLLM benchmark 里大量题目其实可以靠单模态 shortcut 做对,导致所谓“跨模态推理能力”被高估。过去大家通常用总体准确率给模型排榜,但没有拆开题目到底考图像、考文本,还是考真正的跨模态整合,所以 benchmark 越做越大,信号却不一定更干净。

Shunki Uebayashi,Kento Masui,Kyohei Atarashi,Han Bao,Hisashi Kashima,Naoto Inoue,Mayu Otani,Koh Takeuchi
multimodal-reasoningbenchmarkevaluationVirtual
5
泛读ICLR 2026

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

这篇论文要解决的是:主流 LLM 排名系统对极少量偏好样本的删除是否足够稳健,答案是否定的。大家通常默认 Bradley-Terry 类排名在大样本下会自然稳定,但这篇工作指出,榜首模型之间往往分差很小,因此极少量高影响偏好就足以翻转结论,导致排行榜被过度解读。

Jenny Huang,Yunyi Shen,Dennis Wei,Tamara Broderick
preferenceevaluationrankingVirtual
5
泛读ICLR 2026

Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

这篇论文要解决的是:DMD 一类扩散蒸馏方法为什么能工作,大家以前可能解释错了。常见观点认为 few-step 生成效果主要来自分布匹配项,但作者通过目标分解指出,真正驱动学生学会少步生成的主因可能是一个此前被忽视的 CFG Augmentation 项,而 distribution matching 更像稳定器而不是发动机。

Dongyang Liu,Gao Peng,David Liu,DU,Zhen Li,Qilong Wu ... 省略 1 位作者 ... ,Sihan Cao,Shifeng Zhang,Steven HOI,Hongsheng Li
diffusiondistillationdistribution-matchingVirtual
5
泛读ICLR 2026

An Information Theoretic Perspective on Agentic System Design

多 LM 组成的 agentic 系统(如 Deep Research、Claude Code)普遍采用 compressor-predictor 架构来克服上下文长度限制,但系统设计高度 ad hoc,缺乏理论指导来理解 compressor 和 predictor 的选择如何影响下游性能。实际中需要昂贵的逐对扫参才能归因性能增益。

Shizhe He,Avanika Narayan,Ishan Khare,Scott Linderman,Christopher Re,Dan Biderman
Stanford Universityagentsystem-designcontext-compressionVirtual
5
泛读ICLR 2026

Towards Better Optimization For Listwise Preference in Diffusion Models

DPO 在 diffusion 模型上的应用主要基于 pairwise 偏好,但人类对图像的反馈天然包含排序信息(listwise),比 pairwise 更精确。如何在 diffusion 模型中有效优化 listwise 偏好一直未被解决。

Jiamu Bai,Xin Yu,Meilong Xu,Weitao Lu,Xin Pan,Kiwan Maeng,Daniel Kifer,Jian Wang,Yu Wang
diffusiondpopreferenceVirtual
5
泛读ICLR 2026

Tab-MIA: A Benchmark Dataset for Membership Inference Attacks on Tabular Data in LLMs

LLM 越来越多地在表格数据上训练,表格数据包含高度结构化的个人可识别信息(PII),但现有的成员推断攻击(MIA)方法主要针对非结构化文本,缺乏专门评估 LLM 在表格数据上隐私风险的 benchmark。

Eyal German,Sagiv Antebi,Daniel Samira,Asaf Shabtai,Yuval Elovici
privacymembership-inferencebenchmarkVirtual
6
泛读ICLR 2026

Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning

具备显式推理能力的LLM在数学推理等任务中仍会出现计算错误、逻辑断裂、步骤看似合理实际无效的问题,此前推理增强方法多依赖单方向监督微调或RLHF,缺乏对推理步骤合理性的动态对抗校验。

Qihao Liu,Luoxin Ye,Wufei Ma,Yu-Cheng Chou,Alan Yuille
Johns Hopkins Universityrlreasoningadversarial-trainingVirtual
3
ICLR 2026

OSCAR: Online Soft Compression for RAG

RAG系统随上下文长度扩展计算成本急剧上升,现有硬压缩方法可在线运行但压缩率低,软压缩方法压缩率高但需要离线预训练专用模型,无法适配动态查询需求。

Maxime Louis,Thibault Formal,Hervé Déjean,Stéphane Clinchant
ragcontext-compressionkv-cacheVirtual
7
精读ICLR 2026

Demystifying Supervision Data Generalization in Multimodal LMs

多模态大模型(MLLM)的监督数据选择传统上优先选择与目标任务直觉相似的数据集,但这种相似性与下游性能提升的对应关系未被验证,无法在训练前预测数据集对目标任务的增益。

Xuan Qi,Luxi He,Dan Roth,Xingyu Fu
University of Pennsylvaniadata-qualitysupervision-datamllmVirtual
3
ICLR 2026

UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

LLM部署在移动平台时受限于设备内存与计算资源,且设备负载动态变化导致资源可用性波动,现有压缩方案多为固定压缩率,无法自适应调整以匹配动态资源约束。

Hung-Yueh Chiang,Chi-Chih Chang,Yu-Chen Lu,Chien-Yu Lin,Kai-Chiang Wu,Mohamed Abdelfattah,Diana Marculescu
quantizationlow-rankcompressionVirtual
5
泛读ICLR 2026

Hippoformer: Integrating Hippocampus-inspired Spatial Memory with Transformers

这篇工作要解决的是 Transformer 记忆机制缺少空间结构先验,导致空间推理往往只能靠注意力在 token 间硬匹配,既低效也不稳定。已有受海马体启发的模型如 TEM 确实能建模结构化空间记忆,但常依赖外积记忆或全局注意力,算力和上下文长度都不友好,因此很难并入现代大模型栈。作者想做的是一个既保留神经科学启发的“结构码+内容码”分工,又能按深度学习工程方式扩展的空间记忆模块。

Tiantian Li,Xingxing Cao,Yifei Wang,Xiaojiao Yang,Xiaolong Zou,Bo Hong
spatial-reasoningarchitecturehippocampusVirtual
5
泛读ICLR 2026

Log Probability Tracking of LLM APIs

这篇工作解决的是 API 形式提供的 LLM 会悄悄更新,但用户几乎没有低成本手段持续监测。现有审计方法通常要跑大批评测集、成本高且频率低,所以只能事后发现模型漂移,难以保障研究复现和生产稳定性。作者关注的不是模型能力评估,而是更基础的问题:能不能用极少查询持续检测服务端模型是否已经变了。

Timothée Chauvin,Erwan Le Merrer,Francois Taiani,Gilles Tredan
llm-apievaluationlogprobVirtual
5
泛读ICLR 2026

In-Context Learning of Temporal Point Processes with Foundation Inference Models

这篇工作解决的是时序点过程建模长期依赖专门训练:每个新系统、每个新事件机制都要重新拟合一个模型,缺少 foundation model 式的通用推断器。过去神经 MTPP 方法大多直接对某一数据集学习 conditional intensity,效果可以很好,但迁移性很弱。作者提出的问题是:能不能像 in-context learning 那样,让模型从上下文里的一组事件序列直接“读出”一个新点过程的动力学规律。

David Berghaus,Patrick Seifner,Kostadin Cvejoski,César Ali Ojeda Marin,Ramses Sanchez
in-context-learningfoundation-modelssequence-modelingVirtual
5
泛读ICLR 2026

Compositional-ARC: Assessing Systematic Generalization in Abstract Spatial Reasoning

这篇工作解决的是系统泛化在抽象空间推理里到底能不能被稳定评估,以及 meta-learning for compositionality 是否能从语言任务迁移到 ARC 风格问题。过去关于神经网络是否具备 systematic generalization 的讨论很多,但证据往往集中在语言合成或符号任务;而 ARC 这类抽象空间推理更接近“见过部件、没见过组合”的测试。作者的目标是构建一个 compositional ARC 评测设定,去更清楚地区分记忆式泛化和真正的组合泛化。

Philipp Mondorf,Shijia Zhou,Monica Riedler,Barbara Plank
benchmarksystematic-generalizationreasoningVirtual
5
ICLR 2026

Sparsity Forcing: Reinforcing Token Sparsity of MLLMs

现有稀疏注意力方法最多只能减少50%的token而不损失精度,无法进一步降低计算预算,要么固定刚性稀疏模式忽略输入与层的动态性,要么优化代理目标无法直接控制token预算。

Feng Chen,YEFEI HE,Lequan Lin,Jing Liu,Chenhui Gou,Bohan Zhuang,Qi Wu
mllmsparse-attentiontoken-sparsityVirtual
5
泛读ICLR 2026

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

现有统一多模态模型的评估多孤立看待理解与生成能力,仅用单模态推理打分,未测试双向跨模态推理能力(用一种模态引导、验证、优化另一种模态的输出),而这是统一多模态智能的核心能力。

Yongyuan Liang,Wei Chow,Feng Li,Ziqiao Ma,Xiyao Wang,Jiageng Mao,Jiuhai Chen,Jiatao Gu,Yue Wang,Furong Huang
benchmarkomnimodalmultimodalVirtual
4
OralICLR 2026

Global Resolution: Optimal Multi-Draft Speculative Sampling via Convex Optimization

多草稿推测解码的最优传输(OT)验证准则需要求解V^n个变量的线性规划(V为词表大小),计算复杂度极高,现有方法无法高效求解最优OT解,导致多草稿推测解码的接受率达不到理论上限。

Rahul Thomas,Arka Pal
speculative-decodingsamplinginferenceVirtual
3
ICLR 2026

DynaGuard: A Dynamic Guardian Model With User-Defined Policies

传统静态护栏模型只能基于预定义的固定危害类别做安全检测,无法适配不同场景下用户自定义的灵活安全政策,现有方案无法同时满足灵活度和检测性能要求。

Monte Hoover,Vatsal Baherwani,Neel Jain,Khalid Saifullah,Joseph J Vincent,Chirag Jain,Melissa Rad,C. Bruss,Ashwinee Panda,Tom Goldstein
safetyguardian-modelpolicyVirtual
5
泛读ICLR 2026

StreamingVLM: Real-Time Understanding for Infinite Video Streams

现有VLM处理长视频流时存在架构缺陷:全注意力方案计算量随序列长度平方增长,延迟和内存不可控;滑动窗口方案要么上下文连贯性断裂,要么重复计算导致延迟过高,无法支持无限时长视频流的实时理解。

Ruyi Xu,Guangxuan Xiao,Yukang Chen,Liuning He,Kelly Peng,Yao Lu,Song Han
video-understandinglong-contextvlmVirtual
2
ICLR 2026

Block Recurrent Dynamics in Vision Transformers

现有ViT的深度计算逻辑缺乏统一解释框架,过往研究默认每个Transformer块都是独立的串行计算单元,没有挖掘深度维度的计算复用性,导致ViT架构优化和压缩缺乏理论指导。

Mozes Jacobs,Thomas Fel,Richard Hakim,Alessandra Brondetta,Demba Ba,T. Anderson Keller
vision-transformerinterpretabilitydynamical-systemsVirtual
6
泛读ICLR 2026

ActivationReasoning: Logical Reasoning in Latent Activation Spaces

现有基于稀疏自编码器(SAE)的LLM隐特征解释方法只能被动识别隐层概念,无法实现主动的逻辑推理控制,LLM的内部推理过程仍然不透明且难以干预。

Lukas Helff,Ruben Härle,Wolfgang Stammer,Felix Friedrich,Manuel Brack,Antonia Wüst,Hikaru Shindo,Patrick Schramowski,Kristian Kersting
interpretabilitysparse-autoencoderlatent-reasoningVirtual
6
泛读ICLR 2026

Thyme: Think Beyond Images

现有开源的"图像思考"多模态方案能力远落后于闭源模型(如OpenAI O3),无法同时支持多样的图像操作和通过代码增强逻辑推理的能力,限制了开源多模态大模型的推理性能上限。

YiFan Zhang,Xingyu Lu,Shukang Yin,Chaoyou Fu,Wei Chen,Xiao Hu ... 省略 10 位作者 ... ,Liang Wang,Fan Yang,Tingting Gao,Guorui Zhou
visual-reasoningthinkingvlmVirtual
5
泛读ICLR 2026

RepIt: Steering Language Models with Concept-Specific Refusal Vectors

这篇论文要解决的问题是:现有安全评测大多是 benchmark 驱动的,容易遗漏针对特定危险概念的脆弱点,因此“整体看起来安全”的模型仍可能被精确地解除某一类拒答能力。过去 steering 攻击通常是广谱干预,能破坏安全但也容易在通用评测上暴露;这篇工作更进一步,展示了选择性去除特定概念拒答的能力。

Vincent Siu,Nathan Henry,Nicholas Crispino,Yang Liu,Dawn Song,Chenguang Wang
representation-engineeringsafetysteeringVirtual
5
泛读ICLR 2026

RNE: plug-and-play diffusion inference-time control and energy-based training

这篇论文要解决的问题是:标准 diffusion 模型通常只提供去噪转移核,但很多应用需要知道生成轨迹各时刻的边缘密度,比如做 inference-time control 或把 diffusion 和 energy-based 学习统一起来。过去这些能力往往要为具体任务单独造近似器,缺少一个从路径分布出发的统一视角。

Jiajun He,José Miguel Hernández Lobato,Yuanqi Du,Francisco Vargas
diffusionenergy-basedinference-controlVirtual
5
泛读ICLR 2026

CoFact: Conformal Factuality Guarantees for Language Models under Covariate Shift

这篇论文要解决的问题是:现有基于 conformal prediction 的 LLM factuality 保障依赖 calibration/test exchangeability,但真实部署中输入分布会持续漂移,这使得原有置信保证失效。过去方法在静态数据分布上理论漂亮,但一遇到 covariate shift,校准集就不再代表线上样本。

Zirui Hu,Zheng Zhang,Yingjie Wang,Leszek Rutkowski,Dacheng Tao
factualityconformal-predictionhallucinationVirtual
5
泛读ICLR 2026

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning

这篇论文要解决的问题是:现有代码推理 benchmark 过于依赖合成题或教学式编程问题,无法真实衡量模型对现实软件项目语义的细粒度理解。过去评测常停留在 I/O 预测、代码补全或简单 bug 题,和真实软件工程中的执行语义、状态变化、依赖关系还有明显距离。

Monoshi Kumar Roy,Simin Chen,Benjamin Steenhoek,Jinjun Peng,Gail Kaiser,Baishakhi Ray,Wei Le
codebenchmarkreasoningVirtual
5
泛读ICLR 2026

ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

高分辨率图像在 VLM 中产生大量视觉 token,计算开销巨大。已有方法要么全图下采样丢失细节,要么全图高分辨率处理浪费算力,缺乏根据任务需求动态选择关键区域的能力。

Jewon Lee,Wooksu Shin,Seungmin Yang,Ki-Ung Song,DongUk Lim,Jaeyeon Kim,Tae-Ho Kim,Bo-Kyeong Kim
vlmvision-tokenshigh-resolutionVirtual
5
泛读ICLR 2026

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

开源指令引导图像编辑模型落后于闭源模型(GPT-Image-1、Seedream 等),主要瓶颈是缺乏可靠的 reward model 来大规模筛选/生成高质量合成训练数据。

Keming Wu,Sicong Jiang,Max Ku,PING NIE,Minghao Liu,Wenhu Chen
reward-modelimage-editingsynthetic-dataVirtual
5
泛读ICLR 2026

Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks

LLM 的 jailbreak 防御在实际部署中面临三重困境:鲁棒性不够(尤其是 universal jailbreak)、计算成本高、误拒率高。上一代 Constitutional Classifiers 只看孤立输出,容易被上下文操纵绕过。

Hoagy Cunningham,Jerry Wei,Zihan Wang,Andrew Persic,Alwin Peng,Jordan Abderrachid ... 省略 17 位作者 ... ,Jan Leike,Jared Kaplan,Ethan Perez,Mrinank Sharma
AnthropicsafetyjailbreakclassifierVirtual
5
泛读ICLR 2026

SpeechOp: Inference-Time Task Composition for Generative Speech Processing

语音到语音(S2S)处理任务(如增强、转换)面临数据稀缺问题,导致数据驱动的生成方法容易扭曲语音内容和说话人身份。而 TTS 模型已经在大规模野外数据上训练得很好,如何复用 TTS 的能力来做通用语音处理是核心问题。

Justin Lovelace,Rithesh Kumar,Jiaqi Su,Ke Chen,Kilian Weinberger,Zeyu Jin
speechdiffusionmulti-taskVirtual
5
泛读ICLR 2026

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

这篇工作要解决的是:超低精度量化与稀疏化带来的不连续算子让反向传播缺少可靠梯度路径,STE 的“前向量化、反向装作没量化”会积累误差并引发训练不稳定。

Chengxi Ye,Grace Chu,Yanfeng Liu,Yichi Zhang,Lukasz Lew,Li Zhang,Mark Sandler,Andrew Howard
quantizationsparsitytraining-stabilityVirtual
5
泛读ICLR 2026

ProxyThinker: Test-Time Guidance through Small Visual Reasoners

这篇工作要解决的是:用可验证奖励做 VLM 的 RFT 很贵,难以把“慢思考视觉推理能力”扩展到更大模型;作者希望在不训练大模型的情况下,把小模型的推理行为迁移到大模型推理时。

Zilin Xiao,Jaywon Koo,Siru Ouyang,Jefferson Hernandez,Yu Meng,Vicente Ordonez
vlmtest-time-computereinforcement-learningVirtual
5
泛读ICLR 2026

Representation Alignment for Diffusion Transformers without External Components

这篇工作要解决的是:扩散 Transformer 的训练如果能学到更“有语义”的内部表征通常会更快更稳,但现有做法往往依赖外部表征任务或外部预训练 encoder,增加组件与工程复杂度。

Dengyang Jiang,Mengmeng Wang,Liuzhuozheng Li,Lei Zhang,Haoyu Wang,Wei Wei,Guang Dai,Yanning Zhang,Jingdong Wang
diffusion-transformerrepresentation-alignmenttraining-objectiveVirtual
5
泛读ICLR 2026

Beyond Spectra: Eigenvector Overlaps in Loss Geometry

这篇工作要解决的是:仅看 Hessian 特征值谱不足以描述训练损失与测试损失之间的局部几何关系,泛化还取决于二者特征向量空间是否对齐。过去很多 loss geometry 分析默认“谱决定一切”,但真实训练中 train/test 是两个算子,若忽略 eigenspace overlap,就解释不了同样谱形状下为什么泛化敏感性不同。

Gabriel Mel
loss-landscapehessiangeneralizationVirtual
5
泛读ICLR 2026

RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks

开放式生成任务的评估标准多样且隐含,逐条验证所有 rubric 的成本极高,且不同 prompt 对 rubric 的最优组合方式不同。这使得基于 rubric 的 RL reward 难以 scale。本文要解决的是:如何在 RL post-training 中高效、动态地验证生成质量。

Mian Wu,Gavin Zhang,Sewon Min,Sergey Levine,Aviral Kumar
reinforcement-learningopen-ended-generationadversarial-criticVirtual
5
泛读ICLR 2026

Making Slow Thinking Faster: Compressing LLM Chain-of-Thought via Step Entropy

CoT 推理虽然提升了 LLM 的复杂推理能力,但生成的中间步骤冗长且大量冗余,推理成本高。本文要解决的是:如何识别并剪除冗余的推理步骤,在不损失准确率的前提下压缩 CoT。

Zeju LI,Jianyuan Zhong,Ziyang Zheng,Xiangyu Wen,Zhijian Xu,Yingying Cheng,Fan Zhang,Qiang Xu
cotreasoninginferenceVirtual
5
泛读ICLR 2026

Efficient Agent Training for Computer Use

训练类人的计算机操作 agent 长期受限于高质量轨迹数据的稀缺。收集大规模人工标注的操作轨迹成本极高。本文要解决的是:如何用极少量人工标注数据高效训练计算机操作 agent。

Yanheng He,Jiahe Jin,Pengfei Liu
computer-useagentdata-synthesisVirtual
5
泛读ICLR 2026

A Sharp KL Convergence Analysis for Diffusion Models under Minimal Assumptions

扩散模型生成过程的收敛性分析在最小假设下,KL 散度的最优已知 bound 对精度 ε 的依赖是 1/ε²,本文要改进这个依赖关系,同时保持对数据维度 d 的线性依赖。

Nishant Jain,Tong Zhang
diffusiontheoryconvergenceVirtual
5
泛读ICLR 2026

Zebra-CoT: A Dataset for Interleaved Vision-Language Reasoning

现有视觉思维链(Visual CoT)训练数据稀缺,且现成的Visual CoT模型性能差无法支撑RL训练,导致多模态模型难以学会像人类一样用视觉辅助工具完成复杂推理。

Ang Li,Charles L. Wang,Deqing Fu,Kaiyu Yue,Zikui Cai,Wang Zhu ... 省略 2 位作者 ... ,Willie Neiswanger,Furong Huang,Tom Goldstein,Micah Goldblum
visual-cotdatasetreasoningVirtual
6
泛读ICLR 2026

Diagnosing Generalization Failures from Representational Geometry Markers

现有预测模型泛化失败的方法都是自底向上的机制分析,需要反向工程可解释特征或电路,无法提供部署前的高层预测信号,难以预判真实场景下的未知泛化失败。

Chi-Ning Chou,Artem Kirsanov,Yao-Yuan Yang,SueYeon Chung
generalizationrepresentationinterpretabilityVirtual
4
ICLR 2026

Entropy-Based Block Pruning for Efficient Large Language Models

现有LLM块剪枝方法多采用余弦相似度等几何指标衡量块的冗余性,无法准确量化块的信息丰富度,导致剪枝后性能损失大,压缩效率低。

Liangwei Yang,Yuhui Xu,Juntao Tan,Doyen Sahoo,silvio savarese,Caiming Xiong,Huan Wang,Shelby Heinecke
pruningcompressioninferenceVirtual
4
ICLR 2026

GradPruner: Gradient-guided Layer Pruning Enabling Efficient Fine-Tuning and Inference for LLMs

现有LLM结构化剪枝方法仅针对推理效率优化,需要额外的训练、知识蒸馏或结构搜索开销,无法同时提升下游微调阶段的训练和推理效率。此前业界大多单独优化剪枝后的推理速度,未考虑降低微调本身的计算成本。

Wei Huang,Anda Cheng,Yinggui Wang
pruningfine-tuninginferenceVirtual
5
泛读OralICLR 2026

EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

这篇论文要解决的是图像/视频生成与编辑长期割裂、视频编辑数据稀缺、导致统一模型难以成立的问题。现有系统往往按任务和模态分别设计,图像端已经开始统一,但视频端仍受架构和数据限制,难以获得真正的 in-context 泛化。

Xuan Ju,Tianyu Wang,Yuqian Zhou,HE Zhang,Qing Liu,Cherry Zhao ... 省略 4 位作者 ... ,Daniil Pakhomov,Zhe Lin,Soo Ye Kim,Qiang Xu
image-generationvideo-generationin-context-learningVirtual
5
泛读ICLR 2026

Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis

这篇论文要解决的是多模态数据蒸馏在小预算场景下仍然太重、太依赖模型和全量训练的问题。现有方法通常需要在全数据上训练教师,甚至联合优化图像像素和文本特征,导致成本高、可迁移性差,真正想把数据压到极小规模时往往失效。

Junhyeok Choi,Sangwoo Mo,Minwoo Chae
dataset-distillationdata-qualitymultimodalVirtual
5
泛读ICLR 2026

Pursuing Minimal Sufficiency in Spatial Reasoning

这篇论文要解决的是 VLM 做空间推理时既缺 3D grounding,又容易被过量 3D 信息干扰。现有方法常见两种次优路线:要么直接让 2D 预训练的 VLM 硬啃 3D 场景,理解不够;要么把大量点云/检测结果全塞进去,导致上下文噪声过高、推理链条失焦。

Yejie Guo,Yunzhong Hou,Wufei Ma,Meng Tang,Ming-Hsuan Yang
spatial-reasoningvlm3dVirtual
5
ICLR 2026

LaplacianFormer:Rethinking Linear Attention with Laplacian Kernel

Softmax注意力的二次复杂度限制了Transformer在高分辨率视觉任务上的 scaling,现有线性注意力用高斯核近似softmax,缺乏理论支撑,且会过度抑制中距离token的交互,导致表达能力下降。

Zhe Feng,Sen Lian,Changwei Wang,Muyang Zhang,Tianlong Tan,Rongtao Xu,Weiliang Meng,Xiaopeng Zhang
linear-attentionkernel-attentionvision-transformerVirtual
6
泛读ICLR 2026

New Hybrid Fine-Tuning Paradigm for LLMs: Algorithm Design and Convergence Analysis Framework

现有LLM微调的两类主流方案存在固有缺陷:全微调计算开销过高,参数高效微调(PEFT)学习新知识能力弱,效果上限低于全微调,没有方案能同时兼顾效率和效果。

Shaocong Ma,Peiran Yu,Heng Huang
fine-tuningpefthybridVirtual
4
ICLR 2026

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

现有激活引导方法存在核心trade-off:样本高效的方法提取引导信号的质量差,信号质量好的方法需要数百上千标注样本,无法兼顾样本效率和引导效果。

Kartik Sharma,Rakshit Trivedi
activation-steeringin-context-learninginference-timeVirtual
4
ICLR 2026

A State-Transition Framework for Efficient LLM Reasoning

长思维链(CoT)可提升LLM复杂推理效果,但生成长CoT序列的计算和内存开销过高,现有CoT压缩方案与测试时scaling冲突,限制了LLM推理能力的发挥。

Liang Zhang,Yu Zhao,Longyue Wang,Tianqi Shi,Weihua Luo,Kaifu Zhang,Jinsong Su
reasoninginferencecotVirtual
6
泛读OralICLR 2026

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

现有语言领域的自提升方法无法直接迁移到视觉语言模型(VLM),因为视觉推理路径中的幻觉无法被有效验证和修正,限制了VLM视觉推理能力的自迭代。

Zhiyu Pan,Yizheng Wu,Jiashen Hua,Junyi Feng,Shaotian Yan,Bing Deng,Zhiguo Cao,Jieping Ye
vlmreasoningself-trainingVirtual
5
泛读ICLR 2026

Tree Search for LLM Agent Reinforcement Learning

这篇论文要解决的是:在长时程、多轮工具调用的 agent RL 里,只有终局 outcome reward 会让监督极度稀疏,训练样本利用率很低。现有做法通常靠更多 rollout、人工过程奖励或额外标注来补,但这些办法要么成本高,要么很难扩到真实 agent 场景,所以作者转向用树搜索把同一预算下的有效监督做密。

Yuxiang Ji,Ziyu Ma,Yong Wang,Guanhua Chen,Xiangxiang Chu,Liaoni Wu
agent-rltree-searchgrpoVirtual
5
泛读ICLR 2026

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

这篇论文解决的是评测缺口,而不是训练方法:现有音视频 benchmark 很难严格要求模型同时用到视觉和音频信息,所以 Omni-LLM 的联合推理能力常被高估。很多数据集要么视觉单模态就能答,要么音频类型单一,要么时间跨度过短,导致我们无法判断模型是不是真的学会了 joint audio-visual reasoning。

Jianghan Chao,jianzhang gao,Wenhui Tan,Yuchong Sun,Ruihua Song,Liyun Ru
benchmarkaudio-visualomni-llmVirtual
5
泛读OralICLR 2026

AgentGym-RL: An Open-Source Framework to Train LLM Agents for Long-Horizon Decision Making via Multi-Turn RL

这篇论文要解决的是:开源社区缺少一个统一、可扩展、能在真实多轮环境中从头训练 LLM agent 的 RL 框架。现有工作往往只支持单一环境、单一算法或较浅的 interaction loop,结果是大家很难系统比较算法,也很难做长时程 agent 训练的复现实验。

Zhiheng Xi,Jixuan Huang,Chenyang Liao,Baodai Huang,Jiaqi Liu,Honglin Guo ... 省略 14 位作者 ... ,Zuxuan Wu,Qi Zhang,Xuanjing Huang,Yu-Gang Jiang
agent-rlframeworklong-horizonVirtual
5
泛读ICLR 2026

TyphoonMLA: A Mixed Naive-Absorb MLA Kernel For Shared Prefix

这篇论文要解决的是:MLA 在解码阶段虽然已有 absorb 类 kernel 能省 HBM 带宽,但在 shared prefix 场景下无法充分利用注意力计算复用,因此吞吐受限。现有 naive 实现更适合训练和 prefill,absorb 更适合 decode,但两者各有短板,导致真实 serving 场景尤其是共享前缀批量推理时没有一个兼顾带宽和复用的方案。

Ahmet Yüzügüler,Ahmet Çelik,Jiawei Zhuang,Lukas Cavigelli
mlaattentionkernelVirtual
5
泛读ICLR 2026

Large Language Model Compression with Global Rank and Sparsity Optimization

这篇论文要解决的是:把低秩和稀疏组合起来压缩 LLM 很自然,但现有方法通常没处理好两件事——低秩部分和稀疏部分怎么协同,以及不同层该分多少 rank 和 sparsity。前者处理不好会让两个近似互相抢表达能力,后者处理不好会把压缩预算浪费在本来就不冗余的层上。

Changhai Zhou,Qian Qiao,Yuhua Zhou,Yuxin Wu,Shichao Weng,WEIZHONG ZHANG,Cheng Jin
compressionlow-ranksparsityVirtual
5
泛读ICLR 2026

When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training

这篇论文要解决的是:LLM 在 sequential decision-making 里虽然能通过 SFT 或 RL 学到更低 regret,但它们到底学到了什么探索策略、这些策略是否能泛化,并不清楚。特别是在 multi-armed bandit 这种最基础环境里,如果模型只是学会了某种贪心模板而不是真正的探索-利用权衡,那么迁移到新分布时会很脆弱。

Sanxing Chen,Xiaoyin Chen,Yukun Huang,Roy Xie,Bhuwan Dhingra
rlexplorationmeta-learningVirtual
5
泛读ICLR 2026

GoT-R1: Unleashing Reasoning Capability of Autoregressive Visual Generation with Reinforcement Learning

现有自回归视觉生成模型无法有效处理包含多对象精确空间关系和属性的复杂提示,缺乏显式的语义空间推理能力,限制了文生图模型的实用边界。

Chengqi Duan,Rongyao Fang,Yuqing Wang,Kun Wang,Linjiang Huang,Xingyu Zeng,Hongsheng Li,Xihui Liu
reinforcement-learningautoregressive-image-genreasoningVirtual
5
ICLR 2026

Scaling Knowledge Editing in LLMs to 100,000 Facts with Neural KV Database

现有定位编辑(L&E)类LLM知识编辑方法在编辑量上升到数千条时,会损失模型通用能力,还会遗忘已编辑的事实,无法支撑大规模高频知识更新需求。

Weizhi Fei,Hao Shi,Jing Xu,Jingchen Peng,Jiazheng Li,Jingzhao Zhang,Bo Bai,Wei Han,zy chen,Xueyan Niu
knowledge-editingkv-cachecontinual-learningVirtual
5
ICLR 2026

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

可并行处理音视频的全模态大模型(OLM)细粒度感知描述能力不足,且存在描述细节丰富度与幻觉程度同步升高的共生问题,此前工作未系统性从数据、模型、基准三个维度解决该问题。

Ziyang Ma,Ruiyang Xu,Zhenghao Xing,Yunfei Chu,Yuxuan Wang,Jinzheng He ... 省略 2 位作者 ... ,Kai Yu,Junyang Lin,Ensiong Chng,Xie Chen
omni-modalcaptioningaudio-visualVirtual
6
泛读ICLR 2026

Tracing the Traces: Latent Temporal Signals for Efficient and Accurate Reasoning

大模型推理时通过增加token预算或多次推理提升效果,但无法提前识别有效推理路径,导致大量计算浪费,此前的置信度方法仅基于输出文本判断,预测准确率低。

Martina G. Vilas,Safoora Yousefi,Besmira Nushi,Eric Horvitz,Vidhisha Balachandran
reasoninginference-scalinglatent-signalsVirtual
3
ICLR 2026

Dynamic Speculative Agent Planning

基于大模型的智能体部署时延迟和推理成本过高,现有加速方法要么损失效果,要么需要离线训练路由模块,要么运营成本高,且无法让用户灵活控制加速与效果的 tradeoff,此前工作未同时解决这些问题。

Yilin Guan,Qingfeng Lan,Fei Sun,Dujian Ding,Devang Acharya,Chi Wang,William Wang,Wenyue Hua
speculative-decodingagentinference-accelerationVirtual
4
ICLR 2026

ATTS: Asynchronous Test-Time Scaling via Conformal Prediction

大模型测试时缩放可提升效果,但延迟高,现有推测解码方法在并行+时序两个维度缩放时存在内存瓶颈和同步开销,此前工作未从统计角度解决同步开销问题。

Jing Xiong,Qiujiang Chen,Fanghua Ye,Zhongwei Wan,Chuanyang Zheng,Chenyang Zhao ... 省略 4 位作者 ... ,Haoli Bai,Lifeng Shang,Lingpeng Kong,Ngai Wong
speculative-decodingtest-time-scalinginference-accelerationVirtual
6
泛读ICLR 2026

Hallucination Reduction with CASAL: Contrastive Activation Steering for Amortized Learning

大模型幻觉问题严重,现有激活 steering 方法需要在推理时实时监控干预,部署成本高,此前工作未将激活 steering 的效果嵌入模型权重实现摊销优化。

Wannan Yang,Xinchi Qiu,Lei Yu,Yuchen Zhang,Aobo Yang,Narine Kokhlikyan,Nicola Cancedda,Diego Garcia-Olano
hallucinationactivation-steeringinterpretabilityVirtual
6
泛读ICLR 2026

Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value

扩散模型训练损失的最优值非零且未知,无法通过损失值直接判断模型拟合质量,易混淆“最优损失本身大”和“模型容量不足”两个问题,此前的扩散模型训练缺乏统一的拟合质量评估指标。

Yixian Xu,Shengjie Luo,Liwei Wang,Di He,Chang Liu
diffusiontraining-dynamicslossVirtual
5
泛读ICLR 2026

Controlling Repetition in Protein Language Models

这篇论文要解决的是蛋白语言模型生成时的病态重复问题,而且作者明确指出这不是简单的“文本退化”,而是会直接破坏折叠可信度和功能可用性。以往工作更多关注序列似然、结构预测或设计成功率,很少把重复当成一个独立且可量化的生成失败模式系统研究;但在蛋白场景里,motif 级重复和同聚物重复会明显影响下游结构质量,所以这个问题值得单独处理。

Jiahao Zhang,ZEQING ZHANG,Di Wang,Lijie Hu
protein-lmgenerationrepetitionVirtual
5
泛读ICLR 2026

UNITE: Universal kNowledge Integration from Task-specific Experts

这篇论文要解决的是 MoE 模型里专家知识碎片化和层间冗余的问题,也就是参数很多、激活稀疏,但知识没有被高效整合。过去工作大多停留在分析“哪些专家冗余、哪些参数重要”,却缺少把这些重叠知识真正提炼出来并复用的机制,因此 MoE 的额外容量并不总能转化成更紧凑、可迁移的能力表示。

Shuxia Lin,Qiufeng Wang,xu yang,Xin Geng
moeexpert-mergingknowledge-transferVirtual
5
泛读ICLR 2026

Enhancing Hallucination Detection through Noise Injection

这篇论文要解决的是幻觉检测里的一个常见盲点:只从模型原生 token 分布采样来估计答案分散度,并不是最适合检测幻觉的不确定性度量。现有多样本检测方法默认生成分布的波动就能反映幻觉风险,但这更多是 aleatoric uncertainty;如果模型参数层面本来就不确定,仅靠常规采样会低估这种 Bayesian uncertainty。

Litian Liu,Reza Pourreza,Sunny Panchal,Apratim Bhattacharyya,Yubing Jian,Yao Qin,Roland Memisevic
hallucinationuncertaintyevaluationVirtual
5
泛读ICLR 2026

Libra: Effective yet Efficient Load Balancing for Large-scale MoE Inference

这篇论文解决的是大规模 MoE 分布式推理中的 expert load imbalance,也就是有些专家过载、有些专家闲置,最终让整体延迟卡在最忙的那部分机器上。已有系统方法要么平衡得不够好,要么为了做负载均衡引入新的调度、重路由或通信开销,结果拆东墙补西墙。

Jaehoon Yang,Yushin Kim,Seokwon Moon,Yeonhong Park,Jae W. Lee
moeinferenceload-balancingVirtual
5
ICLR 2026

Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks

大模型的越狱防御方法对未知越狱攻击泛化性差,传统对抗训练方法无法应对新出现的越狱攻击,此前的工作假设新越狱攻击是完全未知的,没有利用已有攻击的特征。

Mahavir Dabas,Tran Huynh,Nikhil Billa,Jiachen (Tianhao) Wang,Peng Gao,Charith Peris ... 省略 1 位作者 ... ,Rahul Gupta,Ming Jin,Prateek Mittal,Ruoxi Jia
jailbreaksafetyadversarial-trainingVirtual
2
ICLR 2026

RedSage: A Cybersecurity Generalist LLM

现有网络安全领域大模型要么依赖闭源API存在隐私风险,要么开源模型缺乏领域适配能力,无法满足本地部署、支持多工作流的需求,此前的工作没有系统性构建高质量的网络安全预训练与微调数据集。

Naufal Suryanto,Muzammal Naseer,Pengfei Li,Syed Talal Wasim,Jinhui Yi,Juergen Gall,Paolo Ceravolo,Ernesto Damiani
continual-pretraindomain-adaptationcybersecurityVirtual
4
ICLR 2026

Learning to Generate Unit Test via Adversarial Reinforcement Learning

解决 LLM 自动生成高质量单元测试缺乏有效训练方法的问题。以往多依赖 SFT 或简单的 prompt 工程,难以保证生成的测试用例能有效发现代码缺陷。

Dongjun Lee,Changho Hwang,Kimin Lee
KAISTunit-testreinforcement-learningcode-generationVirtual
5
泛读ICLR 2026

Noise Stability of Transformer Models

用 average sensitivity 衡量 LLM 的“简单性/鲁棒性”不够用:它难以自然推广到实值域,也解释不了现代模型常见的“只依赖少数关键 token(junta-like)”现象。

Themistoklis Haris,Zihan Zhang,Yuichi Yoshida
noise-stabilitytransformer-theorygeneralizationVirtual
5
泛读ICLR 2026

From Concepts to Components: Concept-Agnostic Attention Module Discovery in Transformers

现有 attribution 多盯着 MLP 神经元且偏简单概念,导致注意力机制对复杂概念的贡献难以被系统定位,也缺少统一、可扩展的“组件级”发现方法。

Jingtong Su,Julia Kempe,Karen Ullrich
interpretabilityattention-analysistransformer-componentsVirtual
5
泛读ICLR 2026

Cross-Modal Redundancy and the Geometry of Vision–Language Embeddings

VLM 的共享嵌入空间几何缺少可检验的结构假设,导致我们很难回答“哪些维度/方向真的是跨模态共享概念,哪些只是对齐训练的偶然产物”。

Grégoire DHIMOÏLA,Thomas Fel,Victor Boutin,Agustin Picard
vlmembedding-geometrycross-modal-alignmentVirtual
5
泛读ICLR 2026

LS-Merge: Merging Language Models in Latent Space

这篇论文要解决的是:现有 weight-space model merging 很高效,但基本默认架构相同、尺寸相近、层能一一对齐,一旦模型异构,合并就会很脆弱甚至不可做。过去大家回避这个问题,通常靠同架构 checkpoint 插值或 task vector 加减,因为直接在参数空间里比较不同模型没有统一坐标系。

Bedionita Soro,Aoxuan Zhang,Bruno Andreis,Jaehyeong Jo,Song Chong,Sung Ju Hwang
model-merginglatent-spacecross-architectureVirtual
5
泛读ICLR 2026

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

这篇论文解决的是 LLM agent 用 RL 训练时最难的一环:探索不足,尤其是在需要发现新状态而不是调用已有知识的环境里。过去方法更多利用预训练先验或在已有轨迹上做优化,但这对 open-ended 环境不够,因为模型不会主动去到没见过但关键的状态。

Zeyuan Liu,Jeonghye Kim,Xufang Luo,Dongsheng Li,Yuqing Yang
llm-agentreinforcement-learningmemoryVirtual
5
泛读ICLR 2026

Mitigating Noise Shift in Denoising Generative Models with Noise Awareness Guidance

这篇论文指出了一个被长期忽视但很基础的问题:在 diffusion / denoising 生成模型采样时,中间状态的真实噪声水平常常和预设时间步对应的噪声水平不一致,作者把它称为 noise shift。过去大家通常默认离散求解器沿着预定义噪声日程前进,因此误差更多归因于步长离散化或模型预测误差,而没有单独分析‘状态已经偏离当前噪声层级’这件事。

Jincheng Zhong,Boyuan Jiang,Xin Tao,Pengfei Wan,Kun Gai,Mingsheng Long
diffusionsamplingnoise-scheduleVirtual
5
泛读OralICLR 2026

LLM DNA: Tracing Model Evolution via Functional Representations

这篇论文要解决的是:现在有大量 LLM,但它们通过预训练、微调、蒸馏、适配形成的‘谱系关系’往往不透明,导致模型管理、溯源和复用都很困难。已有方法通常依赖特定任务、固定模型集合,或者要求 tokenizer / 架构一致,因此很难做成通用的模型进化追踪工具。

Zhaomin Wu,Haodong Zhao,Ziyang Wang,Jizhou Guo,Qian Wang,Bingsheng He
model-lineagerepresentationfine-tuningVirtual
5
泛读ICLR 2026

Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

这篇论文关注的是 CLIP 在 typographic attack 下的脆弱性,而且它不只想提高鲁棒性,还想找出导致攻击生效的具体电路。过去这类防御很多依赖数据增强或再训练,但这样代价高,也很难解释模型到底是在哪些组件上读取了图像中的文字并把它传给分类决策。

Lorenz Hufe,Constantin Venhoff,Erblina Purelku,Maximilian Dreyer,Sebastian Lapuschkin,Wojciech Samek
clipinterpretabilitymultimodalVirtual
5
ICLR 2026

Learning Retrieval Models with Sparse Autoencoders

探索如何利用稀疏自编码器(SAE)提取的 LLM 潜在特征来改进学习型稀疏检索(LSR)。现有的 LSR 方法通常将输入映射到词表空间,限制了特征的语义表达和跨语言能力。

Thibault Formal,Maxime Louis,Hervé Déjean,Stéphane Clinchant
Naver Labs Europeretrievalsparse-autoencoderinterpretabilityVirtual
5
ICLR 2026

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

解决现有音频基准测试无法有效评估模型细粒度时空推理能力的问题。现有基准多测试可通过文本描述恢复的语义,掩盖了模型在感知推理上的缺陷。

Zihan Liu,Zhikang Niu,Qiuyang Xiao,Zhisheng Zheng,Ruoqi Yuan,Yuhang Zang ... 省略 3 位作者 ... ,Xie Chen,Leilei Sun,Dahua Lin,Jiaqi Wang
audio-languagebenchmarkreasoningVirtual
7
泛读ICLR 2026

Weak-to-Strong Generalization with Failure Trajectories

将弱到强泛化(W2SG)从简单的二分类任务扩展到复杂的交互式决策环境中。以前的 W2SG 主要关注静态任务,难以处理需要多步推理和探索的场景。

Ruimeng Ye,Zihan Wang,Yang Xiao,Zinan Ling,Manling Li,Bo Hui
weak-to-stronggeneralizationdecision-makingVirtual
7
泛读ICLR 2026

Batch Pruning by Activation Stability

解决深度神经网络训练成本高昂的问题。现有的数据剪枝方法通常是静态的或计算开销大,难以在训练过程中动态移除对学习贡献小的批次。

Md Mustakin Alam,Shaker Islam,Aminul Islam
training-efficiencybatch-pruningdata-selectionVirtual
4
ICLR 2026

Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models

Baolong Bi,Shenghua Liu,Yiwei Wang,Yilong Xu,Junfeng Fang,Lingrui Mei,Xueqi Cheng
ragknowledge-conflictparametric-vs-contextVirtual
3
ICLR 2026

GuidedSampling: Steering LLMs Towards Diverse Candidate Solutions at Inference-Time

解决 RAG 场景下 LLM 内部参数知识与检索到的外部上下文发生冲突时,模型难以决定依赖哪一方的问题。以往方法缺乏在推理时对这种依赖倾向的细粒度控制。

Divij Handa,Mihir Parmar,Aswin RRV,Md Nayem Uddin,Hamid Palangi,Chitta Baral
inference-scalingsampling-diversityrepeated-samplingVirtual
6
泛读ICLR 2026

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks

解决逐步分组策略优化(stepwise group-based policy optimization)在长视野智能体任务中存在的“上下文不一致”问题。该问题导致同一组内的不同步骤历史上下文不同,从而严重偏差相对优势的估计。

Shuo He,Lang Feng,qi wei,Xin Cheng,Lei Feng,Bo An
grpoagentic-rllong-horizonVirtual
5
泛读ICLR 2026

FSPO: Few-Shot Optimization of Synthetic Preferences Effectively Personalizes to Real Users

这篇论文要解决的是:如何只用极少量真实用户偏好,就把主要在合成偏好上训练出来的个性化能力迁移到真实用户。过去个性化通常依赖为每个用户单独收集大量偏好数据,或者用通用 reward model 粗糙替代,前者成本太高,后者又很难捕捉用户间细粒度差异,所以作者把问题改写成“few-shot 识别用户奖励函数”的元学习问题。

Anikait Singh,Sheryl Hsu,Kyle Hsu,Eric Mitchell,Stefano Ermon,Tatsunori Hashimoto,Archit Sharma,Chelsea Finn
personalizationpreference-optimizationmeta-learningVirtual
5
泛读ICLR 2026

Eliciting Numerical Predictive Distributions of LLMs Without Auto-Regression

这篇论文要解决的是:在数值预测任务里,能不能不走自回归采样,也直接拿到 LLM 对连续目标的预测分布。以前把 LLM 用在回归、时间序列或表格预测时,通常要反复生成数值样本再估计均值、分位数或不确定性,这既慢又不稳定,而且自回归 token 生成对连续值本来就不是最自然的接口。

Julianna Piskorz,Katarzyna Kobalczyk,Mihaela van der Schaar
llm-regressionpredictive-distributionnon-autoregressiveVirtual
5
泛读ICLR 2026

Math Blind: Failures in Diagram Understanding Undermine Reasoning in MLLMs

这篇论文的核心结论是:很多 MLLM 在图形数学题上的失败,不是先坏在推理,而是先坏在 diagram perception。以往社区经常把图表、几何图、流程图上的错误统称为“多模态推理不足”,但作者认为这里混进了更基础的感知缺陷,所以先把“看懂图”和“基于图推理”拆开诊断。

Yanpeng Sun,Shan Zhang,Wei Tang,Aotian Chen,Piotr Koniusz,Kai Zou,Yuan Xue,Anton Hengel
mllmdiagram-understandingreasoningVirtual
5
泛读ICLR 2026

Generative Value Conflicts Reveal LLM Priorities

这篇论文要解决的是:现有对齐数据很少真正暴露“价值冲突”场景,因此我们并不知道 LLM 在不得不权衡多个价值时会优先站哪一边。过去很多评测用单选题或单一原则判断模型是否符合某套价值,但真实部署里更常见的是价值之间互相拉扯,这时模型的排序偏好比单点正确性更关键。

Andy Liu,Kshitish Ghate,Mona Diab,Daniel Fried,Atoosa Kasirzadeh,Max Kleiman-Weiner
alignmentvaluesevaluationarXivVirtual
5
泛读ICLR 2026

TokMem: One-Token Procedural Memory for Large Language Models

这篇论文要解决的是:提示词作为任务控制接口太臃肿、每次都要重复编码,而且难以模块化复用。对大量固定 procedure 的场景,今天常见做法要么反复塞长 prompt,要么做 LoRA / finetune,但前者推理浪费,后者又不够轻量、也容易发生干扰。

Zijun Wu,Yongchang Hao,Lili Mou
memorycontrol-tokenadaptationVirtual
5
泛读ICLR 2026

How does the optimizer implicitly bias the model merging loss landscape?

这篇论文要回答的是:为什么有些模型可以 merge 得很好,有些不行,而且这种差异和优化器到底有什么关系。过去 model merging 多半从参数几何或任务相似性解释成功与否,但训练动力学如何塑造可合并的 loss landscape,一直缺少统一视角。

Chenxiang Zhang,Alexander Theus,Damien Teney,Antonio Orvieto,Jun Pang,Sjouke Mauw
model-mergingoptimizerloss-landscapeVirtual
5
泛读ICLR 2026

Two (narrow) heads are better than (an arbitrarily wide) one

单头单层 attention-only transformer 的表达能力边界在哪?作者通过一个叫 Endpoint Selection Problem(ESP)的图论任务来刻画:单头在含环图上不可解,但两个窄头就能解决所有图上的 ESP。此前对 attention head 数量与表达力的关系缺乏与维度/精度无关的不可能性结果。

Amanuel Tesfaye,Zeno Kujawa,Rajmohan Rajaraman,Ravi Sundaram
attentionexpressivitytheoryVirtual
5
泛读ICLR 2026

The Effect of Attention Head Count on Transformer Approximation

Transformer 中 attention head 数量如何影响模型的逼近能力?此前缺乏关于 head 数量的参数复杂度上下界。作者通过一个广义 D-retrieval 任务建立了理论框架,证明 head 数量不足时参数量必须大幅增长。

Penghao Yu,Haotian Jiang,Zeyu Bao,Ruoxi Yu,Qianxiao Li
attentiontheorytransformerVirtual
5
泛读ICLR 2026

Closing the Modality Gap Aligns Group-Wise Semantics

CLIP 学到的多模态潜空间存在 modality gap(不同模态的表示在空间中结构性分离),此前争论这个 gap 是否需要解决。作者证明 modality gap 对实例级任务(如检索)影响不大,但对群组级任务(如聚类)影响显著。

Eleonora Grassucci,Giordano Cicchetti,Emanuele Frasca,Aurelio Uncini,Danilo Comminiello
multimodal-alignmentcliprepresentationVirtual
5
泛读ICLR 2026

Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations

这篇论文要解决的是:长程、部分可观测的 LLM agent 训练里,成功监督信号太稀缺,很多 rollout 虽然没完成原始目标,却实际上达成了别的有效目标,而这些监督通常被直接丢掉。现有 post-training 多数只认“是否完成给定任务”,导致大量潜在成功轨迹无法转化为学习信号。

Zichao Li,Gang Wu,Jack Wang,Ruiyi Zhang,Wanrong Zhu,Ryan Rossi,Vlad Morariu,Jihyung Kil
hindsight-relabelingagent-trainingsftVirtual
5
泛读ICLR 2026

QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

这篇论文要解决的是:在量化感知的 PEFT 场景里,如何在不增加太多训练与部署负担的前提下,更有效地补偿量化误差。现有低秩适配器容量不足,往往压不住量化带来的表示损失;而基于 Fourier/变换的适配器虽然表达力更强,直接接到量化模型上又容易带来误差补偿无效和额外开销。

Hyesung Jeon,Seojune Lee,Beomseok Kang,Yulhwa Kim,jae-joon kim
quantizationpeftloraVirtual
5
泛读ICLR 2026

Get RICH or Die Scaling: Profitably Trading Inference Compute for Robustness

这篇论文要解决的是:推理时增加 reasoning compute 是否真的能提升模型面对对抗性 OOD 输入时的鲁棒性,以及这种收益在更强攻击者下是否还能成立。已有工作指出更多 test-time reasoning 对 jailbreak 防御有帮助,但一旦攻击者能用梯度或多模态输入,这种收益会明显减弱,因此关键问题变成:test-time compute 的鲁棒性收益边界到底在哪里。

Tavish McDonald,Bo Lei,Stanislav Fort,Bhavya Kailkhura,Brian Bartoldson
inference-timereasoningrobustnessVirtual
5
泛读ICLR 2026

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

这篇论文要解决的是:当前 LLM 在情感智能和共情对话上的提升,缺少像数学/代码那样可验证、可稳定优化的 RL 信号。传统偏好学习很难把‘是否真正共情’拆成稳定 reward,而纯人工标注又贵且噪声大,所以 EQ 训练长期停留在 SFT 和经验性对齐。

Peisong Wang,Ruotian Ma,Bang Zhang,Xingyu Chen,Zhiwei He,Kang Luo ... 省略 8 位作者 ... ,Yifan Yang,Jia Li,Zhaopeng Tu,Xiaolong Li
rlvremotiondialogueVirtual
5
泛读ICLR 2026

REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering

推理时 steering(不改参数地改变 LLM 行为)的核心难题是精确定位哪些内部模块(head/layer)真正控制目标行为。已有方法依赖启发式或简单线索,定位不准导致 steering 效果差或产生副作用。

Li-Ming Zhan,Bo LIU,Yujie Feng,Chengqiang Xie,Jiannong Cao,Xiao-Ming Wu
Hong Kong Polytechnic UniversityinterpretabilityactivationsteeringVirtual
5
泛读ICLR 2026

Addressing Pitfalls in the Evaluation of Uncertainty Estimation Methods for Natural Language Generation

LLM 不确定性估计方法的评估存在系统性缺陷:常用的近似正确性函数(判断生成文本是否正确)之间存在显著分歧,导致不同评估协议下不确定性方法的排名不一致,研究者可以通过选择评估函数来人为膨胀方法表现。

Mykyta Ielanskyi,Kajetan Schweighofer,Lukas Aichberger,Sepp Hochreiter
JKU LinzuncertaintyevaluationhallucinationVirtual
5
泛读ICLR 2026

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

LLM 在复杂指令遵循上仍然不够可靠,activation steering 技术可以在推理时干预模型内部来改善遵循度,但存在 oversteering 风险——过度强调指令会损害任务准确性和文本质量。

Minjae Kang,Jaehyung Kim
activation-steeringinstruction-followinginference-timeVirtual
5
泛读ICLR 2026

Transfer Learning in Infinite Width Feature Learning Networks

迁移学习什么时候有效、为什么有效?在无限宽神经网络的 feature learning regime 下,如何量化 source task 预训练对 target task 泛化的提升?已有理论大多局限于 kernel regime(固定特征),对 feature learning 下的迁移缺乏定量分析。

Clarissa Lauditi,Blake Bordelon,Cengiz Pehlevan
Harvard Universitytransfer-learningtheorypretrainingVirtual
6
泛读ICLR 2026

PPE: Positional Preservation Embedding for Token Compression in Multimodal Large Language Models

多模态大模型因视觉token冗余存在推理效率低的问题,现有token合并方法压缩序列长度时忽略位置关系,会破坏空间布局和时序连续性,此前没有方法解决高压缩率与位置信息保留的trade-off。

Mouxiao Huang,Borui Jiang,Dehua Zheng,Hailin Hu,Kai Han,Xinghao Chen
token-compressionmllmvisual-tokensVirtual
6
泛读ICLR 2026

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

现有多模态大模型在数学、逻辑等单步推理任务表现良好,但需要迭代思考、回溯的长链反思推理能力弱,此前没有多模态长链反思推理专用基准,能力评估与优化缺乏支撑。

Xiangyu Zhao,Lin,Tianhao Liang,Yifan Zhou,Wenhao Chai,Yuzhe Gu ... 省略 4 位作者 ... ,Wenwei Zhang,Hua Yang,Haodong Duan,Xue Yang
mllmreasoningrlVirtual
6
泛读ICLR 2026

CoT-Evo: Evolutionary Distillation of Chain-of-Thought for Scientific Reasoning

现有从大模型蒸馏CoT的方法在科学领域效果差,大模型在高复杂度、专业知识场景容易产出错误或表层推理,直接蒸馏这些低质量输出会限制学生模型性能,此前的蒸馏方法没有针对科学领域CoT质量做优化。

Kehua Feng,Keyan Ding,Zhihui Zhu,Lei Liang,Qiang Zhang,Huajun Chen
cot-distillationscientific-reasoningdata-synthesisVirtual
4
ICLR 2026

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

大模型在长上下文场景的部署受计算效率低和信息冗余的阻碍,现有上下文压缩方法在高压缩率下容易丢失关键相关信息,此前的方法没有同时优化语义相关性和多样性。

Jiwei Tang,Shilei Liu,ZHICHENG ZHANG,Yujin Yuan,Libin Zheng,wenbo su,Bo Zheng
context-compressionlong-contextinference-efficiencyVirtual
5
ICLR 2026

ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

大模型适配新域的参数高效微调方法中,LoRA的表达能力受秩限制,HiRA等方法依赖预训练模型结构,此前的PEFT方法无法在低参数量下同时提升表达能力且不依赖主干结构。

Raghav Singhal,Kaustubh Ponkshe,Rohit Vartak,Praneeth Vepakomma
peftlorafine-tuningVirtual
5
泛读ICLR 2026

Scalable In-Context Q-Learning

这篇工作要解决的是:怎样把强化学习里的价值学习做成像语言模型预训练那样可扩展、稳定、并且能在上下文内完成策略推断。现有 in-context RL 往往直接模仿轨迹或做序列建模,对次优轨迹很敏感,也难在长时序依赖下做精确 credit assignment,所以容易学到会“讲故事”的行为模式,而不是可靠的回报最大化机制。

Jinmei Liu,Fuhong Liu,Zhenhong Sun,Jianye Hao,Huaxiong Li,Bo Wang,Daoyi Dong,Chunlin Chen,Zhi Wang
in-context-learningreinforcement-learningtransformerVirtual
5
泛读ICLR 2026

When Language Models Lose Their Mind: The Consequences of Brain Misalignment

这篇工作要解决的是:脑对齐与语言能力之间到底是什么关系。过去很多工作把 brain alignment 当成认知 plausibility、可解释性甚至安全性的加分项,但它是否真的带来更好的语言表征,一直缺少反事实检验;作者这里直接构造“脑失配但语言建模还好”的模型,来隔离脑对齐本身的功能作用。

Gabriele Merlin,Mariya Toneva
mechanistic-analysisbrain-alignmentlanguage-modelsVirtual
5
泛读OralICLR 2026

In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

这篇工作要解决的是:工具增强推理如果仍用单一、全上下文的 monolithic policy 去串 thoughts 和 tool calls,在长时程、多工具场景里会越来越难训也越来越难泛化。很多 agentic system 虽然做了模块化,但往往是 training-free orchestration,或者离线训练各模块,没把真实多轮交互中的反馈闭环纳入优化。

Zhuofeng Li,Haoxiang Zhang,Seungju Han,Sheng Liu,Jianwen Xie,Yu Zhang,Yejin Choi,James Y Zou,Pan Lu
agentplanningtool-useVirtual
5
泛读ICLR 2026

Enhancing Visual Token Representations for Video Large Language Models via Training-free Spatial-Temporal Pooling and Gridding

这篇工作要解决的是:Video LLM 里的视觉 token 压缩做得太粗,导致时空交互信息在进入语言模型前就被抹平。很多 LLaVA 系方法仍用简单 pooling 或插值处理视频 token,这对图像还勉强够用,但对视频这种时间结构很强的模态,会明显损伤动作、事件顺序和局部显著区域的表达。

Bingjun Luo,Tony Wang,Hanqi Chen,Xinpeng Ding
video-llmvisual-tokentoken-compressionVirtual
4
ICLR 2026

RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling

现有强化学习增强的大推理模型在规则格式、类型、复杂度变化的真实场景表现差,此前的方法使用人工设计的静态混合训练,无法适配不同领域的规则变化。

Yang Liu,Jiaqi Li,Zilong Zheng
rlreasoningsamplingVirtual
3
OralICLR 2026

Q-RAG: Long Context Multi‑Step Retrieval via Value‑Based Embedder Training

现有RAG方法多为单步检索,无法满足复杂问题的多步搜索需求,现有多步检索方法微调小LLM做检索资源消耗大,无法适配更大的LLM,此前的多步检索方法没有用RL微调嵌入器实现多步检索。

Artyom Sorokin,Nazar Buzun,Aleksandr Anokhin,Egor VEDERNIKOV,Petr Anokhin,Mikhail Burtsev,Evgeny Burnaev
ragretrievalembedderVirtual
4
ICLR 2026

Purifying Generative LLMs from Backdoors without Prior Knowledge or Clean Reference

现有生成式大模型后门清除方法需要触发器先验知识、干净参考模型或者激进微调配置,无法适配真实场景,此前的方法多针对分类任务,不适用于生成式LLM。

Jianwei Li,Jung-Eun Kim
securitybackdoorfine-tuningVirtual
6
泛读ICLR 2026

MergeTune: Continued Fine-Tuning of Vision-Language Models

CLIP等视觉语言模型微调时普遍存在预训练知识的灾难性遗忘,现有工作仅在微调过程中尝试缓解遗忘,无法完全消除,缺少微调结束后恢复预训练知识的后置方案。

Wenqing Wang,Da Li,Xiatian Zhu,Josef Kittler
vlmcontinued-finetuningcatastrophic-forgettingVirtual
5
ICLR 2026

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

现有LLM智能体的安全护栏大多在动作执行后触发,无法在规划阶段拦截高风险不可逆行为,且存在数据、模型、评估三大缺口,难以规模化落地。

Yue Huang,Hang Hua,Yujun Zhou,Pengcheng Jing,Manish Nagireddy,Inkit Padhi ... 省略 4 位作者 ... ,Liubov Nedoshivina,Pin-Yu Chen,Prasanna Sattigeri,Xiangliang Zhang
agentguardrailsynthetic-dataVirtual
4
ICLR 2026

Toward Efficient Exploration by Large Language Model Agents

现有LLM驱动的强化学习智能体探索效率低,经典RL领域已被验证的探索算法难以直接适配纯自然语言决策场景,限制了大模型智能体的样本效率。

Dilip Arumugam,Thomas L. Griffiths
agentrlexplorationarXivVirtual
4
ICLR 2026

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

现有多LLM系统通过文本序列完成交互,会丢失模型内部丰富的语义信息,且带来逐token生成的额外延迟,限制了多模型协作的效率和效果上限。

Tianyu Fu,Zihan Min,Hanling Zhang,Jichao Yan,Guohao Dai,Wanli Ouyang,Yu Wang
kv-cachemulti-llmsemantic-communicationVirtual
2
ICLR 2026

Massive Memorization with Hundreds of Trillions of Parameters for Sequential Transducer Generative Recommenders

现有序列推荐模型使用10k以上长度的用户交互序列提升效果时,会面临延迟高、QPS低、GPU成本大的工业级扩展性问题,现有方案无法平衡效果和部署成本。

Zhimin Chen,Chenyu Zhao,Ka Mo,Yunjiang Jiang,Jane Lee,KHUSHHALL CHANDRA MAHAJAN,Ning Jiang,Kai Ren,Charlie Li,Wen-Yun Yang
recommendationtransformerscalingVirtual
5
泛读ICLR 2026

Aurelius: Relation Aware Text-to-Audio Generation At Scale

这篇论文要解决的是关系感知的 text-to-audio 生成缺少规模化数据基础,导致模型会生成“有声音”但不一定“关系对”的音频。现有 TTA 数据集更多覆盖单一音频事件或简单文本描述,难以系统表达“谁在前后、谁包含谁、谁因谁发生”这类关系,因此模型很难学到组合式音频语义。

Yuhang He,He Liang,Yash Jain,Andrew Markham,Vibhav Vineet
text-to-audioaudio-generationdatasetVirtual
5
泛读ICLR 2026

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics

这篇论文要回答的是:为什么 LLM 在标准数学 benchmark 上看起来很强,但到了真实应用中的文字情境题就明显失灵。过去 AIME、MATH-500 这类数据多数把数学结构直接写在题面里,模型主要做符号推导;但现实场景常常要求先从叙述中抽取变量、约束和子问题,这一步如果做不好,后面的推理再强也用不上。

Bowen Cao,Dongdong Zhang,Yixia Li,Junpeng Liu,Shijue Huang,Chufan Shi ... 省略 1 位作者 ... ,Yaokang Wu,Guanhua Chen,Wai Lam,Furu Wei
reasoningmathbenchmarkVirtual
3
ICLR 2026

Contrastive Predictive Coding Done Right for Mutual Information Estimation

现有广泛用于互信息估计的InfoNCE目标与互信息没有直接关联,不是有效的互信息估计器,估计偏差大,限制了对比学习理论的落地应用。

Jongha Ryu,Pavan Yeddanapudi,Xiangxiang Xu,Gregory Wornell
contrastive-learningmutual-informationobjectiveVirtual
5
ICLR 2026

Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match

现有推测解码的严格token exact match验证规则会丢弃大量语义正确的候选序列,限制了接受率和加速比上限,且现有宽松验证方案大多需要额外训练,落地成本高。

Jinze Li,Yixing Xu,Guanchen Li,Shuo Yang,Jinfeng Xu,Xuanwu Yin,Dong Li,Edith Ngai,Emad Barsoum
speculative-decodinginferencesemantic-verificationVirtual
4
ICLR 2026

Not-a-Bandit: Provably No-Regret Drafter Selection in Speculative Decoding for LLMs

现有推测解码的在线draft模型选择采用多臂老虎机方案,仅能评估选中的draft模型,随着draft模型数量增加收敛速度指数级下降,无法适配大规模draft模型池的部署需求。

Hongyi Liu,Jiaji Huang,Zhen Jia,Youngsuk Park,Yu-Xiang Wang
speculative-decodingroutingtheoryVirtual
6
泛读ICLR 2026

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

当前SOTA图像描述模型依赖有监督微调(SFT)训练,需要昂贵且不可扩展的人工或专有模型标注数据,易导致模型记住固定标准答案,泛化性与描述多样性不足,而图像描述是大视觉语言模型(LVLM)预训练的核心环节。

Long Xing,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Jianze Liang,Qidong Huang,Jiaqi Wang,Feng Wu,Dahua Lin
image-captioningrlmultimodalVirtual
5
ICLR 2026

AIRE-Prune: Asymptotic Impulse-Response Energy for State Pruning in State Space Models

状态空间模型(SSM)为抵消大状态维度带来的内存和计算开销,通常会牺牲模型容量、搜索空间或稳定性,现有剪枝方法缺乏跨层全局统一的剪枝标准。

Apurba Prasad Padhy,Fernando Camacho,Saibal Mukhopadhyay
ssmpruningcompressionVirtual
7
精读ICLR 2026

From Predictors to Samplers via the Training Trajectory

从训练好的预测器采样是模型可解释性的重要手段,也是比扩散模型计算量更低的生成方案,但现有局部采样器在预测器学到的崎岖高频函数上表现很差,采样效率极低。

Soumya Ram,Akhila Ram
training-dynamicssamplingcoarse-to-fineVirtual
6
泛读ICLR 2026

Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs

大视觉语言模型(VLM)在视觉问答等任务中即使输入存在正确视觉证据也会答错,此前无法明确失败原因是未感知到证据还是未有效利用证据。

Zhining Liu,Ziyi Chen,Hui Liu,Chen Luo,Xianfeng Tang,Suhang Wang ... 省略 3 位作者 ... ,Tianxin Wei,Hanqing Lu,Benoit Dumoulin,Hanghang Tong
vlmattention-analysishallucinationVirtual
6
泛读ICLR 2026

ContextIF: Enhancing Instruction-Following through Context Reward

现有提升大语言模型指令跟随能力的SFT和偏好学习方法泛化到新的复杂指令效果差,还可能损伤模型通用能力;上下文学习(ICL)泛化性好但依赖高质量人工构造的示例池,可扩展性差。

Yule Zhong,Jiacheng Yao,Guoxiu He
instruction-followingiclreward-modelVirtual
5
泛读ICLR 2026

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

这篇论文要解决的是:现有知识编辑方法在多跳事实召回上明显失效,尤其改动涉及推理链中的隐式中间实体时,模型经常更新不到位或连带破坏别的知识。以往方法大多把编辑看成局部事实映射替换,默认“subject→object”是静态写在少数参数里的,但多跳检索其实依赖跨层动态激活链,这正是过去方法回避掉的部分。

Jiayu Yang,Yuxuan Fan,Songning Lai,Shengen Wu,Jiaqi Tang,Chun Kang,Zhijiang Guo,Yutao Yue
knowledge-editingmulti-hop-reasoningcausal-analysisVirtual
5
泛读OralICLR 2026

$p\textrm{-less}$ Sampling: A Robust Hyperparameter-Free Approach for LLM Decoding

这篇论文要解决的是:LLM 采样解码强依赖 top-p、min-p 之类阈值超参,而这些超参对任务、温度和模型都很敏感,导致同一个模型很难用一套默认配置稳定输出高质量结果。过去的做法是不断调阈值,或者接受某些温度下质量明显波动,但这在通用部署里成本很高。

Runyan Tan,Shuang Wu,Phillip Howard
decodingsamplinghyperparameter-freeVirtual
5
泛读ICLR 2026

Towards Scalable Oversight via Partitioned Human Supervision

这篇论文要解决的是:当 AI 任务跨越多个高专业领域、单个人类专家无法给出完整正确答案时,怎样仍然从人类获得可扩展监督。传统监督默认人能判断“哪个是对的”,但在超人任务上更现实的信号往往是“这个选项肯定不对”,也就是局部、补充性的负标签。

Ren Yin,Takashi Ishida,Masashi Sugiyama
scalable-oversighthuman-supervisionalignmentVirtual
5
泛读ICLR 2026

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

这篇论文要解决的是:多智能体 LLM 系统虽然常靠角色分工提升复杂任务能力,但现有 on-policy RL,尤其 GRPO 一类方法,默认同组样本共享 prompt 分布,这在多角色多轮对话里不成立,导致算法和训练系统都难直接套用。过去大家更多是把 MAS 当推理编排,而不是一个可稳定做 RL 的联合策略系统。

Yujie Zhao,Lanxiang Hu,Yang Wang,Minmin Hou,Hao Zhang,Ke Ding,Jishen Zhao
multi-agentrlgrpoVirtual
5
ICLR 2026

Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs

前沿大语言模型的安全评估通常只检查模型是否拒绝有害请求,无法识别模型输出看似有害但实际不可行的回答这类策略性欺骗行为,导致安全评估结果失真。

Alexander Panfilov,Evgenii Kortukov,Kristina Nikolić,Matthias Bethge,Sebastian Lapuschkin,Wojciech Samek,Ameya Prabhu,Maksym Andriushchenko,Jonas Geiping
safetydishonestyalignmentVirtual
5
ICLR 2026

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

现有全模态大语言模型(OLLM)的评测基准无法衡量模型的跨模态一致性,无法判断模型是实现了模态无关的推理还是继承了模态特定的偏见。

Xingrui Wang,Jiang Liu,Chao Huang,Xiaodong Yu,Ze Wang,Ximeng Sun,Jialian Wu,Alan Yuille,Emad Barsoum,Zicheng Liu
omni-modelbenchmarkcross-modalVirtual
7
精读ICLR 2026

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-Training

像素空间生成模型的训练难度高于隐空间生成模型,性能和效率一直存在明显差距,现有像素空间生成方案依赖VAE等隐变量模型做预处理,无法实现端到端训练。

jiachen lei,Keli Liu,Julius Berner,Y HoiM,Hongkai Zheng,Jiahong Wu,Xiangxiang Chu
diffusionpixel-spaceself-supervisedVirtual
6
泛读ICLR 2026

Neuron-Level Analysis of Cultural Understanding in Large Language Models

大语言模型全球部署时存在文化偏见、对小众文化认知不足的问题,现有研究多聚焦行为层面的偏见检测,未揭示文化理解背后的神经元层面机制。

Taisei Yamamoto,Ryoma Kumon,Danushka Bollegala,Hitomi Yanaka
interpretabilityneuronsbiasVirtual
5
ICLR 2026

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

扩散图像生成模型存在训练数据记忆问题,会无意识复现训练图像的全部或部分内容,现有基于得分差范数的记忆检测方法仅在中高噪声水平有效,低噪声段检测能力缺失,此前研究未考虑对数概率分布的各向异性特性。

Rohan Asthana,Vasileios Belagiannis
diffusionmemorizationdata-qualityVirtual
4
ICLR 2026

Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

大语言模型处理长上下文时性能会因前摄干扰大幅下降,早期上下文的无关信息会扰乱推理和记忆召回,现有研究多聚焦外部存储增强,未从LLM主动管理上下文的角度优化。

Mo Li,L.H. Xu,Qitai Tan,Long Ma,Hongyong Song,Ting Cao,Yunxin Liu
long-contextmemorycontext-managementVirtual
4
ICLR 2026

SWE-RM: Execution-free Feedback for Software Engineering Agents

现有软件工程智能体依赖基于单元测试的执行反馈进行RL训练和测试时缩放,需要大量测试用例,且反馈稀疏无法区分同成功或同失败的轨迹,无执行反馈的奖励模型在真实SWE场景的应用尚未被充分探索。

KaShun SHUM,Binyuan Hui,Jiawei Chen,Lei Zhang,X. W.,Jiaxi Yang,Yuzhen Huang,Junyang Lin,Junxian He
coding-agentreward-modelsoftware-engineeringVirtual
5
ICLR 2026

MMReD: a Cross-Modal Benchmark for Dense Context Reasoning

现有LLM和LVLM的长上下文评测多为简单的针插草堆检索任务,无法衡量需要全局模式识别的密集上下文推理能力,缺少跨模态的密集推理评测基准。

Maxim Kurkin,Boris Shirokikh,IRINA ABDULLAEVA,Viktoriia Chekalina,Andrey Kuznetsov
benchmarkmultimodallong-contextVirtual
5
ICLR 2026

VIRTUE: Visual-Interactive Text-Image Universal Embedder

现有多模态嵌入模型仅支持全局图像和文本输入,不支持用户指定图像区域(点、框、掩码)的交互输入,无法实现细粒度的实体级嵌入,限制了其交互场景的应用。

Wei-Yao Wang,Kazuya Tateishi,Qiyu Wu,Shusuke Takahashi,Yuki Mitsufuji
embeddingmultimodalrepresentation-learningVirtual
7
精读ICLR 2026

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

连续token自回归图像生成模型性能落后于潜扩散和掩码生成模型,核心原因是VAE潜变量的异方差在CFG解码时被放大,导致方差崩溃,现有方案多调整解码策略或改用离散token,未从潜变量分布约束的根源解决问题。

Guolin Ke,HUI XUE
autoregressivecontinuous-tokenimage-generationVirtual
5
泛读ICLR 2026

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

这篇论文解决的是 VLM 推理阶段 vision token 过多、冗余高、导致延迟和算力成本恶化的问题。已有 token pruning 方法大多只看图像侧或文本侧单模态信号,因此容易删掉对跨模态对齐真正重要的视觉 token;同时不同方法的打分准则往往绑定具体架构,泛化性有限。

Sixun Dong,Juhua Hu,Mian Zhang,Ming Yin,Yanjie Fu,Qi Qian
vlmtoken-pruninginferenceVirtual
5
泛读ICLR 2026

HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation

这篇论文解决的是 agentic RAG 中常见的搜索行为失控问题:模型经常过搜,去查自己已经知道的内容;也经常欠搜,在该查证时不查,导致既贵又不稳。现有训练多依赖 outcome reward,只在最终答对与否上给信号,这不足以约束检索过程中的细粒度决策。

Peilin Wu,Mian Zhang,Kun Wan,Wentian Zhao,Kaiyu He,Xinya Du,Zhiyu Chen
ragprocess-rewardagentVirtual
5
泛读ICLR 2026

Zero-Overhead Introspection for Adaptive Test-Time Compute

这篇论文解决的是 test-time scaling 缺少廉价自我评估信号的问题。当前 Best-of-N、self-consistency 这类方法默认用固定采样预算,不管题目难不难、当前解答是否已经足够好,都会继续花算力;而外接 verifier 虽然能给置信度,但会引入额外模型、训练和推理开销。

Rohin Manvi,Joey Hong,Tim Seyde,Maxime Labonne,Mathias Lechner,Sergey Levine
test-time-computeintrospectionadaptive-inferenceVirtual
5
泛读ICLR 2026

LLMs Struggle to Balance Reasoning and World Knowledge in Causal Narrative Understanding

这篇论文解决的是 LLM 在叙事因果理解中无法稳定平衡“抽象推理”和“世界知识”两种信息源的问题。模型常见的失败方式有两类:一类是偷懒用事件先后顺序当因果,另一类是直接调用记忆中的常识模板而忽略当前上下文。过去很多 benchmark 混杂了这两种能力,因此模型看起来能做因果推断,但未必真的在做稳健的 causal reasoning。

Khurram Yamin,Shantanu Gupta,Gaurav Ghosal,Zachary Lipton,Bryan Wilder
causal-reasoningworld-knowledgellm-evaluationVirtual
5
ICLR 2026

Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement

安全对齐后的大语言模型存在过度拒绝问题,即将非有害的敏感提示误判为有害拒绝,现有缓解方法会降低模型对真实有害内容的拒绝能力,存在安全-有用性的权衡。

Yuxiao Lu,Lin Xu,yang sun,Wenjun Li,Jie Shi
over-refusalsafetyalignmentVirtual
4
ICLR 2026

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

语音语言模型(SLM)在多用户共享场景下缺乏交互隐私评估基准,现有基准要么只测对话能力忽略说话人身份,要么只测全局敏感数据泄露,未覆盖不同用户间上下文敏感信息泄露的交互隐私场景。

Yuxiang Wang,HongYu Liu,DEKUN CHEN,Xueyao Zhang,Zhizheng Wu
speech-lmprivacybenchmarkVirtual
5
泛读ICLR 2026

LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing

现有将LoRA与MoE结合用于LLM多任务适配的方法,通常替换整个注意力/FFN层为开关专家或追加并行分支,损害参数效率,同时限制任务 specialization 能力。

Wenbing Li,Zikai Song,Hang Zhou,Junqing Yu,Yunyao Zhang,Wei Yang
loramoemulti-taskVirtual
4
ICLR 2026

Massive Editing for Large Language Models Based on Dynamic Weight Generation

现有大模型知识编辑方法难以在大规模编辑场景下同时保证编辑的可靠性、通用性和局部性三大指标,全量重训成本过高不可行。

Wentao Wan,Qiqing Lao,Zhiwei Xie,Hefeng Wu,Runnan Lin,Liang Lin,Keze Wang
knowledge-editingmassive-editingdynamic-weightsVirtual
4
ICLR 2026

MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs

Huining Yuan,Zelai Xu,Zheyue Tan,Xiangmin Yi,Mo Guang,Kaiwen Long ... 省略 3 位作者 ... ,Bo Zhao,Xiao-Ping Zhang,Chao Yu,Yu Wang
multi-agentself-playrlVirtual
5
泛读ICLR 2026

Mitigating Hallucination in Vision-Language Model with Depth and Spatial-aware Key-Value Refinement

现有VLM幻觉缓解方法未明确幻觉的表征起源,视觉监督、RL、事后注意力重塑等方案要么训练成本高,要么效果有限,无法轻量解决幻觉问题。

Gusang Lee,Soohyun Kim,Donghoon Kim,Kyuhong Shim,Byonghyo Shim
vlmhallucinationrepresentationVirtual
5
泛读ICLR 2026

Multiplicative Diffusion Models: Beyond Gaussian Latents

经典扩散模型依赖加性高斯噪声,隐空间服从高斯先验,对重尾、各向异性数据的适配性差,隐分布与观测分布匹配度低。

Robert Gruhlke,Valentin Resseguier,Merveille Talla
diffusiongenerative-modelingsdeVirtual
5
泛读ICLR 2026

Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds

现有VLM模态对齐方法仅对文本提取分层特征,对图像仅用单个特征表示,导致模态间特征结构不对称,对齐效果次优。

Wei Wu,Xiaomeng Fan,Yuwei Wu,Zhi Gao,Pengxiang Li,Yunde Jia,Mehrtash Harandi
vlmmodality-alignmenthierarchyVirtual
5
泛读ICLR 2026

Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance

这篇论文要解决的是:安全对齐过的大模型在后续任务微调后经常明显失去安全性,而现有修复方法通常要额外收集不少安全样本并重新校准,成本高且容易伤到原有能力。作者挑战了“安全回补必须靠较多数据”的默认假设,主张只用单个安全样本就能把安全性基本补回来,这个问题之所以值得重看,是因为现实里模型常常频繁做 domain finetune,低成本 safety patching 比重新对齐更实用。

Jiawen Zhang,Lipeng He,Kejia Chen,Jian Lou,Jian Liu,Xiaohu Yang,Ruoxi Jia
safetyfine-tuningalignmentVirtual
5
泛读ICLR 2026

Learning to Weight Parameters for Training Data Attribution

这篇论文要解决的是:基于梯度的训练数据归因方法通常默认不同参数的重要性相同,或者把参数权重交给 Hessian 近似隐式决定,但这两种做法都没有真正建模网络参数在功能上的异质性。结果就是,归因分数常常混杂噪声,难以准确回答“哪个训练样本真正影响了这个输出”。

Shuangqi Li,Hieu Le,Jingyi Xu,Mathieu Salzmann
data-attributiontraining-datagradientsVirtual
5
泛读ICLR 2026

ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training

这篇论文要解决的是:已有 training-free 的 attention intervention 方法虽然能改善冻结 LLM,但通常需要先识别任务相关的重要 token,这一步依赖启发式,容易带偏,而且在高性能 kernel 下还可能拿不到完整 attention map。作者提出一个更极端的简化:不找关键 token,只调初始 token。

Feijiang Han,Xiaodong Yu,Jianheng Tang,Delip Rao,Weihua Du,Lyle Ungar
attentiontraining-freetoken-levelVirtual
5
泛读ICLR 2026

Context parroting: A simple but tough-to-beat baseline for foundation models in scientific machine learning

时间序列基础模型在零样本预测物理系统时,其预测能力到底来自哪里?作者发现这些模型大量依赖一种简单的'上下文复读'策略——直接从输入上下文中复制模式,而非真正学到了动力学规律。

Yuanzhao Zhang,William Gilpin
foundation-modelevaluationparrotingVirtual
5
泛读ICLR 2026

Self-Destructive Language Models

恶意微调攻击可以用极少量有害数据破坏 LLM 的安全对齐。现有防御方法试图加固对齐,但没有解决模型对有害数据天然具备的'可训练性'问题——攻击者只要加大学习率或数据量就能绕过。

Yuhui Wang,Rongyi Zhu,Ting Wang
safetyfine-tuning-attacksalignmentVirtual
5
泛读ICLR 2026

Do Large Language Models Know What They Are Capable Of?

LLM 能否准确预测自己在给定任务上会不会成功?在多步任务中,随着执行推进,这种自我预测能力是变好还是变差?

Casey Barkan,Sidney Black,Oliver Sourbut
self-knowledgecalibrationmetacognitionVirtual
5
泛读ICLR 2026

AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models

Audio Large Language Model(ALLM)的可信度评估缺乏系统框架。现有评估主要针对文本设计,无法覆盖音频特有的风险——非语义声学线索(音色、口音、背景噪声)可以被用来操纵模型行为。

Kai Li,Can Shen,Yile Liu,Jirui Han,Kelong zheng,Xuechao Zou ... 省略 20 位作者 ... ,Haibo Hu,Zhizheng Wu,Xiaolin Hu,Ensiong Chng
audio-llmtrustworthinessbenchmarkVirtual
5
泛读ICLR 2026

MARTI: A Framework for Multi-Agent LLM Systems Reinforced Training and Inference

多 agent LLM 系统的 RL 训练缺乏高效、可扩展的开源框架。现有工具要么只支持单 agent,要么在多 agent 交互、异步 rollout、分布式训练方面能力不足。

Kaiyan Zhang,Kai Tian,Runze Liu,Sihang Zeng,Xuekai Zhu,Guoli Jia ... 省略 11 位作者 ... ,Ganqu Cui,Ning Ding,Biqing Qi,Bowen Zhou
multi-agentrl-trainingframeworkVirtual
5
泛读ICLR 2026

LearnPruner: Rethinking Attention-based Token Pruning in Vision Language Models

现有VLM视觉token剪枝方法主要依赖视觉编码器或LLM的注意力分数判断token重要性,视觉编码器存在注意力沉没问题导致对前景区域关注不足,剪枝效果次优。

Rinyoichi Takezoe,Yaqian Li,Zi-Hao Bo,Anzhou Hou,Mo Guang,Kaiwen Long
token-pruningvlmvisual-tokensVirtual
5
泛读ICLR 2026

RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning

现有推理时CoT/ToT/GoT等框架依赖人工预定义的任务无关逻辑结构,无法适配不同推理任务的差异化逻辑需求,之前的方案要么需要修改预训练LLM参数成本极高,要么固定结构泛化性不足。

Qianyue Hao,Sibo Li,Jian Yuan,Yong Li
reasoninginference-timerlVirtual
5
泛读ICLR 2026

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

大模型测试时对齐存在固有 trade-off:token级引导解码面临长序列horizon诅咒,response级迭代优化面临维度灾难,之前的方案要么全参数微调成本极高,要么测试时方案无法平衡效率与效果。

Kuang-Da Wang,Teng-Ruei Chen,Yu Heng Hung,Guo-Xun Ko,Shuoyang Ding,Yueh-Hua Wu,Yu-Chiang Frank Wang,Chao-Han Huck Yang,Wen-Chih Peng,Ping-Chun Hsieh
test-time-alignmentguided-decodingmpcVirtual
6
泛读ICLR 2026

First is Not Really Better Than Last: Evaluating Layer Choice and Aggregation Strategies in Language Model Data Influence Estimation

现有LLM训练样本影响估计(影响函数)为降低计算量仅选择部分层计算,Yeh等人2022的工作认为前几层(嵌入层)信息最丰富,但该结论的普适性未被验证,导致影响估计结果存在偏差。

Dmytro Vitel,Anshuman Chhabra
influence-functionsdata-attributioninterpretabilityVirtual
5
泛读ICLR 2026

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

现有研究认为CLIP像词袋模型,无法建模概念之间的结构关系,但未解释该现象的产生机制,导致CLIP类模型的组合性改进缺乏明确方向。

Darina Koishigarina,Arnas Uselis,Seong Joon Oh
clipcompositionalitybag-of-wordsVirtual
5
泛读ICLR 2026

Sparse CLIP: Co-Optimizing Interpretability and Performance in Contrastive Learning

这篇论文要解决的是:能不能在不牺牲 CLIP 表征质量的前提下,把其稠密且难解释的跨模态表示直接做成稀疏表示。过去主流做法通常默认“可解释性和性能冲突”,所以要么训练时加稀疏约束导致精度掉点,要么事后再用 SAE 一类方法做解释,但后者经常破坏 CLIP 原有的下游迁移能力,而且学到的大量特征只覆盖单模态,没真正保住图文共享语义。

Chuan Qin,Constantin Venhoff,Sonia Joseph,Fanyi Xiao,Stefan Scherer
clipsparse-representationinterpretabilityVirtual
5
泛读ICLR 2026

STORK: Faster Diffusion and Flow Matching Sampling by Resolving both Stiffness and Structure-Dependence

这篇论文要解决的是:扩散模型和 flow matching 模型采样太慢,而现有 training-free 加速采样方法通常只能处理其中一部分难点。更具体地说,先前方法常常只针对 ODE 的 stiffness,或者强依赖 diffusion ODE 的半线性结构,因此一旦换到更一般的 flow matching 设定,就很难同时保质量和低 NFE。

Zheng Tan,Weizhen Wang,Andrea Bertozzi,Ernest Ryu
diffusionflow-matchingsamplingVirtual
5
泛读ICLR 2026

Diffusion Negative Preference Optimization Made Simple

这篇论文要解决的是:扩散模型偏好对齐里,现有方法主要学‘更喜欢什么’,但不擅长显式学‘不要什么’,而已有 Diff-NPO 虽能引入负偏好信号,却要维护正负两个模型,训练和推理都很重。作者要处理的核心矛盾是:如何把负偏好优化保留下来,同时去掉双模型设计带来的算力和部署负担。

Joshua Tian Jin Tee,Hee Suk Yoon,Sunjae Yoon,Tri Ton,Chang Yoo
diffusionpreference-optimizationalignmentVirtual
5
泛读ICLR 2026

MASS: MoErging through Adaptive Subspace Selection

这篇论文要解决的是:现有 model merging 虽然比 ensemble 轻量,但通常达不到分别 fine-tune 后各端点模型的完整精度,尤其在多任务场景下容易相互干扰。作者想解决的不是‘怎么把参数平均得更聪明’,而是‘如何在一个共享模型里保留各任务更新的低秩有用子空间,并在推理时按输入自适应调用它们’。

Donato Crisostomi,Alessandro Zirilli,Antonio Andrea Gargiulo,Maria Sofia Bucarelli,Simone Scardapane,Fabrizio Silvestri,Iacopo Masi,Emanuele Rodolà
model-mergingmoefine-tuningVirtual
5
泛读ICLR 2026

Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

基础模型版本更新后,之前微调得到的 task vector(参数变化量)无法直接迁移到新模型,因为不同预训练模型的参数空间不对齐。以往要么重新微调,要么用复杂的对齐方法,代价都不小。

Filippo Rinaldi,Aniello Panariello,Giacomo Salici,Fengyuan Liu,Marco Ciccone,Angelo Porrello,Simone Calderara
task-vectortransfer-learningfine-tuningVirtual
5
泛读ICLR 2026

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

当前推理 benchmark 的分数被模型的记忆和知识能力严重膨胀——模型可以绕过推理直接靠记忆答题。需要一种方法把推理能力和知识/记忆能力解耦开来评估。

Jude Khouja,Lingyi Yang,Karolina Korgul,Simi Hellsten,Vlad A. Neacșu,Harry Mayne,Ryan Kearns,Andrew Bean,Adam Mahdi
reasoningbenchmarkmemorizationVirtual
5
泛读ICLR 2026

Implicit Regularization of SGD Reduces Shortcut Learning

SGD 在较大学习率下训练能提升模型对虚假相关(spurious correlation)的鲁棒性,但背后的机制一直不清楚。这篇工作要搞清楚这个效应的来源。

Nahal Mirzaie,Alireza Alipanah,Ali Abbasi,Amirmahdi Farzane,Hossein Jafarinia,Erfan Sobhaei,Mahdi Ghaznavi,Amir Najafi,Mahdieh Baghshah,Mohammad Hossein Rohban
sgdimplicit-regularizationrobustnessVirtual
5
泛读ICLR 2026

Energy-Regularized Sequential Model Editing on Hyperspheres

LLM 的序列化模型编辑(多次连续编辑更新知识)会导致表示退化和灾难性遗忘。现有方法主要在合并阶段处理参数冲突,缺乏对编辑过程中表示稳定性的系统理解。

Qingyuan Liu,Jia-Chen Gu,Yunzhi Yao,Hong Wang,Nanyun (Violet) Peng
UCLAmodel-editingcontinual-learningrepresentationVirtual
5
泛读ICLR 2026

ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment

Activation steering(通过在推理时操纵模型内部激活来实现对齐)缺乏统一的理论框架来指导 steering 方向的设计,且现有方法都是 one-step steering,无法捕捉激活分布的复杂模式。

Hongjue Zhao,Haosen Sun,Jiangtao Kong,Xiaochang Li,Qineng Wang,Liwei Jiang ... 省略 1 位作者 ... ,Tarek Abdelzaher,Yejin Choi,Manling Li,Huajie Shao
alignmentactivation-steeringodeVirtual
5
泛读ICLR 2026

MergOPT: A Merge-Aware Optimizer for Robust Model Merging

模型合并(将多个独立微调的专家模型合为一个)在合并后性能经常大幅下降。现有方法只在合并阶段处理参数冲突,忽略了微调过程本身对合并友好性的影响。

Enneng Yang,Qun Yang,Peng Wang,Anke Tang,Guibing Guo,Xiaochun Cao,Li Shen
model-mergingoptimizerfine-tuningVirtual
4
ICLR 2026

Flow Map Learning Via Non-Gradient Vector Flow

现有一致性模型类的流图学习方法需要模型可逆、或通过迭代模型调用反向传播,计算成本高,且无法保证学习到的流图是目标ODE的解,限制了扩散类模型的推理速度优化。

Mark Goldstein,Anshuk Uppal,Raghav Singhal,Aahlad Manas Puli,Rajesh Ranganath
flow-matchingconsistency-modelsamplingVirtual
5
泛读ICLR 2026

Curation Leaks: Membership Inference Attacks against Data Curation for Machine Learning

现有基于私有数据指导公共数据筛选的隐私保护方案默认仅用公共数据训练的模型不会泄露私有数据,但该假设未被验证,存在隐私泄露风险。

Dariush Wahdany,Matthew Jagielski,Adam Dziedzic,Franziska Boenisch
data-curationprivacymembership-inferenceVirtual
6
泛读ICLR 2026

Reinforcement Unlearning via Group Relative Policy Optimization

现有LLM遗忘方法要么会泄露要删除的敏感数据、要么损失模型生成流畅度和鲁棒性、要么依赖昂贵的外部奖励模型,无法满足GDPR等合规要求的低成本可验证遗忘需求。

Efstratios Zaradoukas,Bardh Prenkaj,Gjergji Kasneci
unlearningrlprivacyVirtual
1
ICLR 2026

Medical Interpretability and Knowledge Maps of Large Language Models

LLM在医疗领域的知识存储和处理机制不清晰,缺乏系统性的定位方法,导致医疗LLM的调试和优化缺乏明确方向。

Razvan Marinescu,Victoria-Elisabeth Gruber,Diego Fajardo Vargas
interpretabilitymedicalllmVirtual
5
泛读ICLR 2026

MoEEdit: Efficient and Routing-Stable Knowledge Editing for Mixture-of-Experts LLMs

这篇论文要解决的是:如何在 MoE 大模型里做知识编辑,同时不破坏路由稳定性。现有知识编辑方法几乎都假设模型是 dense 的,直接迁移到 MoE 会同时遇到两个问题:一是要更新的参数分散在多个 expert 上,代价高;二是局部改动会改变 token 到 expert 的分配分布,导致编辑后的行为不稳定、泛化变差。这个问题现在值得重做,因为主流高容量模型越来越多采用 MoE,而 dense 场景下成立的“局部改一处即可”的假设在稀疏路由结构里并不自然成立。

Yupu Gu,Rongzhe Wei,Andy Zhu,Pan Li
moeknowledge-editingllmVirtual
5
泛读ICLR 2026

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

这篇论文关注一个很具体但真实存在的问题:多语 LLM 会在不该切换语言的时候突然 code-switch,导致回答可读性和可用性下降。过去这类问题多被当成数据或 prompt 工程问题处理,缺少机制层面的解释,因此方法常常治标不治本。作者的核心问题是,能否先定位导致异常语言切换的内部特征,再用这个信号去指导 finetuning。

Boyi Deng,Yu Wan,Baosong Yang,Fei Huang,Wenjie Wang,Fuli Feng
code-switchingsparse-autoencodermultilingualVirtual
5
泛读ICLR 2026

PixNerd: Pixel Neural Field Diffusion

这篇论文想解决的是:能否在不依赖预训练 VAE latent 的情况下,直接做高质量 pixel-space diffusion,同时避免传统 pixel diffusion 的级联复杂度和 token 开销。过去图像生成之所以主流转向 latent diffusion,是因为像素空间太重;但 latent 路线又会引入编码器误差和解码伪影,尤其在重建细节时是结构性瓶颈。作者尝试重新打开 pixel-space 这条路,但不是回到老式级联扩散,而是用更适合 Transformer 的 patch 化建模。

Shuai Wang,Ziteng Gao,Chenhui Zhu,Weilin Huang,Limin Wang
pixel-diffusionditvae-freeVirtual
5
泛读ICLR 2026

Test-time Verification via Optimal Transport: Coverage, ROC, & Sub-optimality

这篇论文解决的是:test-time verification 为什么有时有效、有时失效,以及失败到底来自生成器覆盖不足、验证器收敛域有限,还是采样算法本身不够好。过去关于 verification-based test-time scaling 的讨论通常只分析其中一两个因素,没有统一框架解释三者如何耦合。作者试图给出一个几何化、可分解的观点,帮助判断该往哪一侧投入算力和研究工作。

Arpan Mukherjee,Marcello Bullo,Debabrota Basu,Deniz Gunduz
test-time-scalingverificationoptimal-transportVirtual
5
泛读ICLR 2026

Micro-Macro Retrieval: Reducing Long-Form Hallucination in Large Language Models

这篇论文要解决的是长文本生成中的 hallucination,尤其是 RAG 场景下检索内容很多、推理链很长时,关键证据离最终输出太远,模型更容易事实漂移。以往 retrieve-while-generate 方法虽然能多轮补充信息,但并不保证最关键证据在生成时仍处于局部可利用的位置。作者抓住的核心点是:不是‘检索到’就够了,还要让关键证据在时间上和位置上尽量贴近输出片段。

Yujie Feng,Jian Li,Zhihan Zhou,Pengfei Xu,Yujia Zhang,xiaoyu li,Xiaohui Zhou,Alan Zhao,Xi Chen,Xiao-Ming Wu
raghallucinationretrievalVirtual
5
泛读ICLR 2026

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

这篇论文解决的是:现有 reasoning distillation 和长 CoT 训练几乎都以英语为中心,导致小模型在非英语推理上既吃不到英语 reasoning 的好处,又容易受直接翻译 CoT 的噪声影响。作者提出的问题很具体:能否用 language-mixed CoT,让英语承担推理锚点,同时保留目标语言表达,从而提升多语特别是韩语的推理训练质量。

Guijin Son,Donghun Yang,Hitesh Laxmichand Patel,Amit Agarwal,Hyunwoo Ko,Chanuk lim ... 省略 2 位作者 ... ,Nikunj drolia,Dasol Choi,Kyong-Ha Lee,Youngjae Yu
multilingualcotreasoningVirtual
4
ICLR 2026

Antithetic Noise in Diffusion Models

扩散模型采样的不确定性量化可靠性低,此前工作大多通过增加采样次数提升精度,开销高且未利用噪声本身的统计特性。

Jing Jia,Sifan Liu,Bowen Song,Wei Yuan,Liyue Shen,Guanyang Wang
diffusionsamplingnoiseVirtual
6
泛读ICLR 2026

Tracking Equivalent Mechanistic Interpretations Across Neural Networks

机制可解释性(MI)缺乏统一的有效解释定义,跨模型的解释迁移和对比无法规模化,此前工作大多针对单个模型生成定制化解释,泛化性差。

Alan Sun,Mariya Toneva
mechanistic-interpretabilityrepresentationequivalenceVirtual
4
ICLR 2026

Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks

此前认为检索增强(RAG)仅对事实类问答有效,无法提升推理密集型基准的性能,主流推理基准的RAG适配方案缺失,学术场景缺乏低成本的web级检索库。

Xinxi Lyu,Michael Duan,Rulin Shao,Pang Wei Koh,Sewon Min
ragretrievalreasoningVirtual
5
泛读ICLR 2026

Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks

现有评估指标无法量化LLM的知识感知拒绝能力(即拒绝回答自身知识边界外问题的能力),此前大多通过人工标注评估,成本高且不可复现。

Wenbo Pan,Jie Xu,Qiguang Chen,Junhao Dong,Libo Qin,Xinfeng Li,Yu Haining,Xiaohua Jia
factualityrefusalevaluationVirtual
4
ICLR 2026

Counterfactual Reasoning for Retrieval-Augmented Generation

现有RAG系统无法区分因果决定性证据和强相关但误导性的信息,陷入关联陷阱导致系统性错误,此前RAG大多依赖检索片段的相关性排序,没有因果验证机制。

Huaiyu Qin,Chunyu Wei,Yueguo Chen,Yunhai Wang
ragcausalretrievalVirtual
6
泛读ICLR 2026

SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models

MoE模型批量解码时活跃专家数量过多,导致内存瓶颈拖慢解码速度,此前方案大多通过固定阈值裁剪活跃专家,容易损失模型精度。

Juntong Wu,Jialiang Cheng,Fuyu Lv,Dan Ou,Li Yuan
moebatch-decodingroutingVirtual
4
ICLR 2026

RECAST: Expanding the Boundaries of LLMs' Complex Instruction Following with Multi-Constraint Data

当指令包含超过10个显式约束时,LLM的指令遵循准确率大幅下降,现有数据集每个样本的约束数量不超过10,无法支撑复杂指令遵循能力的训练和评估。

Zhengkang Guo,Wenhao Liu,Mingchen Xie,Jingwen Xu,Zisu Huang,Muzhao Tian ... 省略 6 位作者 ... ,Yao Hu,Changze Lv,Xuanjing Huang,Xiaoqing Zheng
instruction-followingmulti-constraintsftVirtual
5
泛读ICLR 2026

Fostering Video Reasoning via Next-Event Prediction

这篇工作要解决的是:给视频-语言模型一个真正促进时序推理的自监督训练目标,而不只是做图文对齐。过去常用的视频字幕更像是在学静态语义对齐,视频问答又依赖人工或强模型标注,训练信号贵且容易蒸馏已有偏见;作者提出的 next-event prediction(NEP)试图直接利用“未来片段”作为监督,让模型必须根据过去视频去推断接下来会发生什么。

Haonan Wang,Hongfu Liu,Xiangyan Liu,Chao Du,Kenji Kawaguchi,Ye Wang,Tianyu Pang
video-reasoningnext-event-predictionmllmVirtual
5
泛读ICLR 2026

Astra: General Interactive World Model with Autoregressive Denoising

这篇工作要解决的是:把视频生成模型推进到可交互、可长程滚动预测的通用 world model,而不是只会从文本或图像生成短视频片段。现有 diffusion video model 擅长高保真生成,但对“给定过去观测和动作,持续预测未来”这一世界建模场景支持不足,尤其缺少对多种动作形式和流式输出的统一处理。

Yixuan Zhu,Jiaqi Feng,Wenzhao Zheng,Yuan Gao,Xin Tao,Pengfei Wan,Jiwen Lu,Jie Zhou
world-modelautoregressive-denoisinginteractive-generationVirtual
5
泛读ICLR 2026

Deep Think with Confidence

这篇工作要解决的是:test-time scaling 里常见的 self-consistency + majority voting 计算代价高,而且随着采样数增加收益很快递减。问题在于现有方法把所有推理轨迹一视同仁地投票,没有利用模型自己已经暴露出来的“这条思路靠不靠谱”的置信信号。

Yichao Fu,Xuewei Wang,Hao Zhang,Yuandong Tian,Jiawei Zhao
test-time-scalingself-consistencyreasoningVirtual
5
泛读ICLR 2026

Decoupling Dynamical Richness from Representation Learning: Towards Practical Measurement

这篇工作要解决的是:网络训练中的 dynamical richness 和最终表示质量并不总是同一件事,但大家常用 accuracy 当 richness 的替代指标,导致很多关于 lazy-to-rich 转变的分析混淆了优化动态和任务表现。问题不是 rich dynamics 不重要,而是缺少一个与预测性能解耦、又能实际计算的 richness 度量。

Yoonsoo Nam,Nayara Fonseca,Seok Hyeong Lee,Chris Mingard,Niclas Göring,Ouns El Harzli,Abdurrahman Erturk,Soufiane Hayou,Ard Louis
representation-learningtraining-dynamicslow-rankVirtual
4
ICLR 2026

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

现有VLM的空间推理基准仅覆盖基础空间关系(如左右、远近、计数),已接近饱和,无法衡量VLM的高阶空间推理能力,缺乏符合认知心理学分类的全面空间推理评估基准。

Mengdi Jia,Zekun Qi,Shaochen Zhang,Wenyao Zhang,XinQiang Yu,Jiawei He,He Wang,Li Yi
benchmarkvlmspatial-reasoningVirtual
4
ICLR 2026

AtlasKV: Augmenting LLMs with Billion-Scale Knowledge Graphs in 20GB VRAM

现有RAG方案做大规模知识增强依赖外部检索模块和长上下文,引入极高推理延迟;此前参数化知识注入方法显存开销过高,无法支撑十亿级知识图谱(KG)的端侧融合需求。

Haoyu Huang,Hong Ting Tsang,Jiaxin Bai,Xi Peng,Gong Zhang,Yangqiu Song
ragknowledge-graphkv-cacheVirtual
4
ICLR 2026

SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

现有多轮越狱攻击方法存在探索复杂度高、攻击意图漂移的问题,大多依赖预设攻击策略或外部标注数据,泛化性差,无法真实反映对齐LLM的安全边界。

Mingqian Feng,Xiaodong Liu,Weiwei Yang,Jialin Song,Xuekai Zhu,Chenliang Xu,Jianfeng Gao
jailbreaksafetymulti-turnVirtual
5
泛读OralICLR 2026

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

现有LLM安全对齐检测仅针对明文输入输出,无法识别通过隐写术隐藏的恶意交互,攻击者可以让微调后的模型表面保持对齐状态,暗中生成有害内容,属于未被覆盖的隐蔽安全威胁。

Guangnian Wan,Xinyin Ma,Gongfan Fang,Xinchao Wang
safetyfinetuningsteganographyVirtual
6
泛读ICLR 2026

LouisKV: Efficient KV Cache Retrieval for Long Input-Output Sequences

现有KV缓存动态保留方法采用逐token检索和粗粒度页级管理,在长输出推理场景下存在明显的效率和精度瓶颈,限制了大推理模型的长序列部署。

WENBO WU,Qingyi Si,Xiurui Pan,Ye Wang,Jie Zhang
kv-cachelong-contextinferenceVirtual
5
泛读ICLR 2026

Reasoning Language Model Inference Serving Unveiled: An Empirical Study

推理大模型(RLLM)的服务性能和行为特征尚未被系统研究,现有为传统LLM设计的推理优化方案不一定适配RLLM的特性,影响其落地部署效率。

Qi Li,Junpan Wu,Xiang Liu,Yuxin Wang,Zeyu Li,Zhenheng Tang,Yuhan CHEN,Shaohuai Shi,Xiaowen Chu
reasoning-llmservinginference-efficiencyVirtual
5
泛读ICLR 2026

DiffAdapt: Difficulty-Adaptive Reasoning for Token-Efficient LLM Inference

现有推理大模型对简单问题也会生成长思考链,存在22-25%的"过度思考"冗余,推理token效率低,浪费计算资源,此前没有轻量化的自适应推理方案解决该问题。

Xiang Liu,Xuming Hu,Xiaowen Chu,Eunsol Choi
reasoning-llmtoken-efficiencyadaptive-inferenceVirtual
1
ICLR 2026

Flow Autoencoders are Effective Protein Tokenizers

现有蛋白质结构tokenizer依赖定制的空间对称(SE(3))不变组件,优化和扩展难度大,限制了蛋白质多模态大模型的规模化训练。

Rohit Dilip,Evan Zhang,Ayush Varshney,David Van Valen
tokenizerprotein-structureflow-matchingVirtual
5
泛读ICLR 2026

Uni-CoT: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

现有多模态CoT方法无法有效建模视觉状态转换和文本逻辑的对齐,架构碎片化,性能偏低,没有统一的多模态思维链设计范式。

Luozheng Qin,GONG JIA,Yuqing Sun,Tianjiao Li,Haoyu Pan,Mengping Yang,Xiaomeng Yang,Chao Qu,Zhiyu Tan,Hao Li
chain-of-thoughtmultimodal-reasoningvisual-cotVirtual
5
泛读ICLR 2026

JailbreakLoRA: Your Downloaded LoRA from Sharing Platforms might be Unsafe

LoRA共享平台的安全风险长期被低估,现有LoRA攻击方案仅追求高攻击成功率,会破坏LoRA本身的下游任务增益效果,不符合用户下载LoRA的核心需求,无法实现隐蔽的越狱攻击。

Fanjunduo Wei,Zhenheng Tang,Rongfei Zeng,Tongliang Liu,Chengqi Zhang,Xiaowen Chu,Bo Han
University of SydneylorasafetybackdoorVirtual
2
ICLR 2026

Tokenization to Transfer: Do Genomic Foundation Models Learn Good Representations?

基因组基础模型(GFM)的预训练收益长期缺乏系统性量化评估,现有工作默认大规模预训练必然带来下游性能增益,忽略了随机初始化基线的竞争力,也没有明确tokenizer、架构等变量的影响权重。

Kirill Vishniakov,Karthik Viswanathan,Aleksandr Medvedev,Praveenkumar Kanithi,Marco Pimentel,Ronnie Rajan,Shadab Khan
tokenizerfoundation-modelsrepresentationVirtual
4
ICLR 2026

Real-Time Motion-Controllable Autoregressive Video Diffusion

实时运动可控的图像生成视频(I2V)技术存在核心瓶颈,现有双向扩散模型推理延迟过高,现有自回归(AR)视频扩散模型仅支持简单控制信号,少步生成时存在严重质量下降和运动伪影,无法满足实时交互需求。

Kesen Zhao,Jiaxin Shi,Beier Zhu,Junbao Zhou,Xiaolong Shen,Yuan Zhou,Qianru Sun,Hanwang Zhang
video-diffusionautoregressivecontrolVirtual
6
泛读ICLR 2026

Cultivating Pluralism In Algorithmic Monoculture: The Community Alignment Dataset

现有对齐后的大模型输出偏好过于单一,无法适配不同文化、政治背景用户的差异化甚至冲突性偏好,现有偏好数据集收集方法得到的候选回答同质化严重,无法覆盖人类偏好的真实多样性。

Lily Zhang,Smitha Milli,Karen Jusko,Jonathan Smith,Brandon Amos,Wassim Bouaziz ... 省略 5 位作者 ... ,Jane Dwivedi-Yu,Vidya Sarma,Kristopher Rose,Maximilian Nickel
alignmentpreference-datamultilingualVirtual
4
ICLR 2026

Meta-RL Induces Exploration in Language Agents

现有RL训练的LLM智能体在需要主动探索的多轮长周期任务上表现较差,无法高效从试错经验中适配新任务,基于梯度更新的适配方式成本高、灵活性差,无法满足测试时实时探索的需求。

Yulun Jiang,Liangze Jiang,Damien Teney,Michael Moor,Maria Brbic
meta-rlagentexplorationVirtual
5
泛读ICLR 2026

Flow Matching with Semidiscrete Couplings

现有最优传输流匹配(OT-FM)方法理论效果好但实际落地难度大,现有批级OT配对的计算成本高,只有在批大小极大时才能带来性能增益,无法在常规训练配置下发挥作用。

Alireza Mousavi-Hosseini,Stephen Zhang,Michal Klein,marco cuturi
flow-matchingdiffusionobjectiveVirtual
5
泛读ICLR 2026

Best-of-Infinity: Asymptotic Performance of Test-Time LLM Ensembling

这篇论文要解决的是:best-of-N 多样本投票确实能提升 LLM 推理正确率,但推到大 N 时推理成本几乎不可用,因而缺少一个能把“更多采样带来的收益”转成“可控测试时算力分配”的方法。过去这类方法大多停留在固定 N 采样,默认所有问题都值得花同样预算;这在题目难度长尾、模型间互补性明显时是低效的,所以现在值得系统分析它的极限和最优分配。

Junpei Komiyama,Daisuke Oba,Masafumi Oyamada
test-time-computemajority-votingbest-of-nVirtual
5
泛读ICLR 2026

Predicting LLM Output Length via Entropy-Guided Representations

这篇论文要解决的是:LLM serving 和 RL 采样里的输出长度分布是长尾的,batch 内 padding 浪费很大,但现有长度预测通常依赖额外小模型,开销不低、迁移性差,而且对 one-to-many 的随机生成场景不稳定。问题的关键不是“能不能预测长度”,而是“能不能几乎零额外成本地、在主模型运行过程中持续预测长度”。

Huanyi Xie,Yubin Chen,Liangyu Wang,Lijie Hu,Di Wang
servinglength-predictionentropyVirtual
5
泛读ICLR 2026

A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

这篇论文要解决的是:当前 LLM 生态在 reasoning model 和 agent model 之间分裂,前者擅长内部链式推理但不会用工具,后者会调工具和与环境交互但深推理常常弱,而且两类模型都容易在简单问题上过度思考或过度调用工具。作者想做的是一个统一模型,在同一 backbone 内根据任务难度和工具需求自适应选择模式,而不是把不同能力分散在不同系统里。

Qianben Chen,Jingyi Cao,Jiayu Zhang,Tianrui Qin,LiXiaowan,Zhu ... 省略 4 位作者 ... ,Ge Zhang,Jian Yang,Yuchen Jiang,Wangchunshu Zhou
tool-usereasoningagentVirtual
5
泛读ICLR 2026

Implicit Regularisation in Diffusion Models: An Algorithm-Dependent Generalisation Analysis

这篇论文要解决的是:理论上如果 diffusion model 训练和采样都足够完美,它会记住训练数据,因此实际泛化一定依赖某种隐式正则化;但现有理论大多用算法无关的 uniform convergence 类工具,很难解释“为什么特定训练算法会带来泛化”。作者希望把问题从模型类的容量分析,转到训练算法本身的稳定性分析。

Tyler Farghly,Patrick Rebeschini,George Deligiannidis,Arnaud Doucet
diffusiongeneralizationimplicit-regularizationVirtual
4
ICLR 2026

Once-More: Continuous Self-Correction for Large Language Models via Perplexity-Guided Intervention

LLM长文本生成时容易出现错误累积,早期错误会传播导致生成漂移、推理错误或重复。现有自校正方法要么需要额外训练数据,跨域泛化差,要么需要等生成大段草稿后才能反馈,校正滞后性严重。

Jiaxun Gao,Him Wai (Michael) Ng,Z. Jane Wang
self-correctionperplexitylong-generationVirtual
5
泛读ICLR 2026

Three Forward, One Backward: Memory-Efficient Full-Rank Fine-Tuning of Large Models via Extra Forward Passes

传统全参数微调内存成本过高,LoRA等参数高效微调方法性能低于全参数微调,现有仅用前向传播的内存高效微调方法梯度估计方差大、收敛速度慢,无法同时兼顾性能和内存效率。

Jia Zhang,Yu Bai,Hualin Zhang,Tianshuo Chen,Zhaogeng Liu,Zhiqiang Xu,Yi Chang,Bin Gu
memory-efficientfinetuningfull-rankVirtual
6
泛读ICLR 2026

The Price of Amortized inference in Sparse Autoencoders

稀疏自编码器(SAE)在机制可解释性中通过参数共享来分摊推理成本,但这与追求实例级最优特征(如单义性、一致性)的目标存在内在冲突。过去的研究多关注 SAE 的最终效果,较少从训练动态角度分析这种“分摊推理”带来的代价。

Wenjie Sun,Di Wang,Lijie Hu
sparse-autoencoderinterpretabilitypolysemyVirtual
4
ICLR 2026

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

大型视觉语言模型(LVLM)的视觉 token 剪枝策略主要分为基于注意力和基于多样性两类,但缺乏对这两种方法特性和局限性的深入对比分析。过去的研究往往只关注其中一种,未能全面评估其对特征保留的影响。

Changwoo Baek,Jouwon Song,Sohyeon Kim,Kyeongbo Kong
vlmtoken-pruningattentionVirtual
6
泛读ICLR 2026

Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality

Transformer 的联想记忆能力通常在离散 token 层面被理解,缺乏在概率测度层面的严格统计学分析。这限制了我们对 Transformer 如何在无限长上下文中进行检索和预测的理论认识。

Ryotaro Kawata,Taiji Suzuki
transformerattentiontheoryVirtual
6
泛读ICLR 2026

Circuit Insights: Towards Interpretability Beyond Activations

现有的自动化机制可解释性方法主要依赖于孤立特征及其激活,往往忽略了特征之间的交互,且严重依赖外部 LLM 和数据集质量。这导致难以系统地发现和分析模型内部的计算回路(circuits)。

Elena Golimblevskaia,Aakriti Jain,Bruno Puri,Ammar Elsaid Mohamed Mohamed Ibrahim,Wojciech Samek,Sebastian Lapuschkin
interpretabilitycircuitsfeaturesVirtual
4
ICLR 2026

VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning

多模态大语言模型(MLLMs)在视觉-空间推理方面表现受限,原因是注意力机制中视觉 token 被语言 token 掩盖,导致模型无法在不同帧之间一致地识别相同的视觉线索。

Zhaozhi Wang,Tong Zhang,Mingyue Guo,Yaowei Wang,Qixiang Ye
mllmvideoattentionVirtual
6
泛读ICLR 2026

RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models

大型推理模型(LRMs)生成的推理过程往往听起来合理,但并未真实反映其决策过程(即不忠实),这破坏了模型的可靠性。过去缺乏将推理忠实度与准确率解耦的严格评估框架。

Yunseok Han,Yejoon Lee,Jaeyoung Do
reasoningfaithfulnessevaluationVirtual
5
泛读ICLR 2026

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow-Map Models

这篇论文要解决的是:Consistency / Mean Flow / Flow-Map 这类少步生成模型虽然推理快,但训练阶段仍然不稳定、对超参敏感,而且从预训练 diffusion 直接跳到 long-jump 映射学习时存在明显的目标错位。过去常见做法是从一个已经训好的 diffusion model 初始化,再直接做 consistency 或 flow-map 蒸馏;这样虽然比从零训练好,但模型还是要一下子把“局部微分步”改学成“跨大步的全局映射”,优化面很陡,稳定性问题并没有真正解决。作者认为这里缺了一个过渡阶段,因此提出 mid-training,把 pretrain 和最终 post-training 之间补上一个轻量但结构化的桥接阶段。

Zheyuan Hu,Chieh-Hsin Lai,Yuki Mitsufuji,Stefano Ermon
mid-traindiffusionconsistency-modelVirtual
5
泛读ICLR 2026

KDP: Simplifying Representation Dynamics in Kernel Space

这篇论文要解决的是:LLM 很多相邻层的表示变化已经非常小,但现有剪层方法往往从权重相似性、梯度敏感性或简单蒸馏出发,没真正解释“哪些层只是重复做了慢变化”。作者把前向传播看成离散动力系统,认为后部一些层已经进入 slow manifold,也就是表示沿着一个低速、低自由度轨道缓慢演化,因此计算上存在系统性冗余。问题的关键不是删掉哪一层参数最少影响 loss,而是能否在表示动力学层面找出可被整体替代的冗余层块。

Zeyu Ma,Wanying Wang,Guchu Zou,Mingang Chen,Jianhong Wu
pruningcompressionrepresentationVirtual
5
泛读ICLR 2026

AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint

这篇论文要解决的是:activation steering 能明显增强 LLM 的拒答能力,但通常会把安全和可用性绑死在一起——拒答向量一加,恶意请求更难越狱,正常请求也更容易被误拒。过去的校准或条件式 steering 多半是经验修补,能缓解但缺少清晰约束,因此在复杂 jailbreak 场景里要么不够强,要么副作用大。作者要解决的核心问题是,能否在保留 refusal steering 效果的同时,系统性约束它不去破坏正常能力。

Leheng Sheng,Changshuo Shen,Weixiang Zhao,Junfeng Fang,Xiaohao Liu,Zhenkai Liang,Xiang Wang,An Zhang,Tat-Seng Chua
alignmentsafetyactivation-steeringVirtual
5
泛读ICLR 2026

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

这篇论文要解决的是:差分隐私合成文本生成现在常用统一的 DP 保护强度去保护整份文本,但真实语料里敏感信息只占一部分,结果就是大量非敏感内容也被过度保护,导致文本可用性明显下降、生成开销也变大。过去这类方法往往追求“一刀切”的最坏情况保证,理论干净但代价高。作者想解决的是,能否在仍保留严格隐私保证的前提下,把保护重点聚焦到真正的 secret 内容上,从而减少无谓的 utility 损失。

Tianze Wang,Zhaoyu Chen,Jian Du,Yingtai Xiao,Linjun Zhang,Qiang Yan
synthetic-dataprivacytext-generationVirtual
5
泛读ICLR 2026

pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation

这篇论文要解决的是:few-step diffusion / flow 模型通常用一个预测 velocity 的 teacher 去蒸馏一个直接做 shortcut 去噪的 student,但 teacher 和 student 的输出形式不一致,导致蒸馏流程复杂,而且常出现质量和多样性此消彼长。过去的做法常靠多阶段蒸馏、复杂时间采样或额外一致性约束来弥补这种 format mismatch,但工程复杂且不稳定。作者想解决的是,能不能让 student 保留 flow/ODE 生成的动态表达能力,同时又只用极少步推理。

Hansheng Chen,Kai Zhang,Hao Tan,Leonidas Guibas,Gordon Wetzstein,Sai Bi
diffusiondistillationfew-stepVirtual
5
泛读ICLR 2026

Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents

这篇论文要解决的是:长上下文问答里,关键信息可能散落在数百万 token 中,现有 memory-augmented LLM 常采用一边读一边写 memory 的单向扫描策略,扩展性不错,但一旦早期信息被覆盖或压缩错了,后面无法回头修正。过去这类 memorize-while-reading 方法的瓶颈不只是记忆容量,而是推理路径被限制成 forward-only,导致信息不可逆丢失、信用分配稀疏。作者要解决的是,能否让 agent 在长文档处理里“回看”旧记忆并非线性推理,而不是只依赖一次扫描的即时摘要。

Yaorui SHI,Yuxin Chen,Siyuan Wang,Sihang Li,Hengxing Cai,Qi GU,Xiang Wang,An Zhang
long-contextmemoryagentVirtual
5
泛读ICLR 2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

Reasoning LLM(如 o1 类模型)在长 CoT 推理时,量化误差会沿推理链累积放大,导致 PTQ 后精度严重下降。现有方法要么不能充分抑制 outlier,要么引入推理时的额外开销。

Yesheng Liang,Haisheng Chen,Song Han,Zhijian Liu
MITquantizationreasoning-llmpost-training-quantizationVirtual
5
泛读ICLR 2026

MLP Memory: A Retriever-Pretrained Memory for Large Language Models

RAG 提供灵活的外部知识访问但推理延迟高且与模型集成浅;参数化微调(如 LoRA)会导致灾难性遗忘。两者之间缺少一个既能内化检索知识、又不破坏通用能力的轻量方案。

Rubin Wei,Jiaqi Cao,Jiarui Wang,Jushi Kai,Qipeng Guo,Bowen Zhou,Zhouhan Lin
ragparametric-memoryknowledge-integrationVirtual
4
ICLR 2026

Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation

在需要深入理解信息丰富的图像并生成结构化输出的任务(如图表到代码生成)中,单纯的监督微调(SFT)容易遇到性能瓶颈。现有的视觉语言模型 RL 方法较少针对这种复杂的结构化输出生成进行优化。

Lei Chen,Xuanle Zhao,Zhixiong Zeng,Jing Huang,Liming Zheng,Yufeng Zhong,Lin Ma
rlvlmstructured-outputVirtual
5
泛读ICLR 2026

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

对抗训练是防御对抗攻击的有效方法,但计算成本高昂。过去通常认为对抗鲁棒性难以泛化到未见过的任务,需要针对每个下游任务重新进行对抗训练。

Soichiro Kumano,Hiroshi Kera,Toshihiko Yamasaki
adversarial-trainingin-context-learningrobustnessVirtual
6
泛读ICLR 2026

Query-Level Uncertainty in Large Language Models

现有大语言模型知识边界检测方法大多在token生成后执行,无法提前触发RAG、拒答等自适应推理逻辑,多数方案需要微调模型权重,推理延迟高。

Lihu Chen,Gerard de Melo,Fabian Suchanek,Gael Varoquaux
uncertaintycalibrationadaptive-inferenceVirtual
5
泛读ICLR 2026

Diffusion Transformers with Representation Autoencoders

现有Diffusion Transformers(DiT)普遍使用的传统VAE编码器存在三个缺陷:大卷积backbone破坏架构简洁性,低维隐空间限制信息容量,纯重建训练得到的表征语义性弱。

Boyang Zheng,Nanye Ma,Shengbang Tong,Saining Xie
diffusion-transformerautoencodervisual-tokenizerVirtual
6
泛读ICLR 2026

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

现有多模态大模型(MLLM)用基于结果奖励的RL增强推理能力时,缺少对思考过程的监督,模型容易学到次优推理策略,泛化性差。

Kaixuan Fan,Kaituo Feng,Haoming Lyu,Dongzhan Zhou,Xiangyu Yue
rlmllmthinking-rewardVirtual
5
泛读ICLR 2026

LeSTD: LLM Compression via Learning-based Sparse Tensor Decomposition

这篇论文解决的是张量分解压缩 LLM 时一个很实际的瓶颈:虽然分解能找到共享低秩基,但中间的 dense core tensor 会随着秩多项式增长,最后反而变成新的存储大头。过去很多 post-training、data-free 压缩方法在理论上能分解,在工程上却卡在 core tensor 太密、压不下去,因此高压缩比很难继续提升。

Yi Li,Zhichun Guo,Miao Yin,Bingzhe Li
compressiontensor-decompositionsparsityVirtual
5
泛读ICLR 2026

Strategic Scaling of Test-Time Compute: A Bandit Learning Approach

这篇论文要解决的问题很明确:test-time compute 不该对所有 query 平均分配,因为难度差异很大,统一给预算既浪费算力,也拖低整体收益。过去多数 self-consistency、best-of-n、tree search 类方法默认固定采样数或固定思考步数,这在 easy query 上过度计算,在 hopeless query 上也容易继续烧预算。

Bowen Zuo,Yinglun Zhu
test-time-computebanditadaptive-inferenceVirtual
5
泛读ICLR 2026

Visualizing LLM Latent Space Geometry Through Dimensionality Reduction

这篇工作试图解决的问题不是提升模型性能,而是让我们更直观看到 LLM 隐状态空间的几何结构,尤其是 attention 和 MLP 输出在层间如何组织。过去大量分析依赖 probe、线性分类或单指标统计,能回答“有没有信息”,但不容易形成对整体几何的直觉。

Alex Ning,Vainateya Rangaraju,Yen-Ling Kuo
interpretabilitylatent-spacetransformerVirtual
5
泛读ICLR 2026

Destruction is a General Strategy to Learn Generation; Diffusion's Strength is to Take it Seriously; Exploration is the Future

这篇文章想讨论的核心问题是:生成学习为什么常常依赖“先遮掉一部分信息再恢复”的训练,而 diffusion 之所以强,是否正因为它把“破坏输入再重建”这件事做得更系统、更灵活。相较于传统只用固定 mask 或手工信息遮蔽策略的方法,作者认为 diffusion 提供了更丰富的训练游乐场,尤其可能更适合数据稀缺场景。

Pierre-André Noël
diffusionobjectivemaskingVirtual
5
泛读ICLR 2026

The human knowledge loophole in the 'bitter lesson' for LLMs

这篇文章要指出的核心问题是:把 LLM 的成功简单归因为“bitter lesson 在 NLP 的胜利”可能是误读,因为这些模型依赖的是海量人类产生和整理的知识载体,而不只是通用计算与搜索。也就是说,LLM 的能力增长并非纯粹来自更少人类先验的算法扩展,训练语料本身已经内嵌了巨大的人类知识投入。

Anna Rogers
datascaling-lawbitter-lessonVirtual
5
泛读ICLR 2026

From Trajectories to Operators — A Unified Flow Map Perspective on Generative Modeling

现有连续时间生成模型(扩散、流匹配、一致性模型)缺乏统一的理论框架,不同方法的步进鲁棒性和组合漂移问题没有统一的解释和优化方案。

Anbu Huang
diffusionflow-matchingconsistencyVirtual
4
ICLR 2026

Where’s the Chicken? Unpacking Spatial Awareness in Vision-Language Models

现有VLM在空间关系理解上表现差,仅靠数据和模型缩放无法解决该问题,架构和训练目标设计是根本原因,现有修复方案不足以实现鲁棒空间推理。

Jiyoon Pyo,Yao-Yi Chiang
vlmspatial-reasoningarchitectureVirtual
6
泛读ICLR 2026

Why AI Evaluations Need Error Bars

现有LLM和智能体评估将模型视为确定性系统,忽略其固有随机性,导致基准不稳定、模型对比不可靠、LLM作为裁判的结果不确定。

Zairah Mustahsan
evaluationbenchmarkinguncertaintyVirtual
5
泛读ICLR 2026

Dissecting Non-Determinism in Large Language Models

LLM作为复杂决策系统的主干,其固有非确定性会导致实验结果无效,现有实验流程忽略非确定性变量,容易得到误导性结论。

Mateus da Silveira,Ronaldinho Vega Centeno Olivera,Alejandro Núñez Arroyo,Allan M. de Souza,JULIO DOS REIS
nondeterminismevaluationllm-as-a-judgeVirtual
6
泛读ICLR 2026

FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness

现有深度学习IO感知优化需要手动推导,迭代周期长,自动编译方法性能远落后于手动优化(如FlashAttention用了3年迭代才实现6倍性能提升,大量性能潜力未被挖掘。

Vincent Abbott,Gioele Zardini
flashattentionio-awarecompilerOpenReviewVirtual
5
泛读ICLR 2026

Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation

这篇工作要回答的核心问题是:在文本到音乐生成里,AR(自回归)和 Flow Matching 两种建模范式本身到底带来什么差异。这个问题过去常被数据规模、音频 tokenizer、架构容量和控制接口混在一起讨论,导致大家知道系统不同,却很难判断差异究竟来自范式还是来自别的实现细节;现在值得单独拆开,是因为 text-to-music 已经进入多范式并行阶段,范式选择开始直接影响训练目标、采样方式、可控性和推理成本。

Or Tal,Felix Kreuk,Yossi Adi
music-generationautoregressiveflow-matchingVirtual