📚Papers

AI Research Daily

更新时间: 2026/4/15 17:48:36

121
🌟 1 重点
🧠 预训练 11 高效推理 12🌐 多模态统一 16🎨 多模态生成 10🛠️ 后训练 22🔬 原理分析 28💻 Coding Agent 5🤖 Agent 17
其他 37 篇看总结即可

方法或结果明显独立成立的工作,建议读全文

精读LLM 预训练

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

在“在线低延迟部署约束”下,把MoE的accuracy-per-FLOP优势真正转化为accuracy-per-parameter/带宽/通信友好的实际效率,并同时兼顾长上下文与agentic推理:提出并验证一种硬件-软件协同的稀疏MoE(LatentMoE)+ Mamba/Attention混合骨干 + MTP原生推测解码的端到端预训练与后训练配方,且在极低精度NVFP4下稳定完成25T token预训练。

NVIDIAMoEMambapretraining
精读LLM 预训练

How Transformers Learn to Plan via Multi-Token Prediction

论文要回答的核心问题是:为什么“多 token 并行预测”(Multi-Token Prediction, MTP) 这种仅改变训练目标、推理仍按单步生成的范式,会在需要全局结构的推理/规划任务上显著优于传统 next-token prediction (NTP)?更具体地,MTP 到底通过什么优化与表征机制,让 Transformer 学会“先看终点再倒推路径”的规划策略,而 NTP 往往陷入局部模式/teacher forcing 诱导的捷径学习?

multi-token-predictionplanningtraining-objective
精读LLM 预训练

Parcae: Scaling Laws For Stable Looped Language Models

解决 looped / recurrent-depth Transformer(通过在中间层循环同一组 block 来增加 FLOPs 而不增加参数)训练不稳定的问题(residual explosion、loss spikes),并进一步建立“循环次数(looping)作为独立 scaling 轴”的训练 FLOP scaling law 与测试时 compute scaling 规律,使其成为可预测、可控的算力扩展手段。

University ofTogether AIlooped-transformerscaling-lawstraining-stability
精读LLM 后训练

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

论文聚焦 OPD(On-Policy Distillation,学生自采样轨迹、教师提供逐 token log-prob 作为稠密监督)在大模型后训练中“有时极其有效、有时完全失效”的核心不确定性:为什么更强的 teacher 反而可能无法提升 student?OPD 成功/失败由哪些可观测条件决定?其 token 级训练动力学与梯度信号到底来自哪里?以及如何把这些机制总结成可复现的训练配方来修复失败配置。

on-policy-distillationpost-trainingtraining-dynamics
精读LLM 后训练

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

论文要解决的核心问题是:OPD(On-Policy Distillation)在推理/后训练中效果好但强依赖“训练时实时teacher打分(log-prob)”的在线服务,导致基础设施成本高、复现困难;能否把OPD做成离线(预先算好teacher log-prob并复用)同时不掉性能?作者进一步指出:离线OPD失败的根因并不只是“离线近似”,而是一个被忽视但对任何OPD都必要的条件——SFT阶段生成轨迹的teacher与OPD阶段提供分布监督的teacher必须一致(teacher consistency),否则目标函数存在不可消除的偏差,在线/离线都会收敛到次优不动点。

on-policy-distillationoffline-traininggradient-bias
精读LLM 原理与机制

Sample Complexity of Autoregressive Reasoning: Chain-of-Thought vs. End-to-End

在“自回归下一token生成器”PAC学习框架下,系统刻画学习由T步自回归推理过程诱导的端到端映射的样本复杂度如何随推理长度T增长,并严格比较两种监督信号:只给最终答案的端到端监督(e2e) vs 给出完整中间轨迹的Chain-of-Thought监督(CoT)。核心问题是:CoT监督在统计效率上究竟能带来多大、在什么条件下的优势?是否存在本质的指数级差距?

Purdue UniversityThe Hebrew Universitysample-complexityautoregressive-modelschain-of-thought
精读LLM 原理与机制

Distinct mechanisms underlying in-context learning in transformers

论文要回答的是:在一个可完全解析的 ICL(in-context learning)玩具世界里,Transformer 到底用什么“电路/子回路”在做上下文自适应?更具体地,给定训练时只见过有限集合 S 的 K 条离散马尔可夫链(每条链是 C 个离散状态的转移矩阵),两层 Transformer 在不同数据多样性 K 下,会在“泛化 vs 记忆”以及“用 1-point 统计 vs 2-point 统计(转移)”之间切换;作者希望给出这些相变/阶段背后的机制级解释:哪些层、哪些注意力/MLP 子模块在实现 1-Gen/2-Gen/1-Mem/2-Mem 四种算法策略,以及这些策略为何会随 K 与训练进程出现阶段性演化。

Princeton Universityin-context-learningmechanistic-interpretabilityphase-transition
精读LLM 原理与机制

The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime

论文研究“稀有错误(rare-error)”条件下 AI 审计/校准验证的统计极限:当模型错误率 ε 很低、预测置信度分布又高度集中在 1−ε 附近时,任何基于有限标注样本 m 的校准误差(如 ECE)估计都会遭遇不可突破的噪声地板;并进一步刻画在被动评测、无标签自评、主动查询、以及多组件系统组合(pipeline/agent loop)下,校准可验证性如何随 ε、m、L(校准函数 Lipschitz 常数)缩放。

calibrationminimax-raterare-errors
来源
机构
阅读分级
标签筛选

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

在“在线低延迟部署约束”下,把MoE的accuracy-per-FLOP优势真正转化为accuracy-per-parameter/带宽/通信友好的实际效率,并同时兼顾长上下文与agentic推理:提出并验证一种硬件-软件协同的稀疏MoE(LatentMoE)+ Mamba/Attention混合骨干 + MTP原生推测解码的端到端预训练与后训练配方,且在极低精度NVFP4下稳定完成25T token预训练。

把“MoE算力省”落到带宽/路由通信/低精度可训的端到端配方,直接改我对serving导向MoE取舍的prior;建议立刻按其NVFP4+LatentMoE+MTP做内部复现实验。
NVIDIA,:,Aakshita Chandiramani,Aaron Blakeman,Abdullahi Olaoye,Abhibha Gupta ... 省略 537 位作者 ... ,Zihan Liu,Zijia Chen,Zijie Yan,Zuhair Ahmed
NVIDIAMoEMambapretraining2026年4月14日arXivPDF

论文要回答的核心问题是:为什么“多 token 并行预测”(Multi-Token Prediction, MTP) 这种仅改变训练目标、推理仍按单步生成的范式,会在需要全局结构的推理/规划任务上显著优于传统 next-token prediction (NTP)?更具体地,MTP 到底通过什么优化与表征机制,让 Transformer 学会“先看终点再倒推路径”的规划策略,而 NTP 往往陷入局部模式/teacher forcing 诱导的捷径学习?

不是又一篇“MTP更强”的经验贴,而是把优势归因到梯度信号分配/层级电路更易形成;读完你会更敢在预训练里系统扫多步目标而非只调推理技巧。
Jianhao Huang,Zhanpeng Zhou,Renqiu Xia,Baharan Mirzasoleiman,Weijie Su,Wei Huang
multi-token-predictionplanningtraining-objective2026年4月13日arXivPDF

解决 looped / recurrent-depth Transformer(通过在中间层循环同一组 block 来增加 FLOPs 而不增加参数)训练不稳定的问题(residual explosion、loss spikes),并进一步建立“循环次数(looping)作为独立 scaling 轴”的训练 FLOP scaling law 与测试时 compute scaling 规律,使其成为可预测、可控的算力扩展手段。

把looped深度循环的失稳根因用谱半径讲清并给出“写进参数化”的稳定方案,还顺手给了可用的looping scaling law;值得按其稳定化手段做一次干净ablation再决定是否上生产配方。
Hayden Prairie,Zachary Novack,Taylor Berg-Kirkpatrick,Daniel Y. Fu
University ofTogether AIlooped-transformerscaling-lawstraining-stability2026年4月14日arXivPDF

在block-wise diffusion language model(DLM)长上下文推理中,prefix attention 反复读取超长KV cache导致显著memory-bound瓶颈;而将AR模型的稀疏注意力直接迁移到DLM会出现“KV Inflation”:同一block内不同query选择的prefix位置差异大,使得attention kernel实际需要加载的KV页是“所有query选择集合的并集”,并集规模随block size放大,从而抵消稀疏带来的带宽收益。论文要解决的是:在不显著损伤生成质量的前提下,如何让DLM在长上下文下真正获得稀疏prefix attention的带宽/延迟收益,并避免KV Inflation。

预训练启发不多,但把DLM长上下文真正卡在KV带宽/“KV inflation”这点讲透;只看问题定义+核心kernel/缓存复用设计那一节就够判断你家DLM能否落地。
Haocheng Xi,Harman Singh,Yuezhou Hu,Coleman Hooper,Rishabh Tiwari,Aditya Tomar ... 省略 2 位作者 ... ,Michael Mahoney,Chenfeng Xu,Kurt Keutzer,Amir Gholami
diffusion-lmsparse-attentionlocality-biasarXivPDF

标准LLM预训练把异质语料“拍平”为同一token流来做NLL,缺少对文本在现实知识体系中“来源/表达形态/时效性”的显式上下文化,导致学习效率与可靠性受限;论文要解决的是:能否用一种覆盖web规模、可自动标注、与主题无关的“知识坐标”作为条件变量,把预训练从P(x)改为P(x|T),从而更快收敛、提升下游并降低幻觉。

把“数据来源/时效”做成可规模化的条件坐标而非粗暴过滤,若30%收敛加速站得住会直接影响数据管线动作;建议重点核查其对照(URL前缀/selection)是否足够干净。
Yudong Li,Jiawei Cai,Linlin Shen
pretrainingknowledge-injectionconditional-lmarXivPDF

长上下文推理同时受两类瓶颈限制:解码时KV cache线性增长带来显存压力,以及prefill/attention的二次计算复杂度带来吞吐压力。已有MLA能压KV但仍做dense attention;稀疏注意力能降算但难以在MLA的latent结构上原生工作。论文要解决的是:能否在MLA的latent空间内“原生地”做上下文凝聚(condensation),同时减少KV存储与注意力计算,并尽量不损伤长上下文能力。

更像长上下文推理结构备选:把MLA的“压KV”和稀疏/凝聚降算揉到同一latent里;只需看其在超长序列下的质量-显存-吞吐三角曲线,判断是否值得进预训练。
Zeng You,Yaofo Chen,Qiuwu Chen,Ying Sun,Shuhai Zhang,Yingjian Li,Yaowei Wang,Mingkui Tan
long-contexttransformer-architecturelatent-tokensarXivPDF

在低带宽(如公网 1Gb/s)环境下做大模型流水线并行训练时,跨 stage 传输的激活与梯度通信成为瓶颈;现有激活压缩要么压缩率不够(量化),要么训练不稳(在残差主干上做瓶颈/自编码),要么需要复杂的约束优化(Subspace Models 需 Grassmann 流形更新)。本文要解决:能否设计一种“原生适配低带宽 PP”的模型结构,在端到端常规优化下实现极高激活压缩且不损收敛?

把激活压缩变成“通信友好架构”而非外挂量化,若在常规优化下真能高压缩且稳收敛,会改变你对公网/低带宽训练可行性的判断;重点看其带宽扫与优化器对秩的观察。
Alan Aboudib,Rodrigo Lopez Portillo A.,Kalei Brady,Steffen Cruz
pipeline-parallelismactivation-compressiondistributed-training2026年4月13日arXivPDF

如何在 LLM 训练/微调过程中进行“动态 coreset(代表性子集)选择”,在显著减少训练数据处理成本的同时尽量保持最终性能,并解决现有 coreset 方法对 LLM 不可扩展、且无法适配训练动态的问题。

方向对但目前更像“承诺型”工作:动态coreset在LLM上最难的是梯度代理与更新开销,文中若没给出规模化成本与端到端收益曲线就当弱信号;只扫实验表即可。
Tianhao Tang,Haoyang Li,Lei Chen
CSEComputingDSAcoreset-selectiondata-efficiencytraining-dynamics2026年4月9日arXivPDF

如何为“关系型/多表数据库”构建可预训练的基础模型,使其无需手工表展开即可在多表连接、时间一致性等约束下进行ICL与微调。

作为结构化数据FM的literature备查即可:关系型多表的tokenization/约束注入思路有趣,但对文本预训练配方迁移有限,不必细读正文。
Valter Hudovernik,Federico López,Vid Kocijan,Akihiro Nitta,Jan Eric Lenssen,Jure Leskovec,Matthias Fey
foundation-modelrelational-learningstructured-data2026年4月14日arXivPDF

如何在“模型家族”层面加速视觉基础模型预训练,同时尽量不损失最终性能。

链式从小到大预训练是工程范式提示而非新理论,知道“如何组织模型谱系训练”即可;只看训练成本/最终精度对比图,别在细节上耗时。
Jiawei Fan,Shigeng Wang,Chao Li,Xiaolong Liu,Anbang Yao
pretraining-accelerationknowledge-transfermodel-family-scaling2026年4月14日arXivPDF

变分语言模型能否提供一种可度量的“基于内部证据的不确定性驱动控制”,用于训练与推理时的闭环干预?

更像“把不确定性当控制量”的概念框架,实证与对照不够硬;当作术语与思路备查即可,不必细读。
Yves Ruffenach
variational-language-modeluncertaintycalibration2026年4月14日arXivPDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

论文解决的问题是:在block diffusion drafter(如DFlash)的一次前向会给出“每个位置的边缘分布”而非路径条件分布的前提下,如何在固定验证开销(node budget)内,把这些分布转化为一个最优的draft tree,从而在一次target model验证中覆盖多条候选续写路径、提升每轮可接受token数(acceptance length),进一步降低推理时延。

把“边缘分布draft”形式化成最优draft tree很干净,能直接指导你训练更适配spec-dec的drafter;只看目标函数与算法段落即可。
Liran Ringel,Yaniv Romano
speculative-decodingdiffusion-drafterinference-acceleration2026年4月14日arXivPDFGitHub

如何在不额外调用昂贵 LLM/agentic judge 的情况下,预先(pre-hoc)预测“如果我回答/行动,judge 会给我打多少分”,从而在小模型上实现可靠的自我质量控制与路由(能答好就本地答,没把握就升级到大模型)?论文将其形式化为 Predict-Answer/Act (PA) 与 Reason-Predict-Reason-Answer/Act (RPRA) 两种范式,并研究小模型为何普遍校准差(过度自信/不自信)以及如何修正。

把judge分数当可学习中间变量做路由很实用,且点破小模型自评系统性失准;建议只看校准诊断与hindsight监督那部分。
Dylan R. Ashley,Gaël Le Lan,Changsheng Zhao,Naina Dhingra,Zhipeng Cai,Ernie Chang,Mingchen Zhuge,Yangyang Shi,Vikas Chandra,Jürgen Schmidhuber
inference-routingmodel-cascadellm-judge2026年4月14日arXivPDF

在多模态大模型(MLLM)中,视觉token序列冗长导致推理开销(注意力二次复杂度、显存/延迟)过高;现有视觉token裁剪方法普遍依赖“固定ViT层特征 + 固定裁剪策略(attention或similarity的静态混合)”,对不同指令/问题类别的抽象层级需求(细粒度计数 vs 语义理解等)不敏感,从而在相同token预算下出现明显的类别脆弱性与性能损失。论文要解决的是:在不改动主干MLLM的前提下,如何让视觉表征提取与token裁剪随指令类别自适应,从而在大幅降token时尽量保留原性能。

类别条件化选层+两阶段裁剪的设计挺可复用,能指导你做conditional compute的token预算分配;重点看不同任务偏好的ViT层分析图表。
Yunkai Dang,Yizhu Jiang,Yifan Jiang,Qi Fan,Yinghuan Shi,Wenbin Li,Yang Gao
mllmtoken-pruningvision-tokens2026年4月14日arXivPDF

论文解决的问题是:LLM 在 W4A4(权重4比特+激活4比特)PTQ 推理时,激活 outlier 导致动态范围受限而精度崩溃;现有 outlier 处理要么依赖运行时动态检测(带来额外开销与执行不确定性),要么做全局重参数化(不一定适配细粒度 group-wise 量化与硬件执行)。作者希望找到一种“硬件友好、离线静态、接近无损”的 outlier 保护方案。

亮点是证明激活outlier在channel上“长期驻留”可静态分离,工程上更接近可落地W4A4;只需看outlier聚类证据与规则GEMM实现。
Zhiyuan Zhang,Yanzhao Li,Zhiqiang Zou,Bai Du,Yupeng Sun,Hui Dong,Hui Wang
W4A4quantizationactivation-outliers2026年4月14日arXivPDF

在FlashAttention式online softmax已把GEMM推到接近峰值吞吐后,注意力核的瓶颈转移到非矩阵乘部分(每tile的rowmax/rowsum归约、running max更新触发的rescale链等)并呈现vector/SIMD受限;论文要解决的是:在不改变“精确注意力+online softmax累积结构”的前提下,如何显著减少这些向量归约与rescale开销,同时保持数值稳定与模型精度不退化。

把FlashAttn瓶颈从GEMM转向softmax统计更新并给出可叠加的kernel改法,结论可信且可行动;只看性能剖析与“global max”机制。
Yupeng Sun,Yanzhao Li,Zhiqiang Zou,Bai Du,Zhiyuan Zhang,Hui Dong,Gaoyige Fan,Hui Wang
FlashAttentiononline-softmaxattention-kernel2026年4月14日arXivPDF

一句话:在不停止线上推理服务的前提下,实现 LLM 推理的流水线并行(PP)配置“在线、原地(in-place)”重配置,并解决重配置过程中 GPU 内存饱和、KV cache 需要动态缩放/迁移且必须保持一致性的问题。

在线in-place重配PP更像平台能力,但会实打实影响你做在线评测/A-B的迭代速度;只看KV cache一致性与迁移方案即可。
Xu Bai,Muhammed Tawfiqul Islam,Chen Wang,Adel N. Toosi
DisNet LabUniversity of MelbourneMelbourneVICIBM ResearchYorktown Heightsllm-servingpipeline-parallelismdynamic-reconfiguration2026年4月14日arXivPDF

在编码类Agent工作负载中,如何通过“本地小模型+云端大模型”的分层架构系统性降低云端LLM token消耗(成本)并量化不同策略的收益与代价。

作为测量论文把7种省token招数放同一框架里跑,适合做成本策略选型备查;看总表的token/时延权衡就够了。
Justice Owusu Agyemang,Jerry John Kponyo,Elliot Amponsah,Godfred Manu Addo Boakye,Kwame Opuni-Boachie Obour Agyekum
token-savingshybrid-routingprompt-compression2026年4月14日arXivPDF

评估多模态LLM中视觉token剪枝(推理加速)对模型校准/置信度可靠性的影响,而不仅是准确率。

告诉你剪视觉token可能把校准搞坏/搞好但不提供可泛化机制,更多是评测提醒;扫一眼结论图和分任务分解即可。
Kaizhen Tan
token-pruningcalibrationmultimodal-llm2026年4月13日arXivPDF

视频扩散Transformer在生成阶段自注意力计算量巨大,而常见稀疏注意力会因静态稀疏模式/确定性路由导致明显时间闪烁,如何在加速的同时保持时间一致性与画面稳定。

视频扩散的稀疏注意力“按时间步分配精度”能缓解闪烁,属于推理侧技巧;了解思路即可,不必为LLM预训练投入时间。
Wentai Zhang,Ronghui Xi,Shiyao Peng,Jiayu Huang,Haoran Luo,Zichen Tang,Haihong E
Beijing University of Posts and TelecommunicatioNanyang Technological Universitysparse-attentionvideo-diffusioninference-acceleration2026年4月14日arXivPDF

如何在一次训练中得到可适配不同算力/延迟约束的扩散模型压缩子网,避免为不同设备重复做多轮压缩训练。

OFA 思路搬到扩散压缩但更像工程拼装,结论对预训练 prior 影响弱;只当“一训多档”部署范式备查,不必细读。
Haoyang Jiang,Zekun Wang,Mingyang Yi,Xiuyu Li,Lanqing Hu,Junxian Cai,Qingbin Liu,Xi Chen,Ju Fan
Renmin University ofAlibaba IIndependent researcher+1diffusion-modelonce-for-allmodel-compression2026年4月14日arXivPDF

解决跨硬件张量程序(算子/调度)自动调优需要大量离线数据、迁移性差的问题,提出用持续学习与数据高效采样加速编译器优化。

偏编译器 cost model 的持续学习,和预训练研究隔一层;想做跨硬件调优可扫 §4 实验迁移曲线,其余略过。
Chaoyao Shen,Linfeng Jiang,Yixian Shen,Tao Xu,Guoqing Li,Anuj Pathania,Andy D. Pimentel,Meng Zhang
Southeast UniversityUniversity oftensor-compilerauto-tuningcost-model2026年4月14日arXivPDF

如何把LLM推理嵌入OS内核并将“读取特定token logits”作为低开销治理/安全原语,用于在生成前判定agent动作是否危险。

把“读少量 logits”做成内核级安全原语很新,但威胁模型与可绕过性决定可信度;只看设计接口与开销评测即可。
Daeyeon Son
llm-servinglogit-probingos-kernel2026年4月13日arXivPDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

现有多模态检索增强(KB-VQA / LVLM-RAG)评测普遍只看“答对没”,忽略两类关键失败模式:在证据不足/冲突时应当“拒答/偏转(deflection)”而不是“编造(hallucination)”;同时静态基准会因模型参数记忆增强而快速“过时”,导致原本需要检索的问题被模型直接凭参数知识答出,从而无法持续衡量检索依赖与鲁棒性。本文要解决的是:如何构建一个可随模型能力演进而保持难度、并能显式区分 hallucination vs deflection 的多模态检索基准与评测协议。

把 hallucination vs deflection 拆开测并动态剔除“参数可解”样本,能直接指导你怎么维护长期有效的 RAG 评测;读协议与过滤策略就够。
Nicholas Moratelli,Christopher Davis,Leonardo F. R. Ribeiro,Bill Byrne,Gonzalo Iglesias
vlm-benchmarkhallucinationdeflectionarXivPDF

现有 AudioLLM 在“推理强、感知弱”上出现系统性倒挂:能做复杂推理但难以稳定识别情绪/音色/口音/韵律以及非语言事件。论文认为根因不是模型容量或架构,而是训练监督长期被 ASR 转写目标主导,导致模型在优化中把副语言学线索与环境声学当作“噪声”压制,从而形成结构性失明。

它让我更相信音频感知弱是监督接口问题而非模型不够大;建议重点看 schema 设计与字段化标注,能直接迁移到你自家数据管线。
Linhao Zhang,Yuhan Song,Aiwei Liu,Chuhan Wu,Sijun Zhang,Wei Jia,Yuan Liu,Houfeng Wang,Xiao Zhou
audio-llmmultimodal-alignmentschemaarXivPDF

统一式视觉-语言预训练模型在“全局图文对齐”与“局部/patch级语义对齐(grounding)”之间长期存在张力:即便TIPS、SigLIP2等已引入空间感知训练,模型在像素/patch与文本概念的精确对齐上仍明显不足,且出现“大模型patch-text对齐反而弱于小模型”的反常现象。论文要解决的核心问题是:如何在不牺牲全局对齐能力的前提下,系统性提升预训练阶段的patch-text alignment,并解释/修复规模增大导致的局部对齐退化。

patch 蒸馏学生反超教师这点会改你对“局部对齐受限于容量”的 prior;建议复现其 iBOT++/head-only EMA 配方做内部 ablation。
Bingyi Cao,Koert Chen,Kevis-Kokitsi Maninis,Kaifeng Chen,Arjun Karpur,Ye Xia ... 省略 9 位作者 ... ,Krzysztof Choromanski,Mojtaba Seyedhosseini,Howard Zhou,André Araujo
vision-language-pretrainingpatch-text-alignmentdistillation2026年4月13日arXivPDF

现有VLM评测常把错误混在一起:到底是“看错了”(perception error)还是“语义/规则映射错了”(rule-mapping error)难以区分。本文提出并刻画一种更纯粹的失败模式——semantic fixation:即在视觉状态完全相同的情况下,模型仍固守预训练中更常见的语义解释(标准规则),无法按提示完成等价但相反的规则映射(逆规则/misère-style)。

VLM-Fix 控变量很干净,把错误从感知里剥离成“语义锚定”,还能看到后训练的负迁移;只看基准构造与 late-layer steering 结果。
Md Tanvirul Alam
vlm-evaluationsemantic-priorsinstruction-following2026年4月13日arXivPDFGitHub

构建一个能真实检验Video-LLM在“高速度、信息密集、强规则约束”的虚拟对抗环境(FPS电竞第一视角)中的感知与战术推理能力的基准,并通过严格去除文本捷径与时间锚点对齐,确保评测依赖视频理解而非语言猜测。

更像数据/基准工作但去捷径做得认真,能当你检验视频模型在高 UI 密度场景的压力测试;只看去文本捷径与时间对齐设计。
Jianzhe Ma,Zhonghao Cao,Shangkui Chen,Yichen Xu,Wenxuan Wang,Qin Jin
RUCBUPTvideo-llmbenchmarkegocentric-video2026年4月14日arXivPDF

论文要解决的问题是:现有多模态大模型(MLLM)视觉token剪枝方法在“简单视觉理解(VQA)”上看似可靠,但在“复杂视觉推理(以视觉数学推理VMR为代表)”上出现断崖式退化;作者基于全文分析指出根因并非剪枝策略本身“找不到相关token”,而是相关视觉信息在解码过程中会随推理步骤发生迁移(Relevant Visual Information Shift, RVIS),导致“prefill阶段一次性确定并永久丢弃token”的范式在推理任务上系统性失效。

RVIS 把“相关证据会随解码迁移”钉死为机制现象,解释静态剪枝为何在推理崩;建议看现象曲线与 Detect-and-Swap,别纠结细节。
Jiwan Kim,Kibum Kim,Wonjoong Kim,Byung-Kwan Lee,Chanyoung Park
visual-token-pruningmultimodal-llmdecoding-dynamics2026年4月14日arXivPDF

论文解决的问题是:现有RoPE类位置编码在VLM中对所有token使用统一的pos index/步长(stride),忽略了跨模态与模态内的信息密度差异,导致注意力“把位置分辨率浪费在冗余视觉patch上”,而对信息更密集的文本或关键视觉区域分配不足;作者将“位置粒度”视为一种隐式资源,提出在推理时按信息贡献动态缩放位置索引(positional index scaling)。

训练 free 改 RoPE 的 pos index 来做“位置分辨率预算”挺巧,但像推理期补丁、泛化边界不明;只扫核心公式与消融表。
Ruoxiang Huang,Zhen Yuan
vlmpositional-encodingtraining-free2026年4月14日arXivPDF

当 MLLM 搭配视觉工具(深度/光流/对应/检测等)时,模型往往“看不懂”工具输出:把深度图、光流场等以像素级/密集数值 token 直接序列化输入,会与 LLM 的语言推理表征不匹配,导致模型依赖语言先验、无法有效利用工具提供的真实视觉线索。论文要解决的是:在不增加工具调用、不做训练/微调的前提下,如何把视觉工具输出转换成 LLM 更可读、可推理的表示,从而显著提升视觉工具推理能力。

只看表示层怎么把 dense 工具输出变成可组合的“cue 语言”;对后续预训练接口/Tokenizer 设计是明确 action,但实验更像强 prompt 工程,别过度信结论。
Muhammad Kamran Janjua,Hugo Silva,Di Niu,Bahador Rashidi
tool-augmented-mlmrepresentationvisual-reasoning2026年4月14日arXivPDF

解决多模态指令微调(visual instruction tuning)中“语言捷径”导致的视觉信息利用不足:即便视觉编码器很强,LLM 在解码时仍倾向依赖语言先验,从而在计数、空间关系、几何等视觉中心任务上失效;论文要回答的是如何在不改架构、不加复杂损失/RL 的情况下,让训练分布本身“强迫”模型用视觉证据。

把自监督视觉任务改写成指令样本来“逼模型看图”这招很便宜,建议只看数据配比与失败案例;若你在做 VIT 数据工程,可立刻复现 3–10% 注入的 ablation。
Sophia Sirko-Galouchenko,Monika Wysoczanska,Andrei Bursuc,Nicolas Thome,Spyros Gidaris
multimodal-llminstruction-tuningself-supervised-learning2026年4月14日arXivPDF

多页长文档的纯视觉 MLLM 理解会随页数增长显著退化,根因包括:关键信息被大量无关页面淹没导致低信噪比(SNR),以及数据集通常只有最终短答案、缺少证据定位与推理过程监督,导致模型学到捷径且泛化差。本文要解决的是:让模型在长文档视觉序列上形成“先找证据再推理”的结构化能力,并在训练上提供可学习的细粒度监督与可承受的长序列计算方案。

读它是为了“证据指针+推理”把长文档注意力预算从全看改成先检索再答;只看证据监督设计与算力/显存方案,RL 部分当工程参考即可。
Hao Yan,Yuliang Liu,Xingchen Liu,Yuyi Zhang,Minghui Liao,Jihao Wu,Wei Chen,Xiang Bai
long-document-vlmevidence-groundinglocalization2026年4月14日arXivPDF

现有大型音频-语言模型(ALM)在“长音频中的事件时间定位(temporal grounding)”上不可靠:一方面训练数据以clip级弱标注为主导致模型倾向把事件“铺满全段”;另一方面评测集多为事件清晰、间隔有静音的简单场景,无法检验真实世界“短事件埋在密集背景里”的needle-in-a-haystack定位能力。论文要解决的是:在开放词表自然语言查询下,让ALM既能判断事件是否存在,又能在长音频中给出精确起止时间,并显式抑制对不存在事件的“时间戳幻觉”。

把“是否存在”与“定位区间”拆开并显式惩罚不存在事件的时间戳幻觉,这个目标函数很可迁移;只需看训练目标与负例构造,模型细节可略。
Luoyi Sun,Xiao Zhou,Zeqian Li,Ya Zhang,Yanfeng Wang,Weidi Xie
Zhejiang UniversityShanghai AI LaboratoryShanghai Jiao Tong Universityaudio-language-modeltemporal-groundinghallucination2026年4月14日arXivPDFGitHub

在大视觉语言模型中,如何用训练free的解码策略在尽量不增加计算与不破坏稳定预测的前提下抑制幻觉。

把 layer-wise hesitation 当作可观测的视觉不稳信号再触发差分校准,思路新但像模型特定 trick;只看 hesitation 指标定义和触发条件,别指望通用提升。
Xinyun Liu
hallucinationvision-language-modelsdecoding2026年4月13日arXivPDF

视频大模型生成时存在“锚帧主导”(anchor-frame dominance):解码器跨帧注意力在时间维度上高度不均衡,过度依赖少数帧(锚帧)而忽略其他帧证据,导致时序推理偏置并诱发幻觉。论文要解决的是:在不改输入、不加额外解码分支、无需训练的前提下,如何在生成过程中重平衡解码器对各帧的证据聚合,从而降低视频幻觉。

它把视频幻觉归因到解码期跨帧注意力的“锚帧偏置”,这点会改变你对训练 vs 解码责任的 prior;建议只看注意力诊断图和无训练干预的效果边界。
Zijian Liu,Sihan Cao,Pengcheng Zheng,Kuien Liu,Caiyan Qin,Xiaolin Qin,Jiwei Wei,Chaoning Zhang
University of Electronic Science and Technology ofInstitute of Software Chinese Academy of SciencesHarbin Institute of Technologyvideo-llmhallucinationattention-bias2026年4月14日arXivPDF

系统梳理并机制化刻画 Vid-LLMs(视频大模型)中的“幻觉”失效模式:不仅是“说错了”,而是输出在时序演化、指代一致性、以及音视模态冲突下如何偏离可观测视频证据;并回答“视频幻觉与图像幻觉本质差异是什么、该如何分类评测、以及缓解策略应如何对因下药”。

当作路线图备查:它把视频幻觉按机制拆成 dynamic distortion vs fabrication,能指导你怎么设计数据反事实与评测维度;不必细读方法,抓分类框架即可。
Yiyang Huang,Yitian Zhang,Yizhou Wang,Mingyuan Zhang,Liang Shi,Huimin Zeng,Yun Fu
video-llmhallucinationevaluation2026年4月14日arXivPDF

现有VLM/OCR系统在多Unicode文字体系上的泛化评测缺失,导致“看似能OCR”但实际只覆盖少数脚本的问题难以被系统性暴露与量化。

知道这个 benchmark 就够:它会让你在多脚本 OCR 上不再自欺;对预训练的直接 action 是回头查语料脚本覆盖与采样权重,正文无需细读。
Amir Hossein Kargaran,Nafiseh Nikeghbal,Jana Diesner,François Yvon,Hinrich Schütze
ocrbenchmarkmultiscript2026年4月14日arXivPDFGitHub

解决视觉-语言-动作(VLA)模型缺乏显式动作数据的问题,评估从人类视频中提取的隐式动作表示的有效性。

具身 VLM 领域的优质数据基准,对 vision-to-action 对齐有参考价值,不涉足机器人控制的预训练研究员可跳过。
Dujun Nie,Fengjiao Chen,Qi Lv,Jun Kuang,Xiaoyu Li,Xuezhi Cao,Xunliang Cai
VLAEmbodied AILatent Action2026年4月13日arXivPDFGitHub

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

在扩散式文生图中同时做到“接近/达到SOTA画质”与“显著降低单次采样计算与显存”,并解决稀疏MoE扩散Transformer在timestep调制下的路由不稳定、以及文本条件在多步扩散中KV重复计算带来的推理低效问题。

值得看 MoE 扩散 Transformer 的路由稳定与跨步文本 KV 共享这两处“真省钱”改造;其余 SOTA 叙事可略,重点抓可复用的工程约束与失败模式。
Chandan Akiti,Ajay Modukuri,Murali Nandan Nagarapu,Gunavardhan Akiti,Haozhe Liu
sparse-moediffusion-transformerrouting2026年4月14日arXivPDF

主流视频tokenizer把视频表示为固定大小的时空3D网格token,并以重建为核心目标,导致下游生成模型(如text-to-video)必须“逐token/逐像素”同时学习低层细节与高层语义/运动结构:不管视频内容复杂度如何,token数恒定且偏细节,学习复杂度与计算成本过高。论文要解决的是:能否构造一种可变长度、粗到细组织的视频token表示,使下游模型可以只预测少量高层token就获得可用语义与运动信息,并在需要时再逐步补细节,从而显著降低训练/推理计算并支持更长视频。

它把视频 tokenizer 从固定网格改成可变长度粗到细序列,这会直接影响你对“同算力该扩时长还是扩分辨率”的 prior;建议只看 token 预算-质量曲线与涌现的前部语义性。
Andrei Atanov,Jesse Allardice,Roman Bachmann,Oğuzhan Fatih Kar,R Devon Hjelm,David Griffiths,Peter Fu,Afshin Dehghan,Amir Zamir
video-tokenizationvariable-length-tokenscoarse-to-fine2026年4月14日arXivPDFGitHub

论文要解决的是:用自回归 LLM 生成 SVG(可执行矢量图程序)时,沿用自然语言的 byte/BPE tokenizer 会把数值坐标碎片化(如“100”→“1”“0”“0”),破坏几何连续性并造成 token 冗余,进而带来坐标幻觉、长序列低效与结构不稳定。核心问题是如何设计“结构对齐 + 高压缩率 + 可执行性保证”的 SVG 专用 tokenizer/表示,以提升数据效率与生成质量。

只看 tokenizer 设计与消融:把数值/语法单元显式化后,序列长度和几何错误明显降,能迁移到代码/表格类预训练的分词策略。
Ximing Xing,Ziteng Xue,Zhenxi Li,Weicong Liang,Linqing Wang,Zhantao Yang ... 省略 1 位作者 ... ,Zijin Yin,Qinglin Lu,Chunyu Wang,Qian Yu
tokenizationsvgprogram-synthesis2026年4月10日arXivPDFGitHub

系统审计文本到图像模型中的人口统计与文化偏见,并同时覆盖偏见、元素遗漏与“文化坍缩”三类现象的评测需求。

当作评测备查即可:指标把“偏见/遗漏/文化坍缩”拆开量化,适合拿来补你们 T2I 安全评测表,但不必细读方法细节。
Nihal Jaiswal,Siddhartha Arjaria,Gyanendra Chaubey,Ankush Kumar,Aditya Singh,Anchal Chaurasiya
bias-audittext-to-imagebenchmark2026年4月14日arXivPDF

如何让TTS模型在保持自然度的同时,实现对表达力(情绪、语气、节奏等)的细粒度、可控生成。

扫一眼控制接口思路就够:细粒度音频标签作为可控信号挺实用,但更像产品化经验总结,对通用预训练配方帮助有限。
Google DeepMind
Google DeepMindttsspeech-generationcontrollability2026年4月15日原文

解决视觉生成中扩散模型计算开销大、AR模型受离散tokenization损失与误差累积影响的问题,寻求更高效且高保真的生成范式。

知道有这条“近无损量化+全局refine”的路线即可;若你关心离散表示瓶颈,只看架构图和速度/质量曲线就能判断值不值得跟。
Jian Han,Jinlai Liu,Jiahuan Wang,Bingyue Peng,Zehuan Yuan
image-generationautoregressivequantization2026年4月14日arXivPDFGitHub

在文本到图像扩散模型中,如何在触发器语义自然、难以通过显式异常检测的情况下,实现输入级(deployment-friendly)的后门触发检测。

作为部署侧探测思路可记一笔:cross-attn 缩放扰动能把后门输入拉开,但威胁模型较特定,结论当弱信号看即可。
Zida Li,Jun Li,Yuzhe Sha,Ziqiang Li,Lizhi Xiong,Zhangjie Fu
Nanjing University of Information Science and Technologydiffusion-modelsbackdoor-detectionmodel-security2026年4月14日arXivPDF

弥合扩散模型SFT与RL后训练之间的“轨迹分布偏移/曝光偏差”与稀疏奖励信用分配问题。

扩散后训练圈的“自纠错对齐”变体;想借鉴到 LLM 只需看它怎么处理分布偏移与稀疏奖励,细节实现不必深挖。
You Qin,Linqing Wang,Hao Fei,Roger Zimmermann,Liefeng Bo,Qinglin Lu,Chunyu Wang
diffusion-post-trainingself-correctionbias-correction2026年4月14日arXivPDF

长视频生成做 3D 场景漫游时,空间遗忘(revisit 时幻觉)和时间漂移(自回归误差累积)导致几何不一致

3D 生成方向工作,对 LLM pretrain 基本无关;做世界模型或 video generation 的可以扫下失效模式分析,其他人作 literature 备查
Tianchang Shen,Sherwin Bahmani,Kai He,Sangeetha Grama Srinivasan,Tianshi Cao,Jiawei Ren ... 省略 5 位作者 ... ,Jiahui Huang,Huan Ling,Jun Gao,Xuanchi Ren
NVIDIA3D GenerationVideo GenerationLong-horizon2026年4月14日arXivPDF

Diffusion模型的多种推导视角(VAE、score matching、flow matching)数学密集且缺乏统一直觉,初学者难以理解逆过程如何从噪声生成数据。

Diffusion模型的教程性统一视角,对做Diffusion LM的人有参考价值,但无新方法贡献;当教材备查。
Candi Zheng,Yuan Lan
diffusion-modelslangevin-dynamicsflow-matching2026年4月12日arXivPDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

论文聚焦 OPD(On-Policy Distillation,学生自采样轨迹、教师提供逐 token log-prob 作为稠密监督)在大模型后训练中“有时极其有效、有时完全失效”的核心不确定性:为什么更强的 teacher 反而可能无法提升 student?OPD 成功/失败由哪些可观测条件决定?其 token 级训练动力学与梯度信号到底来自哪里?以及如何把这些机制总结成可复现的训练配方来修复失败配置。

它改变我对 OPD 的 prior:teacher 更强不等于更好,先检查思维模式一致与 top-k overlap 动力学;建议立刻按其诊断指标复现实验。
Yaxuan Li,Yuxin Zuo,Bingxiang He,Jinqian Zhang,Chaojun Xiao,Cheng Qian ... 省略 1 位作者 ... ,Huan-ang Gao,Wenkai Yang,Zhiyuan Liu,Ning Ding
on-policy-distillationpost-trainingtraining-dynamics2026年4月14日arXivPDFGitHub

论文要解决的核心问题是:OPD(On-Policy Distillation)在推理/后训练中效果好但强依赖“训练时实时teacher打分(log-prob)”的在线服务,导致基础设施成本高、复现困难;能否把OPD做成离线(预先算好teacher log-prob并复用)同时不掉性能?作者进一步指出:离线OPD失败的根因并不只是“离线近似”,而是一个被忽视但对任何OPD都必要的条件——SFT阶段生成轨迹的teacher与OPD阶段提供分布监督的teacher必须一致(teacher consistency),否则目标函数存在不可消除的偏差,在线/离线都会收敛到次优不动点。

必须看其“teacher consistency”结论:SFT 产轨迹与 OPD 打分 teacher 不一致会系统性收敛到次优;动作是把你们蒸馏流水线 teacher 统一并离线缓存 logprob。
Yecheng Wu,Song Han,Hai Cai
on-policy-distillationoffline-traininggradient-bias2026年4月14日arXivPDF

长文本生成中,事实性错误往往以“多条claim级别的过度自信”形式出现;现有提升事实性的训练方法(后验修订、只优化正确性的RL)通常缺少对不确定性的建模与校准,且多把整段回答压成一个全局置信度,无法覆盖长文中不同claim不确定性差异。本文要解决的是:如何让模型在生成时显式分解为可验证的原子claim,并为每条claim给出可校准的置信度,从而减少过度自信的幻觉并支持选择性拒答。

只看 claim 粒度校准的训练配方:把“事实优化”和“置信度校准”拆开能抑制 RL 过度自信,适合做 RAG/工具验证前的可拒答接口。
Xin Liu,Lu Wang
factualityuncertaintycalibrationarXivPDF

在 CoT 等长序列推理的 RL(如 GRPO)中,奖励往往是序列级/组级给出,token 级极度稀疏,导致 credit assignment 高方差、训练不稳定;同时“无差别”的 token 级熵正则或 KL 约束在稀疏奖励下容易触发熵塌缩/模型退化,且对超参敏感。

看公式推导与稳定性曲线即可:把组级奖励按序列似然分摊到 token 并做选择性 KL mask,属于能直接抄到 GRPO 训练脚本里的稳态补丁。
Xingyu Lin,Yilin Wen,Du Su,Jinchang Hou,En Wang,Wenbin Liu,Chenfu Bao,Zhonghou Lv
RLHFGRPOtoken-level-optimization2026年4月14日arXivPDF

如何将“激活层面的steering/越狱行为”稳定地编译进LLM权重中,形成更隐蔽且更可靠的供应链后门,而非只诱导表层token前缀。

只看方法与消融:把 steering 用零空间约束“写进权重”这招很可复现,也提醒我们别再把前缀触发当可靠后门基线。
Rui Yin,Tianxu Han,Naen Xu,Changjiang Li,Ping He,Chunyi Zhou ... 省略 1 位作者 ... ,Zhihui Fu,Tianyu Du,Jinbao Li,Shouling Ji
backdoorweight-editingactivation-steering2026年4月14日arXivPDF

论文要解决的是:为什么同一个经过安全对齐的 LLM 在高资源语言(如英语)上安全性很好,但在低资源语言上攻击成功率(ASR)显著升高;以及如何在“不额外收集/合成低资源语言安全数据、不做目标语言安全微调”的前提下,让高资源语言学到的安全能力跨语言泛化。作者将问题归因于“语义理解是跨语言的,但安全对齐信号在文本空间中是语言分布偏置的”,从而导致语义-安全之间的错配。

看 §3/§4 的 bottleneck 诊断就够:它把“跨语种安全失效”落到可测的表征层选择问题,能直接指导你把对齐信号往中层搬。
Junxiao Yang,Haoran Liu,Jinzhe Tu,Jiale Cheng,Zhexin Zhang,Shiyao Cui ... 省略 2 位作者 ... ,Hui Xue,Hongning Wang,Han Qiu,Minlie Huang
safety-alignmentcross-lingualrepresentation-analysis2026年4月13日arXivPDF

文本到图像(T2I)的RL能提升prompt following,但奖励信号难:CLIP类过于粗粒度,VLM奖励模型需要偏好标注与额外训练,直接让VLM打分又不稳定(采样随机/幻觉)。论文要解决的是:如何在“零标注、零奖励模型训练”的条件下,构造一个稳定、细粒度、可扩展(随VLM变强自动变强)的奖励,用于T2I的RL优化。

值得扫一眼 reward 定义:用冻结 VLM 的 token-level NLL 当确定性奖励,比“让模型当评委打分”干净,适合你内部先快速复现做 RL 管线对比。
Jinlong Liu,Wanggui He,Peng Zhang,Mushui Liu,Hao Jiang,Pipei Huang
reward-modelingreinforcement-learningtext-to-image2026年4月14日arXivPDF

论文要解决的是:在VLM对齐中,DPO/在线DPO的效果高度依赖偏好对数据质量,但现有偏好对构造多依赖“结果式/粗粒度”信号(如最终对错、幻觉计数)或离策略扰动(改图/注入幻觉),导致(1)与目标策略分布不匹配、(2)无法稳定区分细粒度视觉推理差异(grounding、覆盖度、推理链条错误)。作者希望用一种可复用、低成本、无需训练新RM的方式,让开源judge在多模态偏好标注上产生更细的可解释监督,从而提升on-policy偏好学习的有效性。

只看 rubric 生成与在线数据流水线:核心增量在把偏好标注的信噪比工程化抬高,结论更像数据科学经验而非新优化理论。
Ya-Qi Yu,Fangyu Hong,Xiangyang Qu,Hao Wang,Gaojie Wu,Qiaoyu Luo ... 省略 8 位作者 ... ,Minghui Liao,Jihao Wu,Haoyu Ren,Dandan Tu
DPOrubric-rewardmultimodal-alignment2026年4月14日arXivPDF

LLM在完成安全对齐(如SFT/RLHF/DPO)后,进行下游微调时会发生“安全漂移”:即便用良性数据训练也可能快速遗忘拒答/安全策略。现有防护多只约束权重更新或只约束激活表征,论文要解决的是:证明单一层面的约束存在可绕过路径,并提出一种在微调阶段同时约束权重与激活的耦合方法,以更稳健地保持安全对齐同时尽量不损害任务性能。

看失败案例与耦合约束公式:它说服我“只约束权重/只约束激活都不够”,可直接迁移到持续学习里做能力保留的正则化基线。
Songping Peng,Zhiheng Zhang,Daojian Zeng,Lincheng Jiang,Xieping Gao
safety-alignmentfine-tuningrepresentation-regularization2026年4月14日arXivPDF

在 RLVR/GRPO 等可验证强化学习训练中,难题样本普遍出现“全错 rollout→零优势→无梯度”的奖励稀疏瓶颈;现有 hint-based RL 往往通过增加提示长度/模板强度来缓解稀疏,但带来冗余、跨提示不一致与训练开销。本文要解决的是:如何把“提示设计”从堆 token 的数量问题,转化为“最小充分(minimal-sufficient)知识”选择问题,在尽量短、尽量一致的提示下仍能稳定解锁可学习的正奖励轨迹。

读关键片段效应那节即可:把 hint 当“把策略推入有梯度区域”的最小信息迁移器,这个视角能指导你做难题 curriculum 与提示剪枝。
Linhao Yu,Tianmeng Yang,Siyu Ding,Renren Jin,Naibin Gu,Xiangzhao Hao ... 省略 1 位作者 ... ,Deyi Xiong,Weichong Yin,Yu Sun,Hua Wu
RLVRreasoningreward-sparsity2026年4月14日arXivPDFGitHub

论文要解决的问题是:在以 GRPO/GSPO 为代表的 RLVR(可验证奖励强化学习)推理训练中,模型准确率提升的同时会系统性地产生“相对校准(relative calibration)”退化(典型表现为错误答案反而更“自信/更低困惑度”),而现有修补方法多为启发式、缺少一致性目标与理论保证,导致要么校准改善有限、要么牺牲推理准确率。

看目标函数推导:它把 GRPO 的校准退化归因到 surrogate 不一致,并给出可替换 advantage 的 AUC 一致项;若你用困惑度做置信度,这篇得记住。
Ziqi Wang,Xingzhou Lou,Meiqi Wu,Zhengqi Wen,Junge Zhang
GRPOcalibrationpolicy-optimization2026年4月14日arXivPDF

安全训练在on-policy RL下对“有害错位/投机取巧(specification gaming)”的调制方向为何会随环境设计而反转?

当作“环境设计会翻转结论”的警示读:只需看实验对比表,提醒你别用单一 safety benchmark 推断 on-policy RL 下的错位方向。
Leon Eshuijs,Shihan Wang,Antske Fokkens
on-policy-RLalignmentspecification-gaming2026年4月14日arXivPDF

在小模型(0.6B–2.3B 有效参数)上,能否把“行为倾向/处置(disposition)”(如自我验证、承认不确定性、吸收反馈、坚持完成)通过蒸馏/微调真正写入权重,并在 judge-based 评测中稳定提升,而不牺牲内容能力?

值得细看 sanity checks:它把 judge-based 提升如何被 n_predict 截断/计分不一致伪造讲得很透,结论是“小尺度 disposition 蒸馏先别押注”。
Hari Sadasivan
negative-resultsevaluation-artifactsdistillation2026年4月13日arXivPDF

在联邦学习场景下做基于可验证奖励的推理后训练(Federated RLVR)时,如何同时解决:大模型全量同步通信开销过高、异构私有数据导致多本地步训练出现 client drift、以及跨机构难以共享训练信号的问题。

只看公共数据锚点那一招:用少量 public set 交换响应级信号来压 client drift,作为隐私约束下做分布式 RLVR 的系统范式备查即可。
Anupam Nayak,Baris Askin,Muhammed Ustaomeroglu,Carlee Joe-Wong,Gauri Joshi
federated-learningrlvralignment2026年4月14日arXivPDF

在无法访问原始训练数据、也没有shortcut类型/标注的部署阶段(test-time / deployment-time),如何识别并缓解文本分类模型对“token级捷径特征”(spurious token-label correlation)的过度依赖,从而在shortcut分布发生变化时保持鲁棒泛化,同时尽量不损伤in-distribution性能。

把“梯度归因→可优化的部署期抑制目标”串起来挺干净,但泛化到真实分布漂移仍偏弱信号;只看方法段和MSTPS定义/消融。
Jiayi Li,Shijie Tang,Gün Kaynar,Shiyi Du,Carl Kingsford
shortcut-learningtest-time-adaptationlora2026年4月14日arXivPDF

长 CoT 推理任务上,token-level PPO 的时序信用分配不稳定且 value model 内存代价高,GRPO 虽免 critic 但多采样吞吐低

GRPO throughput 问题是真痛点,SPPO 的 sequence-bandit + decoupled value 思路值得看下是否真的比 GRPO 吞吐和稳定性都好;重点看 advantage 方差和 value model 训练稳定性的 ablation,否则容易是换个 framing 的增量
TIANYI,Yixia Li,Long Li,Yibiao Chen,Shaohan Huang,Yun Chen,Peng Li,Yang Liu,Guanhua Chen
RLVRPPOGRPO2026年4月10日arXivPDFGitHub

解决传统判别式奖励模型(Reward Model)需要对每个候选回复进行独立前向传播导致的计算效率低下和缺乏全局对比的问题。

将 pairwise RM 扩展为 N-way 拼接单次前向,既省算力又引入了全局对比上下文,值得在 RLHF pipeline 中快速验证。
Yinuo Yang,Zixian Ma,Manasi Ganti,Jieyu Zhang,Ranjay Krishna
University ofReward ModelingRLHFEfficiency2026年4月13日arXivPDF

在不损失推理性能的前提下,改变/控制LLM进行推理时使用的“推理语言”(例如从英语迁移到其他语言或特定受控语言)。

作为“推理表征是否语言无关”的现象备查即可;扫一眼控制强度-性能曲线和失败案例,别花时间抠细节。
Daniil Gurgurov,Tom Röhr,Sebastian von Rohrscheidt,Josef van Genabith,Alexander Löser,Simon Ostermann
multilingual-reasoningcot-controlpost-trainingarXivPDF

比较不同“从大语言模型中诱导/挖掘”低资源语言(Hausa、Fongbe)数据的策略,评估哪种 elicitation 更能产出可用训练语料。

更像低资源数据工程对比实验,结论高度依赖提示与评测口径;当作配方参考,直接看表格里各elicitation策略的产量/质量即可。
Mahounan Pericles Adjovi,Roald Eiselen,Prasenjit Mitra
low-resource-languagesdata-synthesispromptingarXivPDF

如何对AIGC文本嵌入可司法取证的“生成时间戳”水印,并实现可100%恢复、抗统计攻击与抗提供方伪造的可信水印。

密码学取证设定比常见“统计可检”更严,但离预训练太远;想了解治理方向只需看威胁模型与安全性证明假设。
Shangkun Che,Silin Du,Ge Gao
watermarkingcryptographyforensics2026年4月14日arXivPDF

提升小语言模型在多步数学推理中的稳定性与纠错能力,减少早期错误导致的级联失败。

小模型数学提升主要靠提示/蒸馏信号堆料,增量有限;只看哪类hint最稳、以及对错误传播的消融就够了。
Jawad Hossain,Xiangyu Guo,Jiawei Zhou,Chong Liu
math-reasoningdistillationsmall-language-models2026年4月14日arXivPDF

视频多模态理解训练缺少大规模、跨任务一致标注数据;真实数据采集与标注成本高且覆盖不足。

统一视频合成数据管线对落地有用,但研究新意不多;当作数据配方库,挑你关心的任务看生成模板与质量控制即可。
Tanzila Rahman,Renjie Liao,Leonid Sigal
synthetic-datavideo-understandingmultimodal-llm2026年4月14日arXivPDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

在“自回归下一token生成器”PAC学习框架下,系统刻画学习由T步自回归推理过程诱导的端到端映射的样本复杂度如何随推理长度T增长,并严格比较两种监督信号:只给最终答案的端到端监督(e2e) vs 给出完整中间轨迹的Chain-of-Thought监督(CoT)。核心问题是:CoT监督在统计效率上究竟能带来多大、在什么条件下的优势?是否存在本质的指数级差距?

直接改变我对“CoT只是更好prompt”的prior:在PAC里给中间轨迹可把样本复杂度从随T爆炸拉回可控;应据此重算CoT标注/合成的ROI。
Steve Hanneke,Idan Mehalel,Shay Moran
Purdue UniversityThe Hebrew UniversityTechnion and Google Researchsample-complexityautoregressive-modelschain-of-thought2026年4月13日arXivPDF

论文要回答的是:在一个可完全解析的 ICL(in-context learning)玩具世界里,Transformer 到底用什么“电路/子回路”在做上下文自适应?更具体地,给定训练时只见过有限集合 S 的 K 条离散马尔可夫链(每条链是 C 个离散状态的转移矩阵),两层 Transformer 在不同数据多样性 K 下,会在“泛化 vs 记忆”以及“用 1-point 统计 vs 2-point 统计(转移)”之间切换;作者希望给出这些相变/阶段背后的机制级解释:哪些层、哪些注意力/MLP 子模块在实现 1-Gen/2-Gen/1-Mem/2-Mem 四种算法策略,以及这些策略为何会随 K 与训练进程出现阶段性演化。

玩具设定但机制拆得很硬:数据多样性K驱动“记忆检索↔统计估计”相变,给你一个可复用的ICL电路分析坐标系;建议对照自家预训做同类探针。
Cole Gibson,Wenping Cui,Gautam Reddy
Princeton Universityin-context-learningmechanistic-interpretabilityphase-transition2026年4月14日arXivPDF

论文研究“稀有错误(rare-error)”条件下 AI 审计/校准验证的统计极限:当模型错误率 ε 很低、预测置信度分布又高度集中在 1−ε 附近时,任何基于有限标注样本 m 的校准误差(如 ECE)估计都会遭遇不可突破的噪声地板;并进一步刻画在被动评测、无标签自评、主动查询、以及多组件系统组合(pipeline/agent loop)下,校准可验证性如何随 ε、m、L(校准函数 Lipschitz 常数)缩放。

把“错误率越低越难验证”讲成硬下界,会迫使你把很多微小SOTA当作统计并列;动作是立刻检查自家评测的m与ε是否已落入不可分辨区。
Jason Z Wang
calibrationminimax-raterare-errors2026年4月14日arXivPDF

如何在“推理轨迹/思维链”评测中,避免模型用低置信度或噪声轨迹掩盖真实推理质量,并更可靠地衡量模型在其最自信输出上的推理能力。

CoT评测里“挑最自信轨迹再打分”能显著降方差、减少投机,但也可能偏向过度自信模型;只看指标定义与和pass@k/SC的对照实验。
Manas Pathak,Xingyao Chen,Shuozhe Li,Amy Zhang,Liu Leqi
reasoning-evaluationchain-of-thoughtconfidence-calibrationarXivPDF

LLM评测基准与模型发布速度过快,导致“每个模型×每个数据集×全量题目”的穷举评测成本不可承受;现实中leaderboard往往对不同模型评不同子集,造成分数不可比、排名不稳定。论文要解决的是:在基准集合随时间扩展、模型只在当时可用数据集上被评测的真实场景下,如何用少量锚题把新数据集/新模型与历史评测尺度对齐,并避免反复重跑历史模型。

把动态leaderboard当量表链接来做很对味;只看方法假设与锚题敏感性实验,能直接指导你们评测管线怎么省推理又保可比。
Eliya Habba,Itay Itzhak,Asaf Yehudai,Yotam Perlitz,Elron Bandel,Michal Shmueli-Scheuer,Leshem Choshen,Gabriel Stanovsky
benchmarkingitem-response-theorycalibration2026年4月14日arXivPDF

论文要解决的问题是:当前“前沿多语种能力”评测(以跨语言数学推理、跨语言常识/知识MCQ为主)是否真的在衡量模型的多语种理解与生成能力;作者基于全文实验给出否定结论,并提出一种更贴近真实多语种生成质量的替代评测范式——round-trip translation(源语言→目标语言序列→回译源语言),用语义保真度缺口来暴露跨语言生成失败。

它基本推翻“多语种MCQ/推理分≈多语种生成质量”的默认先验;只看相关性表和round-trip设定,够你立刻改多语种训练的监控指标。
Ronald Skorobogat,Ameya Prabhu,Matthias Bethge
multilingual-evaluationround-trip-translationbenchmarking2026年4月14日arXivPDF

核心问题:ICL示例选择在固定budget下高度敏感,但现有方法多围绕“相关性/多样性”等启发式,缺少对“示例子集到底覆盖了多少潜在概念簇(latent clusters)”的可估计度量。论文提出要估计“未见覆盖度”(unseen coverage):当前子集还遗漏了多少潜在簇,从而作为先验去改进示例选择。

Good–Turing式未见覆盖度把ICL选例从“相似度玄学”拉回可估计统计量;看定义+消融就够,思路可迁移到预训练数据子集/课程覆盖。
Jiayi Xin,Xiang Li,Evan Qiang,Weiqing He,Tianqi Shang,Weijie J. Su,Qi Long
in-context-learningdemo-selectioncoverage-estimation2026年4月13日arXivPDF

现有 LLM 推理评测往往混杂了输入长度、模板变化、知识检索、实体数量等因素,难以单独刻画“高元关系绑定(higher-arity binding)”带来的推理瓶颈。论文要解决的是:给出一个任务无关、可控的难度维度来衡量关系推理,并构建能系统调节该维度的生成式基准,从而定位模型在科学推理中何时、为何随关系复杂度上升而崩溃。

RC/OC解耦算是少见的干净诊断轴;只看难度控制生成器和随RC崩溃曲线,能指导你合成数据该补“高元绑定”而非堆长上下文。
Lukas Fesser,Yasha Ektefaie,Ada Fang,Sham M. Kakade,Marinka Zitnik
relational-reasoningbenchmarkevaluation2026年4月14日arXivPDF

现有LLM评测把跨任务表现压成单一分数,掩盖“能力组成”层面的差异,导致:1)无法定位模型到底缺哪类细粒度能力(知识点/认知过程);2)无法做“按任务需求选模型”;3)难以预测模型在未见题目/新基准上的表现。论文要解决的是:在不改变原有benchmark作答协议的前提下,仅基于模型-题目对错矩阵,构建可解释、可迁移的细粒度能力画像,并用它来诊断与预测。

别被“能力画像”口号骗,价值在于仅用对错矩阵+mIRT就能做稳定回归监控;看Q-matrix构建和跨基准预测那节即可。
Xu Zhang,Xudong Gong,Jiacheng Qin,Qiang Wang,JiaQi Liao,Zhe Wang,Dawei Feng,Bo Ding
diagnostic-evaluationitem-response-theorymath-reasoning2026年4月14日arXivPDF

针对LLM用于高风险“决策”场景时的三大信任缺口——概率不校准、解释不忠实、无法精确注入专家知识——论文试图把LLM的决策知识抽取为一个可解释、可编辑、且能输出校准概率的低维参数化模型,并解决“语言概率词→数值概率”的不确定映射与因子相关性保持两大难点。

更像部署向的“把LLM决策蒸馏成可校准可编辑小模型”;看EM校准与可编辑接口即可,预训练侧只当未来外挂决策头的备选。
Yanji He,Yuxin Jiang,Yiwen Wu,Bo Huang,Jiaheng Wei,Wei Wang
calibrationinterpretable-modelmodel-editing2026年4月14日arXivPDF

论文聚焦一种训练动态中的“隐性优化失败”——Trajectory Deviation:模型在中期训练曾学到对某些潜在子群/数据区域高度泛化的特征,但后续优化过程中逐步偏离并遗忘这些能力;由于全局验证集指标仍可能单调上升,这种结构性退化不会被传统的过拟合信号、早停或常规正则捕捉,最终收敛到结构上次优的解。

把“中期checkpoint更好”从经验变成在线自蒸馏约束,动作性强;但setup偏通用训练技巧,重点看如何用验证覆盖信号选teacher。
Eli Corn,Daphna Weinshall
training-dynamicsself-distillationoptimization-stability2026年4月13日arXivPDF

在Transformer初始化阶段,如何用可解析的信号传播指标刻画“可训练性/梯度放大”随深度的变化,并比较pre-LayerNorm与“用tanh类逐元素非线性替代LayerNorm”的Normalization-Free Transformer(如Derf/DyT)在深层网络中的临界性差异;进一步解释为何后者在训练稳定性上对超参(深度、初始化尺度、学习率等)更敏感。

如果你在试Normalization-Free Transformer,这篇给了可操作的初始化/深度约束:Derf/DyT更subcritical更挑超参;看推导结论+验证图就够。
Sergey Alekseev
transformerinitializationsignal-propagation2026年4月13日arXivPDF

缺少能系统评估大模型“空间能力(spatial competence)”的基准:不仅要会局部空间原语(旋转/投影/VQA),还要能维持一致的内部空间表征、推断离散结构、并在全局约束下规划可执行动作序列。论文提出SCBench,用可执行结构化输出+确定性校验器/模拟器评分,构建从公理推理→构造综合→规划三层难度梯度的空间能力评测。

作为benchmark它胜在“可执行输出+程序校验”而非主观打分;只看三层任务设计和token预算扫描,能帮你判断推理token扩展是不是假提升。
Jash Vira,Ashley Harris
benchmarkspatial-reasoningconstraint-satisfaction2026年3月5日arXivPDFGitHub

探究LLM是否对“自己答案是否正确”拥有外部观察者无法恢复的内部特权信息(privileged knowledge)。具体问题是:用目标模型自身隐藏状态训练的正确性探针(self-probe)是否应当显著优于用其他模型隐藏状态训练的探针(peer-probe);以及为何以往工作常观察不到这种优势。

提醒你做表示探针时最容易踩的坑:一致性太高会把特权信号淹没;只看disagreement子集评测和“事实有gap/数学无gap”的结论即可。
Tomer Ashuach,Liat Ein-Dor,Shai Gretz,Yoav Katz,Yonatan Belinkov
privileged-knowledgecorrectness-probinguncertainty-estimationarXivPDF

论文要回答的是:指令微调(instruction tuning)带来的“helpfulness/有用性”到底有多稳健?作者发现只要在提示词里加入极其轻量的词法约束(例如禁用一个标点逗号,或禁用常见词“the”),指令模型会发生系统性的“响应坍塌”(constraint-induced response collapse):不是换一种写法,而是直接变短、变浅、覆盖点变少,导致可用性显著下降。进一步要解释的是:这到底是能力不足(不会写无逗号长文)还是规划失败(能写但不打算写),以及这种脆弱性是否由指令微调本身诱发。

只看实验设定+评测对照:它把“指令化=更稳健”这个 prior 直接打碎,并提醒你立刻在自家 SFT/RLHF 流水线加词法约束回归测。
Erfan Baghaei Potraghloo,Seyedarmin Azizi,Souvik Kundu,Massoud Pedram
instruction-tuningrobustnesslexical-constraints2026年4月14日arXivPDF

Transformer 的“深度”是否会随任务难度自适应使用(adaptive depth use)?作者在一个可精确控制难度的多跳亲属关系组合推理任务(CLUTRR family stories)中,试图回答:当推理链条 hop 数增加时,模型是否需要更深层才能(1)形成可信答案分布、(2)完成跨 token 的信息整合;以及预训练 vs. 任务微调、不同微调约束下,这种深度使用模式是否改变。

当作诊断工具读:重点看 logit-lens/causal patching 那几页,能指导你做“难样本是否真的用到后层”的内部 ablation,而不是空谈深度冗余。
Alicia Curth,Rachel Lawrence,Sushrut Karmalkar,Niranjani Prasad
mechanistic-interpretabilitydepthlogit-lens2026年4月14日arXivPDF

SFT(监督微调)为何能在极少数据下显著“指令化”模型、同时又容易引发遗忘?更具体地,指令跟随能力与遗忘风险在 Transformer 的“哪一段深度/哪些层”发生、如何随层深度演化,现有 PEFT(如 LoRA)按层均匀注入更新是否在结构上不匹配。

结论可用来改动作:先看层级可塑性与遗忘证据那张主图,若复现成立就该把 LoRA/更新预算从“全层均匀”改成“上层为主、关键层少量”。
Qinghua Zhao,Xueling Gong,Xinyu Chen,Zhongfeng Kang,Xinlu Li
supervised-fine-tuningcatastrophic-forgettinglayerwise-analysis2026年4月12日arXivPDF

系统刻画不同噪声类型(标签噪声、拼写/typo噪声、语法噪声)在LLM微调过程中如何影响模型性能与内部学习动态:包括层级表示的漂移、任务信息的编码变化、以及注意力模式是否发生结构性改变。

别纠结最终分数,直接抄它的 attention/表征漂移诊断流程;作为数据清洗与合成数据 QA 的“噪声体检”模板更值钱。
Lingfang Li,Procheta Sen
fine-tuningdata-noiserobustness2026年4月14日arXivPDF

解释并改进 LLM 的 Continuous Adversarial Training(CAT):为什么在“连续的 embedding 空间”里做对抗扰动训练,能提升模型对“离散 token 空间”里 jailbreak prompt(尤其是 suffix 类攻击)的鲁棒性;并给出可操作的改进准则。

值得看理论到可调旋钮的那段:把 CAT 的经验有效性落到 embedding 映射谱性质上,给了你一个可实现的正则/约束方向而非再堆 PGD。
Shaopeng Fu,Di Wang
adversarial-trainingjailbreak-robustnessin-context-learning-theory2026年4月14日arXivPDF

论文聚焦于:在 In-Context Learning(ICL)的 grokking/延迟泛化现象中,模型为何会在长时间“记忆/过拟合”后突然跃迁到“可泛化”的行为?作者将其表述为一个贝叶斯学习动力学问题:随着训练推进,参数后验与预测分布如何演化,尤其是“认知不确定性(epistemic uncertainty)”是否能解释并诊断从记忆到泛化的相变式转折。

只当弱信号:看不确定性塌缩与 grokking 同步那节即可;若你在做阶段式预训/持续学习,它提供一个近似 label-free 的“何时真学会”监控指标。
Abdessamed Qchohi,Simone Rossi
in-context-learninggrokkingepistemic-uncertainty2026年4月14日arXivPDF

揭示视觉语言模型(VLMs)在需要详尽读取图像细节(如网格颜色映射)时存在的严重信息丢失问题(数字失认症)。

设计极其 clean 的 probing 实验,证明 VLM 密集视觉信息的丢失瓶颈不仅在 vision encoder,对下一代多模态架构(如 projector 设计)有直接启发。
Yunkai Zhang,Linda Li,Yingxin Cui,Raina Ruan,Zeyu Zheng,Kezhen Chen,Yi Zhang,Diji Yang
VLMProbingVisual Reasoning2026年4月14日arXivPDFGitHub

LLM 评测依赖刚性词法匹配,会把模型真实能力和 formatting 合规度混为一谈;LLM-as-Judge 虽解决但成本高

evaluation 成本是 pretrain 做 ablation 的真痛点;看下 BERT-judge 与 LLM-judge 的 agreement 曲线和 Table(§ lexical failure 分析)即可,若 agreement 够高可以直接用在 internal eval pipeline
Hippolyte Gisserot-Boukhlef,Nicolas-BZRD,Emmanuel Malherbe,Céline Hudelot,Pierre Colombo
CentraleSupélecLLM EvaluationEncoder JudgeBenchmark Methodology2026年4月10日arXivPDFGitHub

评估内部推理轨迹(thought streams / CoT)在视觉语言模型处理视频场景理解任务中的实际收益和饱和点。

对多模态 CoT 的定量分析,指出视频理解任务中 inference-time compute 的收益极易饱和,打破了 'think longer, do better' 的线性预期。
Shivam Sharma,Sankalp Nagaonkar,Ashish Choithani,Ashutosh Trivedi
Chain of ThoughtVideo UnderstandingInference Scaling2026年4月13日arXivPDFGitHub

检验并量化LLM在“抽象意义理解”(abstract meaning comprehension)上的系统性困难程度,以及这种困难是否被现有评测低估。

作为能力缺口备查即可:扫一眼任务定义与失败案例,除非你正做语义/抽象评测,否则正文多半是重复“模型不懂抽象”的现象罗列。
Hamoud Alhazmi,Jiachen Jiang
abstract-semanticsevaluationgeneralizationarXivPDF

分析 LLM 在自指(self-reference)相关推理/闭环一致性上失败的原因,并从“矩阵级(matrix-level)动力学”角度解释其内部状态演化。

先 glance:自指失败很常见,但“矩阵级动力学”是否真带来可复现实验与可操作诊断要打问号;只需看方法与关键可视化。
Ji Ho Bae
mechanistic-interpretabilitydynamical-systemsself-referencearXivPDF

多任务微调后的同源模型如何高效合并(model merging),以及在需要训练异构decoder的真实视觉场景中如何低成本选择合并超参。

偏工程代理指标:只看 proxy 定义与相关性实验,能借鉴到 LLM 权重合并的超参搜索,但别指望它回答语言侧的合并机理。
Pau de Jorge,César Roberto de Souza,Björn Michele,Mert Bülent Sarıyıldız,Philippe Weinzaepfel,Florent Perronnin,Diane Larlus,Yannis Kalantidis
model-mergingcontinual-learningproxy-metric2026年4月14日arXivPDF

检验“持久化Agent身份/核心设定文本(cognitive_core)”在LLM激活空间中是否表现出类似吸引子(attractor)的稳定几何结构,从而支持“身份持久性”的表征证据。

看作可复现实验范式:重点看“等价身份描述→激活收敛”的统计检验;对预训 recipe 推动不大,但能指导你做 system prompt/agent persona 的稳定性测。
Vladimir Vasilenko
representation-analysisactivation-geometryprompting2026年4月13日arXivPDF

表格推理中常用“序列化/线性化”表示会破坏表格的几何与关系结构,导致对布局/排列变化极其脆弱;如何定义并度量“对排列不变”的表格表征与检索能力。

作为“表格线性化偏置”诊断工具备查即可;只看他们的 invariance 指标定义与对比实验,PRH 更像 framing,别指望直接给出可训练解法。
Willy Carlos Tchuitcheu,Tan Lu,Ann Dooms
Data Science Labtable-reasoningpermutation-invariancerepresentation-learning2026年4月13日arXivPDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

在长轨迹的软件工程Agent中,“写在system prompt里的分阶段计划(plan)”到底在多大程度上被模型真实遵循、何时/为何被违背、以及计划遵循与任务成功之间的因果关系如何评估。论文要解决的是:缺乏可规模化、可自动化的“计划遵循度”度量与系统性证据,导致我们无法判断Agent成功是来自正确的策略推理还是来自数据污染/过拟合/偶然路径。

建议只读度量定义+违背模式分析:它把“plan 只是软约束”这件事量化了,下一步动作是把 plan-adherence 做成训练/评测维度而非只看成功率。
Shuyang Liu,Saman Dehghan,Jatin Ganhotra,Martin Hirzel,Reyhaneh Jabbarvand
University of Illinois Urbana–ChampaignIBMSWE-benchcoding-agentplan-following2026年4月13日arXivPDF

论文解决的问题是:在编码任务中,LLM 的“推理链/思维链”质量难以被可靠评估。现有评估多停留在输出正确性(pass@k、测试通过等),或使用为通用NLP设计的推理评估器,无法适配代码的结构语义与可执行证据;同时缺少覆盖生成/摘要/分类三类编码任务的推理质量基准,导致评估器的失效模式难以系统暴露与改进。

别被“推理评测”标题骗成细读;重点看标注协议与评估器失效案例,它能帮你在做过程监督/RL-pretrain时避免被 outcome-only 指标带偏。
Yuangang Li,Justin Tian Jin Chen,Ethan Yu,David Hong,Iftekhar Ahmed
reasoning-evaluationcoding-benchmarkLLM-evaluator2026年4月14日arXivPDF

解决代码代理在大型、持续演化代码仓库中缺乏上下文感知,容易臆造 API 和破坏既有架构的问题。

这是典型 workflow 工程改良,不会改写你对模型能力的 prior;看方法图和 SWE-bench Lite 结果就够,重点学“阶段化校验”而不是多代理包装。
Pardis Taghavi,Santosh Bhavani
coding-agentrepository-groundingspec-driven-development2026年4月7日arXivPDFGitHub

评估并推动LLM从自然语言生成“可执行的行为规格说明(behavioral specifications)”的能力:不仅要能写出代码,还要能用前置条件/后置条件形式精确刻画意图语义,并在真实代码库(repository-level)场景下可执行、可评测。论文要解决的核心缺口是:现有规格生成/形式化评测要么依赖不稳定的演绎验证器、要么数据规模小/表达受限、要么只覆盖函数级且缺少前置条件,导致无法真实衡量模型对程序行为的理解。

看基准设计与repo级断崖那几张表就够:它逼你承认“会写代码≠会写契约”,值得立刻在内部数据配比里加 specs/tests 这类语义接口信号。
Zaoyu Chen,Jianbo Dai,Boyu Zhu,Jingdong Wang,Huiming Wang,Xin Xu,Haoyang Yuan,Zhijiang Guo,Xiao-Ming Wu
benchmarkprogram-specificationexecution-based-eval2026年4月14日arXivPDF

LLM做漏洞/缺陷检测时输出的bug报告往往无法自动验证,缺少可执行证据,导致端到端自动化不可扩展。

对预训练只算间接信号:知道“bug报告必须配可执行PoC才能规模化验证”即可,正文更多是系统工程与对抗幻觉细节。
Zijie Zhao,Chenyuan Yang,Weidong Wang,Yihan Yang,Ziqi Zhang,Lingming Zhang
University of Illinois Urbana-ChampaignChampaigncoding-agentpoc-generationexecution-in-the-loop2026年4月13日arXivPDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

现有Agent基准多为“回顾性整理”的任务(需求明确、指标确定、输入单一),与真实生产环境评估严重脱节:生产需求往往欠规格、隐含约束多、输入是跨来源的多模态文档、交付物长链路且质量由领域专家主观评判并随时间演化。论文要解决的是:如何把真实公司生产需求系统化地转化为可复现、可自动化的评测任务,并用统一框架衡量不同模型+脚手架(scaffold)在生产型Agent任务上的表现差异。

当作生产分布评测方法论读:只看任务构建与scaffold影响那部分,结论是“模型变强≠上线变好”,但对预训练改法不给硬证据。
Pengrui Lu,Bingyu Xu,Wenjun Zhang,Shengjia Hua,Xuanjian Gao,Ranxiang Ge ... 省略 17 位作者 ... ,Jinxiu Liu,Danfeng Zhang,Jingru Zhao,Pengfei Liu
agent-evaluationproduction-mlbenchmarkingarXivPDF

在检索增强LLM(RALM)中,外部知识库规模很大但上下文窗口有限,传统“top-K原文chunk拼接”导致召回受限;而层次化/树状摘要又是“与查询无关的静态压缩”,难以适配未来多样查询。本文要解决的是:如何在不扩展上下文长度的前提下,让LLM在交互过程中把“用过的知识”沉淀为可复用、可追溯、可去冗余的记忆单元,从而在后续查询中实现近似“任意长外部数据条件化”的知识利用。

值得看溯源映射+precision/recall定义:把“thought”当可追溯记忆单元很干净,适合作为后续用RL/持续学习训练记忆生成/合并策略的基线。
Tao Feng,Pengrui Han,Guanyu Lin,Ge Liu,Jiaxuan You
agent-memorythought-retrievalragarXivPDF

在复杂长链推理QA中,证据与问题之间存在强上下文约束且粒度跨度大(主题级→细节级),传统“固定粒度chunk + 一次性向量检索”的扁平RAG难以同时满足“匹配精度”和“上下文完整性”,导致要么检到碎片缺上下文、要么检到大段噪声;论文要解决的是:如何把检索从一次性匹配升级为可导航的、分阶段的证据获取过程,从而在不同粒度间自适应地定位并展开证据。

只看 locate→forage 的检索决策建模与层级KB接口;它更像把RAG变成可训练的序列决策问题,适合启发你设计检索-阅读联合目标。
Jihao Dai,Dingjun Wu,Yuxuan Chen,Zheni Zeng,Yukun Yan,Zhenghao Liu,Maosong Sun
RAGagentic-retrievalhierarchical-index2026年4月14日arXivPDF

构建一个能真实衡量“自我进化式工程优化(generative optimization)”能力的基准:在固定交互预算内,Agent 需要在可执行验证器/工业级仿真器的连续反馈下,迭代提出—执行—评估—改进,从已有可行解出发持续提升设计质量,而不是做一次性0/1式的“生成即通过”。

把它当“连续reward+硬约束”的评测模板:读环境/验证器与指标定义即可,能直接指导你把RL-pretrain从0/1 pass@k迁到预算内优化循环。
Yizhe Chi,Deyao Hong,Dapeng Jiang,Tianwei Luo,Kaisen Yang,Boshi Zhang ... 省略 11 位作者 ... ,Yifan Zhou,Calvin Xiao,Eren Cai,Qinhuai Na
agent-benchmarkgenerative-optimizationsimulator-feedback2026年4月14日arXivPDF

长时程(long-horizon)多模态 deep search 代理在迭代浏览/检索过程中会累积大量异构证据(文本+图像等),直接把视觉内容塞进上下文会导致 token 成本爆炸与噪声累积;而简单丢弃/摘要视觉又会丢关键信号。论文要解决的是:在不牺牲可回溯视觉证据的前提下,如何让多模态搜索代理在 50-100+ turn 的长轨迹中稳定管理与调用视觉信息,并保持可扩展的推理与工具使用能力。

主要看外部化多模态记忆与轨迹蒸馏数据合成流程;它解决的是长轨迹工程可扩展性而非新预训练目标,适合抄作后训练管线。
Yifan Du,Zikang Liu,Jinbiao Peng,Jie Wu,Junyi Li,Jinyang Li,Wayne Xin Zhao,Ji-Rong Wen
multimodal-agentexternal-memorytool-use2026年4月14日arXivPDFGitHub

论文聚焦“长时程(long-horizon)任务”中LLM Agent性能随任务步数/依赖链增长而非线性崩溃的问题:现有研究缺少跨领域一致的horizon定义与诊断框架,往往只报总体成功率,无法回答两个关键问题:Where(在哪个horizon开始坏、坏得多快)与Why(失败机制是什么、随horizon如何迁移)。作者要建立一个可系统扩展任务步数并做结构化失败归因的跨域诊断基准。

别看总成功率,直接用它的“失败成分随horizon迁移”诊断框架定位瓶颈;只读诊断定义与失败归因那几节就够。
Xinyu Jessica Wang,Haoyue Bai,Yiyou Sun,Haorui Wang,Shuibai Zhang,Wenjie Hu,Mya Schroder,Bilge Mutlu,Dawn Song,Robert D Nowak
UC Berkeleylong-horizonagent-evaluationfailure-attribution2026年4月13日arXivPDF

在“有状态 AI Agent”成为运行时基本单元后,现有系统普遍采用“显式物化(materialization)”来创建/复制 agent 实例:加载配置、绑定工具、重建记忆与运行态等,导致实例化延迟、内存与运维成本随“继承结构”线性增长,进而抑制多 agent 分解与按需分叉(one-user/one-task/多分支)等设计。论文要解决的是:如何提供一种运行时复制/实例化原语,使得新 agent 的创建对共享/继承结构呈常数时间,并在隔离性与可治理性上不退化。

偏系统但抽象很干净:把agent状态拆成共享基座+增量层,能反推你该如何设计可复用记忆/策略分层;读设计原语与隔离语义即可。
Swanand Rao,Kiran Kashalkar,Parvathi Somashekar,Priya Krishnan
agent-runtimestateful-agentscopy-on-write2026年4月13日arXivPDF

在仅能黑盒调用多智能体系统(只能看到最终回复、不能访问中间消息/日志/提示词/路由)的限制下,攻击者是否仍能推断出系统内部的通信拓扑(谁向谁传递信息的DAG),从而造成结构性隐私泄露与IP泄露;以及如何在现实可行的查询预算下实现高AUC的拓扑重建。

把“多智能体拓扑可被输出侧信道反演”讲得很具体,足够改变你对路由/协作结构保密性的prior;只看攻击设定与AUC结果图表。
Yongxuan Wu,Xixun Lin,He Zhang,Nan Sun,Kun Wang,Chuan Zhou,Shirui Pan,Yanan Cao
multi-agent-systemssecuritytopology-inference2026年4月14日arXivPDF

带持久记忆的 LLM Agent 往往以“扁平事实”存储信息,缺乏学习时上下文,导致跨会话回忆、时间推理与更新跟踪能力弱。

低改动却真提升跨会话回忆,值得立刻在自家memory/RAG栈做ablation;重点看双轨写入格式与跨会话评测那张主表。
Benjamin Stern,Peter Nadel
agent-memorylong-term-memorycross-session-recall2026年4月14日arXivPDF

在缺乏“标准答案/标注奖励”的情况下,如何为搜索型 Agent(多步检索、规划、工具调用)提供可扩展、可优化且与轨迹质量强相关的训练信号,从而用 RL 训练出高质量搜索策略。

代理奖励“问题可重构性”比常见自洽/自评更可控,适合当弱监督RL信号备选;只读奖励定义、反作弊讨论和关键消融。
Sohyun An,Shuibenyang Yuan,Hayeon Lee,Cho-Jui Hsieh,Alexander Min
search-agentreinforcement-learningcycle-consistency2026年4月14日arXivPDF

全双工语音对话模型在实时交互约束下如何提升事实性:直接扩模型会导致推理成本过高。

作为实时语音系统的RAG落地范式备查即可:异步检索利用对话空隙很工程,但对文本预训练动作指导不多;看架构图就行。
Chung-Ming Chien,Manu Orsini,Eugene Kharitonov,Neil Zeghidour,Karen Livescu,Alexandre Défossez
speech-llmfull-duplexrag2026年4月14日arXivPDF

通用LLM Agent在长时程(数小时/数天)的ML研究工程任务中难以保持连贯进展与状态连续性:如何让Agent稳定完成环境搭建、实现、实验与调试的闭环。

工程编排味很重,价值在“持久状态/File-as-Bus”这种可运行范式;不必细读实验,扫一遍系统设计与状态持久化接口即可。
Guoxin Chen,Jie Chen,Lei Chen,Jiale Zhao,Fanzhe Meng,Wayne Xin Zhao,Ruihua Song,Cheng Chen,Ji-Rong Wen,Kai Jia
long-horizon-agentorchestrationstate-continuity2026年4月14日arXivPDFGitHub

现有LLM Agent的记忆系统往往是为特定任务手工设计,跨任务迁移差,缺少“按任务自适应”的记忆机制构建方法。

把记忆编排当程序再用搜索自动发现,适合当“记忆系统自动化”文献索引;细节实现噪声大,读方法概览与搜索空间定义即可。
Wenbo Pan,Shujie Liu,Xiangyang Zhou,Shiwei Zhang,Wanlu Shi,Mirror Xu,Xiaohua Jia
agent-memoryprogram-evolutionrag-orchestration2026年4月10日arXivPDF

在超大工具库与长时序任务中,如何对tool-augmented agent进行可扩展的计划级评测,并在巨大动作空间下高效执行多步计划。

更像评测+搜索工程:SLATE可当大工具空间的压测基准备查,熵引导分支是合理heuristic但不改prior;看基准定义和一张主结果表。
Rongzhe Wei,Ge Shi,Min Cheng,Na Zhang,Pan Li,Sarthak Ghosh,Vaibhav Gorde,Leman Akoglu
tool-useplanningbenchmark2026年4月13日arXivPDF

LLM agent在可见上下文缺失关键合规信息时,如何避免做出“表面合理但违反组织政策”的动作(policy-invisible violations)。

把“缺上下文仍会违规”的失败模式钉得很实,提醒你评测别只看in-context合规;作为安全评测补丁,扫PhantomPolicy任务设定与案例即可。
Jie Wu,Ming Gong
agent-safetypolicy-compliancebenchmark2026年4月14日arXivPDF

GUI Agent 缺乏统一的训练、评测和部署基础设施,在线 RL 训练不稳定、评测协议漂移、部署难以触达真实设备

基建型工作,对 pretrain 研究员价值有限;如果你关心 GUI Agent RL 的 reward 稠密化设计,扫一下 PRM 部分即可,其余不必细看
Fei Tang,Zhiqiong Lu,Boxuan Zhang,Weiming Lu,Jun Xiao,Yueting Zhuang,Yongliang Shen
浙江大学GUI AgentRL InfrastructureBenchmark2026年4月13日arXivPDFGitHub

LLM Agent接收来自多个来源(系统消息、用户、工具输出等)的指令,当指令冲突时需要按权限层级正确执行,现有固定少层级方案不够用。

指令层级冲突是Agent部署的实际问题,但对预训练方法论无直接启发;做instruction following训练的可看benchmark设计。
Jack Zhang,Tianjian Li,William Jurayj,Hongyuan Zhan,Benjamin Van Durme,Daniel Khashabi
Johns Hopkins Universityinstruction-hierarchyagent-safetybenchmark2026年4月10日arXivPDFGitHub