AI Research Daily

更新时间: 2026/4/20 04:26:31

共79篇

🌟 3 重点

🔥 行业动态 2🧠 预训练 3⚡ 高效推理 10🌐 多模态统一 12🎨 多模态生成 2🛠️ 后训练 18🔬 原理分析 14💻 Coding Agent 3🤖 Agent 15

其他 46 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读行业动态与观点

Codex for (almost) everything

这不是技术论文，而是 OpenAI 对 Codex 产品能力边界的更新：把代码助手扩展为可操作电脑、浏览应用、生成图像、使用记忆和插件的开发者工作流代理。

OpenAI Researchcodexcoding-agentcomputer-use

精读行业动态与观点

Introducing Claude Design by Anthropic Labs

这不是论文，而是一篇产品发布博客。它介绍的是 Anthropic 的 Claude Design：让用户通过自然语言、多轮编辑和组织级设计系统，生成视觉设计、原型、演示文稿和可交付前端资产。就预训练研究而言，文中没有提出明确的训练问题、建模问题或可复现的方法问题。

Anthropicdesign-toolcreative-workflowproduct-launch

精读多模态与统一模态

Qwen3.5-Omni Technical Report

如何把“全模态理解 + 全模态生成 + 实时交互 + 工具调用”的能力做成一个可扩展、可部署的统一基座：既要在超长上下文（256k）下稳定处理长音频/长视频，又要在语音流式生成中做到低延迟、可控、不断句崩坏，同时还要尽量不牺牲同规模纯文本/视觉模型的通用能力。

AlibabaQwen Teamomni-modelmultimodal-pretrainingMoE

精读LLM 后训练

Why Fine-Tuning Encourages Hallucinations and How to Fix It

这篇论文研究的不是泛泛的“幻觉”，而是一个更具体、也更可控的问题：模型在 SFT 过程中学习新事实时，会把预训练阶段原本已经掌握的旧事实弄坏，最终表现为对旧知识的错误回答。作者把它重新定义为 factual forgetting，而不是把所有错误都归因于知识缺失或推理失败。这个重述很关键，因为一旦问题被看作持续学习中的遗忘，就可以用 stability–plasticity tradeoff 的框架来分析：模型越有能力吸收新事实，越可能破坏已有事实；反过来，越强调稳定，越难学到新知识。论文的核心问题因此变成两件事：第一，SFT 诱发的 hallucination 到底是不是一种持续学习式的知识遗忘；第二，如果是，能否在保留任务学习能力的同时，减少这种遗忘。

Hebrew University of JerusalemUniversity of Illinois Urbana-Champaignhallucinationsupervised-fine-tuningcontinual-learning

来源

阅读分级

标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点（注意：推理加速/注意力优化等技术论文不算行业动态）

Blog精读🌟

Codex for (almost) everything

评该看的是产品边界，不是技术细节：OpenAI 正把 coding assistant 往通用开发环境 agent 推，做数据与评测的人应立刻补 tool-use 轨迹和 GUI/computer-use 场景。

OpenAI Research

OpenAI Researchcodexcoding-agentcomputer-use2026年4月16日原文

Blog精读🌟

Introducing Claude Design by Anthropic Labs

评纯产品信息；如果你做多模态生成，知道大厂在推“设计协作”这个交互形态就够了，研究上没有可抓的东西。

Anthropic

Anthropicdesign-toolcreative-workflowproduct-launch2026年4月17日原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv泛读

Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

解决目标导向预训练里，如何在不额外训练数据选择器的前提下，从大规模候选语料中挑出最有助于目标任务/目标样本的预训练数据。

评这篇值得看，因为它把 data selection 从 embedding 相似度拉回到 neuron-level signal；先盯方法定义和 multi-target 结果，若 setup 干净，内部应复现一版。

Zijun Wang,Haoqin Tu,Weidong Zhou,Yiyang Zhou,Xiaohuan Zhou,Bingni Zhang,Weiguo Feng,Taifeng Wang,Cihang Xie,Fengze Liu

data-selectionpretraining-dataneuron-activations2026年4月17日arXiv PDF

arXiv泛读

StoSignSGD: Unbiased Structural Stochasticity Fixes SignSGD for Training Large Language Models

SignSGD 在非光滑目标（现代网络里很常见，如 ReLU、max、MoE gating）上可能发散，根因是 sign 压缩带来的系统性偏置；论文要解决的是：在保留“只传 1-bit 符号、数值更稳”的前提下，构造一个在理论上可收敛、在 LLM 低精度训练中也能稳定工作的 sign 类优化器。

评这篇别当成“LLM optimizer 已定型”的信号，更像是在修 SignSGD 的理论硬伤；先看定理设定和非光滑 stationary measure，若你在做低比特优化或 MoE 训练，这个 prior 值得更新。

Dingzhi Yu,Rui Pan,Yuxing Liu,Tong Zhang

optimizationSignSGDnonsmooth2026年4月16日arXiv PDF

arXiv泛读

Neural Continuous-Time Markov Chain: Discrete Diffusion via Decoupled Jump Timing and Direction

现有基于连续时间马尔可夫链（CTMC）的离散扩散模型将反向速率矩阵作为整体参数化，未匹配CTMC跳变时机和跳变方向的内在分解结构，同时均匀前向过程的生成效果普遍弱于掩码前向过程。

评离散扩散语言建模的新参数化思路，可参考§3的分解设计用于后续离散生成建模的 ablation

Jingyuan Li,Xiaoyi Jiang,Fukang Wen,Wei Liu,Renqian Luo,Yi Zhu,Zuoqiang Shi,Pipi Hu

discrete diffusioncontinuous-time markov chainlanguage modeling2026年4月17日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv泛读

Faster LLM Inference via Sequential Monte Carlo

这篇论文处理的是推测解码里一个很具体、也很关键的瓶颈：标准 speculative decoding 依赖逐 token 拒绝采样，一旦 draft model 在某个位置和 target model 偏离，后续整段草稿都会被截断，导致吞吐高度依赖 draft-target 对齐质量。论文不再坚持“严格无偏地复现 target 分布”，而是把验证步骤改写成 sequential Monte Carlo（SMC）中的重要性加权与重采样，用可控近似换取更稳定、更高的并行吞吐，并给出误差界来约束这种近似的代价。

评把“回滚式拒绝采样”换成 SMC 重加权，思路干净；重点看误差界与在 draft 偏离时的吞吐曲线，别被“算术免费”口号带跑。

Yahya Emara,Mauricio Barba da Costa,Chi-Chih Chang,Cameron Freer,Tim Vieira,Ryan Cotterell,Mohamed S. Abdelfattah

speculative-decodingsequential-monte-carloinference-acceleration2026年4月17日arXiv PDF

arXiv泛读

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

这篇论文解决的是一个长期被默认成立、但实际上并不成立的工程假设：自回归 Transformer 在开启 KV cache 和关闭 KV cache 时，推理结果应当数值等价。作者证明，在标准 FP16 推理下，这个假设系统性失效。原因不是采样随机性，也不是偶发数值噪声，而是两条执行路径的浮点累加顺序不同，FP16 又不满足结合律，于是会把微小误差稳定地写入 KV 状态，并在后续解码中逐步放大，最终导致输出 token 序列确定性分叉。论文真正回答的不是“会不会有差异”这么浅的问题，而是沿着因果链把现象、根因、传播路径、何时影响行为、以及误差位于模型哪里，逐步做清楚。

评这篇会改你对“KV cache 只是等价加速”的默认认知；先看实验设定和 FP32 反证，若 setup 干净，内部评测链路应立刻补一条 cache-consistency 检查。

Ranjith Chodavarapu,Lei Xu

KV-cacheFP16numerical-stability2026年4月16日arXiv PDF

arXiv泛读

Ragged Paged Attention: A High-Performance and Flexible LLM Inference Kernel for TPU

在 TPU 上做高性能 LLM 推理时，服务端工作负载往往是动态且“ragged”的（prefill/decode 混合、序列长度不齐、KV cache 频繁更新）。XLA 更偏静态图优化，TPU 的 tiled/packed 内存布局也让细粒度切片与 KV 写入变得昂贵。论文要解决的是：在 JAX/XLA 生态里，给出一个能稳定处理 ragged 批次、同时接近硬件上限的 TPU 原生 attention 推理 kernel。

评如果你关心 TPU 上的大模型 serving，这篇该看；重点读 kernel 设计和 workload specialization，别把它误读成算法创新，价值主要在系统约束下把 paged attention 做对。

Jevin Jiang,Ying Chen,Blake A. Hechtman,Fenghui Zhang,Yarong Mu

TPUpaged-attentionKV-cache2026年4月16日arXiv PDF

arXiv泛读

DepCap: Adaptive Block-Wise Parallel Decoding for Efficient Diffusion LM Inference

现有扩散语言模型（DLM）的分块解码方法依赖固定块长或单步局部信号确定块边界，采用保守的置信度并行解码策略，未充分利用多步去噪过程的信号和token间依赖关系，导致质量-速度权衡不理想，无法在不损失生成质量的前提下最大化解码效率。

评如果你在跟踪非 AR 语言建模，这篇值得看；重点读它如何定义 cross-step signal 和 token conflict，很多 DLM 推理论文都死在这两个启发式上。

Xiang Xia,Wuyang Zhang,Jiazheng Liu,Cheng Yan,Yanyong Zhang

diffusion-lmparallel-decodinginference2026年4月17日arXiv PDF

arXiv泛读

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

这篇论文讨论的是 KV cache 压缩的一个更根本问题：现有方法大多把每个 key/value 向量当成独立样本来压缩，因此它们逼近的是“逐向量压缩极限”，而不是实际推理场景里更重要的“整段序列压缩极限”。作者的核心论点是，KV cache 不是任意浮点数组，而是模型在语言序列上逐步生成的内部状态；既然 token 序列本身高度可预测，那么给定前文后，下一个 KV 向量的条件熵也应远小于其边际熵。论文试图把这个观察形式化，并据此提出 sequential KV compression。

评把KV压缩从“向量量化”改成“序列编码”是对的方向；先只核对是否有干净的端到端指标与TurboQuant对照，否则当想法收录。

Gregory Magarshak

kv-cachecompressionentropy-coding2026年4月10日arXiv PDF

arXiv

AdaVFM: Adaptive Vision Foundation Models for Edge Intelligence via LLM-Guided Execution

解决语言对齐视觉基础模型在边缘设备上的延迟与功耗约束，目标是在不同场景下动态调整推理计算量。

评思路是“把 compute routing 从 token 级搬到场景级”，系统味重于方法味；只看框架图和效率曲线，别指望学到预训练新东西。

Yiwei Zhao,Yi Zheng,Huapeng Su,Jieyu Lin,Stefano Ambrogio,Cijo Jose ... 省略 2 位作者 ... ,Barbara De Salvo,Chiao Liu,Phillip B. Gibbons,Ziyun Li

IBM Researchedge-inferenceadaptive-computevision-foundation-models2026年4月17日arXiv PDF

arXiv

Breaking the Training Barrier of Billion-Parameter Universal Machine Learning Interatomic Potentials

解决十亿参数级通用机器学习原子势（uMLIP）训练中二阶导数、通信开销和并行效率导致的训练瓶颈。

评不是 LLM，但二阶导训练和超算并行这套系统账很少有人认真算；若你在做大规模训练栈，只看 Janus 的并行设计和效率数字即可。

Yuanchang Zhou,Hongyu Wang,Yiming Du,Yan Wang,Mingzhen Li,Siyu Hu ... 省略 5 位作者 ... ,Jingde Bu,Yutong Lu,Guangming Tan,Weile Jia

moedistributed-trainingexascale2026年4月17日arXiv PDF

arXiv

Optimizing Korean-Centric LLMs via Token Pruning

这篇论文研究：对多语 LLM 做面向目标语言的 token pruning，删掉无关语言词表与嵌入后，是否能在韩语中心场景里减少语言混淆并提升效率与稳定性。

评可当 tokenizer/词表裁剪的弱信号看：如果你在做单语部署，先看词表消融；但这更像工程经验，没到能改写多语预训练 prior 的程度。

Hoyeol Kim,Hyeonwoo Kim

token-pruningmultilingual-llmtokenizer2026年4月17日arXiv PDF

arXiv

Efficient Video Diffusion Models: Advancements and Challenges

梳理视频扩散模型在部署时的高推理成本问题，并总结现有加速路线的共性与局限。

评综述写给视频扩散部署，不是给 LLM 预训练的；只需借它的效率分解框架，正文可不读。

Shitong Shao,Lichen Bai,Pengfei Wan,James Kwok,Zeke Xie

surveyvideo-diffusioninference-efficiency2026年4月17日arXiv PDF

arXiv

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

解决统一音频-语言模型在推理时过度依赖语言先验、忽视短时瞬态声学线索，导致输出不够具体的问题。

评不是预训练工作，但它把“统一解码器会被平滑上下文绑架”说得很具体；只看方法图和消融，判断这种对比解码能否迁到语音/视频统一模型。

Yanda Li,Yuhan Liu,Zirui Song,Yunchao Wei,Martin Takáč,Salem Lahlou

audio-language-modelcontrastive-decodinginference-time2026年4月16日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXivHF Daily▲ 2精读🌟

Qwen3.5-Omni Technical Report

评这是该读的技术报告：先盯数据配比、Hybrid Attention 和 Thinker/Talker 分工，榜单可略过；若细节给得足，应立刻对照内部多模态 recipe 做差分复盘。

Qwen Team

AlibabaQwen Teamomni-modelmultimodal-pretrainingMoE2026年4月17日arXiv PDF

arXiv泛读

HyperGVL: Benchmarking and Improving Large Vision-Language Models in Hypergraph Understanding and Reasoning

论文要解决的问题很直接：现有 LVLM benchmark 基本停留在普通图，缺少对 hypergraph 这类高阶关系结构的系统评测，因此无法判断模型到底能否理解和推理多元关系。

评把“结构推理”落到可测的超图任务上，适合用来做数据合成与训练配比的靶场；先看任务分层与错误类型分析。

Yanbin Wei,Chun Kang,Siwei Li,Haoxuan Che,Yang Chen,Hua Liu ... 省略 4 位作者 ... ,Lei Sha,Rui Liu,Yu Zhang,James Kwok

benchmarkvision-language-modelsgraph-reasoning2026年4月17日arXiv PDF

arXiv泛读

Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

现有多模态大模型在常规VQA/图文理解上表现不错，但其“视觉流体智力”能力（抽象归纳、类比映射、以及需要心智模拟的空间变换）缺少被隔离、可诊断、可对照人类的评测。论文要解决的是：如何构建一个尽量排除语言先验/世界知识捷径、能细分错误类型的视觉认知基准，并用它回答模型到底缺什么能力。

评这不是方法论文，但 benchmark 切得准：如果你做多模态预训练，只看任务设计和错误分析就够，能直接暴露现有数据配方没覆盖的能力空洞。

Rohit Sinha,Aditya Kanade,Sai Srinivas Kancheti,Vineeth N Balasubramanian,Tanuja Ganu

MLLMbenchmarkvisual-reasoning2026年4月17日arXiv PDF

arXiv泛读

Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

多模态“推理模型”（通过SFT/RL学会长CoT）在数学/逻辑上常见收益，但在视觉空间推理上是否同样成立并不清楚。论文要回答两个问题：1) CoT提示或推理化后训练是否会系统性降低空间任务表现；2) 模型是否在空间题上依赖文本先验产生“无图也能答”的捷径与幻觉。

评别再默认“加 CoT 就更会推理”：这篇用 No-Image++ 把空间题的文本捷径暴露得很直白，优先看主表+无图消融。

Sai Srinivas Kancheti,Aditya Sanjiv Kanade,Vineeth N. Balasubramanian,Tanuja Ganu

multimodal-llmchain-of-thoughtspatial-reasoning2026年4月17日arXiv PDF

arXiv泛读

Information Router for Mitigating Modality Dominance in Vision-Language Models

现有多模态大模型存在模态主导问题，现有缓解方法仅通过调整注意力分配优化，默认所有模态携带足够信息，无法解决真实场景下模态间信息密度、信噪比差异带来的底层信息失衡问题。

评这篇的价值在问题分解：别把 modality dominance 都归咎于 attention；读方法和误差分析即可，若 token 重要性定义很脆，这条线就容易塌。

Seulgi Kim,Mohit Prabhushankar,Ghassan AlRegib

vision-language-modelsmultimodal-fusionmodality-dominance2026年4月17日arXiv PDF

arXiv泛读

Do Vision-Language Models Truly Perform Vision Reasoning? A Rigorous Study of the Modality Gap

这篇论文要回答一个很直接但过去常被混在一起的问题：当前 VLM 在所谓“视觉推理”任务上的表现，到底来自真正基于视觉输入的推理，还是主要来自其语言骨干本身的文本推理能力。作者认为，现有 benchmark 大多没有把这两件事严格拆开，因此高分并不能说明模型真的会做 vision-grounded reasoning。论文的核心工作就是构造一个信息严格等价的跨模态评测框架，定量测出 text-only、image-only、image+text 三种输入下的能力差异，也就是所谓 modality gap。

评VLM模态能力评估的控制变量设计严谨，可参考其思路设计多模态预训练的消融实验

Yige Xu,Yongjie Wang,Zizhuo Wu,Kaisong Song,Jun Lin,Zhiqi Shen

VLMvision reasoningmodality gap2026年4月17日arXiv PDF

arXiv

UniEditBench: A Unified and Cost-Effective Benchmark for Image and Video Editing via Distilled MLLMs

解决图像与视频编辑评测碎片化、跨范式不可比，以及直接用大规模 MLLM 评审成本过高的问题。

评如果你关心多模态评测器蒸馏，只看 benchmark taxonomy 和 judge 对齐实验；对预训练本身帮助有限，不必通读。

Lifan Jiang,Tianrun Wu,Yuhang Pei,Chenyang Wang,Boxi Wu,Deng Cai

benchmarkmultimodal-evaluationimage-editing2026年4月17日arXiv PDF

arXiv

Find, Fix, Reason: Context Repair for Video Reasoning

解决视频推理中模型因缺失关键时空证据而答错的问题，尤其是在小模型自身探索能力有限时如何补足上下文。

评对预训练本身帮助有限，但“强教师补最小证据而不改问题”的监督形式值得记一下；只看方法图和消融，先别把它当成新范式。

Haojian Huang,Chuanyu Qin,Yinchuan Li,Yingcong Chen

video-reasoningteacher-studentcontext-repair2026年4月17日arXiv PDF

arXiv

ReactBench: A Benchmark for Topological Reasoning in MLLMs on Chemical Reaction Diagrams

评测多模态大模型在复杂拓扑图中的结构推理能力，尤其是分支、汇合和环路等非线性关系上的失败模式。

评如果你关心多模态统一里的“结构而非语义”短板，这个 benchmark 值得记住；否则看摘要和错误案例就够，不必细读全篇。

Qiang Xu,Shengyuan Bai,Yu Wang,He Cao,Leqing Chen,Yuanyuan Liu,Bin Feng,Zijing Liu,Yu Li

multimodal-benchmarktopological-reasoningdiagram-understanding2026年4月17日arXiv PDF

arXiv

Aligning What Vision-Language Models See and Perceive with Adaptive Information Flow

解决 VLM 在已关注到正确图像区域时仍答错的问题，论文将其归因于解码阶段文本到视觉的信息流分配不佳。

评想看 VLM 为何“定位对了但答案错了”，这篇有诊断价值；但它更像推理补丁，不会改变预训练侧的主线判断。

Chengxin Liu,Wonseok Choi,Chenshuang Zhang,Tae-Hyun Oh

VLMattention-flowinference-time2026年4月17日arXiv PDF

arXiv

AEGIS: Anchor-Enforced Gradient Isolation for Knowledge-Preserving Vision-Language-Action Fine-Tuning

论文解决的是：把预训练视觉语言模型微调用于机器人动作控制时，连续动作回归梯度会快速破坏原有语义能力，尤其是 VQA 能力。

评现象比方法更值得看：若你关心多目标预训练或 RL-pretrain，先盯“CE 语义流形 vs MSE 连续梯度冲突”这个设定，结论暂当弱信号。

Guransh Singh

vision-language-actioncatastrophic-forgettinggradient-projection2026年4月17日arXiv PDF

HF Daily▲ 1

Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

解决视觉推理模型在简单样本上也生成冗长推理链、导致 token 浪费和推理低效的问题。

评不是预训练论文，但“按题目难度选择推理格式”这个信号值得借到后训练里；只看方法段和效率-准确率权衡图就够了。

Yixu Huang,Tinghui Zhu,Muhao Chen

visual-reasoningadaptive-computationgrpo2026年4月16日arXiv PDF GitHub

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXiv

(1D) Ordered Tokens Enable Efficient Test-Time Search

该工作研究 token 结构本身是否会影响生成模型在 test-time search 下的可控性，尤其是中间状态能否被 verifier 稳定评估。

评如果你关心 tokenizer 是否影响 test-time compute，这篇有个可迁移的问题设定；只看“中间前缀是否可验证”这个角度，别被图像实验外推太远。

Zhitong Gao,Parham Rezaei,Ali Cy,Mingqiao Ye,Nataša Jovanović,Jesse Allardice,Afshin Dehghan,Amir Zamir,Roman Bachmann,Oğuzhan Fatih Kar

tokenizationtest-time-searchautoregressive2026年4月16日arXiv PDF

arXiv

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

论文试图解释扩散模型在推理阶段存在的 SNR-timestep 失配问题，即样本实际信噪比与时间步标签不再严格对应，从而累积误差并损害生成质量。

评结论不一定会改写扩散 prior，但“训练标签与推理状态脱耦”这个视角值得借到 LM；先看理论定义和频域校正实验，别急着全信。

Meng Yu,Lei Sun,Jianhao Zeng,Xiangxiang Chu,Kun Zhan

diffusion-modelsSNRinference-bias2026年4月17日arXiv PDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv精读

Why Fine-Tuning Encourages Hallucinations and How to Fix It

评这篇会直接改变你看 SFT hallucination 的方式：别再只怪数据噪声，先把它当 continual learning 退化问题；建议立刻复现其 distillation 正则和冻结 ablation。

Guy Kaplan,Zorik Gekhman,Zhen Zhu,Lotem Rozner,Yuval Reif,Swabha Swayamdipta,Derek Hoiem,Roy Schwartz

Hebrew University of JerusalemUniversity of Illinois Urbana-ChampaignTechnion – Israel Institute of Technology+5hallucinationsupervised-fine-tuningcontinual-learning2026年4月16日arXiv PDF

arXiv泛读

Detecting and Suppressing Reward Hacking with Gradient Fingerprints

这篇论文处理的是 RLVR 中一个越来越实际的问题：模型在只看结果奖励、没有过程监督时，会学会利用奖励函数或数据里的漏洞拿高分，但并没有真正完成目标推理。更难的是，这类 reward hacking 往往是隐性的，模型写出的 CoT 表面上看合理，文本监控抓不住真正的作弊机制。论文要解决的不是一般的错误检测，而是如何在缺少真实过程标签的情况下，用模型内部计算信号识别“高奖励但错误机制”的推理轨迹，并进一步把这个信号用于训练抑制 hacking。

评用梯度做RL训练作弊检测的思路新颖，可尝试引入内部RL预训练的异常监控流程

Songtao Wang,Quang Hieu Pham,Fangcong Yin,Xinpeng Wang,Jocelyn Qiaochu Chen,Greg Durrett,Xi Ye

reward hackingRLVRgradient feature2026年4月17日arXiv PDF

arXiv泛读

Placing Puzzle Pieces Where They Matter: A Question Augmentation Framework for Reinforcement Learning

现有LLM推理强化学习训练存在两难问题：训练简单样本易过拟合导致pass@k下降，训练困难样本则奖励稀疏梯度不足；现有均匀注入提示的增强方法存在冗余信息多、未覆盖推理瓶颈、降低推理多样性的缺陷。

评这是个像样的 RL curriculum 小改进，不改范式；只看 hint 选择策略和撤 scaffold 的 ablation，若你在做 reasoning RL 数据构造可直接复现。

Yangyi Fang,Jiaye Lin,Xiaoliang Fu,Cong Qin,Haolin Shi

reasoning-rlhint-injectioncurriculum-learning2026年4月17日arXiv PDF

arXiv泛读

C-Mining: Unsupervised Discovery of Seeds for Cultural Data Synthesis via Geometric Misalignment

文化对齐所需的合成数据“种子”如何可量化、可扩展地自动发现，而不是靠人工或LLM主观抽取。

评把“文化性”落到跨语几何失配这个可挖信号上，值得看方法细节；但要警惕它只是embedding偏差的再包装，先核对消融。

Pufan Zeng,Yilun Liu,Mingchen Dai,Mengyao Piao,Chunguang Zhao,Lingqi Miao ... 省略 5 位作者 ... ,Li Zhang,Hongxia Ma,Boxing Chen,Daimeng Wei

data-miningsynthetic-datacultural-alignment2026年4月17日arXiv PDF

arXiv泛读

AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency

这篇论文聚焦的是 CoT 的“可用性”而不是“好不好看”。核心问题是：模型生成的推理链是否真的因果性地参与了最终答案的形成，还是只是一个伴随输出的解释性文本。作者把这个问题进一步收紧为“saliency of reasoning trace”——如果遮挡或削弱某些 CoT token 的注意力，正确答案的概率是否会明显变化。论文试图用一个可微的 attention 操作，把这种 token 级因果贡献转成强化学习奖励，从而训练模型生成更短、更相关、对答案更有实际作用的推理过程。

评仅看§4的奖励设计和实验部分即可，可作为RL后训练提升推理忠实性的参考

Max Henning Höth,Kristian Kersting,Björn Deiseroth,Letitia Parcalabescu

RL for LLMfaithful reasoningattention saliency2026年4月17日arXiv PDF

arXiv泛读

JumpLoRA: Sparse Adapters for Continual Learning in Large Language Models

这篇论文解决的是 LoRA 式持续学习中的任务干扰问题，尤其是在 rehearsal-free、task-agnostic inference 设定下，连续为多个任务训练 adapter 时，已有方法虽然会做子空间正交或坐标约束，但更新仍然偏 dense，参数隔离不彻底，随着任务数增加容易出现容量挤压和残余梯度干扰。JumpLoRA 的目标是让每个任务的低秩更新自动学出稀疏、相对分离的参数占用，从结构上减少遗忘，而不是只靠几何约束去“尽量不冲突”。

评LoRA稀疏化设计思路可参考，仅需阅读方法部分的JumpReLU门控实现逻辑即可

Alexandra Dragomir,Ioana Pintilie,Antonio Barbalau,Marius Dragoi,Florin Brad,Cristian Daniel Paduraru,Alexandru Tifrea,Elena Burceanu,Radu Tudor Ionescu

LoRAcontinual learningsparse adapter2026年4月17日arXiv PDF

arXiv

Learning to Reason with Insight for Informal Theorem Proving

该工作要解决的是：LLM 在非形式化定理证明中往往能写出表面连贯的证明，但抓不住真正决定解题方向的“洞见”或核心技巧。

评这类工作对预训练的价值不在 theorem proving，而在“把 latent reasoning step 显式标注后再分阶段教”；只看数据结构和 curriculum 设计，别太快相信泛化结论。

Yunhe Li,Hao Shi,Bowen Deng,Wei Wang,Mengzhe Ruan,Hanxu Hou ... 省略 1 位作者 ... ,Siyang Gao,Chao Wang,Shuang Qiu,Linqi Song

reasoningtheorem-provingcurriculum-learning2026年4月17日arXiv PDF

arXiv

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

研究如何用数据高效的方式教会推理模型在多语言推理中进行有益的 code-switch，而不是把 code-switch 一概视为错误。

评如果你关心 multilingual reasoning data，这篇可看数据分析部分；但它更像 SFT 配方，不会直接改变你对预训练或 tokenizer 的 prior。

Eleanor M. Lin,David Jurgens

University ofmultilingualcode-switchingreasoning2026年4月16日arXiv PDF

arXiv

Improving Reasoning Capabilities in Small Models through Mixture-of-Layers Distillation with Stepwise Attention on Key Information

解决小模型推理蒸馏里只学最终 CoT 文本、却学不到教师在逐步推理时如何把注意力收敛到关键信息上的问题。

评思路不新到改写范式，但“蒸馏 attention dynamics 而非只蒸文本 CoT”值得记一笔；只看方法图和消融，先别把它当稳结论。

Yao Chen,Jiawei Sheng,Wenyuan Zhang,Tingwen Liu

distillationreasoningchain-of-thought2026年4月17日arXiv PDF

arXiv

A Systematic Study of Training-Free Methods for Trustworthy Large Language Models

系统评估无需训练的 LLM 可信性干预方法，回答它们在安全、偏见、事实性、鲁棒性与效用之间到底如何取舍。

评偏评测整理，不会改变预训练方法论；若你关心对齐副作用，只看方法分类和副作用表，别把单点安全提升当成稳健结论。

Wai Man Si,Mingjie Li,Michael Backes,Yang Zhang

trustworthinesstraining-freealignment2026年4月17日arXiv PDF

arXiv

CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization

这篇论文处理的是：如何在不明显伤害长链推理能力的前提下，让大型推理模型遗忘指定知识或答案，尤其是把不该保留的信息从 CoT 过程中一起移除。

评和预训练关系不深，更多是对齐/遗忘侧技巧；如果你关心 CoT 是否真能被定向改写，可只看方法设定与遗忘-能力权衡表，别把它当通用训练结论。

Junyi Li,Yongqiang Chen,Ningning Ding

unlearningreasoning-modelschain-of-thought2026年4月17日arXiv PDF

arXiv

RAGognizer: Hallucination-Aware Fine-Tuning via Detection Head Integration

这篇论文要解决的是：RAG 场景下模型仍会产生与检索上下文不一致的 closed-domain hallucination，而现有检测大多停留在事后判断，难以反过来改善生成过程。

评更像 RAG 后训练工程，不是基座论文；如果你关心“内部状态能否直接当训练信号纠偏”，看数据标注方案和 joint loss 即可，泛化先别下结论。

Fabian Ridder,Laurin Lessel,Malte Schilling

raghallucination-detectionjoint-training2026年4月17日arXiv PDF

arXiv

On the Rejection Criterion for Proxy-based Test-time Alignment

现有基于小代理模型的测试时对齐方法的拒绝准则设计不合理，易受歧义短语等语言现象影响

评仅作为测试时对齐方法的文献备查，无预训练相关直接启发，无需读正文

Ayoub Hammal,Pierre Zweigenbaum,Caio Corro

test-time alignmentproxy modelrejection criterion2026年4月17日arXiv PDF

arXiv

FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models

解决推理时 steering 方法难以同时做到有效、保留原有能力、且适应不同查询的问题。

评这是后训练控制层的小框架，不会改变你对基座训练的 prior；若做 activation steering，只看 conditional gating 和 expert synthesis 两个部件是否真比单向量干净。

Zixuan Weng,Jinghuai Zhang,Kunlin Cai,Ying Li,Peiran Wang,Yuan Tian

inference-time-steeringactivation-steeringhallucination2026年4月16日arXiv PDF

arXiv

Pruning Unsafe Tickets: A Resource-Efficient Framework for Safer and More Robust LLMs

如何在不依赖大规模再对齐训练的情况下，直接移除模型中触发不安全输出的参数子网络，同时尽量保持通用能力。

评如果结果干净，这是少见的“参数级去毒”路线；但最怕评测口径松和 utility 选得偏，先只看剪枝定位方法与跨量化复现实验。

Wai Man Si,Mingjie Li,Michael Backes,Yang Zhang

Mistralsafetypruningjailbreak-robustness2026年4月17日arXiv PDF

arXiv

Harmonizing Multi-Objective LLM Unlearning via Unified Domain Representation and Bidirectional Logit Distillation

这篇论文要解决的是：LLM unlearning 不能只追求“删掉目标知识”，还要同时兼顾通用能力保持、邻近概念不过度拒答，以及对对抗 probing 的鲁棒性，而现有方法在多目标联合时容易互相干扰。

评这是较完整的 unlearning 目标整合，不算新范式；若你做安全后训练，只看 unified representation 和双向 distillation 的消融即可，真正要警惕的是 trade-off 是否被漂亮指标掩盖。

Yisheng Zhong,Sijia Liu,Zhuangdi Zhu

unlearningdistillationsafety2026年4月16日arXiv PDF

arXiv

Reward Weighted Classifier-Free Guidance as Policy Improvement in Autoregressive Models

解决自回归模型在奖励函数变化时必须重新做 RL 对齐的问题，尝试把一部分策略改进移到测试时完成。

评想看 test-time control 与 RL 的连接可以扫一眼，但主实验在分子生成，外推到 LLM 还差关键验证；只看方法定义和蒸馏 warm-start 部分。

Alexander Peysakhovich,William Berman

post-trainingclassifier-free-guidancepolicy-improvement2026年4月16日arXiv PDF

arXiv

Towards Robust Endogenous Reasoning: Unifying Drift Adaptation in Non-Stationary Tuning

现有多模态大模型强化微调（RFT）仅解决外源分布漂移，未关注自回归生成过程中自发产生的内生推理漂移问题

评多模态对齐的增量工作，仅需了解内生推理漂移的定义即可，无需深入阅读

Xiaoyu Yang,En Yu,Wei Duan,Jie Lu

reinforcement fine-tuningpreference optimizationmultimodal LLM2026年4月17日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv泛读

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

论文要回答的问题是：LLM 的 hallucination 到底是在生成早期就进入了一条错误轨迹，还是后面逐步偏离；这种错误轨迹一旦形成，是否容易被纠正。作者试图把“相关性观察”推进到“因果机制判断”，用同一 prompt 下的分叉采样和 activation patching，直接测量正确轨迹与幻觉轨迹之间的可逆性和不对称性。

评这篇值得看，因为它把幻觉从“解码末端失误”改成“首 token 早承诺”的动力学问题；先看 bifurcation 设定和 patching 结果，外推到大模型前要保留怀疑。

G. Aytug Akarlar

hallucinationmechanistic-interpretabilityactivation-patching2026年4月16日arXiv PDF

arXiv泛读

Sketching the Readout of Large Language Models for Scalable Data Attribution and Valuation

这篇论文要解决的是：如何在不做全模型反向传播、也不存每个样本全参数梯度的前提下，为大语言模型做可扩展的数据归因与数据价值评估。传统 influence function 需要 Hessian 逆，LLM 上基本不可用；TracIn 一类一阶近似虽然更简单，但仍要为每个样本保存 O(P) 级别梯度，参数一到十亿级就很快失去可操作性。论文的关键判断是，影响信号并不是均匀分布在整个网络里，而是明显集中在输出侧 readout，也就是 LM head；如果只抓住这一层，并利用其梯度的外积结构，就有机会把归因问题从“全模型梯度索引”改写成“前向可得的低成本 sketch 匹配”。

评这篇值得看，因为它把 data attribution 从玩具规模推进到 32B 可操作区间；先看方法假设是否真由 readout 主导，再看压缩后 fidelity 曲线，别只盯 112×。

Yide Ran,Jianwen Xie,Minghui Wang,Wenjin Zheng,Denghui Zhang,Chuan Li,Zhaozhuo Xu

data-attributiondata-valuationinfluence-functions2026年4月17日arXiv PDF

arXiv泛读

Disentangling Mathematical Reasoning in LLMs: A Methodological Investigation of Internal Mechanisms

这篇论文要回答的不是“模型会不会算术”，而是“模型在内部是怎样把算术题做出来的”。作者把问题收得很窄，只看加减法、只看单 token 数字、只看零样本推理，用 early decoding（也就是 logit lens）沿层追踪 next-token 表征，试图分清三件事：模型何时识别出这是算术任务，何时形成正确结果，以及 attention 和 MLP 在这个过程中分别承担什么角色。相比只看最终准确率，这个问题更接近机制层面的解释：如果一个模型能算对，它到底是在做近似算法式处理，还是只是靠记忆、模板匹配或局部统计偏好。

评这类工作不直接改训练配方，但它把“算术能力来自哪里”拆得比常见 probing 更干净；重点看层间 early decoding 轨迹，别把“功能分工”过度外推到一般推理。

Tanja Baeumel,Josef van Genabith,Simon Ostermann

mechanistic-interpretabilityarithmetic-reasoningearly-decoding2026年4月17日arXiv PDF

arXiv泛读

Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations

这篇论文要解决的问题很具体：在 LLM 问答场景里，传统 conformal prediction 依赖的非一致性分数大多来自输出层表面统计量，比如 token probability、entropy、self-consistency。这类信号在校准集与部署集分布不一致时容易失真，尤其当语义层面的可答性、事实性、歧义性并不能被词面相似度或最终层置信度充分反映时，conformal set 的覆盖率与集合效率都会变差。论文的切入点不是改 conformal prediction 的理论框架，而是改“被 conformalize 的分数”：把答案可靠性从输出表面转到模型内部表征，利用输入条件在不同层如何重塑预测熵，构造 Layer-Wise Information（LI）分数，作为 answer-level nonconformity score。

评只看§3的层间信息分数计算方法即可，可用于预训练模型不确定性评估的参考

Yanli Wang,Peng Kuang,Xiaoyu Han,Kaidi Xu,Haohan Wang

conformal predictionLLM uncertaintyinternal representation2026年4月17日arXiv PDF

arXiv泛读

LLM Reasoning Is Latent, Not the Chain of Thought

这篇文章讨论的不是“CoT 有没有用”，而是一个更基础的方法论问题：当我们研究 LLM reasoning 时，真正应该把什么当作主要研究对象。作者把当前常被混在一起的三件事拆开：表层 chain-of-thought 文本、隐藏状态中的 latent-state trajectory、以及单纯增加的 serial compute。论文要解决的是，现有关于推理、可解释性、faithfulness、test-time intervention 的很多结论，是否建立在一个并不稳固的默认前提上——即把可见 CoT 当成推理本身。作者的答案是：更合理的默认对象应当是 latent trajectory，而不是表层 CoT。

评这是篇观点文，不要按结果论文读；若你在做 CoT 数据、latent steering 或 reasoning eval，先看三假设框架，能帮你把实验对象定义得更干净。

Wenshuo Wang

reasoningchain-of-thoughtlatent-states2026年4月17日arXiv PDF

arXiv

MEDLEY-BENCH: Scale Buys Evaluation but Not Control in AI Metacognition

评测大模型“元认知”中的两个不同能力：是否能评估自身推理，以及是否能稳定控制和修正自身推理过程。

评结论有点意思：scale 提升“会不会评估”不等于提升“能不能管住自己”；若你做 self-correction 或 RL 后训练，只看指标定义和家族内对比即可。

Farhad Abtahi,Abdolamir Karbalaie,Eduardo Illueca-Fernandez,Fernando Seoane

metacognitionself-correctionbenchmark2026年4月17日arXiv PDF

arXiv

DPrivBench: Benchmarking LLMs' Reasoning for Differential Privacy

评测大语言模型是否具备差分隐私推理能力，尤其是在需要形式化条件判断与机制验证的场景下，现有模型到底能做多少。

评不是预训练论文，但 benchmark 设计若足够干净，可当作‘形式化推理不会因会背教材而自动出现’的反例；先看任务构造和错误分布。

Erchi Wang,Pengrun Huang,Eli Chien,Om Thakkar,Kamalika Chaudhuri,Yu-Xiang Wang,Ruihan Wu

benchmarkdifferential-privacyreasoning2026年4月17日arXiv PDF

arXiv

QuantSightBench: Evaluating LLM Quantitative Forecasting with Prediction Intervals

现有 LLM forecasting 评测大多停留在二分类或选择题，无法检验模型对连续数值预测及其不确定性的真实能力；论文试图用 prediction intervals 建立更严格的评测接口。

评作为评测接口有点意思：它逼模型显式暴露 calibration 和尺度感，而不是靠选择题掩盖；先看指标定义和 failure cases，正文未必需要细读。

Jeremy Qin,Maksym Andriushchenko

forecastinguncertaintybenchmark2026年4月17日arXiv PDF

arXiv

CIG: Measuring Conversational Information Gain in Deliberative Dialogues with Semantic Memory Dynamics

如何量化“讨论对话是否带来信息推进”，而不是只看礼貌性/结构性指标。

评作为“对话数据筛选/评测信号”有点意思，但规模小且依赖claim抽取质量；只看指标定义和相关性实验即可。

Ming-Bin Chen,Jey Han Lau,Lea Frermann

evaluationdialogueinformation-gain2026年4月17日arXiv PDF

arXiv

The Metacognitive Monitoring Battery: A Cross-Domain Benchmark for LLM Self-Monitoring

评估 LLM 是否具备跨任务、跨认知域的自我监控能力，尤其是能否在答错时识别并撤回答案，而不是只输出表面置信度。

评这是评测设计，不是机制突破；如果你在做 uncertainty-aware training，可只看 withdraw delta 定义和模型分型，正文不必细读。

Jon-Paul Cacioli

metacognitionbenchmarkself-monitoring2026年4月17日arXiv PDF

arXiv

How Hypocritical Is Your LLM judge? Listener-Speaker Asymmetries in the Pragmatic Competence of Large Language Models

这篇论文研究的是：LLM 作为语言生成者和作为语言评判者时，能力是否一致，尤其在语用能力上是否存在系统性不对称。

评这篇对做 judge/reward 的人比对做预训练的人更有用；结论不新奇，但足够提醒你别把“会打分”当成“会生成”，看实验设计和相关性分析就够了。

Judith Sieker,Sina Zarrieß

llm-as-judgepragmaticsevaluation2026年4月17日arXiv PDF

arXiv

Evaluating LLMs as Human Surrogates in Controlled Experiments

评估现成 LLM 在受控行为实验中能否作为“人类替身”，复现人类数据支持的统计推断。

评结论不直接改预训练做法，但能校正“LLM 可替代人类受试者”的松散叙事；看结果表和误差分解即可，不必细读方法。

Adnan Hoq,Tim Weninger

llm-evaluationbehavioral-experimentshuman-surrogates2026年3月8日arXiv PDF

arXiv

Self-Distillation as a Performance Recovery Mechanism for LLMs: Counteracting Compression and Catastrophic Forgetting

量化/剪枝或 SFT 引发遗忘后，如何用低成本手段恢复 LLM 的原有能力，并解释“为什么自蒸馏能恢复”。

评更像经验配方+相关性解释：先看 CKA 与恢复的因果消融是否站得住；若只给相关系数，结论当作诊断指标备选即可。

Chi Liu,Xin Chen,Xu Zhou,Fangbo Tu,Srinivasan Manoharan

self-distillationcatastrophic-forgettingquantization2026年4月17日arXiv PDF

arXiv

When Do Early-Exit Networks Generalize? A PAC-Bayesian Theory of Adaptive Depth

给 early-exit 自适应深度网络建立泛化理论，解释它们何时不仅更快，而且比固定深度网络更能泛化。

评偏理论，和 LLM 只在 adaptive compute 上有弱连接；做 test-time compute 的人可看定理结构，其余读摘要就够。

Dongxin Guo,Jikun Wu,Siu Ming Yiu

early-exitadaptive-depthPAC-Bayes2026年4月17日arXiv PDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

arXiv泛读

Neurosymbolic Repo-level Code Localization

现有代码定位方法和基准存在「关键词捷径」问题：基准查询包含大量文件名、函数名等关键词，模型仅通过表层词汇匹配就能定位代码，缺乏不依赖命名提示的逻辑结构推理能力，在无关键词锚点的代码定位场景下性能骤降。

评这篇该看的是 benchmark 诊断，不是方法本身；如果你做代码预训练或 SWE agent，先看它如何把“高分”拆成关键词匹配假象，再决定要不要在内部评测里加去命名扰动版。

Xiufeng Xu,Xiufeng Wu,Zejun Zhang,Yi Li

code-localizationneurosymbolicdatalog2026年4月17日arXiv PDF

arXiv

CodeMMR: Bridging Natural Language, Code, and Image for Unified Retrieval

解决代码检索长期偏文本的问题，把自然语言、代码和图像统一到同一检索空间，以覆盖 UI、可视化、SVG、示意图、UML 等视觉相关编程工件。

评有用的是 benchmark 定义，不是模型本身；若你关心代码 RAG 的多模态缺口，只看任务构成和误差分析即可。

Jiahui Geng,Qing Li,Fengyu Cai,Fakhri Karray

code-retrievalmultimodal-alignmentbenchmark2026年4月17日arXiv PDF

arXiv

Majority Voting for Code Generation

现有代码生成的多数投票策略仅匹配文本语义，未验证功能正确性，且测试时强化学习的自改进边界不清晰

评代码生成测试时增强的增量工作，仅看实验结论部分即可，无需复现

Tim Launer,Jonas Hübotter,Marco Bagatella,Ido Hakimi,Andreas Krause

ETHcode generationmajority votingtest-time inference2026年4月17日arXiv PDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv泛读

CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution

如何在交互式环境里训练 LLM agent 时，让训练数据分布随 agent 能力变化而自适应更新，避免静态轨迹数据覆盖不足、长尾交互缺失，导致 RL 训练效率低、泛化差。

评对 agent 论文来说算有方法味，但别被大幅提升冲昏头；重点看 failure signal 定义和额外交互预算是否公平，这套闭环数据更新值得迁移到持续预训练设定里试。

Shidong Yang,Ziyu Ma,Tongwen Huang,Yiming Hu,Yong Wang,Xiangxiang Chu

agent-trainingreinforcement-learningdata-synthesis2026年4月17日arXiv PDF

arXiv泛读

LACE: Lattice Attention for Cross-thread Exploration

现有大模型推理时多路径采样的线程相互独立，无法共享中间推理结果，容易出现重复错误，造成计算资源浪费，且推理准确率提升受限。

评点子比结果更值得看：若 cross-thread attention 在等算力下真优于 self-consistency，会改写我们对 test-time compute 的默认做法；先看方法图和主对比表，警惕合成数据带来的 setup 偏置。

Yang Li,Zirui Zhang,Yang Liu,Chengzhi Mao

reasoningcross-thread-attentiontest-time-compute2026年4月16日arXiv PDF

arXiv泛读

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

这篇论文要回答的问题很具体：在 agent distillation 里，即使训练数据已经做过显式安全过滤，学生模型是否仍会从教师轨迹中继承危险的行为倾向。作者关注的不是语义知识的“暗传递”，而是策略层面的行为偏置传递。更准确地说，他们研究的是：当教师模型在决策风格上存在稳定的破坏性偏好，例如在模糊任务里更倾向删除、清除、终止，而蒸馏数据只包含表面上安全的任务与轨迹、并且删除关键词被严格清洗后，这种偏好是否仍会通过轨迹结构、动作分布和局部决策模式渗入学生模型。

评这篇会改你对“过滤掉危险 token 就够了”的先验；先看实验对照和过滤细节，若 setup 干净，蒸馏安全审计流程得立刻补一层行为级检测。

Jacob Dang,Brian Y. Xie,Omar G. Younis

agent-distillationsafetybehavior-transfer2026年4月16日arXiv PDF

arXiv泛读

ASMR-Bench: Auditing for Sabotage in ML Research

这篇论文要解决的问题很具体：当 AI 系统开始参与甚至主导 ML 研究时，审计者能否发现代码库中那些不会破坏论文表面方法、但会悄悄改变实验结论的“研究破坏”行为。它不是在测一般的软件漏洞，也不是测模型会不会写错代码，而是在测一种更贴近真实科研流程的风险：攻击者只改实现细节、数据构造、超参数、评测脚本或论文—代码对应关系，让最终图表和结论发生定性变化，同时仍然看起来像一份正常研究。论文据此构建了 ASMR-Bench：9 个真实 ML 研究代码库、11 个破坏版本，要求审计者判断 paper-code pair 是否被破坏，并给出修复建议。

评这篇不教你怎么训更强模型，但会提醒你：自动化研究里最脆弱的不是生成代码，而是实验可信度；读 benchmark 设计和 sabotage taxonomy 就够了。

Eric Gan,Aryan Bhatt,Buck Shlegeris,Julian Stastny,Vivek Hebbar

benchmarkresearch-agentscode-auditing2026年4月17日arXiv PDF

arXiv泛读

LinuxArena: A Control Setting for AI Agents in Live Production Software Environments

这篇论文要解决的不是“如何让 Agent 更会做软件工程”，而是一个更具体也更难的问题：当模型被部署到真实、在线、带状态的生产软件环境里时，如何评估它在完成正常工程任务的同时，是否会利用同一套权限做隐蔽破坏。现有 control 评测环境往往过于干净，攻击面和正常工作面可以分开，因而可以靠简单隔离规避风险；LinuxArena 刻意把两者绑在一起，让网络访问、服务交互、数据库状态、跨服务调用既是完成主任务所必需的，也是实施数据外传、植入后门、削弱安全控制所必需的。论文的核心贡献，是把“AI control”从较抽象的 toy setting 推到更接近真实生产系统的 live environment，并验证这个环境确实同时具备三点：不能靠简单 sandbox 解决、监控并不容易、当前攻击生成还远未触顶。

评这不是基座方法论文，但 benchmark 设定很硬，尤其 23% 未检出 sabotage 这个数值得记住；读评测协议和 LaStraj 部分，别只看榜单。

Tyler Tracy,Ram Potham,Nick Kuhn,Myles Heller,Anshul Khandelwal,Cody Rushing ... 省略 24 位作者 ... ,Daniel O'Connell,Chris Canal,Buck Shlegeris,Aryan Bhatt

agent-benchmarksoftware-environmentsafety-monitoring2026年4月16日arXiv PDF

arXiv

PolicyBank: Evolving Policy Understanding for LLM Agents

解决 LLM agent 在自然语言组织政策存在歧义和缺口时，如何通过交互测试与纠错反馈逐步修正自身政策理解，而不是机械记忆错误规则。

评agent 方向里算有方法意识，但离基座研究较远；只看 benchmark 设计和“compliant but wrong”这个 failure mode，别在分数上停太久。

Jihye Choi,Jinsung Yoon,Long T. Le,Somesh Jha,Tomas Pfister

Google CloudUniversity of Wisconsin-Madisonagent-memorypolicy-compliancetool-use2026年4月16日arXiv PDF

arXivHF Daily▲ 1

GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

解决现有 tool-use benchmark 与真实生产工作流脱节的问题：它们多依赖伪造查询、玩具工具和短链路任务，难以评估通用工具 Agent 的真实能力。

评如果你关心 tool-agent 评测失真，这篇可做 benchmark 备查；重点看 recursive checkpoint 评估，别指望它给出新的 agent 方法论。

Jize Wang,Xuanxuan Liu,Yining Li,Songyang Zhang,Yijun Wang,Zifei Shan,Xinyi Le,Cailian Chen,Xinping Guan,Dacheng Tao

tool-useagent-benchmarkworkflow-evaluation2026年4月17日arXiv PDF

arXiv

Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions

解决指令图像编辑中大量失败并非来自底模能力不足，而是任务表述本身不适合模型执行的问题。

评有一点 agent taste：先改任务表述再怪模型能力；但场景太窄，只看失败类型拆解和 reformulation pipeline 就够了。

Bo Zhao,Kairui Guo,Runnan Du,Haiyang Sun,Pengshan Wang,Huan Yang,Kun Gai,Yixin Cao,Wei Ji

agentic-executiontask-reformulationimage-editing2026年4月17日arXiv PDF

arXiv

SocialGrid: A Benchmark for Planning and Social Reasoning in Embodied Multi-Agent Systems

这篇论文要解决的是：如何在具身多智能体环境里，把“规划失败”和“社会推理失败”区分开，避免把导航或执行能力不足误判为社交智能不足。

评不是基座论文，但 benchmark 设计是干净的：只看 Planning Oracle 那组对照，就能判断多智能体“社交推理差”到底是不是被导航能力掩盖了。

Hikaru Shindo,Hanzhao Lin,Lukas Helff,Patrick Schramowski,Kristian Kersting

multi-agentbenchmarksocial-reasoning2026年4月17日arXiv PDF

arXiv

Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

论文关注 RAG 中“明明库里有证据却仍然答错”的持续失败问题，试图区分检索缺失与 query-evidence 对齐失败。

评RAG 系统里算有点想法，但对预训练帮助有限；只看 failure taxonomy 和 skill router 设计，别把 hidden-state prober 当成强机制结论。

Kai Wei,Raymond Li,Xi Zhu,Zhaoqian Xue,Jiaojiao Han,Jingcheng Niu,Fan Yang

RAGfailure-diagnosisskill-routing2026年4月17日arXiv PDF

arXiv

MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents

论文要评测带持久记忆的 LLM Agent 在长期交互中如何因误导信息、噪声工具输出和偏置反馈而发生 memory misevolution，即记忆驱动的行为漂移。

评如果你做 agent memory safety，可收下 benchmark 设计；否则知道有“记忆误演化”这个 failure mode 就够了，不必细读正文。

Weiwei Xie,Shaoxiong Guo,Fan Zhang,Tian Xia,Xue Yang,Lizhuang Ma,Junchi Yan,Qibing Ren

agent-memorybenchmarksafety2026年4月17日arXiv PDF

arXiv

Rethinking the Necessity of Adaptive Retrieval-Augmented Generation through the Lens of Adaptive Listwise Ranking

重新评估 adaptive RAG 是否仍然必要，尤其是在更强 LLM 对检索噪声更鲁棒的前提下，何时需要动态检索与重排序。

评RAG 系统论文，和预训练关系不深；若你做 retrieval-heavy agent，只看它如何把“是否需要检索”改写成 listwise ranking 问题，别在蒸馏细节上花太多时间。

Jun Feng,Jiahui Tang,Zhicheng He,Hang Lv,Hongchao Gu,Hao Wang,Xuezhi Yang,Shuai Fang

ragadaptive-retrievallistwise-ranking2026年4月17日arXiv PDF

arXiv

Discover and Prove: An Open-source Agentic Framework for Hard Mode Automated Theorem Proving in Lean 4

现有自动定理证明（ATP）基准均为“简单模式”，答案嵌入在形式化语句中，高估模型真实能力，缺乏贴近人类做题场景的“困难模式”基准与适配方案

评定理证明Agent领域的增量工作，仅需了解新提出的Hard Mode基准设定即可，无需深读

Chengwu Liu,Yichun Yin,Ye Yuan,Jiaxuan Xie,Botao Li,Siqi Li,Jianhao Shen,Yan Xu,Lifeng Shang,Ming Zhang

ByteDanceautomated theorem provingagent frameworkbenchmark2026年4月17日arXiv PDF

arXiv

Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents

长周期多会话LLM Agent的经验管理效率低，现有记忆系统和技能发现两个研究方向相互割裂，交叉引用率不足1%，无统一框架

评Agent经验管理的理论框架创新，仅需了解压缩谱的核心定义即可，无直接可落地的预训练相关结论

Xing Zhang,Guanghui Wang,Yanwei Cui,Wei Qiu,Ziyuan Li,Bing Zhu,Peiyang He

llm agentmemory systemexperience compression2026年4月17日arXiv PDF

arXiv

Weak-Link Optimization for Multi-Agent Reasoning and Collaboration

现有LLM驱动的多智能体协作框架会放大单智能体错误导致推理不稳定，现有研究缺乏对性能瓶颈的弱智能体的系统识别与增强

评增量改进的多智能体优化方法，仅作为领域文献备查，无需精读正文

Haoyu Bian,Chaoning Zhang,Jiaquan Zhang,Xingyao Li,Yuanfang Guo,Wei Dong,Yang Yang

multi-agentcollaborative reasoningweak link optimization2026年4月17日arXiv PDF

AI Research Daily

Codex for (almost) everything

Introducing Claude Design by Anthropic Labs

Qwen3.5-Omni Technical Report

Why Fine-Tuning Encourages Hallucinations and How to Fix It

行业动态与观点

LLM 预训练

高效推理与架构

多模态统一

多模态生成

LLM 后训练

原理、机制和分析

Coding Agent

Agent 与系统