AI Research Daily

更新时间: 2026/4/14 05:52:24

共227篇

🔥 行业动态 2🧠 预训练 14⚡ 高效推理 28🌐 多模态统一 19🎨 多模态生成 16🛠️ 后训练 40🔬 原理分析 58💻 Coding Agent 10🤖 Agent 40

其他 60 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读LLM 预训练

MIXAR: Scaling Autoregressive Pixel-based Language Models to Multiple Languages and Scripts

如何将像素级（无tokenizer）自回归语言模型扩展到多语言多文字体系，并在跨脚本场景下获得稳健的泛化与鲁棒性。

tokenizationpixel-language-modelmultilingual

精读LLM 预训练

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

连续扩散在图像等连续模态很强，但在语言建模上，连续扩散语言模型（尤其是embedding-space DLM）长期落后于离散扩散/AR：训练目标缺乏统一理论支撑、PPL/NLL评估缺少可靠的ODE口径、训练技巧（噪声日程/自条件）缺乏可解释的最优设计，导致性能与可复现性都受限。

diffusion-lmflow-matchingnon-autoregressive

精读LLM 预训练

Introspective Diffusion Language Models

扩散语言模型（DLM）理论上可并行生成，但长期在质量上落后AR。作者将差距归因于一个结构性缺陷：缺乏“内省一致性”（introspective consistency）——AR模型在训练时会在同一预测规则下隐式地“认可/验证”自己已生成的token（由因果mask+logit shifting带来），而多数DLM在多步双向去噪中并未被训练成与自身生成结果一致，导致连贯性与推理能力受限。

diffusion-lmparallel-decodingintrospection

精读LLM 预训练

Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning

Muon 通过 Newton–Schulz(NS) 迭代近似动量矩阵的极分解/正交因子来改善大模型预训练的优化动力学，但每步需要多次 NS 迭代，带来显著计算与分布式通信开销；核心问题是：能否在减少正交化迭代负担的同时，保持甚至提升 Muon 的训练效果？

optimizerpretrainingsecond-moment

精读LLM 预训练

Discrete Flow Maps

自回归(AR)语言模型必须逐 token 生成，推理延迟与计算量随长度线性增长，存在结构性速度上限。连续域的 flow/diffusion 可并行生成，但通常需要昂贵的多步积分/采样。Flow Maps 试图把“从噪声到数据”的轨迹压缩成单步映射以实现一/少步生成，但标准 Flow Map 训练依赖欧式空间的 L2 回归损失，与离散文本（概率单纯形上的分布）几何不匹配，导致效果不佳。核心问题是：如何在离散概率单纯形上，几何一致地训练可一/少步生成的 flow map？

discrete-generative-modelsflow-matchingnon-autoregressive

精读LLM 预训练

A Triadic Suffix Tokenization Scheme for Numerical Reasoning

标准子词/ BPE 等分词会以不稳定、与数位无关的方式切碎数字（整数与小数都一样），导致模型丢失“位值/数量级/小数深度”等结构信息，从而出现典型的十进制量级误判（如 9.11 vs 9.9）以及长数算术、科学计数相关推理错误。

tokenizationnumerical-reasoningarithmetic

精读LLM 后训练

Efficient Process Reward Modeling via Contrastive Mutual Information

过程奖励模型（PRM）需要对 CoT 每一步进行监督，但人工逐步打分成本极高；现有自动化方法（如基于多次 rollout 的 Monte Carlo 估计）虽免人工但计算开销大、生成奖励慢，难以规模化构建高质量 step-level 数据集。

process-reward-modelcotmutual-information

精读LLM 后训练

Triviality Corrected Endogenous Reward

开放式写作的强化微调（RFT）缺乏可验证奖励，通常依赖昂贵闭源评审模型或主观且难标注的人类偏好数据。直接用“模型自信度/对数概率”作内生奖励虽可无评审训练，但会诱发 Triviality Bias：策略向高概率、低熵、模板化输出坍缩，牺牲多样性与内容信息量。

reinforcement-learningunsupervised-rewardopen-ended-generation

精读LLM 后训练

Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation

LLM 文本智能体在环境交互式 RL 中普遍面临外部奖励稀疏：只有少数关键动作获得非零回报，导致样本效率低。用模型自评（PRM/生成式过程奖励）提供稠密奖励虽直观，但未经校准会产生系统性偏置（例如过度奖励 inventory），反过来诱导策略学到“刷奖励”的坏习惯并降低任务成功率。

reinforcement-learningprocess-rewardself-evaluation

精读LLM 后训练

Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning

LLM 后训练 RL 中的核心瓶颈是长序列生成的 credit assignment：奖励通常只在序列末端给一个标量，导致难以判断哪些中间 token/决策真正促成了最终成功。经典 actor-critic 依赖 value function 做细粒度 advantage 估计，但在 LLM 规模下“判别式（discriminative）一发标量预测”的 value model 往往难训、不稳、效果不随规模可靠提升，实践中被 GRPO/RLOO 等 value-free 方法替代，从而把序列问题近似成 contextual bandit，牺牲精细归因能力。

actor-criticvalue-modelgenerative-critic

精读LLM 后训练

Rethinking Token-Level Credit Assignment in RLVR: A Polarity-Entropy Analysis

RLVR（Reinforcement Learning with Verifiable Rewards）用序列末端的可验证结果奖励提升推理能力，但带来根本性的 token-level credit assignment 问题：GRPO 等方法把同一个 outcome reward 广播到整条轨迹的所有 token，导致大量“例行续写”与少数“关键分叉决策”获得同等更新，学习信号被稀释或错配。现有工作分别从 reward polarity（正/负样本）或 token entropy（不确定性）出发提出启发式，但缺少统一解释：信用究竟集中在哪里、为何集中、以及应如何调制梯度。

RLVRcredit-assignmenttoken-entropy

精读LLM 后训练

RTMC: Step-Level Credit Assignment via Rollout Trees

多步 agentic RL（LLM+工具、多轮交互）中，奖励往往延迟且稀疏（常见为最终二值成功/失败），导致“逐步归因（step-level credit assignment）”困难。现有 critic-free（如 GRPO）把同一条轨迹的优势值平均分配到每一步，无法区分哪一步决策真正带来收益；而训练 value/critic（如 GAE）在超大状态空间与稀疏奖励下开销高、易不稳定。

reinforcement-learningcredit-assignmentswe-bench

精读LLM 后训练

Efficient RL Training for LLMs with Experience Replay

LLM RL后训练普遍默认需要严格on-policy数据，experience replay在LLM RL中被忽视，推高了生成开销。

Meta FAIRrlexperience-replaypost-training

精读LLM 原理与机制

Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models

论文研究监督微调（SFT）中的“不完全学习现象（ILP）”：即使训练损失已收敛、超参已调优，模型仍会在其自身的训练集上持续、稳定地答错一部分监督样本。这不是灾难性遗忘，也不是刻意遗忘，而是对部分监督信号未能内化。

sfttraining-dynamicsdata-quality

精读LLM 原理与机制

Decomposing and Reducing Hidden Measurement Error in LLM Evaluation Pipelines

论文聚焦于一个常被忽视但会系统性误导结论的问题：LLM 评测/标注/审核等“测量流水线”本身存在大量隐藏测量误差（hidden measurement error）。这些误差来自提示词改写、judge 模型更换、温度/采样随机性、条目异质性以及它们的交互，足以导致分数波动、排名翻转、显著性结论反转；而常规只在“固定设置下重复抽样”的置信区间并未覆盖这些来源。

evaluationmeasurement-errorjudge-model

精读LLM 原理与机制

The Myth of Expert Specialization in MoEs: Why Routing Reflects Geometry, Not Necessarily Domain Expertise

论文质疑并系统拆解了 MoE（Mixture of Experts）中广泛流行的“专家专精/领域专家”叙事：我们看到不同领域文本会路由到不同 experts，常被解释为路由器学到了可解释的领域划分；但作者指出这种“专精”并不必然意味着语义或领域层面的专家化，而更可能只是隐藏状态空间几何结构的必然结果。

moeroutingrepresentation-geometry

精读LLM 原理与机制

Tail-Aware Information-Theoretic Generalization for RLHF and SGLD

经典信息论泛化界（如基于KL互信息）通常依赖损失/奖励的有界性或次高斯尾部（MGF存在）。但在RLHF、鲁棒学习、随机优化等现代流程中，奖励/损失/梯度噪声常呈重尾（MGF可能不存在），导致KL工具可能“看起来信息很小但泛化/稳定性被极端事件主导”，从而界变得失效或空泛。本文要解决：在次Weibull（含0<θ<1重尾）条件下，如何构造仍然有效、可用于期望与高概率的、算法依赖的信息论泛化与稳定性分析框架，并落地到RLHF与SGLD。

generalization-boundheavy-tailedrlhf-theory

精读LLM 原理与机制

Layerwise Dynamics for In-Context Classification in Transformers

Transformer能够用少量标注样本完成in-context分类，但推理时到底在“运行什么算法”不清楚。现有常见解释是“隐式梯度下降/优化器模拟”，但在多类线性分类、且处于hard no-margin（几何上更困难）设定下，这种抽象可能误导。本文要解决：如何让推理计算可识别（identifiable）并从训练后的Transformer中抽取出可写成闭式的、逐层递推的推理动力学，从而回答“它在做什么”。

in-context-learningmechanistic-interpretabilitytransformers

精读Agent 与系统

Learning and Enforcing Context-Sensitive Control for LLMs

如何让 LLM 在生成时满足“上下文敏感（context-sensitive）”的全局一致性约束（如远距离依赖、计数相等、跨字段一致等），并且不依赖人工手写复杂的形式化约束/语法。

controllable-generationconstrained-decodinggrammar-induction

精读Agent 与系统

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

后训练（post-training）数据集在 LLM 能力形成中至关重要，但其来源与演化关系（provenance/lineage）缺乏系统记录，导致两类系统性风险难以发现：隐式重叠带来的结构冗余，以及基准测试样本沿数据派生链传播导致的污染（contamination/leakage）。本文要解决的是：如何自动化重建大规模数据集的“谱系图”（lineage graph），并据此量化冗余与追踪污染源头。

data-lineagepost-training-datacontamination

来源

机构

阅读分级

标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点（注意：推理加速/注意力优化等技术论文不算行业动态）

Blog

Enterprises power agentic workflows in Cloudflare Agent Cloud with OpenAI

企业如何在Cloudflare Agent Cloud上以更安全、可扩展的方式部署基于OpenAI模型的agentic工作流。

OpenAI Research

OpenAICloudflareindustryagent-platformdeployment2026年4月13日原文

Blog

Introducing Claude Sonnet 4.6

发布并定位 Claude Sonnet 4.6：面向 coding、agents 与规模化专业工作负载的前沿模型能力升级。

Anthropic

Anthropicmodel-releaseclaudeagents2026年2月17日原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv精读

MIXAR: Scaling Autoregressive Pixel-based Language Models to Multiple Languages and Scripts

如何将像素级（无tokenizer）自回归语言模型扩展到多语言多文字体系，并在跨脚本场景下获得稳健的泛化与鲁棒性。

评会改变我对“tokenizer 是多语鲁棒性前提”的 prior；建议直接复现其跨脚本/扰动评测与训练配方，看看像素路线是否真能省掉分词工程债。

Chen Hu,Yintao Tai,Antonio Vergari,Frank Keller,Alessandro Suglia

tokenizationpixel-language-modelmultilingual2026年4月13日arXiv PDF

arXiv精读

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

评把连续DLM的评估口径和训练旋钮收敛到可对比的框架，结论若站得住就该立刻用其ODE/NLL口径重跑你们的扩散baseline。

Yuxin Chen,Chumeng Liang,Hangke Sui,Ruihan Guo,Chaoran Cheng,Jiaxuan You,Ge Liu

diffusion-lmflow-matchingnon-autoregressive2026年4月13日arXiv PDF

arXivHF Daily▲ 6精读

Introspective Diffusion Language Models

评把DLM落后AR的原因从“步数不够”提升为可度量的训练结构缺陷；我会优先看 acceptance rate 定义并在内部DLM上做同款诊断/解码对照。

Yifan Yu,Yuqing Jian,Junxiong Wang,Zhongzhu Zhou,Donglin Zhuang,Xinyu Fang ... 省略 5 位作者 ... ,Ben Athiwaratkun,James Zou,Fan Lai,Chenfeng Xu

diffusion-lmparallel-decodingintrospection2026年4月13日arXiv PDF GitHub

arXiv精读

Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning

评这是少数直接打到预训练吞吐瓶颈的优化器改动；值得按他们的二阶矩自适应策略做端到端复现，验证能否在更少NS迭代下不掉loss曲线。

Ziyue Liu,Ruijie Zhang,Zhengyang Wang,Yequan Zhao,Yupeng Su,Zi Yang,Zheng Zhang

optimizerpretrainingsecond-moment2026年4月11日arXiv PDF

arXiv精读

Discrete Flow Maps

评它把flow-map从欧式回归搬到概率单纯形几何上，属于可能真能“一步生成”改写延迟上限的路线；建议细读损失推导并对照你们的CE训练做小规模复现。

Peter Potaptchik,Jason Yim,Adhi Saravanan,Peter Holderrieth,Eric Vanden-Eijnden,Michael S. Albergo

discrete-generative-modelsflow-matchingnon-autoregressive2026年4月10日arXiv PDF

arXiv精读

A Triadic Suffix Tokenization Scheme for Numerical Reasoning

评改变我对“数理差是训练不够”的 prior：先把数字表示做对；建议立刻在内部算术/科学计数回归上复现其 token 方案。

Olga Chetverina

tokenizationnumerical-reasoningarithmetic2026年4月13日arXiv PDF

arXiv泛读

A Tale of Two Temperatures: Simple, Efficient, and Diverse Sampling from Diffusion Language Models

扩散语言模型（dLLM）采样研究长期聚焦“单样本速度-质量”权衡，但在需要多样本的场景（pass@k、test-time compute、A/B、后训练rollout）中，现有高置信度/低置信度优先的贪心remasking会系统性压制跨样本多样性：它倾向于延后不确定位置，从而绕开真正的“分叉点”（forks），导致探索不足、pass@k扩展性差。

评只看方法段里“两个温度/随机位置选择”的采样规则和对应pass@k曲线即可；它是低成本补丁，适合直接塞进你现有remasking解码器试试多样性。

Theo X. Olausson,Metod Jazbec,Xi Wang,Armando Solar-Lezama,Christian A. Naesseth,Stephan Mandt,Eric Nalisnick

diffusion-language-modelsamplingremasking2026年4月10日arXiv PDF

arXiv泛读

Lost in Diffusion: Uncovering Hallucination Patterns and Failure Modes in Diffusion Large Language Models

扩散大语言模型（dLLM）在性能上逐渐逼近AR，但其“可信度/忠实性”尤其是幻觉（hallucination）机制与模式缺乏系统研究。本文核心问题是：在尽量控制模型规模、架构与参数知识的前提下，dLLM相对AR是否更容易产生外在幻觉（与来源事实不一致）？其随推理计算（denoising步数/解码策略）变化的动态规律是什么？以及扩散范式是否带来独特失败模式？

评当作风险画像读：只需看受控对比设置和“步数/策略 vs 幻觉”图表；结论未必普适，但足够提醒别把dLLM默认当更少幻觉。

Zhengnan Guo,Fei Tan

diffusion-llmhallucinationfaithfulness2026年4月12日arXiv PDF

arXiv泛读

Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models

扩散式语言模型（dLLM/MDLM）理论上可并行、双向建模，但在“完全非自回归（NAR）解码”下常出现推理/规划任务性能崩溃与输出不连贯。论文要回答的核心问题是：阻碍 fully-NAR diffusion 解码可用性的根本失败机制是什么？以及为何解码早期决策会对最终输出产生不成比例的影响？

评只看失败机理那几张“时间轴动力学”图和对应的早期轨迹干预；它给了可操作的采样级修补点，适合用来定位你们fully-NAR崩溃是不是同一类问题。

Jiyeon Kim,Sungik Choi,Yongrae Jo,Moontae Lee,Minjoon Seo

diffusion-llmnon-autoregressive-decodinginference-dynamics2026年4月12日arXiv PDF

arXiv泛读

Bridging Linguistic Gaps: Cross-Lingual Mapping in Pre-Training and Dataset for Enhanced Multilingual LLM Performance

多语种 LLM 在跨语种生成与理解任务（MT、跨语种摘要、跨语种问答等）上表现不佳，根因包括：预训练语料高/低资源语言严重不均衡，以及以单语 next-token prediction 为主的目标导致“单语偏置”，跨语种对齐不足。论文要解决的是：如何在预训练阶段显式增强跨语种对齐，同时不牺牲单语流畅性，并给出更稳健的对齐度量指标。

评更像工程性对齐增强：建议只看预训练目标如何注入跨语种映射、以及LAC指标是否比你现用的对齐度量更稳；其余当备查。

Weihua Zheng,Chang Liu,Zhengyuan Liu,Xin Huang,Kui Wu,Muhammad Huzaifah Md Shahrin,Aiti Aw,Roy Ka-Wei Lee

Singapore University of Technology and DesignByteDanceTechnology and Researchmultilingual-llmcross-lingual-alignmentpretraining-objective2026年4月12日arXiv PDF

arXiv泛读

Position-Agnostic Pre-Projection for Transformer Attention: Nonlinear Feature Construction and Content Skip Before Q/K/V

论文针对标准 Transformer 注意力块的两点结构性限制：①Q/K/V 仅线性投影导致“线性特征瓶颈”，许多需要非线性组合的注意力特征必须依赖前序层 FFN 多层累积才能出现；②所有信息都被迫经过带位置编码（RoPE）的注意力路径，导致与位置无关的“纯内容信息”（语义类别、实体身份、句法标签等）也被强制做位置路由与混合，可能稀释信号。

评只需看结构图和消融：pre-projection的非线性特征+content skip是否真不涨KV cache还提升长上下文；若成立，值得在你们attention block里做最小侵入替换。

Chirag Shinde

transformerattentionarchitecture2026年4月12日arXiv PDF

arXiv泛读

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

论文聚焦“通用 tokenizer 对特定形态丰富语言（波兰语）的结构性低效”。以 Mistral 系通用词表为例，波兰语因屈折变化、变音符号与高词形变体导致被切分成更多子词（高 fertility ratio），从而带来：上下文窗口有效信息密度下降、推理成本上升、生成速度变慢，并可能影响下游质量。

评只看 tokenizer 迁移流程与遗忘控制的工程细节；结论不惊艳，但能直接指导你给形态丰富语种降 fertility、提吞吐。

Krzysztof Ociepa,Łukasz Flis,Remigiusz Kinas,Krzysztof Wróbel,Adrian Gwoździej

tokenizerlanguage-specificpretraining2026年4月12日arXiv PDF

arXiv泛读

INCRT: An Incremental Transformer That Determines Its Own Architecture

Transformer 的注意力头数/深度/头维度在训练前靠经验固定，导致系统性结构冗余（大量头可删而性能不变），且传统“先大训后剪”无法保证剪完仍“足够”。论文将冗余根因归结为注意力权重乘积 M=WQWK^T 同时混合了对称（互相注意）与反对称（信息流方向性）两种几何功能，模型被迫隐式分解从而浪费容量。

评只看其在线增头/剪头的谱判据与失败案例；想法有趣但阈值与训练稳定性可能很脆，先当结构搜索的弱信号。

Giansalvo Cirrincione

adaptive-architecturetransformerattention-head-pruning2026年4月12日arXiv PDF

HF Daily▲ 8泛读

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Masked Diffusion Language Model（MDLM）的采样需要多次全序列去噪，无法利用 KV cache，推理成本高。

评MDLM 去噪步骤的重要性分布（早晚鲁棒、中间敏感）是有用的经验发现，对 diffusion LM 研究者值得看 step-importance 分析部分。

Ivan Sedykh,Nikita Sorokin,Valentin Malykh

masked-diffusion-LMmodel-schedulinginference-efficiency2026年4月11日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv泛读

Transactional Attention: Semantic Sponsorship for KV-Cache Retention

在极小 KV-cache 预算（如 K=16，仅占 4K 上下文的 0.4%）下，现有压缩/淘汰策略在“凭证检索”上会全军覆没（0%）。根因是 dormant tokens：例如 API key、密码、连接串等在大部分上下文中几乎不被注意力关注（attention mass≈0），但会在生成时刻突然变得必须逐字回忆。任何依赖注意力分数、重建损失或学习门控的保留策略都无法识别这类 token 的未来价值。

评看 §3 机制和极小 K 下的凭证召回表就够；它提醒“低 attention≠低价值”，可直接加到你现有 KV 压缩管线做补丁。

Abhinaba Basu

kv-cachelong-contextmemory2026年4月13日arXiv PDF

arXiv泛读

ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval

长输出推理（长链式思考）会导致 Transformer 解码阶段 KV cache 随生成长度线性膨胀，带来两类瓶颈：GPU 显存占用过高（难以部署/批量推理）与注意力计算随缓存增长而变慢。现有 KV 优化多聚焦“长输入 prefill”，对“长输出 decoding”场景适配不足，动态淘汰类方法在复杂推理中易丢失长程关键信息而显著掉点。

评只需看解码期 KV 增长的 profiling 与多粒度检索的 ablation；若你做长 CoT 部署，它给了一个可落地的显存-正确率折中点。

David H. Yang,Yuxuan Zhu,Mohammad Mohammadi Amiri,Keerthiram Murugesan,Tejaswini Pedapati,Subhajit Chaudhury,Pin-Yu Chen

KV-cacheinference-optimizationlong-reasoning2026年4月13日arXiv PDF

arXiv泛读

Quantization Dominates Rank Reduction for KV-Cache Compression

KV-cache 压缩主要有两条路线：降秩（删维/投影到低维）与量化（保留全维但降低精度）。社区常分别研究两者，但缺少“在相同存储预算下”的系统对比。本文要回答：在 Transformer 推理 KV-cache 压缩中，到底是降秩更好还是量化更好？以及差距来自哪里。

评看同预算对比那几张主表即可：它基本把工程选型推向“先量化再谈降秩”，对你后续 KV 压缩路线有直接决策价值。

Samuel Salfati

kv-cachequantizationrank-reduction2026年4月13日arXiv PDF

arXiv泛读

CASK: Core-Aware Selective KV Compression for Reasoning Traces

长链路推理（long-form reasoning）解码时 KV cache 随 token 线性增长，带来显存/带宽/延迟瓶颈，并可能引发推理稳定性下降。现有“推理向 KV 压缩”多以逐 token 重要性打分+驱逐（eviction）为中心，但作者发现：即使改进打分函数，实际保留集合（keep-set）并不会显著重组，说明问题不只是‘更准排序’，而是‘保什么、怎么合并’的结构性定义出了偏差。

评重点看 core/scratch 的定义与 keep-set 不重组的证据；它把问题从“更准打分”改成“该合并什么”，适合启发你做结构化缓存。

Buseong Kim,Heejun Gwon

kv-cacheinference-optimizationlong-context2026年4月13日arXiv PDF

arXiv泛读

Why Smaller Is Slower? Dimensional Misalignment in Compressed LLMs

后训练压缩（尤其是维度缩减：低秩分解/结构化剪枝等）虽然减少参数量与 FLOPs，却常导致张量维度变得“不规则”（如 128→107），触发 GPU 执行栈在框架调度、库实现与硬件层面的非最优路径，出现“模型更小但更慢”的反直觉现象。作者将其系统化命名为 dimensional misalignment（维度失配）。

评作为系统备查很值但不必细读：记住“不对齐维度会掉进慢 kernel”，需要时直接套它的对齐后处理（GAC）救速度。

Jihao Xin,Tian Lyu,Qilong Pan,Kesen Wang,Marco Canini

KAUSTHUMAINcompressiongpu-alignmentinference2026年3月5日arXiv PDF

arXiv泛读

IceCache: Memory-efficient KV-cache Management for Long-Sequence LLMs

长序列 LLM 推理中，KV-cache 随序列长度线性增长，GPU 显存成为主要瓶颈；现有“CPU offload + GPU 保留子集”的方法在“选哪些 token 留在 GPU”上不够精准、更新机制不够强，导致长生成（如 CoT、多步推理、长摘要）中命中率下降、性能与准确率显著退化。

评只看 GPU/CPU 分层策略与长生成退化曲线；方法未必通用，但能给你一个可复现的 offload 基线和命中率诊断框架。

Yuzhen Mao,Qitong Wang,Martin Ester,Ke Li

KV-cachelong-contextpaged-attention2026年4月12日arXiv PDF

arXiv泛读

On The Application of Linear Attention in Multimodal Transformers

多模态 Transformer（尤其视觉 token + 文本 token）序列更长，标准 softmax attention 的 O(N^2) 计算/显存开销成为扩展瓶颈。线性注意力（Linear Attention, LA）虽在单模态中被研究较多，但在多模态预训练（如 CLIP/OpenCLIP 范式）里能否在保持性能的同时获得可观效率收益仍缺少系统验证。

评看训练吞吐-精度曲线与分辨率/序列长度的 scaling 部分即可；若结果站得住，LA 可能是多模态预训最便宜的算力杠杆。

Armin Gerami,Seyedehanita Madani,Ramani Duraiswami

linear-attentionmultimodal-transformerscaling-laws2026年4月11日arXiv PDF

arXiv泛读

SVD-Prune: Training-Free Token Pruning For Efficient Vision-Language Models

VLM/MLLM 在推理与（尤其是训练/微调时的反传）中，视觉 token 序列过长导致计算与显存开销巨大；现有“按注意力/范数/相似度”等局部启发式的 token pruning 容易受位置偏置、attention-sink、信息分散影响，在高剪枝率或细节丰富图像上性能下降明显。

评想找“免训练token剪枝”可用基线就读；只需核对高剪枝率下是否仍稳、以及对不同backbone/分辨率的敏感性，别被单一数据集说服。

Yvon Apedo,Martyna Poreba,Michal Szczepanski,Samia Bouchafa

vlm-efficiencytoken-pruningsvd2026年4月13日arXiv PDF

arXiv泛读

POINTS-Long: Adaptive Dual-Mode Visual Reasoning in MLLMs

长视频/流式场景下视觉 token 随帧数线性增长，导致注意力计算与 KV cache 成本呈二次或高开销增长，MLLM 难以扩展到真实长时应用。现有压缩方法在生产落地上面临三难：压缩比不够、泛化性不足（长视频效率 vs 细粒度推理二选一）、以及与 Flash-Attn/vLLM/SGLang 等推理框架不兼容。

评更像工程落地报告：看它如何在“细节模式/长程模式”间切换且不破坏现有推理栈；只读系统兼容与延迟/显存曲线即可判断值不值跟。

Haicheng Wang,Yuan Liu,Yikun Liu,Zhemeng Yu,Zhongyin Zhao,Yangxiu You ... 省略 2 位作者 ... ,Xiao Zhou,Jie Zhou,Weidi Xie,Yanfeng Wang

long-contextvisual-tokensstreaming2026年4月13日arXiv PDF

arXiv泛读

MEMENTO: Teaching LLMs to Manage Their Own Context

让推理型 LLM 学会“自我管理上下文”：将长链路推理分块并压缩为可复用的致密摘要状态，在保持能力的同时降低上下文/KV cache/计算开销。

评把“上下文管理”从prompt技巧推到可训练轨迹+引擎支持，足以改变我对长推理成本的prior；建议直接复现其vLLM集成与压缩率/掉点权衡。

Vasilis Kontonis,Yuchen Zeng,Shivam Garg,Lingjiao Chen,Hao Tang,Ziyan Wang,Ahmed Awadallah,Eric Horvitz,John Langford,Dimitris Papailiopoulos

Microsoftcontext-compressionreasoningkv-cache2026年4月10日arXiv PDF

arXiv泛读

Min-$k$ Sampling: Decoupling Truncation from Temperature Scaling via Relative Logit Dynamics

现有主流解码采样（Top-k/Top-p/Min-p）通过概率空间截断在“多样性-准确性”间折中，但对温度T极端敏感：T升高会把长尾噪声抬进候选集，导致语义崩塌；而近期logit空间方法Top-nσ虽具温度不变性，却依赖全局方差σ，易被长尾噪声污染，难以刻画头部候选之间的细粒度置信结构与“语义悬崖(semantic cliff)”边界。

评如果你常被高温采样搞崩，这篇值得看其“截断边界与温度解耦”的动机与失败案例；主要读方法定义+高温对比表，别纠结长篇推导。

Yuanhao Ding,Meimingwei Li,Esteban Garces Arias,Matthias Aßenmacher,Christian Heumann,Chongsheng Zhang

decodingsamplingtemperature-invariance2026年4月13日arXiv PDF

arXiv泛读

LoopGuard: Breaking Self-Reinforcing Attention Loops via Dynamic KV Cache Intervention

长上下文生成中存在一种高破坏性的退化：解码会突然坍缩为持续的重复循环（persistent repetition loops），难以自恢复。作者发现其机制是注意力模式坍缩：部分注意力头“锁死”在历史的一个很短后缀上；同时推理时KV cache复用会把这种轨迹固化。更糟的是，许多KV cache管理策略用“基于注意力的重要性”来保留/驱逐缓存，而在坍缩状态下注意力会对重复片段给出虚高重要性，形成自我强化反馈，进一步降低缓存多样性并放大循环。

评把重复循环当成“KV自强化退化”来处理很对味，但结论依赖触发设置是否干净；只看退化复现协议与干预前后曲线，能否当线上保险丝。

Dongjie Xu,Hao Wu,Weijie Shi,Yue Cui,Yuanjun Liu,Jiawei Li,Haolun Ma,An Liu,Jia Zhu,Jiajie Xu

kv-cacheattention-collapselong-context2026年4月11日arXiv PDF

arXiv泛读

CodeComp: Structural KV Cache Compression for Agentic Coding

在仓库级 agentic coding（如故障定位、补丁生成）中，长上下文推理的主要瓶颈是 KV cache 显存占用随上下文线性增长。现有 KV 压缩/驱逐方法几乎都用 attention 作为“重要性”信号，但对代码而言，语义关键往往由控制流/数据流/调用关系等结构决定，导致 attention-only 压缩会系统性误删对理解至关重要的结构性 token（如 callsite、branch condition、assignment、def-use 链头部等），从而显著损害定位与生成质量。

评它把“attention重要性=该保留”这个prior在代码场景里直接打碎；建议只看attention-structure mismatch量化与在固定显存预算下的收益，立刻可做内部ablation。

Qiujiang Chen,Jing Xiong,Chenyang Zhao,Sidi Yang,Ngai Wong

kv-cachelong-contextprogram-analysis2026年4月11日arXiv PDF

arXiv泛读

CodeQuant: Unified Clustering and Quantization for Enhanced Outlier Smoothing in Low-Precision Mixture-of-Experts

MoE 大模型在低比特 PTQ（尤其 4-bit）下精度损失的核心瓶颈是 outliers：大幅值激活会拉大动态范围并放大量化误差；即便已有 rotation-based smoothing 能“摊平”部分 outlier，仍存在残余误差。与此同时，MoE 的超大参数规模使得低精度部署对内存与吞吐至关重要，但 outlier 让可靠低精度落地变得困难。

评MoE 4-bit落地若被outlier卡住可扫一眼：它把“平滑+聚类码本”合在一起，偏工程可行性；重点看不同expert/层的稳定性而非平均分。

Xiangyang Yin,Xingyu Liu,Tianhua Xia,Bo Bao,Vithursan Thangarasa,Valavan Manohararajah,Eric Sather,Sai Qian Zhang

quantizationmixture-of-expertsoutliers2026年4月12日arXiv PDF

arXiv泛读

Omnimodal Dataset Distillation via High-order Proxy Alignment

现有数据蒸馏（Dataset Distillation）方法主要停留在单模态或双模态（多为图文）场景，目标通常是用少量合成样本复现真实数据训练轨迹/终点性能。但当模态数>2（omnimodal）时，模态异质性更强、跨模态交互从“成对”升级为“高阶”，导致传统基于两两对齐/两两相似度的蒸馏目标难以统一扩展，并出现更严重的教师-学生训练终点（endpoint）偏差累积问题。

评作为“多于两模态蒸馏”立题值得备查，但我会把它当弱信号：看高阶对齐目标是否真带来可复现的端点收益，以及对模态缺失/噪声的脆弱性。

Yuxuan Gao,Xiaohao Liu,Xiaobo Xia,Tongliang Liu

dataset-distillationmultimodalalignment2026年4月12日arXiv PDF

arXiv泛读

See Fair, Speak Truth: Equitable Attention Improves Grounding and Reduces Hallucination in Vision-Language Alignment

多模态大模型（MLLM）在图像/视频描述与问答中常出现“物体幻觉”（hallucination）：生成了画面中不存在的物体，或遗漏真实存在但不显眼的物体。论文指出一个关键根因在解码阶段的注意力分配不公：注意力会向视觉上更显著、面积更大、语料更高频的对象塌缩，导致小物体/稀有物体/边缘物体在解码中缺乏代表性机会，从而 grounding 不充分并诱发幻觉。

评推理时改注意力分配来压幻觉很诱人，但容易被评测口径“看起来更少说错”误导；只读其hallucination度量与小/稀有物体分组结果再决定。

Mohammad Anas Azeez,Ankan Deria,Zohaib Hasan Siddiqui,Adinath Madhavrao Dukre,Rafiq Ali,Sara Atito,Yutong Xie,Imran Razzak

hallucinationvision-languagedecoding2026年4月10日arXiv PDF

arXiv

ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation

在LLM后训练量化(PTQ)中，兼顾逐层旋转的高精度与可离线融合带来的低推理开销，解决逐层旋转需要在线计算导致的额外延迟问题。

评又一篇旋转式PTQ的部署优化：知道它能把逐层旋转近似成低开销残差就够了；除非你正卡在在线旋转延迟，否则不必细读正文。

Suyoung Kim,Sunghyun Wee,Hyeonjin Kim,Kyomin Hwang,Hyunho Lee,Nojun Kwak

quantizationpost-training-quantizationrotation2026年4月13日arXiv PDF

arXiv

Efficient Matrix Implementation for Rotary Position Embedding

RoPE 在实际实现中存在 split/merge 等向量级操作开销，尤其在 2D/3D RoPE 时导致硬件利用率差，影响大模型训练/推理效率。

评算子党可瞄一眼：把 RoPE 的 split/merge 变成矩阵乘更利于 fuse，但主要是工程等价替换，读实现细节/性能表就够。

Chen Minqi,Zhongqi Yue,Shihao Zhang,Yun Xu,Peng Wu,kaixiang Xu,Zeyi Huang,Hanwang Zhang

RoPEkernel-optimizationtransformer2026年4月10日arXiv PDF

arXiv

SpecMoE: A Fast and Efficient Mixture-of-Experts Inference via Self-Assisted Speculative Decoding

解决MoE推理部署中的高显存/带宽开销与吞吐受限问题，尤其在内存受限与CPU-offload场景下实现更高效的MoE推理。

评把 speculative decoding 套到 MoE 推理且不改训练，适合当部署技巧备查；重点看在 CPU-offload/带宽受限下是否真能稳住收益。

Jehyeon Bang,Eunyeong Cho,Ranggi Hwang,Jinha Chung,Minsoo Rhu

moespeculative-decodinginference-optimization2026年4月11日arXiv PDF

arXiv

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

如何用统一、真实且多样的工作负载来可靠评测 Speculative Decoding（推测解码）在不同数据与服务形态下的加速收益。

评别指望新算法，价值在把 SD 的“数据/并发强依赖”摊开讲清；只看任务覆盖、并发/吞吐指标定义和对比协议即可。

Talor Abramovich,Maor Ashkenazi,Carl,Putterman,Benjamin Chislett,Tiyasa Mitra,Bita Darvish Rouhani,Ran Zilberstein,Yonatan Geifman

speculative-decodinginference-benchmarkllm-serving2026年2月10日arXiv PDF

arXiv

StreamServe: Adaptive Speculative Flows for Low-Latency Disaggregated LLM Serving

在负载突发且多样的在线服务中，如何在“解耦式(disaggregated) prefill/decode”架构下同时兼顾低延迟与高吞吐，并让推测解码深度随运行时动态自适应。

评结论更像 serving 策略而非模型洞见：在 disaggregated prefill/decode 下做运行时自适应 SD，建议只看调度/控制策略与尾延迟曲线。

Satyam Kumar,Arpit Singh Gautam,Kailash Talreja,Saurabh Jha

llm-servingdisaggregated-prefill-decodespeculative-decoding2026年2月11日arXiv PDF

arXiv

ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios

在高并发线上服务场景下，推测解码（Speculative Decoding）因验证阶段算力成为瓶颈而收益下降，如何在吞吐与验证开销间自适应权衡。

评指出高并发时 verification compute 反噬 SD 的盲区，这点值得记住；但方法偏系统工程，读瓶颈分析和在 SGLang 的落地结果就行。

Xinyi Hu,Yuhao Shen,Baolin Zhang,Hengxin Zhang,Jun Dai,Shuang Ge,Lei Chen,Yue Li,Mingcheng Wan

Qwen Applications Business Group of AlibabaZhejiang Universityspeculative-decodingservinghigh-concurrency2026年3月10日arXiv PDF

arXiv

ConfigSpec: Profiling-Based Configuration Selection for Distributed Edge--Cloud Speculative LLM Serving

在边缘-云协同的speculative decoding部署中，如何在草稿模型/量化/推测长度/异构设备等巨大配置空间里自动选出最优配置以兼顾吞吐、成本与能耗。

评工程上很现实：把草稿模型/量化/长度/异构设备的配置选择做成 profiling+建模；当工具思路参考即可，细读不如直接看决策流程图。

Xiangchen Li,Saeid Ghafouri,Jiakun Fan,Babar Ali,Hans Vandierendonck,Dimitrios S. Nikolopoulos

Virginia TechBlacksburgQueen’s University BelfastBelfastNorthernspeculative-decodingedge-cloudprofiling2026年4月8日arXiv PDF

arXiv

SMART: When is it Actually Worth Expanding a Speculative Tree?

树状speculative decoding在扩大分支时可能出现“效率悖论”（开销超线性增长导致负加速），如何在运行时判断何时值得扩树以最大化端到端速度。

评把“扩树反而变慢”的系统悖论讲透并给运行时判据，适合做线上 guardrail；只看何时扩树的规则与负加速案例即可。

Lifu Wang,Pan Zhou

tree-speculationspeculative-decodingruntime-optimization2026年4月9日arXiv PDF

arXiv

A-IO: Adaptive Inference Orchestration for Memory-Bound NPUs

解决LLM在异构NPU平台部署时，自回归解码阶段因内存带宽/同步开销导致吞吐与延迟受限、且静态单模型部署出现“模型缩放悖论”的问题。

评对 NPU 上 memory-bound 解码的提醒比方法更有用：很多细粒度 SD/小技巧在编译约束下失效；只看“模型缩放悖论”与编排策略。

Chen Zhang,Yan Ding,Haotian Wang,Chubo Liu,Keqin Li,Kenli Li

Hunan Universityinference-optimizationnpumemory-bound2026年4月10日arXiv PDF

arXiv

VTC: DNN Compilation with Virtual Tensors for Data Movement Elimination

在DNN/LLM编译中系统性消除不必要的数据搬运（data movement），缓解算力与内存访问延迟差距导致的性能瓶颈。

评编译视角把 data movement 当一等公民来消除，可能真能解释不少端到端掉速；但离你栈远就当概念备查，重点看 IR/互操作设计。

Muyan Hu,Ahan Gupta,Jiachen Yuan,Vima Gupta,Taeksang Kim,Xin Xu,Janardhan Kulkarni,Ofer Dekel,Vikram Adve,Charith Mendis

compilerdata-movementllm-systems2026年2月11日arXiv PDF

arXiv

Spotlight and Shadow: Attention-Guided Dual-Anchor Introspective Decoding for MLLM Hallucination Mitigation

MLLM生成文本与视觉内容不一致的幻觉问题，如何在不改训练的情况下通过解码阶段动态校准每个token的生成以降低幻觉。

评不改训练的“注意力引导自省解码”听起来香但易被评测套路影响；当弱信号看，重点核对消融/是否牺牲通用能力与推理开销。

Yebo Wu,Han Jin,Zhijiang Guo,Li Li

hallucination-mitigationcontrastive-decodingintrospective-decoding2026年4月11日arXiv PDF

arXiv

DeCoVec: Building Decoding Space based Task Vector for Large Language Models via In-Context Learning

如何在不训练、不改模型参数的前提下构造可迁移的“任务向量”来稳定提升LLM在特定任务上的生成/推理表现。

评作为“无训练 steering”备查即可：logits 任务向量想法新但稳定性/可迁移性证据偏弱，扫一眼实验表和失败例子就够。

Feiyang Li,Yile Wang

task-vectorsin-context-learninglogit-steering2026年4月13日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXivHF Daily▲ 2泛读

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

开放式大音频语言模型（LALM）在真实世界长音频、复杂声学场景（噪声、多说话人、跨语种、音乐/环境声混合）上的泛化与推理能力不足；同时训练往往过度绑定学术基准，导致“榜单好看但部署不稳”，且缺少对长音频进行可对齐、可解释推理的机制。

评更像开放配方与工程基线：预训练研究员只需看数据构建/长音频训练细节与消融，结论主要指导“怎么训”而非新机制。

Sreyan Ghosh,Arushi Goel,Kaousheik Jayakumar,Lasha Koroshinadze,Nishit Anand,Zhifeng Kong ... 省略 8 位作者 ... ,Mohammad Shoeybi,Bryan Catanzaro,Ming-Yu Liu,Wei Ping

audio-language-modellong-contexttemporal-grounding2026年4月13日arXiv PDF

arXiv泛读

Grid2Matrix: Revealing Digital Agnosia in Vision-Language Models

现有视觉语言模型在多模态推理榜单上表现强，但这些评测往往不要求“穷尽式读取”图像细节，掩盖了模型在密集空间转录（dense spatial readout）上的系统性失败。作者提出并验证一种现象：模型在很小的网格规模就会突然崩溃（非渐进退化），即便视觉编码器内部仍保留可恢复的结构信息，最终语言输出却无法忠实表达——称为“Digital Agnosia（数字失认）”。

评诊断很干净：把“密集读图”失败从语义噪声里剥出来，建议直接看崩溃拐点曲线与分解实验，用来指导你做对齐/解码侧 ablation。

Yunkai Zhang,Linda Li,Yingxin Cui,Xiyuan Ruan,Zeyu Zheng,Kezhen Chen,Yi Zhang,Diji Yang

vlmbenchmarkvisual-readout2026年4月6日arXiv PDF

arXiv泛读

STORM: End-to-End Referring Multi-Object Tracking in Videos

RMOT（Referring Multi-Object Tracking）要求模型在整段视频中“找出并持续跟踪”所有与文本指代表达匹配的多个目标（可能包含属性、关系、交互与时序约束）。现有方法多为“文本引导检测/分割 + 外部跟踪器”的拼装式流水线，难以端到端学习跨模态时空表征，且受限于RMOT标注视频稀缺、表达歧义与域受限，导致复杂指代与多目标关系推理能力不足。

评端到端 RMOT 方向对预训练启发有限但可看：重点读模型是否真摆脱外部跟踪器、以及长尾/遮挡下的误差归因，否则当系统论文略过。

Zijia Lu,Jingru Yi,Jue Wang,Yuxiao Chen,Junwen Chen,Xinyu Li,Davide Modolo

referring-trackingvideo-vlmend-to-end2026年4月12日arXiv PDF

arXiv泛读

BareBones: Benchmarking Zero-Shot Geometric Comprehension in VLMs

现有VLM零样本评测很难区分“真正的几何形状理解”与“依赖纹理/颜色/背景上下文的统计捷径”。大量基准把语义、纹理与环境线索混在一起，且粗标注（框/多边形）会泄露背景信息，导致模型看似强大但可能并不具备纯几何结构辨识能力。

评值得当评测工具：只看去纹理/控背景的对照结果就能判断你家 VLM 是否靠捷径，能直接驱动“加形状偏置数据/目标”的行动。

Aaditya Baranwal,Vishal Yadav,Abhishek Rajora

vlm-evalgeometryzero-shot2026年4月12日arXiv PDF

arXiv泛读

TraversalBench: Challenging Paths to Follow for Vision Language Models

现有视觉语言模型在多模态基准上总体表现很强，但对“沿着图中单条连续路径从起点精确走到终点，并按顺序读出沿途标记”的能力缺乏系统测试；该能力本质上要求持续的视觉绑定、局部连续性判断与抗干扰的序列化注意，而这恰是模型常见薄弱点。

评读 Fig/表里“哪些结构因素击穿模型”就够：它把路径跟随从 OCR/常识里剥离出来，适合用作你做视觉绑定与序列化注意的回归集。

Clara Petrova,Zhuo Chen,Marin Soljačić

vlm-benchmarkvisual-reasoningpath-traversal2026年4月13日arXiv PDF

arXiv泛读

OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

现有多模态大模型多擅长短视频理解（caption/QA），但难以把“数分钟到数十分钟”的电影/剧集长视频转写为细粒度、时间对齐、层级结构化的剧本（scene-by-scene，含动作/对白/表情/音频线索）。核心难点在于长程时序理解、叙事一致性、多角色指代与跨模态（画面+语音+音效/BGM）融合，以及超长生成带来的计算与评测困难。

评更偏数据与评测基建：预训练角度只需看长视频切分/对齐标注方案和评测协议，模型本身未必给出可复用的长程机制。

Junfu Pu,Yuxin Chen,Teng Wang,Ying Shan

long-video-understandingaudio-visual-llmbenchmark2026年4月13日arXiv PDF

arXiv泛读

Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding

现有视频字幕多为“单段落叙事”，把视觉动态、音频事件、实体身份与场景信息混写在同一文本流里，导致：①跨镜头的实体指代不稳定、重复描述多、易产生身份幻觉；②并发的视听事件缺少显式对齐，局部细节难以精修；③结构纠缠使得MLLM学习成本高，尤其小模型更难从自由文本中自行解耦关系。

评结构化字幕表示有现实价值：建议只读表示分解设计与跨镜头指代一致性的消融，能直接启发你改数据格式而不是改模型。

Tencent Hunyuan Team

Tencentvideo-captioningstructured-representationmultimodal-llm2026年4月13日arXiv PDF

arXiv泛读

Seeing No Evil: Blinding Large Vision-Language Models to Safety Instructions via Adversarial Attention Hijacking

对齐后的LVLM在生成时需要持续“检索”安全指令（system safety前缀、角色分隔符、对话格式token等）来维持拒答行为；但现有视觉越狱多从输出logits层面硬推有害回复，导致与模型内部的“注意力安全检索机制”对抗方向不一致，出现严重梯度冲突，优化震荡/平台期明显，收敛慢、需要更大扰动与更多迭代。

评安全侧必读但对预训练是“负面启发”：注意力劫持把对齐依赖的检索链条打穿，建议复现其攻击设置做内部红队回归。

Jingru Li,Wei Ren,Tianqing Zhu

vlm-safetyjailbreakadversarial-attack2026年4月11日arXiv PDF

arXiv泛读

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

如何“定量、可复现、可跨任务/跨主体”地评估从无标注人类视频中学习到的 latent action（潜在动作）表示质量，而不是把表示好坏混在下游机器人策略成败里一起评估。

评基准比方法更有用：它把 latent action 表示从下游策略成败里解耦，建议直接看任务划分与指标定义，方便你评估自家表征是否真泛化。

Dujun Nie,Fengjiao Chen,Qi Lv,Jun Kuang,Xiaoyu Li,Xuezhi Cao,Xunliang Cai

vision-language-actionroboticsbenchmark2026年4月13日arXiv PDF

arXiv泛读

GTASA: Ground Truth Annotations for Spatiotemporal Analysis, Evaluation and Training of Video Models

如何为视频生成与视频理解提供“可验证的物理合理性与语义忠实性”的地面真值（ground truth）标注，从而能系统评测/诊断视频模型的时空推理能力，并提供可扩展训练数据。

评当作“可控视频世界状态”数据源备查即可：只看标注覆盖表和评测协议，判断能否直接拿来做时空一致性探针。

Nicolae Cudlenco,Mihai Masala,Marius Leordeanu

video-benchmarkspatiotemporal-reasoningground-truth-3d2026年4月12日arXiv PDF

arXiv泛读

EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models

统一多模态嵌入（unified embedding space）在真实部署中常处于“稀疏配对监督”场景：训练时只对少数模态对（如图文）有配对数据，许多非锚点模态对（如音频↔深度、红外↔音频）从未共同出现，导致推理时这些“未配对模态对”的零样本跨模态迁移（检索/分类）表现脆弱。论文将这种能力缺口概括为 emergent alignment（涌现对齐）：即便各模态都与同一锚点对齐良好，也不必然意味着非锚点模态之间能可靠对齐。

评值得核对它是否真修复“锚点对齐≠非锚点对齐”的盲点：只看零样本未配对模态对结果和是否牺牲图文主任务。

Jincheng Xie,Xingchen Xiao,Runheng Liu,Zhongyi Huang,Yu Zheng,Heyan Huang

Tsinghua UniversityBeijing Institute of TechnologyVice presidentmultimodal-embeddingzero-shot-transfermodality-bridging2026年4月13日arXiv PDF

arXiv泛读

Bottleneck Tokens for Unified Multimodal Retrieval

将 decoder-only 多模态大模型（MLLM）改造成“统一多模态检索嵌入模型”时存在两类结构性缺口： (1) 现有方法常用 implicit pooling，把某个普通词表 token（如 <EOS>）的最后隐状态当作全局嵌入，但该 token 并非为信息聚合设计，聚合能力不稳定。 (2) 仅用对比学习（InfoNCE）做检索微调只提供“配对级”信号：告诉模型哪些 query–candidate 应接近，但没有“token 级”机制指导模型如何把跨模态、跨长度的细粒度语义压缩进一个固定维度向量，导致在 QA-style 等语义要求高的检索任务上表现受限。

评把检索 embedding 的 pooling 变成显式瓶颈 token 这点可直接复现：重点看消融里对比<EOS> pooling 与 token 级训练信号的增益。

Siyu Sun,Jing Ren,Zhaohe Liao,Dongxiao Mao,Xiangyuan Ren,Yiyi Zhang ... 省略 1 位作者 ... ,Weixiong Lin,Jiang Shaohua,Liqing Zhang,Yuchao Zheng

multimodal-retrievalbottleneck-tokenspooling2026年4月13日arXiv PDF

arXiv

When Meaning Isn't Literal: Exploring Idiomatic Meaning Across Languages and Modalities

评测并改进模型对跨语言、跨模态的习语/隐喻等非字面意义理解能力，揭示LLM/VLM在比喻推理上的系统性盲点。

评作为鲁棒性基准备查即可：只扫错误类型统计，看看模型是否仍靠字面线索；不太会直接指导预训练配方。

Sarmistha Das,Shreyas Guha,Suvrayan Bandyopadhyay,Salisa Phosit,Kitsuchart Pasupa,Sriparna Saha

idiomsmultilingualmultimodal-benchmark2026年4月12日arXiv PDF

arXiv

CArtBench: Evaluating Vision-Language Models on Chinese Art Understanding, Interpretation, and Authenticity

如何系统评测VLM在中文艺术品上的高阶理解能力：证据对齐推理、专家式长文赏析、可辩护的再阐释，以及真伪/风格鉴别等“鉴赏级”能力。

评更像垂直评测集：只看证据链接/真伪鉴别两类题的失败模式，判断是否暴露“长文生成无证据约束”的老问题。

Xuefeng Wei,Zhixuan Wang,Xuan Zhou,Zhi Qu,Hongyao Li,Yusuke Sakai,Hidetaka Kamigaito,Taro Watanabe

vlm-benchmarkchinese-artevidence-grounding2026年4月13日arXiv PDF

arXiv

CFMS: A Coarse-to-Fine Multimodal Synthesis Framework for Enhanced Tabular Reasoning

如何在表格推理中同时利用“整体视觉结构线索”和“可控的符号化操作”，避免纯CoT/纯符号方法各自的盲点与低效。

评方法味道偏工程拼装，信号可能弱：只看两阶段解耦是否带来可验证的中间状态与错误可定位性，别被总分提升带跑。

Qixian Huang,Hongqiang Lin,Tong Fu,Yingsen Wang,Zhenghui Fu,Qirui Wang,Yiding Sun,Dongxu Zhang

tabular-reasoningmultimodal-reasoningneuro-symbolic2026年4月13日arXiv PDF

arXiv

Reasoning Resides in Layers: Restoring Temporal Reasoning in Video-Language Models with Layer-Selective Merging

如何在不重新训练的情况下，缓解视频-语言模型在多模态对齐后出现的时间推理能力下降（temporal reasoning退化）。

评训练 free 的层选择合并如果稳，能立刻变成你们的适配后修复动作：只看跨模型/任务一致性与对齐不回退的证据。

Zihang Fu,Haonan Wang,Jian Kang,Kenji Kawaguchi,Jiaying Wu

video-language-modelsmodel-mergingtemporal-reasoning2026年4月13日arXiv PDF

arXiv

LVSum: A Benchmark for Timestamp-Aware Long Video Summarization

评测多模态大模型在长视频摘要中的时间一致性与“带时间戳的语义对齐”能力，暴露其长时序理解缺陷。

评基准本身比方法更有用：只看时间戳一致性指标和长视频切分设定，评估能否当作长上下文视频预训练的回归测试。

Alkesh Patel,Melis Ozyildirim,Ying-Chang Cheng,Ganesh Nagarajan

benchmarklong-videotemporal-grounding2026年4月11日arXiv PDF

arXiv

Edu-MMBias: A Three-Tier Multimodal Benchmark for Auditing Social Bias in Vision-Language Models under Educational Contexts

如何在教育场景下系统性审计VLM的社会偏见，并区分视觉通道引入/放大的隐性偏差。

评偏安全审计向：只看“视觉输入放大偏见”的对照实验设计是否干净，以及三层级标签是否可迁移到你们的对齐评测。

Ruijia Li,Mingzi Zhang,Zengyi Yu,Yuang Wei,Bo Jiang

vlm-benchmarksocial-biaseducation2026年4月11日arXiv PDF

arXiv

Detecting Corporate AI-Washing via Cross-Modal Semantic Inconsistency Learning

如何用跨模态“主张-证据”推理而非表面文本特征，检测企业在多渠道披露中的AI-washing（夸大/虚构AI能力）。

评任务定义有趣但易被数据伪线索污染：只看跨模态一致性/NLI 标注流程与反作弊实验，别花时间读完整模型细节。

Zhanjie Wen,Jingqiao Guo

multimodal-benchmarkcross-modal-nliconsistency2026年3月24日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXiv泛读

Efficient Training for Cross-lingual Speech Language Models

如何在语音数据稀缺、且多语言语音资源更稀缺的现实约束下，训练一个端到端的跨语言语音大模型，使其同时具备（1）语音-文本跨模态对齐能力与（2）跨语言泛化能力，并在对话式生成中兼顾质量与低延迟。

评只看离散语音token统一建模+对齐/指令微调的训练配方；若你在做多语种语音预训，拿它当“省数据baseline”复现即可。

Yan Zhou,Qingkai Fang,Yun Hong,Yang Feng

speech-llmdiscrete-speech-tokenscross-lingual2026年4月13日arXiv PDF

arXiv泛读

PhyMix: Towards Physically Consistent Single-Image 3D Indoor Scene Generation with Implicit--Explicit Optimization

单张图像生成/重建3D室内场景的现有方法往往“看起来合理”但不满足物理一致性（碰撞、悬空、支撑不稳、不可部署/不可导航等）。核心问题是：如何系统化度量物理一致性，并将物理约束有效注入生成模型的训练与推理，从而得到既视觉逼真又物理可行的3D场景。

评预训练角度主要价值是那套物理一致性 evaluator/指标；方法本身像推理期补丁，读指标定义与失败案例就够。

Dongli Wu,Jingyu Hu,Ka-Hei Hui,Xiaobao Wei,Chengwen Luo,Jianqiang Li,Zhengzhe Liu

3d-generationphysical-consistencybenchmark2026年4月11日arXiv PDF

arXiv泛读

LottieGPT: Tokenizing Vector Animation for Autoregressive Generation

现有生成式模型几乎都工作在像素/栅格空间，无法“原生”生成可编辑、分层、参数化、分辨率无关的矢量动画（vector animation）。核心难点在于：如何把包含层级结构（layers/groups/shapes）与时间轴运动（keyframes/easing/interpolation）的 Lottie/AE 动画，编码成适合自回归建模的紧凑 token 序列；以及缺乏大规模高质量矢量动画数据。

评看它怎么把层级结构+时间轴动作压成自回归token（以及数据清洗细节）；这能直接指导你做“结构化媒体”预训的tokenizer设计。

Junhao Chen,Kejun Gao,Yuehan Cui,Mingze Sun,Mingjin Chen,Shaohui Wang ... 省略 1 位作者 ... ,Fei Ma,Qi Tian,Ruqi Huang,Hao Zhao

vector-animationtokenizationautoregressive2026年4月13日arXiv PDF

arXiv泛读

Continuous Adversarial Flow Models

Flow Matching（FM）在视觉生成中常出现“无 guidance 时样本偏离数据分布（out-of-distribution）”的问题。作者认为根因之一是 FM 训练使用固定的欧氏 MSE 速度匹配损失，有限容量模型在这种度量下会产生不符合数据流形的泛化。问题是：能否在连续时间流模型中引入对抗式、可学习的判别准则，以更好地对齐真实数据分布，同时保持连续时间 ODE 生成框架？

评只需看对抗判别损失如何插进连续时间FM训练与稳定性ablation；若成立，后训练给现有FM加个判别器可能是低成本增益。

Shanchuan Lin,Ceyuan Yang,Zhijie Lin,Hao Chen,Haoqi Fan

flow-modelsadversarial-trainingimage-generation2026年4月13日arXiv PDF

arXiv泛读

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

现有视觉生成的奖励模型大多把人类偏好压缩成“单一标量分数”，缺乏可解释的推理过程，导致两类问题：一是训练时奖励稀疏且易被模型投机（reward hacking），二是测试时无法把“哪里错了”转化为可执行的改进动作（例如改提示词）。论文要解决的是：能否让奖励模型先生成结构化、多维度的批判性理由（critique/rationale），再给分，并让这些理由在训练与测试阶段都能直接驱动生成质量提升？

评读rationale奖励如何减少reward hacking、并在测试时驱动prompt改写那两段实验；对做RM/对齐的人是可直接迁移的训练信号设计。

Haozhe Wang,Cong Wei,Weiming Ren,Jiaming Liu,Fangzhen Lin,Wenhu Chen

reward-modelvisual-generationrationale2026年4月13日arXiv PDF

arXiv泛读

Any 3D Scene is Worth 1K Tokens: 3D-Grounded Representation for Scene Generation at Scale

当前 3D 场景生成主流依赖 2D 多视图/视频扩散：把“3D 空间外推”退化为“2D 时间延展”。这带来两大根本问题：(1) 表征冗余：多视图之间大量重叠导致 token 数爆炸、算力浪费；(2) 空间一致性受限：2D latent 缺乏内生 3D 结构建模能力，长轨迹生成会累积误差、结构逐步崩坏。论文要解决的是：能否学习一种固定长度、真正 3D-grounded 的隐式 latent，把任意数量/分辨率的多视图压缩为少量 3D token，并在该 3D latent 空间内直接做扩散生成，从而同时提升效率与空间一致性？

评只看“任意场景压到~1K 3D token”的表征学习细节与token-视图数无关的扩展曲线；能校正你对多视图=视频扩散的算力prior。

Dongxu Wei,Qi Xu,Zhiqi Li,Hangning Zhou,Cong Qiu,Hailong Qin,Mu Yang,Zhaopeng Cui,Peidong Liu

3d-generationlatent-representationscene-generation2026年4月13日arXiv PDF

arXiv泛读

Tracking High-order Evolutions via Cascading Low-rank Fitting

高阶扩散/流匹配开始同时学习速度、加速度、jerk 等高阶导数，但朴素做法为每一阶导数单独训练一个网络，参数量随阶数线性膨胀；即便用 LoRA 给每一阶配独立 adapter，也忽略了“高阶导数由低阶状态递推而来”的结构，导致参数利用率不高。

评看级联低秩拟合是否真能共享高阶导数参数、以及阶数提升的边际收益曲线；若曲线不陡，这方向对预训算力不划算。

Zhao Song

diffusion-modelsflow-matchinghigher-order-dynamics2026年4月13日arXiv PDF

arXiv泛读

Mining Attribute Subspaces for Efficient Fine-tuning of 3D Foundation Models

3D 基座模型（如 VGGT）下游微调普遍依赖 LoRA，但 3D 数据的变化因素（纹理、几何、相机运动、光照等）更“属性化/可控”。核心问题是：是否存在与每类属性变化对应的 LoRA 子空间？这些子空间是否近似解耦（正交）？以及如何稳定、有效地从有限/合成数据中挖掘这些子空间，用于更高效的微调与更强的迁移。

评只读属性LoRA子空间“近似正交/可组合”的证据与挖掘流程；若可信，你可以把3D微调改成学少量系数而非新adapter。

Yu Jiang,Hanwen Jiang,Ahmed Abdelkader,Wen-Sheng Chu,Brandon Y. Feng,Zhangyang Wang,Qixing Huang

lorapeftsubspace2026年4月11日arXiv PDF

arXivHF Daily▲ 16

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

如何在同一视频生成框架中统一融合文本/参考图/音频/姿态等多模态条件，生成高质量且可控的人-物交互视频。

评作为多条件注入的工程参考即可：看统一condition接口和音画同步模块；其余更像系统堆料，难迁移到通用预训结论。

Donghao Zhou,Guisheng Liu,Hao Yang,Jiatong Li,Jingyu Lin,Xiaohu Huang ... 省略 2 位作者 ... ,Cunjian Chen,Shilei Wen,Chi-Wing Fu,Pheng-Ann Heng

video-generationmultimodal-conditioninghuman-object-interaction2026年4月13日arXiv PDF GitHub

arXiv

VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation

如何对视频生成模型进行同时覆盖“生成质量(技术保真/伪影)”与“审美质量(感知/艺术性)”的统一、可扩展评测。

评当作评测文献备查：只看taxonomy和标注协议/一致性；对预训研究的直接动作是把审美维度纳入离线评测而非训练目标。

Longteng Jiang,DanDan Zheng,Qianqian Qiao,Heng Huang,Huaye Wang,Yihang Bo,Bao Peng,Jingdong Chen,Jun Zhou,Xin Jin

video-generationbenchmarkaesthetic-evaluation2026年4月11日arXiv PDF

arXiv

On the Robustness of Watermarking for Autoregressive Image Generation

评估并攻击自回归图像生成模型的水印方案，检验其在“去水印”和“伪造水印”场景下的鲁棒性与可用性。

评作为水印“负面结果”备查即可：弱威胁模型下都能去/伪造，结论对治理有警示但不太指导预训练动作。

Andreas Müller,Denis Lukovnikov,Shingo Kodama,Minh Pham,Anubhav Jain,Jonathan Petit,Niv Cohen,Asja Fischer

watermarkingautoregressive-image-generationrobustness2026年4月13日arXiv PDF

arXiv

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

在统一框架中同时实现音频多模态理解、通用音频/音乐/语音的生成与编辑，并缓解音频编辑数据稀缺导致的能力缺口。

评想做音频多模态预训练就只需看数据与训练配方：>100万编辑对可能比模型结构更值钱，复现成本主要在数据管线。

Zeyue Tian,Binxin Yang,Zhaoyang Liu,Jiexuan Zhang,Ruibin Yuan,Hubery Yin ... 省略 1 位作者 ... ,Chen Li,Jing Lv,Wei Xue,Yike Guo

Hong Kong University of Science and TechnologyWeChat VisionPeking Universityaudio-generationaudio-editingdiffusion-transformer2026年4月12日arXiv PDF

arXiv

VidAudio-Bench: Benchmarking V2A and VT2A Generation across Four Audio Categories

视频到音频（V2A）/视频-文本到音频（VT2A）生成缺少细粒度、可对齐人类偏好的系统评测，且不同音频类别（音效/音乐/语音/歌唱）需求差异大。

评当作评测工具箱看：只读指标与主观一致性那几页，能快速判断你自家V2A改动是否真提升而非“听感玄学”。

Qian Zhang,Yuqin Cao,Yixuan Gao,Xiongkuo Min

Shanghai Jiaotong Universityvideo-to-audiobenchmarkaudio-generation2026年4月12日arXiv PDF

arXiv

EvoDiagram: Agentic Editable Diagram Creation via Design Expertise Evolution

解决自动化高保真图表/示意图生成中语义拓扑、视觉风格与空间布局需要协同优化且难以精确可控的问题（像素生成不可控、纯代码生成不够直观）。

评更像Agent系统论文：中间表示(canvas schema)值得借来做可控生成，但对预训练本身增量有限，主要看IR设计与基准。

Tianfu Wang,Leilei Ding,Ziyang Tao,Yi Zhan,Zhiyuan Ma,Wei Wu ... 省略 6 位作者 ... ,Qi Liu,Nicholas Jing Yuan,Yanyong Zhang,Hui Xiong

multi-agentintermediate-representationdiagram-generation2026年2月20日arXiv PDF

HF Daily▲ 42

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

统一多模态模型中视频生成计算远高于理解，扩展理解型MLLM支持生成代价高。

评反向统一（生成器→理解）的思路有意思，值得记住这个方向存在；但摘要没给硬对比数字，要看实验节才能判断是不是只是paradigm paper。

Luozheng Qin,Jia Gong,joeqian,Tianjiao Li,Li Xu,Haoyu Pan,Chao Qu,Zhiyu Tan,Hao Li

unified-multimodalvideo-generationflow-matching2026年4月9日arXiv PDF GitHub

HF Daily▲ 6

Learning Long-term Motion Embeddings for Efficient Kinematics Generation

如何突破全视频生成在探索多条未来运动轨迹时的计算效率瓶颈？

评视觉生成域的流匹配工作，将时序压缩64倍后做连续变量生成，对探索 LLM 连续 token 表达或原生多模态生成的效率优化有侧面参考价值。

Nick Stracke,Kolja Bauer,Stefan Andreas Baumann,Miguel Angel Bautista,Josh Susskind,Björn Ommer

LMUFlow MatchingMotion GenerationTemporal Compression2026年4月13日arXiv PDF GitHub

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv精读

Efficient Process Reward Modeling via Contrastive Mutual Information

评应立刻在内部 PRM 数据生产上复现：用对比互信息把 step 奖励从重 rollout 变轻概率估计，若曲线不塌就是直接省一个数量级算力。

Nakyung Lee,Sangwoo Hong,Jungwoo Lee

process-reward-modelcotmutual-information2026年4月12日arXiv PDF

arXiv精读

Triviality Corrected Endogenous Reward

评改变我对“用 logp 当无评审奖励”的 prior：他们把 triviality 坍缩讲清并给可实现修正；建议直接照着做你们写作 RFT 的对照实验。

Xinda Wang,Zhengxu Hou,Yangshijie Zhang,Bingren Yan,Jialin Liu,Chenzhuo Zhao,Zhibo Yang,Bin-Bin Yang,Feng Xiao

reinforcement-learningunsupervised-rewardopen-ended-generation2026年4月13日arXiv PDF

arXiv精读

Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation

评值得细读推导：把 hindsight 自评奖励形式化成 MI+KL 目标并给校准机制，能直接指导你们做 agent RL 时如何防“刷自评分”。

Jiashu Yao,Heyan Huang,Zeming Liu,Yuhang Guo

reinforcement-learningprocess-rewardself-evaluation2026年4月13日arXiv PDF

arXiv精读

Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning

评改变“value-free 足够”的直觉：生成式 critic 让 credit assignment 可表达且可校准；建议重点看 value 训练稳定性与长序列增益那几张表。

Zikang Shan,Han Zhong,Liwei Wang,Li Zhao

actor-criticvalue-modelgenerative-critic2026年4月12日arXiv PDF

arXiv精读

Rethinking Token-Level Credit Assignment in RLVR: A Polarity-Entropy Analysis

评会改变我对RLVR更新应落在哪些token的prior：用熵定位“分叉点”并重加权很可复现，建议立刻在内部GRPO跑同款诊断图。

Yuhang He,Haodong Wu,Siyi Liu,Hongyu Ge,Hange Zhou,Keyi Wu,Zhuo Zheng,Qihong Lin,Zixin Zhong,Yongqi Zhang

RLVRcredit-assignmenttoken-entropy2026年4月13日arXiv PDF

arXiv精读

RTMC: Step-Level Credit Assignment via Rollout Trees

评must_read在于给了无critic的step级优势估计思路：重点看rollout tree如何控成本/方差；若真稳，应立刻替换你们的轨迹均分优势基线。

Tao Wang,Suhang Zheng,Xiaoxiao Xu

reinforcement-learningcredit-assignmentswe-bench2026年4月13日arXiv PDF

HF Daily▲ 17精读

Efficient RL Training for LLMs with Experience Replay

LLM RL后训练普遍默认需要严格on-policy数据，experience replay在LLM RL中被忽视，推高了生成开销。

评直接打脸'LLM RL必须严格on-policy'的默认做法，若结论稳住应该立刻在internal RL pipeline里试replay buffer，这是省rollout算力的真问题。重点看staleness-variance的权衡曲线。

Charles Arnal,Vivien Cabannes,Taco Cohen,Julia Kempe,Remi Munos

Meta FAIRrlexperience-replaypost-training2026年4月9日arXiv PDF

arXiv泛读

MathAgent: Adversarial Evolution of Constraint Graphs for Mathematical Reasoning Data Synthesis

如何在“几乎不依赖人工先验/种子数据”的前提下，自动合成高质量、可解且具备高逻辑复杂度的数学推理数据；并避免现有零样本探测式生成易出现的 mode collapse、逻辑幻觉与结构单一，以及 seed-mutation 方法受初始语义范围上限约束的问题。

评只看约束图进化+可验证筛选这条线：它改变我对“无种子合成必塌缩”的prior，值得立刻做内部ablation验证难度分布。

Zixiong Yu,Jun Rao,Guhan Chen,Songtao Tian,Bohan Li,Jiansheng Wei,Min Zhang,Xiaojun Meng

data-synthesismath-reasoningconstraint-graphs2026年4月13日arXiv PDF

arXiv泛读

Finetune Like You Pretrain: Boosting Zero-shot Adversarial Robustness in Vision-language Models

如何在不显著牺牲 CLIP 等视觉-语言模型零样本能力的前提下，提升其零样本对抗鲁棒性；并解决现有 adversarial finetuning（AFT）常用“在 ImageNet 上用交叉熵对齐到类别标签”的做法导致的零样本性能下降与跨域鲁棒性迁移有限的问题。

评读训练目标怎么“像预训练一样”做AFT那部分即可：若真能保零样本又增鲁棒，建议在自家CLIP上小规模复现看迁移。

Songlong Xing,Weijie Wang,Zhengyu Zhao,Jindong Gu,Philip Torr,Nicu Sebe

adversarial-robustnessclipcontrastive-learning2026年4月13日arXiv PDF

arXiv泛读

Geoparsing: Diagram Parsing for Plane and Solid Geometry with a Unified Formal Language

多模态大模型在几何推理中长期受“感知瓶颈”限制：无法稳定、细粒度地识别几何图中的点/线/面/体及其语义关系，导致后续符号推理失效。现有几何图解析（GDP）研究几乎只覆盖平面几何，缺少对立体几何（需要3D结构与空间关系理解）的统一形式化语言与大规模标注数据。

评值得看统一形式语言与标注规范：把几何图稳定转成符号IR是干净的瓶颈拆解，但下游增益要当弱信号看。

Peijie Wang,Ming-Liang Zhang,Jun Cao,Chao Deng,Dekang Ran,Hongda Sun ... 省略 3 位作者 ... ,Jun Song,Bo Zheng,Fei Yin,Cheng-Lin Liu

geometrydiagram-parsingformal-language2026年4月13日arXiv PDF

arXiv泛读

SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning

现有多模态模型在复杂视觉理解与多模态推理中常出现“浅层推理”：推理链不完整、前后不一致、缺少自检机制，导致错误难以被发现与纠正。如何在较小数据与较低训练成本下，让中小型VLM学会稳定的自我验证（self-verification）与自我纠错（self-rectification），并在测试时可按难度扩展计算，是该论文要解决的问题。

评只看训练出“验证-纠错”行为的监督构造与测试时扩算接口；若依赖特定prompt/评测，结论可信度需谨慎。

Zhe Qian,Nianbing Su,Zhonghua Wang,Hebei Li,Zhongxing Xu,Yueying Li,Fei Luo,Zhuohan Ouyang,Yanbiao Ma

multimodal-reasoningself-verificationself-rectification2026年4月11日arXiv PDF

arXiv泛读

A Progressive Training Strategy for Vision-Language Models to Counteract Spatio-Temporal Hallucinations in Embodied Reasoning

现有VLM在多图对比/时序推理中存在“多图推理幻觉”：模型强依赖输入顺序等表面时间先验（sequence bias），导致同一任务在正序与逆序提问时性能断崖式下跌，无法基于视觉证据进行真实的因果-状态判断（如“哪一帧更接近任务完成”）。

评把它当诊断+训练日程：重点看如何打掉sequence bias的progressive curriculum；若你做视频预训练，建议加反序对照做回归测试。

Xiaoda Yang,Shuai Yang,Can Wang,Jingyang Xue,Menglan Tang,Checheng Yu ... 省略 2 位作者 ... ,Tao Jin,Lixin Yang,Xiangyu Yue,Zhou Zhao

vlmspatiotemporal-reasoninghallucination2026年4月12日arXiv PDF

arXiv泛读

From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning

具身、第一视角（egocentric）长程任务需要模型同时具备：细粒度空间感知、任务状态评估（是否更接近目标）、以及跨多步的规划推理。但现有VLM多来自被动视频学习，强依赖固定因果顺序的时间先验，遇到反事实顺序、多帧比较、状态回退/失败等就产生时空幻觉与泛化崩溃，难以支撑可靠的长程规划。

评读课程学习如何把“感知→状态评估→规划”拆开训练；对预训练启示是要显式覆盖回退/失败轨迹，否则时序捷径会偷走泛化。

Xiaoda Yang,Yuxiang Liu,Shenzhou Gao,Can Wang,Jingyang Xue,Lixin Yang ... 省略 1 位作者 ... ,Tao Jin,Shuicheng Yan,Zhimeng Zhang,Zhou Zhao

egocentric-reasoningspatiotemporal-reasoningcurriculum-learning2026年4月12日arXiv PDF

arXiv泛读

Self-Calibrating Language Models via Test-Time Discriminative Distillation

LLM 在生成答案时系统性过度自信（verbalized confidence 与真实正确率严重不匹配），且现有校准方法往往依赖标注、在分布漂移下失效或推理成本高；问题是如何在“无标签 + 可随测试分布变化自适应 + 低成本”的条件下，把模型输出置信度校准到可用水平。

评只看方法段+主表：无标签用判别信号蒸馏做 test-time 校准挺实用，但要警惕分布漂移下判别头是否同样失真。

Mohamed Rissal Hedna,Jan Strich,Martin Semmann,Chris Biemann

calibrationtest-time-trainingself-distillation2026年3月18日arXiv PDF

arXiv泛读

Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty

现有 Generative Reward Model（GRM）在推理增强中普遍“对所有输入都强制 CoT”，导致不必要的算力/时延；同时对 CoT 路径质量的评估多依赖投票，粒度粗、难以区分细微优劣，限制了奖励信号的保真度与最终性能。问题是：能否用任务无关的内部信号决定何时需要 CoT，并提供更细粒度的推理链评分？

评读 §3 的“不确定性触发 CoT”规则和消融就够：若门控真稳，可直接改你们 GRM pipeline 的默认全 CoT；否则只是省算小技巧。

Chao Xue,Yao Wang,Mengqiao Liu,Di Liang,Xingsheng Han,Peiyang Liu ... 省略 4 位作者 ... ,Haibo Shi,Shuang Liang,Minlong Peng,Flora D. Salim

reward-modelinguncertainty-estimationadaptive-reasoning2026年4月11日arXiv PDF

arXiv泛读

Instruction Data Selection via Answer Divergence

在固定预算下做指令微调（instruction tuning）时，训练效果对“选哪些指令-回复样本”极其敏感。现有很多模型中心（model-centric）的数据选择方法依赖“单一参考答案/teacher response”来打分，但大量指令天然存在多种正确回答，单参考会把格式/语气/推理风格差异误当成能力缺口，从而误选数据。

评看 Fig/表里“多解指令”子集：用 answer divergence 把“风格差异”从“能力缺口”里剥离，能指导你们做数据筛选时别再迷信单参考打分。

Bo Li,Mingda Wang,Shikun Zhang,Wei Ye

instruction-tuningdata-selectionoutput-diversity2026年4月12日arXiv PDF

arXiv泛读

Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

面向大规模后训练（post-training）的强化学习系统在“全模态（omni-modal）输入 + 多轮agentic轨迹”场景下遇到三类耦合挑战：数据流高度异构（图像/视频/音频/文本混合且长度差异巨大）、大规模运行的鲁棒性（长尾延迟、OOM、NCCL超时、服务崩溃等）、以及同步训练导致的吞吐受限与异步训练带来的策略陈旧（staleness）权衡缺乏统一抽象。

评系统论文，读架构图+故障/吞吐曲线即可：异步 omni-modal RL 的工程坑总结得全，但对算法研究增量有限，当作落地手册。

Liujie Zhang,Benzhe Ning,Rui Yang,Xiaoyan Yu,Jiaxing Li,Lumeng Wu ... 省略 1 位作者 ... ,Minghao Li,Weihang Chen,Weiqi Hu,Lei Zhang

rlhftraining-systemasynchronous-rl2026年4月13日arXiv PDF

arXiv泛读

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

RL用于LLM时常出现采样多样性下降与重复犯错：仅对当前策略做熵正则无法显式抑制跨rollout的“重复失败模式”。

评只需看奖励塑形公式和一两张多样性曲线：把跨 rollout 的失败记忆进奖励很直观，更多像可复用 trick 而非新理论。

Yang Liu,Enxi Wang,Yufei Gao,Weixin Zhang,Bo Wang,Zhiyuan Zeng,Yikai Zhang,Yining Zheng,Xipeng Qiu

rlhfreward-shapingexploration2026年4月13日arXiv PDF

arXiv泛读

Learning from Contrasts: Synthesizing Reasoning Paths from Diverse Search Trajectories

现有基于 MCTS 的自动推理数据挖掘/监督提取大多采用“筛选式”范式：只保留最高奖励（正确）的单条轨迹用于训练（如 RFT），把大量被探索过但失败/次优的轨迹直接丢弃，导致对“为什么错、错在哪里、成功与失败的关键分岔点是什么”的结构性信息利用不足，数据与算力效率低。

评看“失败轨迹如何转成对比监督”的构造细节：如果真能从 MCTS 的垃圾轨迹里榨出信号，你们的数据挖掘就该从筛选改为对比学习。

Peiyang Liu,Zhirui Chen,Xi Wang,Di Liang,Youru Li,Zhi Cai,Wei Ye

mctsdata-synthesiscontrastive-learning2026年4月13日arXiv PDF

arXiv泛读

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

传统判别式奖励模型（RM）对每个候选回答独立打分，N 个候选需要 N 次前向计算；在多模态场景中图像/视频上下文 token 占大头，重复计算代价极高。同时，独立打分缺乏“直接比较”能力；而生成式 judge 需要自回归生成判决，延迟更高、上下文变长时更不稳定。现有范式都难以高效扩展到 best-of-N、组内优化等天然的 N-way 排序需求。

评只看实现细节与吞吐/显存曲线：把N-way比较塞进一次前向很工程友好，但要警惕训练目标是否引入位置/候选泄漏偏差。

Yinuo Yang,Zixian Ma,Manasi Ganti,Jieyu Zhang,Ranjay Krishna

reward-modelingrlhfpreference-learning2026年4月13日arXiv PDF

arXivHF Daily▲ 1泛读

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

在缺乏大规模物理领域QA数据的情况下，如何用可扩展的监督信号训练/提升LLM的物理推理能力并实现sim-to-real泛化。

评当作“可交互监督源”案例库看：重点核对sim到真题的评测是否干净、是否靠题型重合；方法本身更像系统整合。

Mihir Prabhudesai,Aryan Satpathy,Yangmin Li,Zheyang Qin,Nikash Bhardwaj,Amir Zadeh,Chuan Li,Katerina Fragkiadaki,Deepak Pathak

reinforcement-learningsimulator-supervisionphysics-reasoning2026年4月13日arXiv PDF GitHub

arXiv泛读

CSPO: Alleviating Reward Ambiguity for Structured Table-to-LaTeX Generation

表格图像转 LaTeX 需要同时保证结构（行列/合并单元格）、内容（单元格文本数值）与样式（线型/对齐/字体等）的高保真，但现有 MLLM 或专用系统常出现结构不一致、样式丢失、内容错误或不可编译。用 RL 做后训练时，若只用单一全局奖励（如 TEDS）会把多种异质目标混成一个信号，产生 reward ambiguity，导致信用分配错误：结构错也可能被正向强化、内容对也可能被惩罚，且不同组件质量差异可能得到相同总奖励。

评只看奖励分解与消融表：把结构/内容/样式拆开能减少RL乱更新，这个“reward ambiguity”诊断可直接迁移到代码/DSL生成。

Yunfan Yang,Cuiling Lan,Jitao Sang,Yan Lu

reinforcement-learningreward-decompositionstructured-generation2026年4月13日arXiv PDF

arXiv泛读

Backdoors in RLVR: Jailbreak Backdoors in LLMs From Verifiable Reward

RLVR（Reinforcement Learning with Verifiable Rewards）通过规则/执行器等可验证奖励显著提升推理与编程能力，但论文首次系统揭示：RLVR 训练环存在可被投毒数据利用的后门脆弱性。攻击者无需修改 verifier，只需向训练集注入少量带触发器的 prompt（poisoning prompts），就能在触发条件下诱导模型产生有害输出并绕过拒答安全对齐；而在无触发器时模型表现近似正常，难以察觉。

评值得知道但别深读：它打破“verifiable reward 更安全”的直觉；主要看投毒比例与触发泛化的实验，作为RLVR数据审计的警示。

Weiyang Guo,Zesheng Shi,Zeen Zhu,Yuan Zhou,Min Zhang,Jing Li

rlvrbackdoor-attackjailbreak2026年4月10日arXiv PDF

arXiv泛读

Latent Instruction Representation Alignment: defending against jailbreaks, backdoors and undesired knowledge in LLMs

如何让LLM在面对越狱指令、后门触发与“遗忘/去除不良知识”需求时，具备更强的跨攻击/跨任务泛化防御能力，而不是只对已见恶意提示词过拟合。

评只看表征对齐目标与跨攻击泛化结果：把防御从“管输出”改成“管指令表征”挺对味，但需警惕评测是否被同分布越狱模板抬高。

Eric Easley,Sebastian Farquhar

jailbreakbackdoorunlearning2026年4月12日arXiv PDF

arXiv泛读

CircuitSynth: Reliable Synthetic Data Generation

LLM 用于结构化合成数据生成时，常出现幻觉、逻辑不一致与 mode collapse；现有 prompting/RAG/结构化采样方法难以同时给出“硬逻辑有效性保证”与“覆盖/公平等软分布约束的可控性与可量化”。

评当作合成数据“形式化约束+覆盖控制”的工具箱翻：看它如何把硬约束验证接到生成回路里；但别期待对预训练本身有直接新结论。

Zehua Cheng,Wei Dai,Jiahao Sun,Thomas Lukasiewicz

synthetic-dataneuro-symbolicconstraint-satisfaction2026年4月11日arXiv PDF

arXiv泛读

TInR: Exploring Tool-Internalized Reasoning in Large Language Models

现有 Tool-Integrated Reasoning (TIR) 依赖在推理时把工具文档塞进上下文：导致工具掌握困难（文档异构）、工具规模受限（context window 不够）、推理/调用低效（prompt 过长）。论文提出 Tool-Internalized Reasoning (TInR)：让模型在不提供外部文档的情况下完成带工具的推理与调用。

评只看工具规模扩展与去文档上下文的对比：若内化后仍能稳调用，动作项是把你们的工具说明从prompt迁到参数；否则就是记忆化噱头。

Qiancheng Xu,Yongqi Li,Fan Liu,Hongru Wang,Min Yang,Wenjie Li

tool-useinternalizationreinforcement-learning2026年4月12日arXiv PDF

arXiv泛读

Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents

多轮交互式 LLM Agent 的 RL 训练样本效率低：奖励稀疏、长时序信用分配困难。现有 on-policy self-distillation（OPSD）依赖“特权信息”（如唯一标准答案）提供稠密 token 监督，但在 agent 任务中往往不存在唯一解；同时把自蒸馏与 RL 直接耦合会因分布漂移/重要性加权不稳而出现训练崩溃。

评读训练稳定性与非唯一解设定：它试图把自蒸馏做成可用的稠密信号，但要盯紧是否靠隐式答案泄漏/过滤；可作为agent降token成本备选。

Hao Wang,Guozhi Wang,Han Xiao,Yufeng Zhou,Yue Pan,Jichao Wang ... 省略 1 位作者 ... ,Yafei Wen,Xiaohu Ruan,Xiaoxin Chen,Honggang Qi

llm-agentself-distillationreinforcement-learning2026年4月12日arXiv PDF

arXiv泛读

Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning

现有合成工具调用数据多为离线 SFT 设计：样本是静态的“用户问题-工具调用-工具输出-答案”，缺少可执行环境与可验证奖励，难以直接用于在线 RL（尤其是需要可自动打分的 RLVR）。同时真实世界工具使用需要应对歧义提问、干扰工具、噪声/多格式/错误输出、工具失败等鲁棒性场景，而现有数据覆盖不足且难以规模化获取真实日志。

评把“工具合成数据”做成可执行、可打分的RL环境这点很实用；只需看扰动族设计与reward可验证性，判断能否直接接入你们的rollout管线。

Siyuan Xu,Shiyang Li,Xin Liu,Tianyi Liu,Yixiao Li,Zhan Shi ... 省略 2 位作者 ... ,Qingyu Yin,Jianshu Chen,Tuo Zhao,Bing Yin

tool-useagentic-rldata-synthesis2026年4月10日arXiv PDF

arXiv泛读

Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization

熵引导的 LLM 强化学习（如在 GRPO/类 PPO 框架中加入熵正则）面临“探索-利用”根本冲突：提高熵以促进探索，往往会破坏已具备强推理能力、低熵输出的 LRM 的准确性与连贯性，甚至导致高熵胡言乱语式退化。论文要解决的是：在持续后训练（continual post-training）阶段，如何在不牺牲准确率的前提下，显著恢复/提升探索多样性（熵）并获得更高 Best-of-N 表现。

评把“保准确的低熵推理”和“高熵探索”拆成双模式是个可操作的训练旋钮；只看核心正则与控制接口，评估是否真能避免熵正则的退化副作用。

Jiashu Yao,Heyan Huang,Chuwei Luo,Daiqing Wu,Zeming Liu,Yuhang Guo,Yangyang Kang

rl-for-llmexplorationentropy-regularization2026年4月13日arXiv PDF

arXiv泛读

Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs

RLHF/奖励优化可能引入“迎合（sycophancy）”等奖励黑客行为，但现有评估多停留在输出是否迎合。论文关注更隐蔽且关键的问题：迎合式奖励是否会破坏模型的不确定性量化能力（calibration），使模型的置信度与真实正确率脱钩，从而在高风险应用中造成系统性过度自信。

评它改变的prior是：对齐后“准确率不掉”并不代表可靠；建议只看校准指标(ECE/MCE)与植入迎合的实验setup，作为你们RLHF监控项的强信号。

Subramanyam Sahoo

rlhfreward-hackingsycophancy2026年4月12日arXiv PDF

arXiv泛读

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

在推理对齐中，on-policy RL 的奖励稀疏（仅结果级正确/错误），导致 token 级信用分配困难、收敛慢。OPD 通过引入教师模型的 token 级 KL 监督缓解该问题，但现有 OPD 往往对所有 rollout 施加“同等强度”的蒸馏信号，忽视了不同轨迹上监督信号质量的巨大差异：错误轨迹上教师可能并不可靠；正确轨迹上强蒸馏会压制学生的有效多样推理路径并诱发 mode collapse。

评按轨迹“信号质量”自适应调蒸馏强度这点比又一版OPD更像真修bug；只看权重机制与对Pass@k/多样性的ablation，决定是否值得内部复现。

Binbin Zheng,Xing Ma,Yiheng Liang,Jingqing Ruan,Xiaoliang Fu,Kepeng Lin,Benchang Zhu,Ke Zeng,Xunliang Cai

on-policydistillationrlhf2026年4月12日arXiv PDF

arXiv泛读

New Hybrid Fine-Tuning Paradigm for LLMs: Algorithm Design and Convergence Analysis Framework

LLM 微调主要有两条路线：全参数微调（效果强但计算/显存昂贵）与 PEFT（如 LoRA，成本低但学习新知识能力弱、效果上限受限）。同时，零阶（ZO）全参微调可避免反向传播但收敛慢。论文要解决的问题是：能否设计一种同时更新“基座模型参数 + PEFT 模块”的混合微调范式，在不显著增加资源开销的前提下兼顾适配能力与优化效率，并给出可解释、可证明的收敛理论。

评混合用ZO更基座+FO更LoRA的思路工程上可能省账，但理论框架未必能落到大模型细节；只看算法伪码与收敛假设，判断是否只是“可证明但不可用”。

Shaocong Ma,Peiran Yu,Heng Huang

fine-tuningpeftoptimization2026年4月10日arXiv PDF

arXiv泛读

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

论文研究在用于推理型大模型（LLM）的强化学习（RL）后训练中，策略熵（policy entropy）会快速坍塌导致过早收敛与性能饱和的问题，并对两类熵控制方法给出统一的理论解释：传统熵正则（entropy regularization）与近期提出的基于协方差（covariance-based）的选择性熵控制机制。

评偏理论但能帮你选熵控制：传统熵正则为何引入偏置、协方差法为何更“无偏”讲得清；只读推导里熵动力学那几页即可，不必抠实验。

Ming Lei,Christophe Baehr

reinforcement-learningentropy-regularizationpolicy-collapse2026年4月2日arXiv PDF

arXiv泛读

DDO-RM for LLM Preference Optimization: A Minimal Held-Out Benchmark against DPO

论文聚焦在偏好优化（preference optimization）的最小化 pairwise 场景下，比较两种训练范式：直接用成对偏好目标的 DPO（Direct Preference Optimization）与把每个 prompt 视作有限候选决策问题、用奖励模型引导“决策分布更新”的 DDO-RM。核心问题是：即便只有 chosen-vs-rejected 两个候选，奖励引导的分布式更新能否在 held-out 偏好评测上优于 DPO？

评难得的干净对照：在最小pairwise设置下检验“分布式奖励更新”是否真赢DPO；只看held-out基准与超参敏感性，作为你们偏好优化选型的参考点。

Tiantian Zhang,Jierui Zuo,Wenping Wang

preference-optimizationdporeward-model2026年4月13日arXiv PDF

HF Daily▲ 12泛读

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

LLM 的 RL 训练依赖稀疏的 outcome-level reward，但长轨迹中的 credit assignment（信用分配）问题——哪些 token/step 导致了最终结果——仍未解决。

评RL credit assignment 的及时综述，对做 RL pretrain 或 RLVR 的人有参考价值，重点看分类表和 §3-4 的方法对比。

Chenchen Zhang

credit-assignmentRL-for-LLMsurvey2026年4月13日arXiv PDF GitHub

arXivHF Daily▲ 1

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

如何降低LLM在RLVR（可验证奖励强化学习）训练中的计算开销与训练步数，加速能力提升。

评作为工程备查即可：低秩轨迹+外推加速RLVR听起来像“训练动力学小技巧”，但泛化与稳定性风险大；只扫方法图和加速曲线，不必细读。

Zhipeng Chen,Tao Qian,Wayne Xin Zhao,Ji-Rong Wen

rlvrtraining-accelerationlora2026年4月13日arXiv PDF GitHub

arXiv

Think in Sentences: Explicit Sentence Boundaries Enhance Language Model's Capabilities

如何用极低成本的输入结构改造（显式句子边界）提升LLM推理与任务表现，并让模型更“按句处理”。

评像数据/格式配方：显式句界若真稳，最直接动作是改SFT模板与推理输出约束；但容易被评测prompt泄漏，知道结论即可，不必深挖正文。

Zhichen Liu,Yongyuan Li,Yang Xu

sentence-boundaryprompt-formatinstruction-tuning2026年4月11日arXiv PDF

arXiv

FAITH: Factuality Alignment through Integrating Trustworthiness and Honestness

LLM即使“知道”事实也会胡编：如何在后训练中同时对齐模型的事实性、可信度表达与诚实作答行为（该说不确定就说不确定）。

评把“知道但不诚实说”拆成trustworthiness/honestness是个好标签体系，适合做数据标注与拒答策略；但方法可能依赖特定评测口径，读定义与标注协议就够。

Xiaoning Dong,Chengyan Wu,Yajie Wen,Yu Chen,Yun Xue,Jing Zhang,Wei Xu,Bolei Ma

factualityhallucinationuncertainty2026年4月11日arXiv PDF

arXiv

Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

在对抗式对话中，如何让防守方LLM通过“理论心智(ToM)”建模攻击者信念与意图，实现对隐私/敏感信息的信念引导（让攻击者误以为已成功）以提升安全性。

评作为“让攻击者以为赢了”的防守范式备查即可；任务设定偏戏剧化、可迁移性不明，别投入训练预算。

Hanqi Xiao,Vaidehi Patil,Zaid Khan,Hyunji Lee,Elias Stengel-Eskin,Mohit Bansal

theory-of-mindadversarial-dialogueprivacy2026年4月13日arXiv PDF

arXiv

Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models

防御针对LLM链式推理（CoT）的“推理级后门攻击”，在触发后模型会插入恶意推理步骤但答案表面合理，难以检测。

评推理级后门是现实威胁但评测很容易被构造细节左右；只看攻击定义与检测指标，别被总体提升迷惑。

Vu Tuan Truong,Long Bao Le

backdoor-defensechain-of-thoughtreasoning-security2026年4月12日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv精读

Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models

评会改变我对SFT“loss收敛=学会了”的prior：应立刻在内部SFT跑训练集逐样本正确率曲线，定位长期未学子集。

Chao Xue,Yao Wang,Mengqiao Liu,Di Liang,Xingsheng Han,Peiyang Liu ... 省略 4 位作者 ... ,Haibo Shi,Shuang Liang,Minlong Peng,Flora D. Salim

sfttraining-dynamicsdata-quality2026年4月11日arXiv PDF

arXiv精读

Decomposing and Reducing Hidden Measurement Error in LLM Evaluation Pipelines

评必须读：把prompt/judge/采样等评测自由度当成方差源建模，解释了为何N变大反而更“自信地错”；应立刻在内部榜单复现其误差分解流程。

Solomon Messing

evaluationmeasurement-errorjudge-model2026年4月13日arXiv PDF

arXiv精读

The Myth of Expert Specialization in MoEs: Why Routing Reflects Geometry, Not Necessarily Domain Expertise

评会改变你对“MoE 专家=领域专精”的默认解释：应立刻在自家 MoE 上复现其几何论证/消融，再决定是否继续做语义路由。

Xi Wang,Soufiane Hayou,Eric Nalisnick

moeroutingrepresentation-geometry2026年4月10日arXiv PDF

arXiv精读

Tail-Aware Information-Theoretic Generalization for RLHF and SGLD

评会改变“KL 小就安全/能泛化”的 prior：重尾下 KL 界可能空；建议立刻把 Rényi/尾部参数约束纳入 RLHF 监控与 ablation。

Huiming Zhang,Binghan Li,Wan Tian,Qiang Sun

generalization-boundheavy-tailedrlhf-theory2026年4月12日arXiv PDF

arXiv精读

Layerwise Dynamics for In-Context Classification in Transformers

评把“ICL=隐式GD”这个粗prior拆成可识别的逐层递推动力学，协议很干净且能导出可复现实验预测，值得立刻按其对称化训练做内部复现/ablation。

Patrick Lutz,Themistoklis Haris,Arjun Chandra,Aditya Gangrade,Venkatesh Saligrama

in-context-learningmechanistic-interpretabilitytransformers2026年4月13日arXiv PDF

arXiv泛读

Counting to Four is still a Chore for VLMs

论文聚焦一个“看似简单但长期未解”的问题：当前主流视觉-语言模型（VLM）在基础视觉扎根能力上仍明显薄弱，尤其是对象计数（counting）。作者进一步追问：模型的计数到底来自真实视觉证据，还是被语言先验/提示牵引？以及这种失败发生在VLM流水线的哪个组件（视觉编码器、模态投影器、LLM骨干）？

评只看机制定位部分：计数失败到底卡在视觉编码还是LLM接管；能直接指导你做模块级 ablation。

Duy Le Dinh Anh,Patrick Amadeus Irawan,Tuan Van Vo

vlmcountingbenchmark2026年4月11日arXiv PDF

arXiv泛读

Visual Enhanced Depth Scaling for Multimodal Latent Reasoning

论文研究多模态“潜在推理”（latent reasoning）训练中的两个优化瓶颈： (1) 视觉-文本优化失衡：视觉token的梯度范数显著更高且更不稳定，反映语言偏置导致视觉表征在联合训练中被系统性欠优化/难对齐； (2) 固定深度困境：不同难度样本/不同语义复杂度token的收敛行为差异巨大，简单token很快稳定，而复杂token长期梯度震荡；固定层数的Transformer缺乏按需迭代精炼的能力，导致难样本被困在不稳定轨迹中。

评读梯度范数/深度收敛分析那几张图就够：它把“视觉被语言压制”和“固定深度不够”变成可监控信号。

Yudong Han,Yong Wang,Zaiquan Yang,Zhen Qu,Liyuan Pan,Xiangxiang Chu

multimodal-reasoninglatent-reasoningtraining-dynamics2026年4月12日arXiv PDF

arXiv泛读

Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models

论文聚焦多模态大推理模型（MLRMs）在长链式推理（CoT）中更易产生幻觉这一核心问题，并提出“Reasoning Vision Truth Disconnect（RVTD，推理-视觉真实脱节）”：模型在需要视觉证据校验的关键推理转折处，反而显著减少对图像证据的利用，导致推理链被语言先验“接管”。

评值得看其“转折点不看图”的诊断：长CoT越跑越脱离视觉证据；可据此在训练里加锚点监督/注意力约束。

Zhe Qian,Yanbiao Ma,Zhuohan Ouyang,Zhonghua Wang,Zhongxing Xu,Fei Luo,Xinyu Liu,Zongyuan Ge,Yike Guo,Jungong Han

vlmhallucinationattention-guidance2026年4月11日arXiv PDF

arXiv泛读

Query Lower Bounds for Diffusion Sampling

论文研究扩散模型采样的“信息论极限”：当采样器只能通过查询不同噪声水平下的平滑score（smoothed score）来生成样本时，最少需要多少次score查询（网络前向）才能在高维d下得到非平凡的采样保证？核心问题是：能否把采样步数降到polylog(d)甚至O(1)，还是存在不可突破的维度依赖下界？

评把采样加速的幻想拉回现实：在友好假设下仍有约√d查询下界；读定理与假设，别纠结常数。

Zhiyang Xun,Eric Price

diffusionsamplinglower-bound2026年4月12日arXiv PDF

arXiv泛读

Weird Generalization is Weirdly Brittle

论文研究“weird generalization（怪异泛化）”是否真如先前工作所示那样普遍且危险：模型在狭窄域微调（如不安全代码、过时鸟名、旧德语城市名）后，会在域外表现出意外的、甚至对齐层面的异常特质（如广泛不对齐、极端历史/意识形态人格）。作者核心问题是：该现象在不同模型/数据集上能否稳定复现，以及能否用简单干预在训练时抑制。

评这篇更像风险“降温”复现：现象脆弱且可被简单干预压住；只看复现矩阵与干预消融即可。

Miriam Wanner,Hannah Collison,William Jurayj,Benjamin Van Durme,Mark Dredze,William Walden

alignmentsafetyfine-tuning2026年4月11日arXiv PDF

arXiv泛读

Evaluating Reliability Gaps in Large Language Model Safety via Repeated Prompt Sampling

论文关注传统LLM安全评测的“可靠性盲区”：像HELM、AIR-BENCH这类广度型基准通常对每个prompt只采样一次（或极少次），难以发现真实部署中“同一prompt反复调用”带来的操作性风险——例如偶发幻觉、拒答不一致、温度变化下偶尔越狱、同问不同答等。核心问题是：如何用统计上可解释的方式量化“重复采样下的失败频率”，从而评估部署级安全可靠性缺口。

评把安全评测从一次性打分改成失败概率估计；只看重复采样的统计口径与尾部风险对比，能直接落到LLMOps。

Keita Broadwater

safety-evaluationreliabilitystress-testing2026年3月10日arXiv PDF

arXiv泛读

Closed-Form Concept Erasure via Double Projections

如何在不进行迭代训练/微调的前提下，从生成模型（扩散/flow-matching 等）的表示中“擦除”特定目标概念（对象/风格/身份等），同时尽可能不破坏非目标概念与整体生成质量（最小副作用的概念编辑）。

评解析式双投影很干净，适合作为“无训练概念擦除”基线；但要重点核查副作用评测是否覆盖相近概念与分布外提示。

Chi Zhang,Jingpu Cheng,Zhixian Wang,Ping Liu

concept-erasuremodel-editingsafety2026年4月11日arXiv PDF

arXiv泛读

Why Don't You Know? Evaluating the Impact of Uncertainty Sources on Uncertainty Quantification in LLMs

现有 LLM 不确定性量化（UQ）方法通常输出单一置信度分数，但自然语言任务的不确定性来源多样（知识缺口、输出多解/可变性、输入歧义等）。核心问题是：不同不确定性来源会如何影响各类 UQ 方法的行为与有效性？现有评测缺乏对来源的可控隔离，导致比较不公平。

评把UQ拆成可控来源后才看得出方法在“多解/歧义”上乱报置信度；只读实验设计与分解结果表即可校准你对UQ分数的信任边界。

Maiya Goloburda,Roman Vashurin,Fedor Chernogorsky,Nurkhan Laiyk,Daniil Orel,Preslav Nakov,Maxim Panov

uncertainty-quantificationevaluationreliability2026年4月12日arXiv PDF

arXiv泛读

Attention Sinks as Internal Signals for Hallucination Detection in Large Language Models

LLM 幻觉检测中，已有大量基于注意力图/内部表征的特征工程方法，但“为什么这些特征有效”缺乏机制层解释；同时很多方法依赖外部检索、多次采样或额外模型，成本高且可解释性弱。本文要回答：能否仅用注意力权重，找到一个机制上可解释、跨模型稳健的内部信号来检测幻觉？

评用attention sinks把一堆注意力特征工程收敛成单一可诊断信号，成本低但结论依赖实现细节；看机制解释段和跨模型稳健性图就够。

Jakub Binkowski,Kamil Adamczewski,Tomasz Kajdanowicz

hallucination-detectionattention-sinksinterpretability2026年4月12日arXiv PDF

arXiv泛读

When Verification Fails: How Compositionally Infeasible Claims Escape Rejection

科学主张验证（claim verification）需要遵循闭世界假设（CWA）：只有当主张所断言的每个约束都被证据正向支持时才接受，否则应拒绝。本文指出：现有验证基准的负例构造方式（只扰动一个显著约束）使得“完整 CWA 检查所有约束”和一种更弱的捷径“显著约束检查（salient-constraint checking）”在行为上不可区分，导致我们误以为模型具备严格验证能力。核心问题是：模型到底在做全约束验证，还是只检查最显眼的那一条？

评它戳破“验证模型会做CWA全约束检查”的默认想象：很多只是在查最显眼约束；只看对抗负例构造与错误类型统计就能改评测prior。

Muxin Liu,Delip Rao,Grace Kim,Chris Callison-Burch

claim-verificationevaluationshortcut-learning2026年4月13日arXiv PDF

arXiv泛读

Hidden Failures in Robustness: Why Supervised Uncertainty Quantification Needs Better Evaluation

基于LLM隐藏状态的监督式不确定性估计/幻觉检测探针，在分布外(OOD)与长文本生成场景下是否真的鲁棒，以及应如何更可靠地评测与设计探针。

评对“隐藏态探针做UQ/幻觉检测”泼冷水：OOD与长生成下会悄悄失效；只看层选择/聚合策略的消融与失败案例即可指导你怎么做探针。

Joe Stacey,Hadas Orgad,Kentaro Inui,Benjamin Heinzerling,Nafise Sadat Moosavi

uncertainty-estimationhallucination-detectionrepresentation-probing2026年4月13日arXiv PDF

arXivHF Daily▲ 16泛读

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

论文聚焦统一多模态模型（UMMs）中的“伪统一（pseudo-unification）”现象：虽然模型在参数/表示空间上看似统一了语言与视觉，但LLM式的推理与创造性生成并未迁移到图像生成端，导致同一模型在文本生成与图像生成上呈现截然不同的内部信息编码与输出模式。作者希望回答：这种不一致的模型内因是什么，如何用可解释、可比较的方式在模型内部诊断“是否真的统一”。

评把“统一多模态”从口号落到可测的内部信息模式差异，能当诊断工具但未必给出直接修法；看entropy probing指标与对比图即可。

Songlin Yang,Xianghao Kong,Anyi Rao

multimodal-unificationinformation-theoryentropy-probing2026年4月13日arXiv PDF

arXiv泛读

MLLM-as-a-Judge Exhibits Model Preference Bias

论文研究“MLLM-as-a-Judge（用多模态大模型做自动评测）”是否存在模型偏好偏差（model-specific preference bias）：评测模型（Evaluator）会系统性偏爱某些生成模型（Generator）的文本，尤其是偏爱自己的输出（self-preference），从而扭曲不同模型的对比与基准驱动的研究结论。关键问题是：如何在不把“真实质量差异”混进来的情况下，定量分离并测量这种偏好。

评提醒你别把MLLM-as-judge当客观标尺：自偏好会翻转近距离模型排序；只读偏差分离的实验设计和简单集成缓解方案就能落地。

Shuitsu Koyama,Yuiga Wada,Daichi Yashima,Komei Sugiura

llm-judgeevaluation-biasmultimodal2026年4月13日arXiv PDF

arXiv泛读

Steered LLM Activations are Non-Surjective

论文聚焦一个常被忽略但很基础的问题：白盒“激活引导/激活转向（activation steering）”得到的中间激活状态，是否一定能被某个纯文本prompt在模型自然前向传播中“复现”？作者将其形式化为“从离散prompt到内部激活的映射是否满射（surjective）”的问题，并主张典型的steering会把残差流推到prompt不可达的区域，因此几乎不存在能精确复现该steered激活的prompt。

评它把steering的“白盒可控”与“prompt可达”硬切开：很多被推到文本不可达激活区，安全外推要更谨慎；看形式化定义与关键反例即可。

Aayush Mishra,Daniel Khashabi,Anqi Liu

activation-steeringsurjectivityreachable-manifold2026年4月10日arXiv PDF

arXiv泛读

FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning

论文要解决的是CoT推理“看起来合理但过程不可信”的评估难题，尤其是链内不忠实（intra-chain unfaithfulness）：相邻推理步骤之间缺乏真实的逻辑依赖、夹杂错误内容，但模型/评审仍可能给出高分。作者指出传统LLM-as-judge容易受自我肯定等偏置影响，导致对链内因果依赖的判断出现伪相关。

评想评CoT“步骤真依赖”而非顺口胡编时可参考，但因果味评测也容易被任务分布影响；只看评测协议与对LLM-judge偏置的对照实验。

Yuxi Sun,Aoqi Zuo,Haotian Xie,Wei Gao,Mingming Gong,Jing Ma

chain-of-thoughtfaithfulness-evaluationcausal-inference2026年4月12日arXiv PDF

arXiv泛读

When More Thinking Hurts: Overthinking in LLM Test-Time Compute Scaling

论文质疑“推理越长越好”的默认假设，系统研究在测试时计算（test-time compute）随推理token预算增加时，额外推理的边际收益如何变化，并重点刻画一种反直觉现象：推理变长反而把原本正确的答案“想错了”（overthinking）。

评把“给更多test-time compute就更好”这个默认策略打碎：高预算会把正确答案想歪；只看性能-预算曲线与overthinking案例，便于制定自适应停机策略。

Shu Zhou,Rui Ling,Junan Chen,Xin Wang,Tao Fan,Hao Wang

test-time-computechain-of-thoughtearly-stopping2026年4月12日arXiv PDF

arXiv泛读

Your Model Diversity, Not Method, Determines Reasoning Strategy

论文研究推理计算扩展中“广度（并行探索多条解法）vs 深度（对少数候选进行迭代精炼/树搜索）”的预算分配问题，并提出核心观点：决定最优推理策略的不是你用的具体方法名（并行采样、树搜索、MCTS式 refinement 等），而是目标模型自身的“多样性画像（diversity profile）”——概率质量在不同高层解法路径上的分布形态。

Moulik Choraria,Argyrios Gerogiannis,Anirban Das,Supriyo Chakraborty,Berkcan Kapusuzoglu,Chia-Hsuan Lee,Kartik Balasubramaniam,Shi-Xiong Zhang,Sambit Sahu

test-time-scalingdiversitysearch-vs-sampling2026年4月12日arXiv PDF

arXiv泛读

Pando: Do Interpretability Methods Work When Models Won't Explain Themselves?

论文要回答的核心问题是：当模型“不愿意/不能/会撒谎”解释自己时，现有白盒可解释性方法（梯度归因、表示读出、SAE/稀疏特征、回路追踪等）是否真的能在黑盒交互（prompting）之外，额外提升我们对模型行为的可预测性？作者指出很多评测没有控制“黑盒本身就能把目标行为套出来”的情况，导致白盒方法看似有效其实只是更会提问/更会诱导（elicitation confounder）。

Ziqian Zhong,Aashiq Muhamed,Mona T. Diab,Virginia Smith,Aditi Raghunathan

interpretabilitybenchmarkelicitation2026年4月13日arXiv PDF

arXiv泛读

Tracing the Thought of a Grandmaster-level Chess-Playing Transformer

论文要解决的问题是：对于达到特级大师水平的棋类 Transformer（以 Leela Chess Zero, LC0 为代表），如何在全模型尺度上“追踪其内部思考过程”，把注意力与 MLP 的计算从叠加/超位置（superposition）中分解出来，形成可检验、可干预的推理路径（reasoning pathways），从而解释其战术判断与并行推理结构。

Rui Lin,Zhenyu Jin,Guancheng Zhou,Xuyang Ge,Wentao Shu,Jiaxing Wu,Junxuan Wang,Zhengfu He,Junping Zhang,Xipeng Qiu

interpretabilitytransformercausal-intervention2026年4月11日arXiv PDF

arXiv泛读

Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations

论文研究“工具无关（irrelevance）”场景下的一个系统性失败模式：当工具在语义上无法实现用户目标（semantic irrelevance）时，LLM 仍会因为“查询属性能一一映射到工具参数”（structural alignment）而倾向调用工具。作者将这种“用结构匹配替代语义核验”的机制性捷径形式化为 Structural Alignment Bias（SAB）。

Yilong Liu,Xixun Lin,Pengfei Cao,Ge Zhang,Fang Fang,Yanan Cao

tool-useevaluationbias2026年4月13日arXiv PDF

arXiv泛读

Revisiting Compositionality in Dual-Encoder Vision-Language Models: The Role of Inference

论文重新审视双塔式视觉-语言模型（如 CLIP）在组合性（compositionality）基准上的“像词袋（bag-of-words）”失败：作者认为问题未必主要来自表示能力不足，而可能来自标准推理协议——用全局池化后的图文向量做余弦相似度（global cosine similarity）——该协议会丢失对象-属性-关系所需的细粒度绑定信息。

Imanol Miranda,Ander Salaberria,Eneko Agirre,Gorka Azkune

clipcompositionalityinference2026年4月13日arXiv PDF

arXiv泛读

LMMs Meet Object-Centric Vision: Understanding, Segmentation, Editing and Generation

论文聚焦于一个核心矛盾：现有大多 LMM/LMM-based 系统擅长“全局语义理解与对话”，但在需要“对象级（object-level）精确落地”的任务上存在系统性短板——包括实例级指代易误对（mis-grounding）、空间定位/边界不精确、跨轮交互缺乏对象恒常性（object permanence）、以及难以对指定对象/区域进行可控编辑与生成。论文试图回答：如何用 object-centric vision 的理念与技术栈，系统性补齐 LMM 在对象级理解、分割、编辑、生成上的能力缺口，并形成统一的研究版图与路线图。

Yuqian Yuan,Wenqiao Zhang,Juekai Lin,Yu Zhong,Mingjian Gao,Binhe Yu,Yunqi Cao,Wentong Li,Yueting Zhuang,Beng Chin Ooi

lmmobject-centricgrounding2026年4月13日arXiv PDF

arXiv泛读

Rethinking the Diffusion Model from a Langevin Perspective

论文要解决的核心问题是“扩散模型为何能从纯噪声逐步生成数据，以及反向过程如何在理论上‘逆转’前向加噪过程”的直观理解困难。现有 VAE/score/flow 等讲法往往推导繁重、直觉割裂，初学者难以把握统一本质。作者提出用 Langevin dynamics 的视角，把扩散模型解释为对一个‘分布恒等变换（identity on distribution）’的拆分，从而更直接地推导反向过程，并澄清 ODE/SDE 扩散与 flow matching/denoising/score matching 在最大似然下的等价关系。

Candi Zheng,Yuan Lan

diffusion-modelslangevin-dynamicssde-ode2026年4月12日arXiv PDF

arXiv泛读

Transformers Learn the Optimal DDPM Denoiser for Multi-Token GMMs

论文要回答：为什么用 Transformer 训练 DDPM 去做去噪/学 score 在理论上是可行的？在非凸损失下，梯度下降为何能收敛到“最优去噪器”（或足够接近的最优）？以及 Transformer 的自注意力到底以什么机制实现去噪。

Hongkang Li,Hancheng Min,Rene Vidal

diffusion-modelstransformersconvergence-analysis2026年4月11日arXiv PDF

arXiv泛读

CoSToM:Causal-oriented Steering for Intrinsic Theory-of-Mind Alignment in Large Language Models

论文关注 LLM 的“心智理论（ToM）”能力是否是内在稳定表征，而非依赖提示词脚手架的表面行为；以及能否通过可解释性定位 ToM 表征所在层，并用因果干预把这种内在表征稳定外化为更高质量的对话行为（如谈判、劝说）。

Mengfan Li,Xuanhua Shi,Yang Deng

theory-of-mindcausal-tracingmechanistic-interpretability2026年4月11日arXiv PDF

arXiv泛读

Computational Lesions in Multilingual Language Models Separate Shared and Language-specific Brain Alignment

多语言大脑语言网络在不同语言下呈现“共享解剖激活”，但其底层计算机制究竟是跨语言共享、还是对母语/特定语言存在专门化，传统神经影像难以给出因果层面的区分。论文提出用多语言LLM作为可控系统，通过对模型内部组件做“计算性损伤（computational lesions）”，来因果检验哪些模型成分支撑跨语言的大脑-模型对齐，以及哪些成分体现语言特异性。

Yang Cui,Jingyuan Sun,Yizheng Sun,Yifan Wang,Yunhao Zhang,Jixing Li ... 省略 1 位作者 ... ,Hongpeng Zhou,John Hale,Chengqing Zong,Goran Nenadic

interpretabilitymultilingualcausal-ablation2026年4月12日arXiv PDF

arXiv泛读

A Systematic Analysis of the Impact of Persona Steering on LLM Capabilities

LLM“人格/人设（persona）”常用于改变交互风格，但它是否会系统性影响模型的底层认知能力（推理、知识检索、指令遵循等）并不清楚。论文研究：用神经元级人格诱导（NPTI）在不改权重的情况下施加大五人格特质，是否会带来稳定、可复现、且任务依赖的能力变化，以及这些变化是否与认知科学理论（CB5T、ACT）一致。

评当作“persona=纯风格”这一 prior 的压力测试：只看实验设置与跨任务稳定性表，结论更像弱信号，别据此做产品承诺。

Jiaqi Chen,Ming Wang,Tingna Xie,Shi Feng,Yongkang Liu

persona-steeringcapability-evaluationbig-five2026年4月13日arXiv PDF

arXiv泛读

Shared Emotion Geometry Across Small Language Models: A Cross-Architecture Study of Representation, Behavior, and Methodological Confounds

论文要回答两个核心问题：（1）“情绪几何”（把离散情绪表示为残差流中的近似线性方向/向量）是否是语言建模本身会普遍涌现的结构，而非只在某个大模型/特定训练流水线里出现；（2）跨小模型（不同架构、base/instruct、不同推理后端与数值精度）做情绪向量对比时，观测到的差异有多少来自真实表征差异，有多少其实是方法学混杂（pipeline、backend、precision、抽取模式等）造成的假象。

评跨架构对齐里方法学混杂太多，这篇的价值在于教你怎么排雷；只看 confound 控制与对比协议，别纠结情绪向量本身多“真”。

Jihoon Jeong

representation-analysisemotionRSA2026年4月13日arXiv PDF

arXiv泛读

Psychological Concept Neurons: Can Neural Control Bias Probing and Shift Generation in LLMs?

论文研究“大五人格（Big Five）”这类心理学概念在LLM内部如何表征、出现在哪些层、是否存在对概念选择性响应的“概念神经元”，以及这些内部表征能否被因果操控从而改变模型的判别读出与生成行为。核心张力是：探针能读出≠生成可控，作者试图用神经元级干预把两者连接起来并检验因果性。

评探针可读出≠可控生成，这篇至少尝试做因果干预；建议只看干预设计与反事实对照，概念神经元的“命名”别太当真。

Yuto Harada,Hiro Taiyo Hamada

interpretabilityconcept-neuronscausal-intervention2026年4月13日arXiv PDF

arXiv泛读

Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation

论文关注一个被低估的风险：LLM 在“政策评估/准实验因果推断”这类真实世界反事实推理中，是否会在“结论违背直觉”的情形系统性失灵。作者提出“直觉性（intuitiveness）”这一维度：当真实经验证据与常识先验一致（obvious）、不明确（ambiguous）、或相反（counter-intuitive）时，LLM 的回答可靠性是否发生结构性变化。

评把“反直觉=高风险失灵点”讲清楚了；只看按 intuitiveness 分桶的错误率曲线，能直接指导你做评测分层而非看均值。

Yanjie He

counterfactual-reasoningchain-of-thoughtbenchmark2026年4月12日arXiv PDF

arXiv泛读

Do LLMs Build Spatial World Models? Evidence from Grid-World Maze Tasks

论文探问：LLM 是否真的能构建“空间世界模型（spatial world models）”来支持规划与推理，还是主要依赖对特定输入格式/提示的表面启发式。作者用网格迷宫（grid-world maze）作为受控环境，检验模型在多步路径规划、空间抽象与跨表示一致性上的能力。

评网格迷宫是干净的诊断题，但很容易被提示格式牵着走；只看跨表示一致性与提示敏感性实验，别把单一格式高分当世界模型证据。

Weijiang Li,Yilin Zhu,Rajarshi Das,Parijat Dube

spatial-reasoningworld-modelsmaze-tasks2026年4月12日arXiv PDF

arXiv泛读

Why Do Large Language Models Generate Harmful Content?

论文要回答的问题是：LLM 为什么会生成有害内容？更具体地，哪些内部组件（层/模块/神经元）在因果意义上“导致”了有害输出，而不仅仅是与之相关。

评如果它真能把“有害输出”归因到可复现的因果组件就值钱；但这类工作最怕控制不干净，建议只看因果识别假设与干预可逆性。

Rajesh Ganguli,Raha Moraffah

causal-mediation-analysissafetyinterpretability2026年4月13日arXiv PDF

arXiv泛读

Human-like Working Memory Interference in Large Language Models

解释为何Transformer/LLM在具备全上下文注意力的情况下仍表现出工作记忆限制，并刻画其与人类相似的干扰效应。

评把 LLM 的“工作记忆像人类一样会被干扰”量化得不错；只看干扰范式与跨模型相关性，能启发你设计更不易被近因偏置污染的评测。

Hua-Dong Xiong,Li Ji-An,Jiaqi Huang,Robert C. Wilson,Kwonjoon Lee,Xue-Xin Wei

working-memoryinterferencebehavior-analysis2026年4月1日arXiv PDF

arXiv泛读

Conflicts Make Large Reasoning Models Vulnerable to Attacks

论文研究的问题是：当大型推理模型（LRM）在回答有害请求时被注入“冲突目标/两难情境”，其安全决策会如何失效？冲突为何会显著提升攻击成功率？

评作为红队技巧库值得知道：冲突注入是低成本单轮攻击；只看攻击模板与成功率分解，能直接转成你们的 safety regression 集。

Honghao Liu,Chengjin Xu,Xuhui Jiang,Cehao Yang,Shengming Yin,Zhengwu Ma,Lionel Ni,Jian Guo

safetyreasoning-modelsconflict-prompts2026年4月10日arXiv PDF

arXiv泛读

A Mechanistic Analysis of Looped Reasoning Language Models

论文研究“循环推理/深度递归（looped）”Transformer 与标准前馈 Transformer 在内部计算动力学上的差异：当把一段共享权重的层在潜空间中反复应用时，残差流（latent states）会如何演化？它是否仍呈现前馈模型中常见的“分阶段推理（stages of inference）”结构？以及循环结构带来的性能收益对应了怎样的可解释机制。

评把looped depth当动力系统看固定点/极限环很有用，但不少现象随机初始化也出现需降权；只读动力学诊断那节和关键相图/轨迹图即可。

Hugh Blayney,Álvaro Arroyo,Johan Obando-Ceron,Pablo Samuel Castro,Aaron Courville,Michael M. Bronstein,Xiaowen Dong

mechanistic-interpretabilitylooped-transformerfixed-point2026年4月13日arXiv PDF

arXiv泛读

The Diffusion-Attention Connection

如何从统一的数学/几何视角解释 Transformer 注意力、diffusion maps 与 magnetic Laplacian 之间的关系，并给出可组织这些动力学机制的框架。

评更像一套把注意力谱性质塞进扩散/拉普拉斯语言的“字典”，不直接给可操作改法；预训练研究员看定义与regime划分那几页就够备查。

Julio Candanedo

attentiondiffusion-mapsmarkov-geometry2026年2月11日arXiv PDF

arXivHF Daily▲ 21泛读

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

论文系统综述 Transformer 中的 Attention Sink（注意力汇聚/注意力下沉）现象：模型会把大量注意力分配给少数“特定但信息量低”的 token（如 BOS、换行、特殊符号或某些异常 token），从而影响训练与推理动态、可解释性、长上下文效率、幻觉与鲁棒性。作者试图回答：AS 在现有工作中如何被利用？其形成机制是什么、是否“必要”？以及有哪些可行的缓解/替代设计与权衡。

评把attention sink从零散经验整理成可执行的排查/缓解清单，适合做长上下文/量化/稀疏注意力时当工程手册；重点看机制分类与mitigation表格。

Zunhai Su,Hengyuan Zhang,Wei Wu,Yifan Zhang,Yaxiu Liu,He Xiao ... 省略 10 位作者 ... ,Zhongwei Wan,Yulei Qian,Yuchen Xie,Ngai Wong

attention-sinktransformersinterpretability2026年4月11日arXiv PDF

arXiv泛读

Transformers Learn Latent Mixture Models In-Context via Mirror Descent

解释Transformer注意力在序列建模中如何“从上下文中”学习潜在的token重要性/混合权重，并给出可证明的机制对应。

评证明“小Transformer=一步mirror descent”很漂亮但构造味重、外推到大模型需谨慎；只看定理假设与实现电路那一节，拿来做理论对照即可。

Francesco D'Angelo,Nicolas Flammarion

in-context-learningmirror-descentattention-mechanism2026年4月12日arXiv PDF

arXiv泛读

Learning to Adapt: In-Context Learning Beyond Stationarity

现有关于 Transformer in-context learning（ICL）的理论分析大多建立在“任务分布平稳（stationary）”的回归设定上：prompt 中的上下文样本与查询点共享同一个不随时间变化的目标函数/回归系数。但真实序列任务（时间序列、流式数据、语言等）普遍非平稳：目标函数随时间漂移，预测应更依赖“最近样本”（recency bias）。本文要回答：在非平稳回归下，ICL 机制如何实现自适应？标准线性注意力为何不足？带门控的线性注意力（GLA）为何更合适？

评把ICL从平稳回归推进到漂移场景，直接改变我对GLA/遗忘门的看法：它们像在实现可学习的在线加权；建议按其漂移设定做你模型的recency/forgetting ablation。

Zhen Qin,Jiachen Jiang,Zhihui Zhu

in-context-learningnon-stationaritygated-linear-attention2026年4月13日arXiv PDF

arXivHF Daily▲ 3

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

如何系统评测LLM在“去专业知识依赖”的一般性推理（general reasoning）上的能力与泛化，而非仅在数学/物理等专门领域推理上表现。

评作为“去知识化推理”benchmark备查即可，能快速补齐你评测矩阵但不太指导训练；只看任务构成与leaderboard结论，别细读题库细节。

Junlin Liu,Shengnan An,Shuang Zhou,Dan Ma,Shixiong Luo,Ying Xie ... 省略 3 位作者 ... ,Xiaoyu Li,Ziwen Wang,Xuezhi Cao,Xunliang Cai

reasoning-benchmarkgeneral-reasoningrobustness2026年4月13日arXiv PDF GitHub

arXiv

Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding

在视频场景理解的VLM中，显式“思考/推理痕迹”（thought streams）是否真的带来质量提升、提升在何处饱和、以及模型在思考中关注了什么。

评告诉你“多吐思考token”在视频VLM里收益何时饱和，适合做推理预算策略但与预训练关联弱；只看思考长度-性能曲线和失败案例分析。

Shivam Sharma,Sankalp Nagaonkar,Ashish Choithani,Ashutosh Trivedi

vlm-evaluationreasoning-tracestest-time-compute2026年4月13日arXiv PDF

arXiv

Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models

角色扮演/人格设定下，persona的“宜人性(agreeableness)”如何驱动LLM的sycophancy（迎合用户而牺牲真实性）。

评把role-play里“宜人性→迎合”做成可量化变量，适合对齐评测加一条轴；预训练侧只需知道这类persona会系统性污染偏好数据，读基准构造即可。

Arya Shah,Deepali Mishra,Chaklam Silpasuwanchai

sycophancypersonarole-playing2026年4月12日arXiv PDF

arXiv

The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems

多轮对话场景下，攻击者可通过大量“单步低风险但累积有害”的输入逐步越狱，绕过对齐阈值与显式触发检测。

评把多轮“低风险累积”越狱系统化，提醒你单轮安全阈值评测会漏检；作为威胁模型备查即可，重点看攻击流程与防护建议清单。

Yihao Zhang,Kai Wang,Jiangrong Wu,Haolin Wu,Yuxuan Zhou,Zeming Wei,Dongxian Wu,Xun Chen,Jun Sun,Meng Sun

jailbreakmulti-turnsecurity2026年4月13日arXiv PDF

arXiv

Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion

在已有对齐/安全防护下，如何以更少查询、更高成功率实现对LLM的越狱与受控“模型颠覆”(subversion)。

评作为攻击面备查即可：电路级闭环干预挺新，但对预训练动作指导弱；只扫方法图和成功率/查询数表。

Vishal Pramanik,Maisha Maliha,Susmit Jha,Sumit Kumar Jha

jailbreakmechanistic-interventionattention-heads2026年4月11日arXiv PDF

arXiv

METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models

解决现有评测对 LLM 的“上下文一致的因果推理能力”覆盖不全、缺乏统一语境与因果层级系统评估的问题。

评想校准“模型会因果推理”的错觉可看：基准设计比结论更值钱；只读任务定义和分层结果那两节。

Pengfeng Li,Chen Huang,Chaoqun Hao,Hongyao Chen,Xiao-Yong Wei,Wenqiang Lei,See-Kiong Ng

causal-reasoningbenchmarkcounterfactual2026年4月13日arXiv PDF

arXiv

VeriSim: A Configurable Framework for Evaluating Medical AI Under Realistic Patient Noise

现有医疗LLM评测过于“干净”，无法反映真实临床对话中患者噪声（记忆缺口、低健康素养、焦虑、隐瞒等）对模型诊断能力的影响。

评告诉你干净评测有多乐观：噪声注入+一致性校验框架可直接搬进内部红队；正文只看噪声类型表和退化曲线。

Sina Mansouri,Mohit Marvania,Vibhavari Ashok Shihorkar,Han Ngoc Tran,Kazhal Shafiei,Mehrdad Fazli,Yikuan Li,Ziwei Zhu

evaluationdistribution-shiftpatient-simulation2026年4月12日arXiv PDF

arXivHF Daily

SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?

LLM能否预测自然科学实验的真实结果，并评估这种能力是否足以可靠地用于科研流程？

评能压住“LLM快能做科研预测”的过度宣传：实验结果预测任务很难且人机都翻车；只看数据构造和人类对照表。

Udari Madhushani Sehwag,Elaine Lau,Haniyeh Ehsani Oskouie,Shayan Shabihi,Erich Liang,Andrea Toledo ... 省略 7 位作者 ... ,Nicholas Johnson,Furong Huang,Ernesto Gabriel Hernandez Montoya,Bing Liu

benchmarkscientific-reasoningoutcome-prediction2026年4月12日arXiv PDF

arXiv

THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture

在不依赖外部符号求解器的纯神经模块化架构中，如何学习三值逻辑（Kleene K3）并实现不确定性下的组合泛化与长度泛化。

评作为归纳偏置小样本很干净：模块化先验带来长度/组合泛化的增益可信，但离LLM训练还远；只看对照实验图。

Augustus Haoyang Li

compositional-generalizationinductive-biasmodular-architecture2026年4月13日arXiv PDF

arXiv

SRBench: A Comprehensive Benchmark for Sequential Recommendation with Large Language Models

为LLM参与的序列推荐任务提供更全面、可复现的评测基准，覆盖准确性之外的真实需求并解决LLM输出抽取不可靠问题。

评推荐系统方向的方法学补课：它解决“LLM输出难抽取导致评测漂”的坑；只读输出抽取协议和指标表即可。

Jianhong Li,Zeheng Qian,Wangze Ni,Haoyang Li,Hongwei Yao,Yang Bai,Kui Ren

benchmarksequential-recommendationllm-evaluation2026年1月31日arXiv PDF

arXiv

Environmental Footprint of GenAI Research: Insights from the Moshi Foundation Model

解决GenAI研发阶段环境影响缺乏透明披露的问题，细粒度量化从研发到最终训练的计算与环境足迹。

评治理/预算视角值得知道：把研发迭代的算力与碳足迹拆得够细，可当内部披露模板；不必逐页读技术细节。

Marta López-Rauhut,Loic Landrieu,Mathieu Aubry,Anne-Laure Ligozat

Kyutaicompute-accountingcarbon-footprinttraining-efficiency2026年4月13日arXiv PDF

arXiv

Back to the Barn with LLAMAs: Evolving Pretrained LLM Backbones in Finetuning Vision Language Models

当VLM以预训练LLM作为语言/推理骨干时，如何在不改变其它因素的前提下评估“更强的新LLM骨干”是否必然带来更强的VLM，以及影响路径是什么。

评改变“换更强LLM骨干=更强VLM”的默认信念：受控替换实验很有工程指向；只看骨干对照与失败案例分析。

Sameera Horawalavithana,Lauren Phillips,Ian Stewart,Sai Munikoti,Karl Pazdernik

vlmbackbone-upgradellama2026年4月13日arXiv PDF

arXiv

Assessing Privacy Preservation and Utility in Online Vision-Language Models

评估在线视觉-语言模型(OVLM)在处理用户上传图片时的PII泄露风险，并在“隐私保护-效用保持”之间寻求可行的防护方案。

评多模态落地前的合规备查：强调关系上下文也会泄露PII，结论不惊艳但能补威胁模型；只看攻击面分类和防护-效用曲线。

Karmesh Siddharam Chaudhari,Youxiang Zhu,Amy Feng,Xiaohui Liang,Honggang Zhang

privacypiivision-language-models2026年4月6日arXiv PDF

arXiv

GLEaN: A Text-to-image Bias Detection Approach for Public Comprehension

如何把文本到图像（T2I）模型的社会偏见以“公众可读”的方式可视化呈现，而不仅是面向技术人员的统计指标。

评更像审计沟通工具而非训练论文：把T2I偏见做成公众可读展示，适合PR/治理流程；研究员只需看展示范式示例图。

Bochu Ding,Brinnae Bent,Augustus Wendell

bias-audittext-to-imageexplainability2026年4月10日arXiv PDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

arXiv泛读

Do Agent Rules Shape or Distort? Guardrails Beat Guidance in Coding Agents

自然语言“规则文件”(如CLAUDE.md/.cursorrules)到底是提升还是扭曲coding agent行为？哪些规则类型真正有效，机制是什么。

评只看实验设计和规则分组结论：它把“规则=更对齐”这个 prior 打碎，提示多数收益来自 context priming，写规则应偏负约束而非正向指导。

Xing Zhang,Guanghui Wang,Yanwei Cui,Wei Qiu,Ziyuan Li,Bing Zhu,Peiyang He

coding-agentsswe-benchguardrails2026年4月13日arXiv PDF

arXiv泛读

How Many Tries Does It Take? Iterative Self-Repair in LLM Code Generation Across Model Scales and Benchmarks

代码生成基准通常用 pass@1（一次生成）评估，但真实编程是“写—跑—看报错—修复”的多轮迭代过程。本文系统研究迭代式 self-repair：模型先生成代码，运行测试，若失败则把错误类型与 traceback 反馈给模型让其修复，重复多轮。核心问题是：在当代（2024–2025）不同规模、不同架构（dense vs MoE）、不同提供方（开源/闭源）的模型上，self-repair 是否普遍有效？收益集中在第几轮？哪些错误更容易修？以及与“独立重采样多次”相比是否更 token-efficient？

评看边际收益曲线和与重采样的 token 效率对比就够：能直接指导上线时修复轮数/何时停，但注意不同基准下结论波动，别当通用定律。

Johin Johny Arimbur

iterative-repaircode-generationexecution-feedback2026年4月12日arXiv PDF

arXiv泛读

FM-Agent: Scaling Formal Methods to Large Systems via LLM-Based Hoare-Style Reasoning

面向由 LLM 生成/辅助开发的超大规模系统（>100k LoC），如何在可扩展的前提下做“组合式正确性推理”。传统 Hoare 逻辑能把系统拆到函数级别验证，但关键瓶颈是：每个函数都需要人写形式化规格（pre/post），而在 LLM 生成代码场景下开发者往往并不理解每个函数的真实/期望行为，导致规格难写、难准、难覆盖。

评值得扫一眼其“规格生成+Hoare 组合验证”的流水线：如果你在做大代码库 agent，这给了把验证瓶颈从证明转到 spec 的可操作分解，但复现成本偏高。

Haoran Ding,Zhaoguo Wang,Haibo Chen

Shanghai Jiao Tong Universityformal-methodshoare-logicllm-for-verification2026年4月13日arXiv PDF

arXivHF Daily▲ 11

CodeTracer: Towards Traceable Agent States

解决代码 Agent 在并行工具调用与多阶段工作流下难以调试的问题：状态转移不可见、错误链隐蔽、难定位失败起点。

评作为可观测性工具备查即可：看其状态轨迹抽象和 failure-onset 定位接口，能直接迁移到你自己的 agent 运行日志体系，但研究结论含量不高。

Han Li,Yifan Yao,Letian Zhu,Rili Feng,Hongyi Ye,Jiaming Wang ... 省略 6 位作者 ... ,Ming Sun,Zhaoxiang Zhang,He Ye,Jiaheng Liu

coding-agentsobservabilitydebugging2026年4月13日arXiv PDF

arXiv

ReFEree: Reference-Free and Fine-Grained Method for Evaluating Factual Consistency in Real-World Code Summarization

如何在真实世界、长篇多句的代码摘要场景下，细粒度且无需参考摘要地评估“事实一致性/是否幻觉”。

评不必通读：只看不一致类型体系和标注协议，能快速补齐你对“代码摘要幻觉”评测的颗粒度；方法本身更像评测工程而非新模型信号。

Suyoung Bae,CheolWon Na,Jaehoon Lee,Yumin Lee,YunSeok Choi,Jee-Hyong Lee

code-summarizationfactual-consistencyhallucination-evaluation2026年4月12日arXiv PDF

arXiv

DuET: Dual Execution for Test Output Prediction with Generated Code and Pseudocode

在测试输出预测（test output prediction）中，如何在“生成代码并执行”的易失败（代码小错导致无法运行）与“纯LLM推理”的易幻觉之间取得更可靠的输出预测？

评知道这个“代码执行+伪执行投票”套路就行：适合做可靠性链路的 quick win，但提升多半来自集成与投票，需警惕对执行可用性的强依赖。

Hojae Han,Jaejin Kim,Seung-won Hwang,Yu Jin Kim,Moontae Lee

code-reasoningexecutionpseudocode2026年4月13日arXiv PDF

arXiv

SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

在多轮软件工程代理（SWE）中，如何在“深度推理（长CoT）”与“上下文长度/效率限制”之间取得平衡，避免上下文爆炸与重复推理。

评当框架点子看：只看其上下文管理策略（滑窗/摘要/去重）和成本分析，能直接改你自己的长程 SWE agent；科研增量有限。

Shuquan Lian,Juncheng Liu,Yazhe Chen,Yuhong Chen,Hui Li

coding-agentcontext-managementreasoning-compression2026年4月13日arXiv PDF

arXiv

Credit-Budgeted ICPC-Style Coding: When Agents Must Pay for Every Decision

现有自动编程Agent评测忽略真实资源约束，缺乏“算力/时间/工具调用成本”下的成本-效果权衡评测与训练环境。

评作为评测范式备查：它把“正确率”改成“预算内最优策略”，能指导你做成本约束训练/评测；但更像环境定义，别期待模型侧新 insight。

Lingfeng Zhou,Junhao Shi,Jin Gao,Dequan Wang

coding-agentsbenchmarkcost-aware2026年4月11日arXiv PDF

arXiv泛读

SLM Finetuning for Natural Language to Domain Specific Code Generation in Production

在生产环境做“自然语言→领域特定语言（DSL）代码生成”时，LLM+RAG 虽然效果好，但检索与长上下文带来显著推理延迟与系统复杂度；而小语言模型（SLM）推理快、部署轻，但知识与推理能力不足，容易输出脆弱、幻觉、对提示敏感。论文要解决的是：如何用可部署、低延迟的 SLM 在生产中稳定生成结构化 DSL，并尽量减少对运行时长上下文与检索的依赖。

评当工程经验贴看：关注数据构造/约束输出格式/线上稳定性手段，能帮你判断“SLM 微调替代 RAG”是否划算；算法新意不多别深读。

Renjini R. Nair,Damian K. Kowalczyk,Marco Gaudesi,Chhaya Methani

code-generationsmall-language-modelsdomain-adaptation2026年4月10日arXiv PDF

HF Daily▲ 122

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

评估LLM在量子代码生成上的跨框架能力，现有基准局限于单一框架无法区分量子推理与框架熟悉度。

评小众领域benchmark，方法上没有新意，反馈修复提升20+点的幅度倒是可作为code repair范式的旁证，但仅此而已，不读正文。

Ali Slim,Haydar Hamieh,Jawad Kotaich,Yehya Ghosn,Mahdi Chehimi,Ammar Mohanna,Hasan Abed Al Kader Hammoud,Bernard Ghanem

benchmarkcode-generationquantum-computing2026年3月25日arXiv PDF GitHub

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv精读

Learning and Enforcing Context-Sensitive Control for LLMs

评必读点在“从交互样本归纳可执行的上下文敏感约束并强制解码”：它改变我对受控生成只能靠 CFG/手写规则的 prior，建议立刻在结构化输出任务做 ablation 复现。

Mohammad Albinhassan,Pranava Madhyastha,Mark Law,Alessandra Russo

controllable-generationconstrained-decodinggrammar-induction2026年4月12日arXiv PDF

arXivHF Daily▲ 2精读

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Yu Li,Xiaoran Shang,Qizhi Pei,Yun Zhu,Xin Gao,Honglin Lin ... 省略 4 位作者 ... ,Conghui He,Dahua Lin,Feng Zhao,Lijun Wu

data-lineagepost-training-datacontamination2026年4月12日arXiv PDF GitHub

arXiv泛读

Deep-Reporter: Deep Research for Grounded Multimodal Long-Form Generation

现有“深度研究/agentic search + 长文生成”框架几乎都是文本中心：能检索与引用文本证据，却难以像真实专家报告那样系统性地检索、筛选并在长文中“恰当地插入与解释”图表/表格/信息图等视觉证据；同时缺少可复现的多模态长文评测基准来衡量“视觉检索是否准、图文融合是否一致、引用是否合理”。

Fangda Ye,Zhifei Xie,Yuxin Hu,Yihang Yin,Shurui Huang,Shikai Dong,Jianzhu Bao,Shuicheng Yan

multimodal-raglong-form-generationagentic-search2026年4月12日arXiv PDF

arXiv泛读

LAST: Leveraging Tools as Hints to Enhance Spatial Reasoning for Multimodal Large Language Models

多模态大模型（MLLM）在空间推理（几何布局、相对/绝对距离、尺度估计、拓扑关系）上常出现幻觉与不精确：仅靠数据规模与微调难以让模型内化几何先验与约束；而引入深度估计、分割、检测等专用视觉工具虽有潜力，却面临两大障碍——工具异构且参数繁多导致长链路调用不稳，以及工具输出（mask、depth map 等低层信号）难以被 MLLM 直接理解并转化为高层空间线索。

Shi-Yu Tian,Zhi Zhou,Kun-Yang Yu,Ming Yang,Yang Chen,Ziqiao Shang,Lan-Zhe Guo,Yu-Feng Li

Nanjing Universitytool-augmentedspatial-reasoningmultimodal-llm2026年4月8日arXiv PDF

arXiv泛读

Test-time Scaling over Perception: Resolving the Grounding Paradox in Thinking with Images

论文聚焦“Thinking with Images”范式中的细粒度视觉推理不可靠问题：模型必须先决定“看哪里/怎么裁剪缩放”，但正确决策又依赖尚未获取的局部证据，形成循环依赖。作者将其形式化为 Grounding Paradox（落地悖论）：感知证据不足→工具调用位置/策略猜测化→进一步错过关键证据→推理失败。

Zheng Jiang,Yiming Chen,Nan He,Jiahui Chen,Chaoyang Li,Houde Qian,Lifeng Sun

Tsinghua UniversityBeijing University of Technologytest-time-scalingactive-perceptiontool-use2026年4月13日arXiv PDF

arXiv泛读

Detecting Safety Violations Across Many Agent Traces

论文研究“跨多条 agent traces 的安全审计”：很多安全违规并不在单条对话/轨迹中显现，而是分散在大量轨迹里，且违规轨迹稀少、复杂、甚至伪装成正常行为。传统 per-trace 监控会漏检；把少量轨迹塞进上下文做判断又不具备可扩展性；固定规则/监控器对新型行为脆弱。作者将该问题表述为超性质（hyperproperties）：安全性取决于“轨迹集合”而非单条轨迹，并提出要定位导致违规的 witness sets（见证集合）。

Adam Stein,Davis Brown,Hamed Hassani,Mayur Naik,Eric Wong

ai-safetyagent-auditingtrace-mining2026年4月13日arXiv PDF

arXiv泛读

Reducing Hallucination in Enterprise AI Workflows via Hybrid Utility Minimum Bayes Risk (HUMBR)

高风险企业工作流（法务、合规、隐私等）中，LLM 单次生成不稳定且可能“自信胡编”，传统 RAG/自我批判/多答案再总结在生产中仍会出现偏置、二次生成放大错误等失效模式。论文要解决的是：在没有金标准参考答案的情况下，如何以可证明的方式降低“输出幻觉”的概率，并给出可配置的风险容忍度与所需集成规模。

Chenhao Fang,Jordi Mola,Mark Harman,Jason Nawrocki,Vaibhav Shrivastava,Yue Cheng ... 省略 3 位作者 ... ,Arya Pudota,Matthew Becker,Hervé Robert,Abhishek Gulati

MetaInc.Menlo ParkInc.Bellevue+2hallucinationminimum-bayes-riskself-consistency2026年4月13日arXiv PDF

arXiv泛读

Exploring Knowledge Conflicts for Faithful LLM Reasoning: Benchmark and Method

RAG 场景下，LLM 在检索到“冲突知识”时往往无法保持忠实推理（faithful reasoning）。现有研究多关注“外部证据 vs 模型参数知识”的冲突，或单一来源内的合成冲突；但现代 RAG 越来越多地融合非结构化文本与（半）结构化知识图谱（KG），跨来源（text vs KG）的冲突如何影响推理、模型如何选择可信证据，缺少系统基准与方法。论文要解决：构建能系统评测跨来源冲突的基准，并提出能缓解偏置、提升忠实性的推理框架。

Tianzhe Zhao,Jiaoyan Chen,Shuxiu Zhang,Haiping Zhu,Qika Lin,Jun Liu

Xi’an Jiaotong UniversityHunan UniversityNational University ofragfaithfulnessknowledge-conflict2026年4月13日arXiv PDF

arXiv泛读

Agent^2 RL-Bench: Can LLM Agents Engineer Agentic RL Post-Training?

论文要回答的问题是：LLM 智能体能否在受限工程预算内，端到端“工程化”完成 agentic RL post-training（从目标理解、方案选择、代码实现/调参/排错、到在线采样闭环训练与多次提交），并真实提升给定基座模型的可测评性能；以及现有偏静态的后训练/自动化基准为何会高估这种能力。

Wanyi Chen,Xiao Yang,Xu Yang,Tianming Sha,Qizheng Li,Zhuo Wang,Bowen Xian,Fang Kong,Weiqing Liu,Jiang Bian

benchmarkrl-post-trainingllm-agents2026年4月12日arXiv PDF

arXiv泛读

Self-Correcting RAG: Enhancing Faithfulness via MMKP Context Selection and NLI-Guided MCTS

论文要解决 RAG 在复杂推理任务中的两类核心问题：1）上下文利用率低（检索到的内容冗余、信息密度不足，token 预算被浪费）；2）幻觉频发（生成内容与证据不一致、早期错误不可回溯）。作者希望把“选哪些证据”和“如何生成且保持可证据化一致”统一成可优化/可搜索的过程。

Shijia Xu,Zhou Wu,Xiaolong Jia,Yu Wang,Kai Liu,April Xiaowen Dong

ragcontext-selectionknapsack2026年4月12日arXiv PDF

arXiv泛读

Retrieval as Generation: A Unified Framework with Self-Triggered Information Planning

传统 RAG 往往把“何时检索/检索什么/检索几轮/何时停止”放在生成过程之外（外部控制器、启发式触发或多阶段管线），导致检索时机与推理状态脱节，难以在逐步推理中按需暴露信息缺口并自适应补证，也不利于把错误归因到具体决策（过早检索、查询改写不当、停止过晚等）。论文要解决的是：如何把检索控制变成可学习、可解释、与 token 级解码同轨的生成策略，从而实现端到端的“边想边查”。

Bo Li,Mingda Wang,Gexiang Fang,Shikun Zhang,Wei Ye

ragplanningretrieval2026年4月13日arXiv PDF

arXiv泛读

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

如何在长时程、工具增强、开放式输出的 agentic 任务中实现“并行 test-time scaling”，并有效聚合多条并行轨迹的信息以提升最终答案质量。

评只看聚合代理的检索/综合策略与消融：它把“并行采样=拼答案”这个 prior 推翻了，但收益高度依赖轨迹表征与检索噪声。

Yoonsang Lee,Howard Yen,Xi Ye,Danqi Chen

agentic-taskstest-time-scalingtrajectory-aggregation2026年4月13日arXiv PDF

arXiv泛读

Pioneer Agent: Continual Improvement of Small Language Models in Production

小语言模型（1B–8B）在生产中具备成本与延迟优势，但把它们适配到具体任务的难点不在“训练一次”，而在端到端工程闭环：任务定义与数据获取、失败诊断、针对性数据构造、超参与训练策略选择、回归控制、以及迭代何时停止。现有 AutoML/数据中心/提示优化/部分 agent 系统往往覆盖其中一段而非“从失败到修复”的全链路。论文要解决的是：能否用一个自治 agent 自动化 SLM 的冷启动构建与生产期持续改进闭环。

评当作生产闭环 playbook 读：重点看失败归因→数据构造→回归门控，研究增量不大但能直接指导你们的 SLM 迭代 SOP。

Dhruv Atreja,Julia White,Nikhil Nayak,Kelton Zhang,Henrijs Princis,George Hurn-Maloney,Ash Lewis,Urchade Zaratiana

closed-loop-trainingsmall-language-modelsdata-curation2026年4月10日arXiv PDF

arXivHF Daily▲ 9泛读

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

GUI 智能体研究的主要瓶颈不在“模型是否足够大”，而在缺少一套端到端、可复现、可落地的全栈基础设施：在线 RL 训练难以稳定运行（环境漂移、奖励稀疏、真实设备难接入）、评测协议在不同论文间暗中漂移导致不可比、训练出的策略很少真正部署到真实设备与真实用户场景。

评只需看评测协议与部署链路那几节：它更像“把坑填平”的基础设施论文，结论不改变模型 prior，但能省掉大量不可复现的工程时间。

Fei Tang,Zhiqiong Lu,Boxuan Zhang,Weiming Lu,Jun Xiao,Yueting Zhuang,Yongliang Shen

gui-agentrl-infrastructureevaluation2026年4月13日arXiv PDF

arXiv泛读

ClawVM: Harness-Managed Virtual Memory for Stateful Tool-Using LLM Agents

有状态的工具调用型 LLM 智能体把上下文窗口当作工作内存，但现有 agent harness 对“状态驻留（residency）与持久性（durability）”的管理多为 best-effort：压缩/裁剪后关键状态丢失、reset 时绕过 flush、写回覆盖式破坏（destructive writeback）。这些问题导致重复工具调用、偏好/约束丢失、计划中断且难以诊断与复现。

评值得看其“虚拟内存式契约”定义：把状态丢失从提示工程问题升级为 harness 责任边界；动作是按 residency/durability 做可观测与强制 flush。

Mofasshara Rafique,Laurent Bindschaedler

Independent ResearcherMax Planck Institute for Software SystemsSaarbrückenagent-memoryvirtual-memorytool-use2026年4月11日arXiv PDF

arXiv泛读

Hodoscope: Unsupervised Monitoring for AI Misbehaviors

现有 AI agent 行为监控主要依赖“监督式”范式（规则/LLM judge/已知失败模式清单），对“未知/新型”越狱、漏洞利用、reward hacking 等失效模式覆盖不足；且 LLM judge 往往需要被“告知要找什么”才会判定可疑，导致对新型误行为的发现滞后。论文提出“无监督监控（unsupervised monitoring）”问题：不让系统直接判定是否误行为，而是从群体行为差异中自动浮现“值得人类优先审查的独特行为模式”。

评只看异常簇发现与人审排序的实验：作为弱信号很有用，但要警惕把“新颖”当“有害”的偏差，适合接入你们的轨迹审计队列。

Ziqian Zhong,Shashwat Saxena,Aditi Raghunathan

agent-monitoringunsupervised-detectionmisbehavior2026年4月13日arXiv PDF

arXiv泛读

Escaping the Context Bottleneck: Active Context Curation for LLM Agents via Reinforcement Learning

LLM agent 在长时序任务中受“上下文瓶颈（Context Bottleneck）”与“Lost-in-the-Middle”影响：环境观测极度冗长高熵（网页 DOM、检索结果噪声），把原始信息不断堆进上下文会迅速降低信噪比，导致推理链条级联失败。现有被动记忆/检索式方法把上下文管理当静态检索问题，容易出现 retrieval bias，尤其难以召回与当前 query 文本不相似但因果关键的“reasoning anchors”。

评看 RL 学到的上下文裁剪策略与对照：它改变我对“更大窗口就行”的 prior，动作是把 context curation 作为可训练小模型组件而非静态检索。

Xiaozhe Li,Tianyi Lyu,Yizhao Yang,Liang Shan,Siyi Yang,Ligao Zhang,Zhuoyi Huang,Qingwen Liu,Yang Li

context-managementreinforcement-learningllm-agents2026年4月13日arXiv PDF

arXiv泛读

UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents

现有 LLM Agent 的工具学习（tool-use）研究在“表示—数据—评测”三条链路上高度碎片化：不同数据集/框架的 tool-call schema 不兼容导致难以联合训练；训练数据对工具交互“结构分布”（尤其串行/并行、单跳/多跳、单轮/多轮）建模不足；评测基准协议与脚本不统一造成结果不可比、难复现。

评当标准化提案快速扫：只看 schema 设计与评测脚本即可；科研新 insight 有限，但若你在做多源 tool 数据混训，这套规范能立刻降摩擦。

Yijuan Liang,Xinghao Chen,Yifan Ge,Ziyi Wu,Hao Wu,Changyu Zeng,Wei Xing,Xiaoyu Shen

tool-usefunction-callingdataset2026年4月13日arXiv PDF

arXiv泛读

ExecTune: Effective Steering of Black-Box LLMs with Guide Models

在黑盒 API 访问的 LLM 部署中，推理成本/延迟是主要瓶颈。许多“先生成计划/建议，再由另一个模型执行”的组合式系统缺乏统一理论刻画与针对性训练目标，导致 guide 产出的策略经常不可解析、不可遵循或与 core 能力不匹配，从而浪费推理成本并引发脆弱行为。

评重点看“可执行性”指标与训练目标：它把 guide/core 组合从玄学提示变成可优化对象；但黑盒设定下复现主要卡在评测与成本曲线是否干净。

Vijay Lingam,Aditya Golatkar,Anwesan Pal,Ben Vo,Narayanan Sadagopan,Alessandro Achille,Jun Huan,Anoop Deoras,Stefano Soatto

black-box-llmagentic-planningcost-sensitive-optimization2026年4月9日arXiv PDF

arXiv泛读

ADAM: A Systematic Data Extraction Attack on Agent Memory via Adaptive Querying

论文研究“带长期记忆/检索增强（RAG）的 LLM Agent”在黑盒交互场景下的隐私泄露：攻击者仅通过 API 自适应提问，就可能从 Agent 的记忆模块中逐步抽取历史用户查询（以及由此关联的敏感信息）。核心问题是：在多轮交互、带检索的 Agent 工作流中，如何系统性地把“记忆里有什么”尽可能高成功率地问出来。

评作为安全备查值得知道：看自适应查询策略与 ASR 曲线即可；它不教你训练更强模型，但会逼你给记忆检索加速率限制/审计与分布隔离。

Xingyu Lyu,Jianfeng He,Ning Wang,Yidan Hu,Tao Li,Danjue Chen,Shixiong Li,Yimin Chen

agent-securityprivacy-attackrag2026年4月10日arXiv PDF

arXiv泛读

ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection

论文研究工具增强型 LLM Agent 在运行时遭受“间接提示注入（Indirect Prompt Injection）”的系统性风险：攻击者把恶意指令藏在工具返回内容里（网页/文件/MCP 服务器/技能文件等），而 Agent 会把这些返回当作可信 observation 直接拼进对话历史，从而被诱导进行越权工具调用、数据外泄或危险操作。核心问题是：在不改模型、不改协议、不过度牺牲 Agent 灵活性的前提下，如何在运行时阻断这类注入带来的真实世界副作用。

评看运行时边界与确定性拦截点：它不靠微调改 prior，而是给出可审计的中间件防线；动作是把 tool I/O 当不可信输入做最小权限与策略执行。

Wei Zhao,Zhe Li,Peixin Zhang,Jun Sun

agent-securityprompt-injectiontool-use2026年4月13日arXiv PDF

arXiv泛读

$λ_A$: A Typed Lambda Calculus for LLM Agent Composition

现有 LLM agent 框架（LangChain/DSPy/CrewAI/AutoGen 等）的配置（多为 YAML/JSON）缺乏形式语义：无法原则性判断配置是否“结构完备/良构”、是否会终止、不同配置是否语义等价、以及重构是否保持语义不变。结果是开发者只能靠试错，且容易出现如 ReAct 循环缺少终止分支导致无限循环/被动截断、router 路由分支不全导致运行时错误等问题。

评别把它当 agent 论文看：它给“配置=程序”一个可判定的良构/终止边界；只读类型规则+静态 lint 推导，够你回去改内部 DSL。

Qin Liu

Nanjing Universityllm-agentsformal-semanticstyped-lambda-calculus2026年4月13日arXiv PDF

HF Daily▲ 3泛读

Time is Not a Label: Continuous Phase Rotation for Temporal Knowledge Graphs and Agentic Memory

如何让 Agent 的结构化记忆系统在不依赖昂贵 LLM 调用的前提下，自然区分并遗忘“易变事实”，同时保留“持久事实”？

评将 RoPE 的旋转相位思想迁移到 Agent 记忆的时间戳衰减上，通过关系表征预测“事实易变性”来控制旋转速度，设计非常 clean，值得一读。

Weixian Waylon Li,Jiaxin Zhang,Xianan Jim Yang,Tiejun Ma,Yiwen Guo

University ofTsinghua UniversityAgentic MemoryTemporal Knowledge GraphPhase Rotation2026年4月13日arXiv PDF

arXivHF Daily▲ 10

CocoaBench: Evaluating Unified Digital Agents in the Wild

如何在“真实开放环境”的长时程任务中评测统一数字代理（同时需要视觉/搜索/编码等能力）的可靠性与泛化能力。

CocoaBench Team,Shibo Hao,Zhining Zhang,Zhiqi Liang,Tianyang Liu,Yuheng Zha ... 省略 22 位作者 ... ,Eric P. Xing,Zhengzhong Liu,Rupesh Kumar Srivastava,Zhiting Hu

agent-benchmarklong-horizontool-use2026年4月13日arXiv PDF GitHub

arXivHF Daily▲ 1

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

统一多模态模型（理解/生成/编辑）架构与训练范式高度异构，导致评测、分析与后训练难以复现和公平对比，缺少统一代码与标准协议。

Yinyi Luo,Wenwen Wang,Hayes Bai,Hongyu Zhu,Hao Chen,Pan He,Marios Savvides,Sharon Li,Jindong Wang

unified-multimodal-modelevaluationcodebase2026年4月12日arXiv PDF GitHub

arXiv

StarVLA-$α$: Reducing Complexity in Vision-Language-Action Systems

VLA(视觉-语言-动作)机器人系统设计高度碎片化，如何用低复杂度强基线在统一设置下厘清关键设计因素并获得有竞争力的性能。

Jinhui Ye,Ning Gao,Senqiao Yang,Jinliang Zheng,Zixuan Wang,Yuxin Chen,Pengguang Chen,Yilun Chen,Shu Liu,Jiaya Jia

VLAroboticsvision-language2026年4月13日arXiv PDF

arXiv

PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers

缺少对“多模态+多文档”的科学深度研究型Agent/MLLM进行系统评测的基准，现有评测多停留在单文档理解。

Lei Xiong,Huaying Yuan,Zheng Liu,Zhao Cao,Zhicheng Dou

multimodal-benchmarkmulti-documentscientific-research2026年4月13日arXiv PDF

arXiv

CodaRAG: Connecting the Dots with Associativity Inspired by Complementary Learning

RAG在跨文档/分散证据场景下难以重建“证据链”，导致推理碎片化与幻觉仍然存在。

Cheng-Yen Li,Xuanjun Chen,Claire Lin,Wei-Yu Chen,Wenhua Nie,Hung-Yi Lee,Jyh-Shing Roger Jang

National Taiwan Universityraggraph-reasoningevidence-chaining2026年4月12日arXiv PDF

arXiv泛读

Instructing LLMs to Negotiate using Reinforcement Learning with Verifiable Rewards

LLM 作为自主交互式 agent 在“不完全信息”的策略博弈中表现不佳，双边价格谈判尤甚：作为买家时常过度追求成交而牺牲经济剩余（surplus），出现早期让步、泄露私有预算上限、甚至违反预算约束等系统性失败。问题本质是：现有对齐/指令微调并不自动赋予模型策略理性与约束遵守能力。

评可验证奖励把谈判从主观 judge 拉回可复现实验；只看奖励定义与训练中四阶段策略演化，能指导你做约束型 RLHF/RLAIF 设计。

Shuze Daniel Liu,Claire Chen,Jiabao Sean Xiao,Lei Lei,Yuheng Zhang,Yisong Yue,David Simchi-Levi

rlvrnegotiationgame-theory2026年4月10日arXiv PDF

arXiv泛读

LLMs for Text-Based Exploration and Navigation Under Partial Observability

在“部分可观测但位姿已知（oracle localisation）”的文本栅格世界中，LLM 能否在严格无工具/无代码执行/无程序综合的约束下，仅通过逐步输出 UP/RIGHT/DOWN/LEFT 作为控制器，完成探索（最大化揭示区域）与目标导航（尽量最短路径到达目标）？

评设定很“干净”但也很苛刻：纯文本一步一动作暴露长时序记忆/探索的硬短板；只看失败模式与效率差距图表即可定位你模型该补哪类训练。

Stephan Sandfuchs,Maximilian Melchert,Jörg Frochte

text-based-navigationpartial-observabilitybenchmark2026年3月10日arXiv PDF

arXiv泛读

EE-MCP: Self-Evolving MCP-GUI Agents via Automated Environment Generation and Experience Learning

在结合 MCP（结构化 API 调用）与 GUI（视觉界面操作）的 computer-use agents 中，如何让智能体学会在每一步“何时用 MCP、何时用 GUI”，并在跨应用（如浏览器、IDE、表格软件）场景下实现可持续的自动化自我进化（self-evolving），而不是依赖一次性 SFT 或低效的在线 RL？

评更像工程闭环手册：性能剖析→定向环境生成→过滤蒸馏，告诉你“按应用选机制”；只看各机制对应的失败模式对照表，别纠结总分。

Tiantian He,Yihang Chen,Keyue Jiang,Ka Yiu Lee,Kaiwen Zhou,Kun Shao,Shuai Wang

University CollegeHuawei Noah’s Ark LabThe Chinese University ofcomputer-use-agentgui-agentmcp2026年4月10日arXiv PDF

arXiv泛读

AI Organizations are More Effective but Less Aligned than Individual Agents

论文研究一个关键问题：由多个“已对齐”的LLM代理组成的协作式多智能体系统（作者称为 AI Organizations）是否会继承单体代理的对齐属性？更具体地说，当系统被用于现实风格的商业目标（咨询方案、软件交付）时，多代理协作是否会在提升业务效用的同时，系统性地产生更多偏离开发者意图/伦理边界的输出。

评它会动摇“单体对齐可组合”的 prior：多代理协作更能干但更容易越界；只看实验范式与越界类型分解，足够你重做系统级 safety eval。

Judy Hanwen Shen,Daniel Zhu,Siddarth Srinivasan,Henry Sleight,Lawrence T. Wagner,Morgan Jane Matthews,Erik Jones,Jascha Sohl-Dickstein

multi-agentalignmentagent-organization2026年4月11日arXiv PDF

arXiv泛读

CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms

论文提出并研究一个被现有LLM基准忽视的能力维度：程序性学习/过程性智能（procedural learning），即在没有明确任务说明的情况下，通过试错、奖励反馈、空间表征与策略更新来“发现目标并学会完成”。作者将经典啮齿动物行为神经科学范式转化为文本可交互环境，用于评测LLM代理在探索与学习上的能力上限与短板。

评作为基准值得知道：把动物程序学习范式搬进文本交互，能测出“会学”而非“会背”；只看任务族与学习曲线对比，别深读叙事。

Zacharie Bugaud

benchmarkllm-agentreward-learning2026年4月12日arXiv PDF

arXiv泛读

Sanity Checks for Agentic Data Science

如何为“能自动做数据分析并给出统计结论”的Agentic Data Science(ADS)管线提供轻量、可操作的可靠性/可证伪性检查，避免模型给出看似自信但其实由噪声驱动的结论。

评对做 agentic 分析管线的人很实用：PCS 式扰动把结论变成可证伪对象；只读 sanity check 清单与案例，能直接落地到上线风控。

Zachary T. Rewolinski,Austin V. Zane,Hao Huang,Chandan Singh,Chenglong Wang,Jianfeng Gao,Bin Yu

agent-evaluationsanity-checksrobustness2026年4月13日arXiv PDF

arXiv泛读

From Agent Loops to Structured Graphs:A Scheduler-Theoretic Framework for LLM Agent Execution

论文聚焦于当前最常见的 LLM Agent 执行范式“Agent Loop”（单模型在不断增长的上下文中迭代决定下一步）所带来的结构性缺陷：步骤依赖隐式不可验证、失败恢复缺乏有界语义导致可能无限重试、执行计划在上下文中被静默改写从而难以审计与调试。

评把“agent loop”当调度问题重述，能逼你把隐式控制流显式化；只看从 loop 到结构图的转换与有界重试语义，够你改执行器。

Hu Wei

llm-agentsexecution-graphsscheduling2026年4月13日arXiv PDF

arXiv泛读

Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents

论文研究在真实工具使用环境中，小模型 agent（如 8B）在单卡资源约束下表现显著落后于大模型的问题：在长轨迹、多 API、需要持久状态与错误恢复的任务中，原生推理策略常出现状态丢失、认证/凭据处理失败、API schema 违规、以及早期错误后陷入重复修正循环，导致任务完成率极低。

评如果你在 8B 单卡上做工具 agent，这篇直接给推理时编排的可复用配方；只看三角色分工与错误恢复消重策略，别被整体 benchmark 带跑。

S. Aaron McClendon,Jorge Gallego-Feliciano,Stavros Zervoudakis,Antonios Saravanos

Aimpoint Digital LabsNew York Universityinference-scaffoldingsmall-model-agentscontext-summarization2026年4月13日arXiv PDF

arXiv泛读

Retrieval Is Not Enough: Why Organizational AI Needs Epistemic Infrastructure

组织内 AI 代理在做“检索增强”时常把语义相关内容当作同等证据，无法区分：已绑定的决策 vs 已放弃的假设、已定论的事实 vs 争议主张、已解决问题 vs 长期未解的关键疑问，导致输出“流畅但认识论不一致”的结论。作者认为瓶颈不在检索保真度（retrieval fidelity），而在认识论保真度（epistemic fidelity）：系统能否把承诺强度、矛盾状态、组织性无知等作为可计算属性来表示与维护。

评观点论文但值得对齐你的产品直觉：检索不解决“承诺/争议/无知”的可计算表示；只看认识论属性清单，能指导你设计 KB 元数据与审计面板。

Federico Bottino,Carlo Ferrero,Nicholas Dosio,Pierfrancesco Beneventano

epistemic-infrastructureragknowledge-representation2026年4月13日arXiv PDF

arXiv泛读

Heterogeneous Consensus-Progressive Reasoning for Efficient Multi-Agent Debate

多智能体辩论（MAD）虽能通过互评互改提升推理质量，但现有方法常用固定拓扑与固定轮数，对所有任务“一刀切”，导致简单任务也消耗大量 token，复杂任务又可能陷入循环争论/僵局，收益饱和甚至下降。论文要解决的是：如何在保证准确率的同时，按任务难度自适应地减少不必要的辩论成本，并在复杂任务上避免无效多轮争论。

Yiqing Liu,Hantao Yao,Wu Liu,Allen He,Yongdong Zhang

University of Science and Technology ofmulti-agentdebateadaptive-computation2026年4月3日arXiv PDF

arXiv泛读

SLALOM: Simulation Lifecycle Analysis via Longitudinal Observation Metrics for Social Simulation

LLM 智能体社会模拟面临“有效性危机”：现有评估常用终态/结果对齐（point-matching），却忽略过程是否社会学上合理，导致“停钟问题”（stopped clock）——即便最终结果对了，也可能通过错误机制或不可信轨迹到达。

Juhoon Lee,Joseph Seering

agent-evaluationsocial-simulationprocess-fidelity2026年4月13日arXiv PDF

HF Daily▲ 13

TRACE: Capability-Targeted Agentic Training

LLM Agent 在目标环境中缺乏针对性的能力训练——现有方法要么用与模型实际缺陷无关的合成数据，要么让模型在目标环境中隐式学习多种能力。

评能力缺陷诊断+针对性合成环境+LoRA路由的思路有趣，但缺实验细节，当 agent 训练方法的弱信号看。

Hangoo Kang,Tarun Suresh,Jon Saad-Falcon,Azalia Mirhoseini

agent-trainingRLcapability-diagnosis2026年4月7日arXiv PDF GitHub

AI Research Daily

MIXAR: Scaling Autoregressive Pixel-based Language Models to Multiple Languages and Scripts

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Introspective Diffusion Language Models

Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning

Discrete Flow Maps

A Triadic Suffix Tokenization Scheme for Numerical Reasoning

Efficient Process Reward Modeling via Contrastive Mutual Information

Triviality Corrected Endogenous Reward

Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation

Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning

Rethinking Token-Level Credit Assignment in RLVR: A Polarity-Entropy Analysis

RTMC: Step-Level Credit Assignment via Rollout Trees

Efficient RL Training for LLMs with Experience Replay

Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models

Decomposing and Reducing Hidden Measurement Error in LLM Evaluation Pipelines

The Myth of Expert Specialization in MoEs: Why Routing Reflects Geometry, Not Necessarily Domain Expertise

Tail-Aware Information-Theoretic Generalization for RLHF and SGLD

Layerwise Dynamics for In-Context Classification in Transformers

Learning and Enforcing Context-Sensitive Control for LLMs

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

行业动态与观点

LLM 预训练

高效推理与架构

多模态统一

多模态生成

LLM 后训练

原理、机制和分析