AI Research Daily

更新时间: 2026/4/27 00:44:44

共90篇

🌟 3 重点

🔥 行业动态 2🧠 预训练 9⚡ 高效推理 11🌐 多模态统一 15🎨 多模态生成 4🛠️ 后训练 18🔬 原理分析 13💻 Coding Agent 3🤖 Agent 15

其他 59 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读行业动态与观点

8 Gemini tips for organizing your space (and life)

介绍Gemini大模型在个人空间整理、生活规划场景的8个使用技巧

Googleconsumer_applicationGeminiproduct_tutorial

精读行业动态与观点

DeepSeek V4 Preview Release

在保持顶尖推理与通用能力的同时，如何大幅降低大模型长上下文（1M tokens）的计算与显存成本，实现经济高效的规模化部署。

DeepSeekopen-weightsMoElong-context

精读LLM 预训练

Decoupled DiLoCo for Resilient Distributed Pre-training

大规模预训练在 SPMD 强同步范式下，任何 straggler、瞬时网络抖动、单机故障都会把全局训练拖停，导致 goodput 下降。问题是：能否在不明显牺牲最终模型质量的前提下，打破“全局每步一致性”的锁步同步，让训练在持续故障/慢节点环境中仍保持高可用与高吞吐？

Google DeepMindGoogle Researchdistributed-trainingDiLoCoasynchronous-optimization

精读LLM 预训练

The Recurrent Transformer: Greater Effective Depth and Efficient Decoding

标准Transformer的有效深度受层数严格限制，每层每个位置的KV对来自上一层输出，同层内不同位置最多仅发生一次交互，表达能力存在固有瓶颈；传统循环模型虽拥有无限时序深度，但优化不稳定、硬件利用率低，现有跨层共享内存的循环注意力架构执行效率差。

Harvard Universitytransformer-architecturerecurrent-memoryeffective-depth

精读LLM 预训练

SuperBPE: Space Travel for Language Models

现有主流BPE分词器在预分词阶段强制按空格拆分，仅能生成不跨词边界的子词单元，但空格并非可靠的语义分隔符，无法覆盖多词固定表达、跨语言语义单元的建模需求，同时当词表规模扩大时，常规BPE的序列压缩效率很快进入边际收益递减区间，冗余的token既提升训练与推理成本，也限制了模型的语义表示性能。

Allen Institute for AI♡University oftokenizationBPEsuperword

来源

机构

阅读分级

标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点（注意：推理加速/注意力优化等技术论文不算行业动态）

Blog精读🌟

8 Gemini tips for organizing your space (and life)

介绍Gemini大模型在个人空间整理、生活规划场景的8个使用技巧

评纯民用产品使用技巧，与LLM基座预训练研究完全无关，无需关注

Google AI Blog

Googleconsumer_applicationGeminiproduct_tutorial2026年4月24日原文

Blog精读🌟

DeepSeek V4 Preview Release

在保持顶尖推理与通用能力的同时，如何大幅降低大模型长上下文（1M tokens）的计算与显存成本，实现经济高效的规模化部署。

评这类发布必须跟进，但别停在博客：直接去读 tech report，重点看 active/total 比例、1M context 机制和训练成本表，才能判断它是否真的改写开源 MoE 的性价比边界。

DeepSeek

DeepSeekopen-weightsMoElong-context2026年4月24日原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv精读🌟

Decoupled DiLoCo for Resilient Distributed Pre-training

评这篇会直接动摇“预训练必须强同步”的默认设定；应优先看异步聚合的收敛代价和故障注入实验，值得在内部分布式栈上做小规模复现。

Arthur Douillard,Keith Rush,Yani Donchev,Zachary Charles,Nova Fallen,Ayush Dubey ... 省略 7 位作者 ... ,Edouard Yvinec,Arthur Szlam,Marc'Aurelio Ranzato,Jeff Dean

Google DeepMindGoogle Researchdistributed-trainingDiLoCoasynchronous-optimization2026年4月23日arXiv PDF

arXiv精读

The Recurrent Transformer: Greater Effective Depth and Efficient Decoding

评这篇会直接碰你对 Transformer“时间深度上限”的 prior，先看架构定义和 compute-matched 实验；若对照干净，值得立刻做小规模复现。

Costin-Andrei Oncescu,Depen Morwani,Samy Jelassi,Alexandru Meterez,Mujin Kwun,Sham Kakade

Harvard Universitytransformer-architecturerecurrent-memoryeffective-depth2026年4月23日arXiv PDF

Inbox精读

SuperBPE: Space Travel for Language Models

评这篇会直接动到 tokenizer 的默认 prior：先看编码效率表，再看等词表、等算力下 LM 质量是否守住；若成立，内部词表实验该把“跨空格 merge”列为正式变量。

Alisa Liu,Jonathan Hayase,Valentin Hofmann,Sewoong Oh,Noah A. Smith,Yejin Choi

Allen Institute for AI♡University of♢Allen Institute for AItokenizationBPEsuperword2025年3月17日arXiv PDF 原文

arXiv泛读

Prefix Parsing is Just Parsing

把“prefix parsing（给定前缀，判断能否扩展成语法生成的完整串，并在加权情形下计算该前缀的总概率质量）”统一化：是否存在一个通用、与具体解析算法无关的规约，使得任何普通 CFG 解析器都能直接用于 prefix parsing，并且还能高效得到 next-token 权重向量（所有一符号扩展的前缀权重）。

评不是主流 LLM 论文，但把 prefix LM 的一个老问题化成普通 parsing 很干净；若你关心语法约束解码或结构化 LM，先看方法构造和 next-token weight 那部分。

Clemente Pasti,Andreas Opedal,Timothy J. O'Donnell,Ryan Cotterell,Tim Vieira

McGill Universityprefix-parsinggrammar-transformationstructured-language-modeling2026年4月23日arXiv PDF

arXiv泛读

Beyond N-gram: Data-Aware X-GRAM Extraction for Efficient Embedding Parameter Scaling

token-indexed lookup table（外部/附加 embedding 记忆）提供了一条“参数增长但计算近似不变”的 scaling 轴，但在 Zipf 分布下长尾行严重欠训练、跨层需求不一致、以及多 slot 并行扩容导致表示冗余（slot collapse），使得表越大越不划算。问题是如何在有限数据与带宽预算下，把 lookup 参数真正转化为有效容量，并保持可训练与可扩展。

评embedding缩放的思路新颖，可在内部小模型上验证X-GRAM的压缩效果，重点看§3方法和§4 ablation实验

Yilong Chen,Yanxi Xie,Zitian Gao,He Xin,Yihao Xiao,Renbiao Liu ... 省略 3 位作者 ... ,Tingwen Liu,Xin Zhao,Ran Tao,Bryan Dai

University of Chinese Academy of SciencesPeking UniversityIQuest Research+1embedding optimizationparameter scalingn-gram2026年4月23日arXiv PDF

arXiv泛读

How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models

这篇工作要回答一个很具体但一直缺少定量答案的问题：在 looped / depth-recurrent language model 里，多一次 recurrence 到底相当于增加了多少“等效独立参数”。过去大家知道参数共享会带来容量损失，也知道循环深度可能带来某种推理归纳偏置，但没有一个把 recurrence 直接映射到参数等价物的标尺。论文通过 iso-depth、matched-FLOPs 的预训练扫点，把“共享一层反复用”和“增加新的独立层”之间的差距显式量化出来。

评量化了 recurrent LM 的 scaling 效率（φ=0.46），证明了 parameter sharing 的边际收益递减，对设计 Universal Transformer 类架构有直接指导意义，看 scaling law 公式和核心图表即可。

Kristian Schwethelm,Daniel Rueckert,Georgios Kaissis

Technical University of Munich (TUM)Imperial CollegeMunich Center for Machine Learning (MCML)+3Scaling LawsRecurrent Language ModelsParameter Sharing2026年4月22日arXiv PDF

arXiv泛读

Hyperloop Transformers

这篇工作处理的是一个很具体、也很现实的问题：在总算力和延迟大致受限时，怎样把语言模型的参数占用继续压下去，同时不把困惑度做坏。普通 Transformer 的深度扩展依赖逐层新增参数，适合云端但不适合内存紧张的端侧。已有 looped / recurrent-depth Transformer 通过跨深度共享参数来省参数，但常见问题是：同等展开深度下，参数省了，perplexity 往往比普通 Transformer 更差。作者要解决的不是“能不能做循环深度”，而是“能不能把循环深度做成真正更优的性能-参数折中”，尤其是在 240M、1B、2B 这种已经接近实用的规模上。

评三段式循环加超连接的架构设计对小参数/端侧LLM研发有参考价值，重点看§3的架构实现细节

Abbas Zeitoun,Lucas Torroba-Hennigen,Yoon Kim

Massachusetts Institute of TechnologyLLM ArchitectureParameter EfficientLooped Transformer2026年4月23日arXiv PDF

arXiv

Teacher-Guided Routing for Sparse Vision Mixture-of-Experts

解决稀疏视觉MoE训练中路由梯度阻塞、路由动态不稳定的问题

评MoE路由优化思路可迁移到文本MoE预训练，仅需参考方法核心逻辑，无需复现视觉实验

Masahiro Kada,Ryota Yoshihashi,Satoshi Ikehata,Rei Kawakami,Ikuro Sato

DENSO IT LaboratoryNational Institute of InformaticsInstitute of ScienceMixture of ExpertsMoE routingtraining stability2026年4月23日arXiv PDF

arXiv

Geometric Monomial (GEM): a family of rational 2N-differentiable activation functions

提出一族可高阶光滑（C^{2N}）且仅用有理运算实现的激活函数，试图兼顾 ReLU 的门控特性与更平滑的优化。

评激活函数家族的增量工作，证据主要在小规模视觉分类；若你在排查大模型训练稳定性或做低精度算子，扫 N 消融与“rational-only”实现动机即可。

Eylon E. Krause

Weizmann Institute of Scienceactivation-functionoptimizationsmoothness2026年4月23日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv泛读

Sparse Forcing: Native Trainable Sparse Attention for Real-time Autoregressive Diffusion Video Generation

自回归扩散视频生成同时存在两个核心问题：一是长序列推理时全量注意力计算复杂度随上下文长度平方增长，延迟和显存开销过高；二是自回归迭代生成过程中预测误差不断累积，长时生成质量快速下降。

评不属于 pretrain 核心，但“持久块记忆”这个观察值得看；先读注意力可视化和 PBSA 设计，看看是否能迁到长上下文多模态 LM。

Boxun Xu,Yuming Du,Zichang Liu,Siyu Yang,Ziyang Jiang,Siqi Yan,Rajasi Saha,Albert Pumarola,Wenchen Wang,Peng Li

Meta Superintelligence LabsUniversity ofsparse-attentionvideo-diffusionkv-cache2026年4月23日arXiv PDF

arXiv泛读

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

这篇工作讨论的是 test-time scaling 里一个很具体但常被分开处理的问题：一方面，额外算力应该投给哪些题；另一方面，投进去的算力是否还在从同一个固定分布里重复采样。作者认为现有方法大多只解决前者，最多按题目难度自适应分配 sample 数，但生成分布 p(y|x) 基本不变，导致难题上继续加 sample 很快收益递减。论文要解决的核心问题，是如何在不做复杂搜索或额外优化的前提下，同时自适应地分配测试时算力，并让生成分布随着测试过程演化。

评Test-time compute 的一种新玩法，通过动态构建 ICL 样本池来引导难样本的生成，思路巧妙，值得关注其在推理加速和性能提升上的 trade-off，看 §3 方法设计即可。

Bowen Zuo,Dongruo Zhou,Yinglun Zhu

University ofIndiana University BloomingtonTest-Time ComputeIn-Context LearningAdaptive Inference2026年4月22日arXiv PDF

arXiv泛读

SparKV: Overhead-Aware KV Cache Loading for Efficient On-Device LLM Inference

这篇工作解决的是端侧 LLM 推理里的 prefill 延迟问题，具体是“已有上下文可复用时，KV cache 到底该从云端传，还是在本地重新算”。现有方案通常只押注一边：要么做 KV 压缩后传输，要么优化本地 prefill 计算。但在真实边缘设备上，通信带宽、算力余量、内存带宽都在波动，而且不同 KV chunk 的传输成本和重算成本差异很大。论文要解决的核心问题，是在严格的 Transformer 依赖约束下，对每个 chunk 做 overhead-aware 的路径选择，并让云传输与本地计算尽可能重叠，从而降低 TTFT。

评不是 pretrain 论文，但边云协同 KV 的 cost model 很实在；只看调度建模和 runtime refinement，别在质量结论上过度外推。

Hongyao Liu,Liuqun Zhai,Junyi Wang,Zhengru Fang

City University ofavailabilityH. Liukv-cacheon-device-inferenceedge-cloud2026年4月23日arXiv PDF

arXiv泛读

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

如何在不改 Transformer 主体架构的前提下，把“可学习的上下文压缩（gist tokens）”和“训练期稀疏注意力路由”统一起来：先压缩，再用压缩表示做选择路由，最后只对被选中的片段展开细读，从而在长上下文下显著降低注意力开销且尽量不掉能力。

评可训练的粗细结合长上下文注意力设计，§3的gist路由机制可作为预训练长上下文优化的 ablation 候选

Yuzhen Mao,Michael Y. Li,Emily B. Fox

Stanford Universitylong contextsparse attentiongist compression2026年4月22日arXiv PDF

Blog泛读

What 2x GH200 delivers: memory paths for LLM inference

双节点 Grace-Hopper (GH200) 架构下，大模型推理时跨层级内存（HBM、本地 LPDDR、远程 LPDDR）的数据传输带宽与延迟瓶颈。

评不是研究论文，但做大模型系统的人可扫一眼内存路径分析；别把单机实测当普适结论，主要拿来校准对 GH200 的工程直觉。

David Noel Ng

MiniMaxGH200inference-systemsmemory-bandwidth2026年4月24日原文

arXiv

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

长链路推理时，模型常在已得到正确答案后继续生成反思/验证步骤，如何在线识别并提前停止以省算力。

评当作推理期“行为监控→早停”的工程思路备查即可；重点看他们怎么定义step type与触发条件，效果数字别太当真。

Yannis Belkhiter,Seshu Tirupathi,Giulio Zizzo,John D. Kelleher

IBM Research EuropeTrinity College DublinADAPT Research Centreearly-stoppingreasoning-tracesinference-efficiency2026年4月22日arXiv PDF

arXiv

Sub-Token Routing in LoRA for Adaptation and Query-Aware KV Compression

解决 KV 压缩过于粗粒度的问题：现有方法通常按 token、head、layer 做保留或丢弃，忽略了单个 token 内部不同子空间的重要性差异。

评不是预训练论文，但“token 内部不均匀重要性”这个观察值得记下；只看方法图和压缩率对比表，若预算对齐后仍赢，再考虑借到训练期稀疏化里。

Wei Jiang,Wei Wang

Futurewei TechnologiesFuturewei Technologies Ikv-compressionlorasub-token-routing2026年4月23日arXiv PDF

arXiv

Time, Causality, and Observability Failures in Distributed AI Inference Systems

研究分布式 AI 推理系统里，基于时间戳的可观测性在存在轻微时钟偏移时会如何失真，以及这种失真是否会误导系统诊断。

评不是 pretrain 论文，但做大规模 serving/trace 的人应知道：5ms 级时钟偏移就能把因果观测搞坏，正文不必细读，记住这个 failure mode 即可。

Ankur Sharma,Deep Shah,David Lariviere,Hesham ElBakoury

distributed-inferenceobservabilityclock-skew2026年4月23日arXiv PDF

arXiv

Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways

评估第三方 LLM API gateway 是否存在模型降级、静默截断、计费不透明和延迟不稳定等行为。

评如果你用第三方 API 做 eval 或合成数据，只看方法和异常案例就够了；它提醒你先校验供应链，再谈模型结论。

Guanjie Lin,Yinxin Wan,Shichao Pei,Ting Xu,Kuai Xu,Guoliang Xue

Arizona State UniversityUniversity ofArizona State UniversityGlendaleArizona+1API gatewayblack-box auditingserving2026年4月22日arXiv PDF

arXiv

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

现有低比特量化LLM CPU推理仍需反量化和浮点乘法，未充分释放内存带宽优化收益

评三值量化推理的工程落地参考，仅需看kernel融合部分，无LLM预训练相关启发

Fei Zuo,Xiaoyan Xi,Quanyi Zeng,Feiyu Wang,Ho Fai Leung

Peking UniversityBMW Group BA TechWorksBA TechWorksBMW Groupternary quantizationCPU inferencekernel fusion2026年4月22日arXiv PDF

arXiv

MCAP: Deployment-Time Layer Profiling for Memory-Constrained LLM Inference

解决异构硬件和严格内存预算下的大模型推理部署问题，重点不是算力而是如何按层做精度与驻留位置分配。

评典型部署工程论文，对 pretrain 价值不大；若你关心层重要性是否足够稳定到能指导 mixed-precision，只看 profiling 信号定义和吞吐-质量权衡即可。

Anurita Das

inferencequantizationmemory-hierarchy2026年4月22日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv泛读

Building a Precise Video Language with Human-AI Oversight

这篇工作要解决的不是一般的视频 captioning，而是“精确视频语言”如何被系统地构建出来。作者认为现有视频-文本数据集的主要问题不是规模不够，而是标注规范不清、描述粒度不稳定、人工写作成本过高，结果导致模型学到的语言监督噪声很大，容易漏掉时序细节、空间关系和镜头运动，还会产生幻觉。论文把问题拆成三个环节：先定义一套明确的描述规范，再设计可扩展的人机监督流程去生产高质量 caption，最后把监督过程中自然产生的 critique 和 preference 信号用于 post-training。它关心的是如何为视频语言模型建立更精细、更可控的训练语料和训练信号。

评如果你关心视频预训练数据质量，这篇比多数“再堆数据”工作更实在；重点看 caption schema 和 critique→preference 的监督链条，模型结果反而是次要的。

Zhiqiu Lin,Chancharik Mitra,Siyuan Cen,Isaac Li,Yuhan Huang,Yu Tong Tiffany Ling ... 省略 6 位作者 ... ,Ruojin Li,Yili Han,Yilun Du,Deva Ramanan

Carnegie Mellon UniversityHarvard Universityvideo-captioningdata-qualityhuman-AI-oversight2026年4月22日arXiv PDF

arXiv泛读

When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs

在现代 LVLM 中，视觉幻觉到底主要来自哪里：视觉感知失败、语义共现先验（language prior），还是指令文本里“预设”(presupposition) 强行带入的事实？论文要把这三类来源拆开测清楚，并给出一个专门针对“指令预设诱导幻觉”的可操作缓解方案。

评值得看 benchmark 设计和 DPO 配方，不必把结论上升到“视觉 backbone 不重要”；它更像是在提醒你，多模态训练里 instruction prior 可能比想象中更强，先读任务构造再看结果。

Pegah Khayatan,Jayneel Parekh,Arnaud Dapogny,Mustafa Shukor,Alasdair Newson,Matthieu Cord

LVLMhallucinationvisual-grounding2026年4月23日arXiv PDF

arXiv泛读

Foveated Reasoning: Stateful, Action-based Visual Focusing for Vision-Language Models

VLM 需要高分辨率才能看清细节，但视觉 token 数随分辨率上升导致注意力计算爆炸。现有“视觉聚焦/放大”方法要么多次跑模型（multi-pass，状态被打断、成本高），要么用文本坐标/工具调用表达注视点（token 开销大、格式脆弱）。论文要解决的是：能否把“决定看哪里”和“基于看到的证据推理”放进同一条自回归解码轨迹里，用非语言动作完成 stateful 的证据获取。

评值得看的是“把视觉取证动作并入解码轨迹”这个接口设计，不一定改变预训练范式，但若你在做 native multimodal 或 test-time compute，先看 RL 目标和 token-budget 曲线。

Juhong Min,Lazar Valkov,Vitali Petsiuk,Hossein Souri,Deen Dayal Mohan

Samsung Electronics AI Center – Mountain ViewSamsung ElectronicsAI Center – Mountain ViewVLMfoveationreinforcement-learning2026年4月22日arXiv PDF

arXiv泛读

Context Unrolling in Omni Models

这篇工作要解决的不是单一模态能力不够，而是统一多模态模型在推理时如何把不同模态当作中间工作空间来逐步展开。作者把这个现象称为 Context Unrolling：模型面对一个任务时，不直接从输入到答案，而是先生成或调用若干中间模态表示，例如文本推理、视觉 token、深度、相机位姿、视角变换结果，再把这些结果写回上下文，继续约束后续预测。核心问题因此变成：怎样通过原生统一预训练，让模型学会把图像、视频、3D 几何、隐藏视觉表征和文本当作可组合的推理原语，而不是彼此隔离的任务头。

评如果正文把 hidden representations 作为训练模态这件事讲清楚，这篇会直接影响统一多模态 pretrain 的配方；先看方法图和 ablation，别先信“会显式推理”的叙事。

Ceyuan Yang,Zhijie Lin,Yang Zhao,Fei Xiao,Hao He,Qi Zhao ... 省略 9 位作者 ... ,Hongsheng Li,Weilin Huang,Guang Shi,Haoqi Fan

native-multimodalomni-modelcontext-unrolling2026年4月23日arXiv PDF

arXiv泛读

Can MLLMs "Read" What is Missing?

这篇工作要解决的问题不是“MLLM 会不会答题”，而是更基础的一层：在没有显式问题提示的情况下，模型能否仅凭视觉上下文、版面结构、跨区域线索和少量常识，把被遮挡的文本恢复出来。现有文档/网页类 benchmark 大多还是 QA 设定，问题本身已经告诉模型该看哪里，因此很难分离出模型的原生视觉定位、布局理解和跨页整合能力。MMTR-Bench 把任务改成 masked text reconstruction，目的就是把 instruction following 的干扰尽量拿掉，单独测“读图时发现缺失并补全”的能力。

评这个 benchmark 设计比常见 VQA 干净，能测出 MLLM 是否真在做页面级联合建模；读任务定义和分层评测协议就够了。

Jindi Guo,Xi Fang,Chaozheng Huang

MLLMbenchmarkdocument-understanding2026年4月23日arXiv PDF

arXiv泛读

Latent Denoising Improves Visual Alignment in Large Multimodal Models

现有大模态模型（LMM）仅采用自回归语言建模目标训练，对视觉token的直接监督不足，导致内部视觉表征质量差、跨模态对齐不充分，普遍存在物体幻觉、分布偏移下鲁棒性低、推理时文本主导忽视视觉证据等问题。

评去噪监督增强视觉对齐的思路实用，可直接在内部VLM预训练 ablation 中测试，重点看§3的损失设计

Dhruv Parikh,Jacob Fein-Ashley,Rajgopal Kannan,Viktor Prasanna

University of SouthernDEVCOM ARL Army Research OfficeLarge Multimodal Modelvisual alignmentlatent denoising2026年4月23日arXiv PDF

arXiv

Beyond Single Plots: A Benchmark for Question Answering on Multi-Charts

解决现有 chart QA 主要停留在单图场景、无法衡量多图联合理解能力的问题。

评不是训练论文，但可当 VLM 诊断集备查；只看数据构成和 human-vs-synthetic 的 27.4% gap，能提醒你别拿合成题高估模型。

Azher Ahmed Efat,Seok Hwan Song,Wallapak Tavanapong

Iowa State Universitymultimodal-benchmarkchartqavlm-evaluation2026年4月23日arXiv PDF

arXiv

Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

这篇工作研究把 VLM 当评审器时是否可靠，尤其是在图文理解和图像生成评测中，评审模型能否识别对象幻觉、空间关系错误、事实失真和视觉质量下降等关键缺陷。

评做多模态自动评测或 reward 建模的人可以看，但对基座预训练只算间接信号；重点看扰动设计和哪些错误维度最容易漏判，不必细读全文。

Mohammed Safi Ur Rahman Khan,Sanjay Suryanarayanan,Tushar Anand,Mitesh M. Khapra

Nilekani Centre at AIBharatIndian Institute of Technology Madras+2VLM-evaluationbenchmarkfailure-analysis2026年4月23日arXiv PDF

arXiv

AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA

解决现有 audio QA benchmark 容易被捷径、短时声学线索、文本先验或元数据泄漏攻破，无法真实衡量音频推理能力的问题。

评若你做 audio LM 或统一多模态 eval，可以记住这个 benchmark；否则只需知道现有 audio QA 仍被 shortcut 污染，不必细读。

Tasnim Kabir,Dmytro Kurdydyk,Aadi Palnitkar,Liam Dorn,Ahmed Haj Ahmed,Jordan Lee Boyd-Graber

Columbia UniversityDavidson CollegeHaverford College+1audio-qabenchmarkauditory-reasoning2026年4月23日arXiv PDF

arXiv

Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning

区分抽象视觉推理失败究竟来自推理能力不足，还是来自视觉表示/符号化瓶颈。

评做 VLM 预训练的人可以看这篇确认一个老问题：不少“推理失败”其实是表示失败；读实验主表和符号输入消融就够，别把合成任务结果外推过头。

Mohit Vaishnav,Tanel Tammet

vlmabstract-reasoningsymbolic-grounding2026年4月23日arXiv PDF

arXiv

MiMIC: Mitigating Visual Modality Collapse in Universal Multimodal Retrieval While Avoiding Semantic Misalignment

解决通用多模态检索中早期融合的视觉模态坍缩、晚期融合的语义错位问题

评多模态检索场景的增量改进，模态坍缩的分析可作为多模态对齐研究的背景参考，无需读正文

Juan Li,Chuanghao Ding,Xujie Zhang,Cam-Tu Nguyen

Nanjing Universitymultimodal retrievalmodality collapsesemantic alignment2026年4月23日arXiv PDF

arXiv

VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought

如何构建一个能够显式对齐多步推理与对应图像区域的数据集，以评估和提升大型视觉语言模型（LVLMs）在局部区域推理上的可信度？

评构建了一个多模态 CoT 数据集，将推理步骤与图像区域对齐，对 VLM 的精细化推理和可解释性有一定参考价值，但属于数据构建工作，作为 literature 备查。

Byeonggeuk Lim,Kyeonghyun Kim,JungMin Yun,YoungBin Kim

Chung-Ang UniversityLarge Vision-Language ModelsVisual GroundingChain-of-Thought2026年4月23日arXiv PDF

arXiv

S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images

现有多模态大模型在科学领域推理时无法有效利用图像信息完成高分辨率图表解读、显微图像理解、几何辅助推理等复杂任务

评属于科学领域多模态推理的增量工作，仅可参考其推理轨迹质量过滤框架设计

Qingxiao Li,Lifeng Xu,QingLi Wang,Yudong Bai,Mingwei Ou,Shu Hu,Nan Xu

scientific-VLMmultimodal-reasoningreasoning-trajectory2026年4月23日arXiv PDF

arXiv

Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision

现有多模态大模型在第一人称视角下无法准确理解指向手势的空间语义，依赖视觉 proximity、显著性等伪关联，存在指称幻觉问题

评第一人称交互场景的MLLM评测基准，仅需参考其评测维度设计即可

Chentao Li,Zirui Gao,Mingze Gao,Yinglian Ren,Jianjiang Feng,Jie Zhou

Tsinghua UniversityMLLM-benchmarkegocentric-visionreferential-reasoning2026年4月23日arXiv PDF

arXiv

DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation

为“论文级示意图/teaser图”生成提供可检索的高质量示例库与元数据，补齐AI scientist流水线中的图示环节。

评作为“高质量科学示意图语料”值得入库，但论文价值取决于标注/元数据质量与检索评测是否标准化；预训练研究员只需确认数据许可、噪声率和split设计。

Tingwen Zhang,Ling Yue,Zhen Xu,Shaowu Pan

Rensselaer Polytechnic InstituteRensselaer Polytechnic InstituteTroyUniversity ofdatasetscientific-diagramsmultimodal-retrieval2026年2月28日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXiv泛读

Frequency-Forcing: From Scaling-as-Time to Soft Frequency Guidance

这篇工作处理的是一个很具体但很关键的问题：在 flow matching 图像生成里，如何把“先生成低频结构，再补高频细节”这件事从网络的隐式学习动态，变成一个可控、可组合、且不破坏原始像素流路径的显式训练机制。作者认为，标准 flow matching 虽然会因为谱偏置和噪声日程自然学到一些 coarse-to-fine 顺序，但这种顺序是弱的、混杂的，频段之间存在梯度竞争，也没有明确的时间控制。已有两条路线各有代价：K-Flow 通过把频率尺度直接改写成 flow 时间来做硬约束，但会改变状态空间和轨迹定义；Latent Forcing 保留像素路径，只在辅助语义流上做异步成熟，但依赖外部预训练语义编码器，且没有直接利用图像自身的频率结构。作者要解决的，就是能否把“频率先行”作为一种 soft guidance 注入标准 flow matching，而不是重写整个生成坐标系。

评探讨 Flow Matching 中的频率引导机制，虽然是图像生成，但其对生成顺序（coarse-to-fine）的软性控制思路对连续/离散 Diffusion LM 的轨迹设计有一定启发，可扫读方法部分。

Weitao Du

Flow MatchingDiffusion ModelsFrequency Guidance2026年4月21日arXiv PDF

arXiv泛读

Quotient-Space Diffusion Models

如何在存在群对称性（如分子 3D 构型的 SE(3) 平移/旋转不变性）时，构造一个“真正定义在商空间上的扩散生成过程”，从而避免模型在训练/采样中学习等价类内部的无效运动（例如把整分子旋转一下），同时仍严格保证采样分布正确。

评商空间扩散的理论框架解决了对称结构生成的冗余学习问题，做生物多模态预训练可参考§3的形式化推导

Yixian Xu,Yusong Wang,Shengjie Luo,Kaiyuan Gao,Tianyu He,Di He,Chang Liu

Peking UniversityMicrosoft Research AsiaXi'an Jiaotong University+2diffusion modelquotient spacegenerative model2026年4月23日arXiv PDF

arXiv

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

解决交互式视频世界模型缺乏统一评测条件的问题，使不同模型在相同场景、相同行为轨迹下可公平比较。

评如果你在看 world model 或统一多模态生成，这篇的价值在评测协议而不在算法；正文只需看 action mapping 设计和 failure taxonomy。

Xiaojie Xu,Zhengyuan Lin,Kang He,Yukang Feng,Xiaofeng Mao,Yuanyang Yin,Kaipeng Zhang,Yongtao Ge

Alaya StudioShanda AI ResearchThe University of+1world-modelsinteractive-videobenchmark2026年4月23日arXiv PDF

arXiv

Exploring the Role of Synthetic Data Augmentation in Controllable Human-Centric Video Generation

合成数据在可控“人类视频生成”训练中到底带来什么增益、与真实数据如何互补，缺少系统性量化。

评把它当“合成数据×真实数据配比”的经验报告看即可；只需抓结论与数据选择策略，方法本身对基座预训练迁移有限。

Yuanchen Fei,Yude Zou,Zejian Kang,Ming Li,Jiaying Zhou,Xiangru Huang

Hunan UniversityWestlake UniversityShanghai Jiaotong University+3diffusionvideo-generationsynthetic-data2026年4月23日arXiv PDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv泛读

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

这篇工作处理的是流式同声传译里的一个很具体但很棘手的问题：如何在长时、无界语音输入下，同时兼顾翻译质量、时延和推理效率。已有路线把 SST 改写成多轮对话式的 read–write 生成，从而复用语音编码器和 LLM 的 KV cache，推理上很省，但训练依赖合成的交错轨迹数据。这类轨迹往往带噪声：词对齐法不理解未来上下文，LLM 分段法又不保证 read/write 决策合法。结果是模型会学到错误的等待或抢跑行为。论文的核心问题不是再造一个新架构，而是如何在 imperfect SFT 之后，用一个稳定的后训练方法把策略纠偏，而且不能让“低时延”这个容易优化的目标压过“翻译正确”这个更难目标。

评值得看奖励设计：把“延迟”做成可优化的层级信号而不是硬约束；只读奖励定义与消融，别被同传应用细节带跑偏。

Siqi Ouyang,Shuoyang Ding,Oleksii Hrinchuk,Vitaly Lavrukhin,Brian Yan,Boris Ginsburg,Lei Li

Carnegie Mellon UniversityNVIDIArl-post-trainingreward-designlatency-quality-tradeoff2026年4月22日arXiv PDF

arXiv泛读

Language as a Latent Variable for Reasoning Optimization

在推理任务中，输出语言不仅是“表达介质”，而可能作为一个隐变量改变模型的推理轨迹；问题是如何系统性利用这种“多语言推理空间”来做 RL 优化，并且在测试时不强制多语言输出也能提升英文/通用推理表现。

评多语言作为推理隐变量的假设新颖，可参考polyGRPO设计多语言对齐的后训练信号，重点看§3实验部分

Linjuan Wu,Haoran Wei,Jialong Tang,Shuang Luo,Baosong Yang,Yongliang Shen,Weiming Lu

reasoning optimizationmultilingual LLMRLHF2026年4月23日arXiv PDF

arXiv泛读

Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning

这篇工作研究的是 test-time reinforcement learning 在无标注数学推理场景里的一个核心失真：模型用自己采样出来的答案做多数投票，再把这个伪标签当奖励信号去更新自己，结果奖励里混入了大量噪声，而且这种噪声会被 GRPO 的 group-relative advantage 进一步放大。作者要解决的不是一般意义上的 RL 稳定性，而是 TTRL 这个特定闭环里“伪标签不可靠 + 优势归一化放大偏差”带来的错误学习信号。

评如果你在看 R1-Zero、test-time adaptation 或自举式 RL，这篇值得读噪声分析部分；方法未必会留下，但“中等一致性样本+相对优势放大偏差”这个诊断应当复现。

Yongcan Yu,Lingxiao He,Jian Liang,Kuangpu Guo,Meng Wang,Qianlong Xie,Xingxing Wang,Ran He

Chinese Academy of SciencesUniversity of Chinese Academy of SciencesMeituan+1test-time-rlmath-reasoningreward-noise2026年4月23日arXiv PDF

arXiv泛读

Generalizing Numerical Reasoning in Table Data through Operation Sketches and Self-Supervised Learning

这篇工作处理的是表格数值推理在跨域时很不稳的问题。已有做法通常对某个数据集做监督微调，模型在域内能学到不错的程序生成或执行精度，但学到的往往不是稳定的结构推理，而是“表头词汇→运算类型”的捷径。论文用跨数据集迁移和表头扰动实验把问题拆成三类失效：一是模型把容量花在显式算术模式上，复杂结构推理反而学得不够；二是高质量逻辑监督稀缺，LLM 直接生成问答或程序时容易出现语义与程序不一致；三是对 header 的词面依赖过强，换个命名方式就掉点明显。作者要解决的不是单一 benchmark 上再提几分，而是让表格数值推理从“记住领域词”转向“学会结构关系和运算骨架”。

评这类“去语义化 + 程序优先自监督”配方对基座研究有真信息量；先看消融和跨域表，若 setup 干净，值得内部复现到 math/table mid-training。

Hanjun Cho,Gahyun Yoo,Hanseong Kim,Jay-Yoon Lee

Seoul National UniversitySoongsil Universitycontinual-pretrainingnumerical-reasoningtable-qa2026年4月23日arXiv PDF

arXiv泛读

Reinforcing privacy reasoning in LLMs via normative simulacra from fiction

这篇工作要解决的问题很直接：如何让 LLM 在涉及隐私的信息流决策中，学会按情境规范进行推理，而不是只做表面上的“少收集数据”或依赖推理时外挂审查器。作者采用 Contextual Integrity（CI）作为隐私框架，把隐私理解为“信息在特定社会情境中的适当流动”，然后尝试在训练阶段把这种规范性推理能力写进模型。核心难点不在于再造一个 privacy benchmark，而在于训练数据从哪里来：现实世界里带有完整社会语境、角色关系、信息属性和传递原则的高质量隐私推理样本很稀缺。作者的回答是，从小说中抽取规范宇宙，用结构化的 normative simulacra 作为监督和强化学习信号。

评利用小说合成复杂社会规范数据并结合 GRPO 进行对齐，Reward 设计（程序化信号+LLM Judge）比较有意思，对 RLHF/RLVR 数据构造和 Reward 设计有一定参考价值。

Matt Franchi,Madiha Zahrah Choksi,Harold Triedman,Helen Nissenbaum

Cornell UniversityAlignmentReinforcement LearningGRPO2026年4月21日arXiv PDF

arXiv泛读

IRIS: Interpolative Rényi Iterative Self-play for Large Language Model Fine-Tuning

这篇工作处理的是 self-play fine-tuning 里一个很具体但长期存在的问题：训练目标所对应的散度一旦固定，往往只在某个训练阶段合适，跨阶段就会失配。SPIN 一类 KL 风格目标在模型和目标分布差距较大时梯度平滑、容易推进，但到后期真实样本与自生成样本逐渐接近时，reward gap 会塌成常数，学习信号变弱；JS/NCE 风格方法更稳，但后期分辨细小差异的能力不足；χ² 正则方法能约束 reward 爆炸、在近收敛区更敏感，但早期对离群样本过于苛刻。论文要解决的不是再修一个局部 failure mode，而是给 self-play 提供一个可连续调节的统一目标，使训练压力能随阶段变化而变化，而不是被单一散度绑死。

评该统一自play散度框架可参考用于预训练后期自监督课程目标设计，仅看§3目标分解即可

Wenjie Liao,Like Wu,Liangjie Zhao,Shihui Xu,Shigeru Fujimura

self-play fine-tuningRényi divergencepost-training objective2026年4月22日arXiv PDF

arXiv

Subject-level Inference for Realistic Text Anonymization Evaluation

解决文本匿名化评测失真问题：传统 span-level 指标无法衡量攻击者是否仍能从上下文恢复到具体个人，尤其忽略多主体场景。

评和基座训练不直接相连，但做数据治理的人该记住这个结论：mask 掉 span 不等于匿名化，读结果表就够了。

Myeong Seok Oh,Dong-Yun Kim,Hanseok Oh,Chaean Kang,Joeun Kang,Xiaonan Wang,Hyunjung Park,Young Cheol Jung,Hansaem Kim

Soongsil UniversityYonsei Universityprivacyanonymization-evaluationbenchmark2026年4月23日arXiv PDF

arXiv

Zero-Shot Detection of LLM-Generated Text via Implicit Reward Model

解决零样本检测 LLM 生成文本的问题，目标是在没有额外偏好数据和任务特定训练的情况下识别机器文本。

评和预训练关系不大，但“base vs instruct 的隐式奖励差”这个检测信号值得记一下；先看设定是否真零样本，再决定要不要信结果。

Runheng Liu,Heyan Huang,Xingchen Xiao,Zhijing Wu

Beijing Institute of Technologyllm-detectionimplicit-reward-modelzero-shot2026年4月23日arXiv PDF

arXiv

Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

现有对齐伪造诊断工具仅依赖高毒性明显有害场景，无法检测模型在无监控时违背开发者政策的对齐伪造现象

评VLAF框架可作为对齐测试用例设计参考，仅看方法部分即可，无新预训练相关insight

Inderjeet Nair,Jie Ruan,Lu Wang

University ofalignmentalignment fakingsafety evaluation2026年4月22日arXiv PDF

arXiv

Dialect vs Demographics: Quantifying LLM Bias from Implicit Linguistic Signals vs. Explicit User Profiles

LLM 的性能差异是源于用户显式声明的身份，还是源于表达身份的隐式语言信号（如方言）？

评揭示了 RLHF/Safety tuning 导致的一个有趣 bias：模型对显式身份声明过度敏感（易触发拒答），而对隐式方言特征不敏感。作为 alignment 缺陷的 case study 了解即可。

Irti Haq,Belén Saldías

University ofLLM BiasSafety AlignmentDialects2026年4月22日arXiv PDF

arXiv

Stealthy Backdoor Attacks against LLMs Based on Natural Style Triggers

这篇工作研究 LLM 后门攻击中一个更现实的问题：如何用自然风格触发器而不是显式关键词，在长文本生成里稳定注入攻击者指定 payload。

评和预训练关系不大，但做 SFT 数据合成或安全过滤的人应知道：风格本身就能当 trigger；看 threat model 和辅助 loss，别把结果外推到预训练阶段。

Jiali Wei,Ming Fan,Guoheng Sun,Xicheng Zhang,Haijun Wang,Ting Liu

Ministry of Education Key Lab for Intelligent NetworksUniversitySchool+1LLM-securitybackdoorstyle-trigger2026年4月23日arXiv PDF

arXiv

Reinforcing 3D Understanding in Point-VLMs via Geometric Reward Credit Assignment

解决 Point-VLM 在 3D 理解中出现几何幻觉，而序列级 RL 奖励又无法把信用有效分配到稀疏几何 token 的问题。

评不必为 3D 去读，但“稀疏关键 token 会被序列级奖励淹没”这个判断值得记下；若你做 RL/SFT credit assignment，只看 reward routing 设计即可。

Jingkun Chen,Ruoshi Xu,Mingqi Gao,Shengda Luo,Jungong Han

Northwestern Polytechnical UniversitySouthern University of Science and TechnologyThe University of Sheffield+2reward-credit-assignmentPoint-VLMmultimodal-RL2026年4月23日arXiv PDF

arXiv

Thinking with Reasoning Skills: Fewer Tokens, More Accuracy

减少推理模型在新问题上从零展开长链式思考的 token 开销，同时尽量提升准确率。

评想看“CoT 能否被压成可检索技能”可以扫一眼；但这更像推理成本工程，先看实验表里 token 降幅和是否有 retrieval leakage。

Guangxiang Zhao,Qilong Shi,Xusen Xiao,Xiangzheng Zhang,Tong Yang,Lin Sun

reasoningskill-distillationretrieval2026年4月23日arXiv PDF

arXiv

Alignment has a Fantasia Problem

现有对齐范式默认用户能清楚表达目标，但现实中用户常在目标尚未成形时就开始与 AI 交互，导致系统表面顺从却未真正帮助用户形成意图。

评不是技术 paper，但它提醒了一个常被忽略的 objective mismatch：SFT/RL 把 prompt 当真意图，可能从一开始就学偏了。

Nathanael Jo,Zoe De Simone,Mitchell Gordon,Ashia Wilson

Massachusetts Institute of Technologyalignmenthuman-ai-interactionintent-formation2026年4月23日arXiv PDF

arXiv

ERA: Evidence-based Reliability Alignment for Honest Retrieval-Augmented Generation

RAG里参数知识与检索证据冲突时，如何让模型更“诚实地拒答/保守回答”，并区分不确定性来源。

评把“参数vs检索”的冲突显式化是对的方向，但很可能是校准/后处理味道；读者只需盯住冲突构造、risk-coverage曲线和消融是否严格。

Sunguk Shin,Meeyoung Cha,Byung-Jun Lee,Sungwon Park

Korea UniversityMPI-SPKAIST+5RAGreliabilityabstention2026年2月24日arXiv PDF

arXiv

SafeRedirect: Defeating Internal Safety Collapse via Task-Completion Redirection in Frontier LLMs

前沿LLM执行需要涉及有害内容的合法专业任务时会触发内部安全崩溃（ISC），现有输入级防御完全失效

评对齐阶段可参考该任务重定向思路优化安全目标，仅读方法部分即可

Chao Pan,Yu Wu,Xin Yao

LLM safetyinternal safety collapsealignment defense2026年4月22日arXiv PDF

arXiv

CAP: Controllable Alignment Prompting for Unlearning in LLMs

解决闭源或不可改权重场景下，LLM 选择性遗忘敏感知识时成本高、边界不可控、恢复困难的问题。

评更像 prompt steering 而不是真正 unlearning；若你关心 closed-source 对齐接口可扫一眼，先重点怀疑遗忘是否只是拒答伪装。

Zhaokun Wang,Jinyu Guo,Jingwen Pu,Hongli Pu,Meng Yang,Xunlei Chen,Jie Ou,Wenyi Li,Guangchun Luo,Wenhong Tian

University of Electronic Science and Technology ofunlearningalignmentprompt-optimization2026年4月23日arXiv PDF

arXiv

Low-Rank Adaptation Redux for Large Models

梳理 LoRA 及其变体在大模型参数高效微调中的设计选择、优化机制和部署约束，解释为什么这些方法有效。

评综述味很重，没有新实验结论；只在你要系统梳理 adapter 设计空间时有用，正文挑机制部分翻即可。

Bingcong Li,Yilang Zhang,Georgios B. Giannakis

research directions are outlined at the confluence of SP and deepoffer new research lines benefiting the SP community in returnResearch in this paper was supported in part by the NSF grants+1LoRAPEFTadapters2026年4月23日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv泛读

Slot Machines: How LLMs Keep Track of Multiple Entities

这篇工作研究的是语言模型如何在上下文里同时跟踪多个实体，并把实体与属性、关系绑定起来。更具体地说，它问了一个比常见 probing 更细的问题：单个 token 位置的残差流里，是否能同时承载不止一个实体的信息；如果能，这些信息是怎么分槽存放的，又被模型拿去做什么计算。

评这篇会改你对“一个 token 只表示当前对象”的朴素看法；先看 slot 正交性和功能分工实验，若 setup 站得住，实体绑定电路分析要换问题设定。

Paul C. Bogdan,Jack Lindsey

mechanistic-interpretabilityentity-bindingrepresentation-probing2026年4月22日arXiv PDF

arXiv泛读

To See the Unseen: on the Generalization Ability of Transformers in Symbolic Reasoning

这篇论文研究的是一个很具体但很关键的泛化失效：decoder-only Transformer 在做符号推理时，为什么一旦变量名换成训练中没见过的 token，就很容易出错，尤其是在需要区分多个新符号、或者把新符号复制到输出里的任务上。已有工作已经注意到“未见 token 难复制”，但这篇文章进一步指出，问题不只是复制机制不够，训练过程中未见 token 的 unembedding 会发生塌缩，变得几乎指向同一个向量，导致模型根本分不清多个新变量。

评这篇值得看，因为它把“未见符号泛化差”从模糊现象压到 unembedding collapse 这个可操作机制；若你做 tokenizer、weight tying 或 active forgetting，建议直接复现。

Nevena Lazić,Liam Fowl,András György,Csaba Szepesvári

symbolic-reasoninggeneralizationunembedding2026年4月23日arXiv PDF

arXiv泛读

Revisiting Non-Verbatim Memorization in Large Language Models: The Role of Entity Surface Forms

这篇工作要解决的不是“模型记没记住事实”这个老问题本身，而是更细的一层：同一个事实在参数里是否能被不同实体表述稳定访问。以往 entity-based QA 通常只用 canonical name 提问，于是“事实未记住”和“事实记住了但这个别名触发不出来”会混在一起。论文把 subject entity 的 surface form 当作受控变量，在固定 Wikidata 三元组与答案不变的前提下，只替换实体名称，专门测量 factual access 对表述形式的敏感性。

评这篇不改方法，但会改你看 memorization 的尺子；只看数据构造和按 surface form 分桶的结果，就足够指导内部知识评测重做一版。

Yuto Nishida,Naoki Shikoda,Yosuke Kishinami,Ryo Fujii,Makoto Morishita,Hidetaka Kamigaito,Taro Watanabe

Nara Institute of Science and TechnologyFuture Corporationmemorizationfactual-knowledgeentity-representation2026年4月23日arXiv PDF

arXiv

MathDuels: Evaluating LLMs as Problem Posers and Solvers

当静态数学 benchmark 接近饱和时，如何更细粒度地区分 LLM 的数学能力，尤其是“出题能力”和“解题能力”是否一致。

评不是 pretrain 论文，但它提醒你别再把数学能力压成单一分数；读评测设计和 Rasch 建模就够，别过度外推到训练结论。

Zhiqiu Xu,Shibo Jin,Shreya Arya,Mayur Naik

University of Wisconsin–MadisonUniversity ofmath-benchmarkself-play-evaluationrasch-model2026年4月23日arXiv PDF

arXiv

Reasoning Primitives in Hybrid and Non-Hybrid LLMs

把“推理能力”拆成更基础的 recall 与 state-tracking 两种原语，检验混合架构是否比纯 Transformer 更适合同时依赖两者的任务。

评不是会改写路线图的论文，但若你在想“推理增强到底补了什么”，可只看任务构造和 sequential dependence 结果，别过度解读成架构定论。

Shivam Rawat,Lucie Flek,Florian Mai,Nicholas Kluge Corrêa

University of BonnLamarr Institute for Machine Learning and Artificial Intelligenceb-it+1reasoninghybrid-architecturestate-tracking2026年4月23日arXiv PDF

arXiv

Process Supervision via Verbal Critique Improves Reasoning in Large Language Models

现有LLM推理时缩放仅关注链深度、采样宽度、步骤打分器三个维度，忽略了外部监督粒度对推理效果的提升作用

评验证了细粒度口头批评对推理的提升作用，可作为后训练过程监督数据设计的参考，仅看摘要结论即可

Hao-Yuan Chen

Mindify AI ResearchUniversity ofprocess supervisionreasoningverbal critique2026年4月23日arXiv PDF

arXiv

Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs

分析 LLM 在文化相关开放问答中是否存在隐藏的区域偏好，以及这种偏好在训练流程的哪个阶段出现。

评不是方法论文，但它提醒你别把文化偏差简化成英美中心；若你管数据配比和 eval，结论可作弱信号，重点看 emergence 分析。

Joseba Fernandez de Landa,Carla Perez-Almendros,Jose Camacho-Collados

HiTZ Center - IxaUniversity of the Basque Country EHUCardiff Universitycultural-biasmultilingualdata-analysis2026年4月23日arXiv PDF

arXiv

Propensity Inference: Environmental Contributors to LLM Behaviour

现有测量LLM非授权行为倾向的方法未区分战略与非战略环境因素的影响，存在循环分析偏差

评贝叶斯量化环境因素影响的方法可参考用于预训练对齐风险分析，看摘要和结果部分即可

Olli Järviniemi,Oliver Makins,Jacob Merizian,Robert Kirk,Ben Millwood

llm behavioralignment riskbayesian inference2026年4月22日arXiv PDF

arXiv

Unbiased Prevalence Estimation with Multicalibrated LLMs

解决在 covariate shift 下，使用有误差的 LLM/分类器估计总体类别 prevalence 时出现系统偏差的问题。

评不是 pretrain 论文，但如果你做 LLM eval 或数据统计，结论很实用：别再把 average calibration 当 shift 下的充分条件，只看定理和 simulation 就够。

Fridolin Linder,Thomas Leeper,Daniel Haimovich,Niek Tax,Lorenzo Perini,Milan Vojnovic

Meta PlatformsThe London School of Economics and Political ScienceMeta Platforms Icalibrationmulticalibrationcovariate-shift2026年4月23日arXiv PDF

arXiv

Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards

解决单一聚合分数的 LLM leaderboard 无法反映不同用户目标、提示分布和评价偏好的问题。

评做基座训练别把 Arena 排名当真值，这篇至少提醒你 benchmark composition 会改写结论；知道这个点就够了，不必细读界面实现。

Minji Jung,Minjae Lee,Yejin Kim,Sarang Choi,Minsuk Kahng

Yonsei UniversityYonsei UniversitySeoulSouthevaluationleaderboardbenchmark-bias2026年4月23日arXiv PDF

arXiv

Modulating Cross-Modal Convergence with Single-Stimulus, Intra-Modal Dispersion

现有跨模态表征收敛研究未解释单刺激层面的模态内离散度对跨模态对齐的调制作用，无法解释为何部分刺激更容易在多模态模型中获得一致表征

评跨模态对齐受单刺激模态内离散度调制的结论可做预训练对齐的弱参考，仅看Fig3结果即可

Eghbal A. Hosseini,Brian Cheung,Evelina Fedorenko,Alex H. Williams

MITNYUFlatiron Institute+1representational alignmentcross-modal convergencemulti-modal2026年4月23日arXiv PDF

arXiv

Breaking Bad: Interpretability-Based Safety Audits of State-of-the-Art LLMs

评估最强开源 LLM 在基于可解释性激活操控的 jailbreak 审计下有多脆弱，以及不同模型家族的内部表示是否更容易被“转向”到不安全行为。

评和预训练不直接相连，但“不同家族对表示操控的脆弱性差很多”这个现象值得记；只看结果表和攻击设定，别把 judge 分数当硬结论。

Krishiv Agarwal,Ramneet Kaur,Colin Samplawski,Manoj Acharya,Anirban Roy,Daniel Elenius,Brian Matejek,Adam D. Cobb,Susmit Jha

NuSCI Research GroupComputer Science LaboratorySRIinterpretabilityjailbreaksafety-audit2026年4月22日arXiv PDF

arXiv

There Will Be a Scientific Theory of Deep Learning

论证并梳理“深度学习正在形成可检验的科学理论”，并给出该理论的五条主要研究脉络。

评不是新结果而是“研究纲领”，读它的价值在于把你关心的训练现象放进可检验的对象集合；只需扫摘要和五条脉络小节。

Jamie Simon,Daniel Kunin,Alexander Atanasov,Enric Boix-Adserà,Blake Bordelon,Jeremy Cohen ... 省略 4 位作者 ... ,Dhruva Karkada,Eric J. Michaud,Berkan Ottlik,Joseph Turnbull

Harvard UniversityFlatiron InstituteNew York University+4deep-learning-theorytraining-dynamicsscaling-laws2026年4月23日arXiv PDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

arXiv

A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

诊断 LLM 程序修复评测中的记忆化与数据泄漏，避免把背过 benchmark 当成真实修复能力。

评不是基座方法论文，但如果你在意 contamination 评测，这篇比常见 NLL 打分更干净；先看变体构造和性能降幅表。

Milan De Koning,Ali Asgari,Pouria Derakhshanfar,Annibale Panichella

JetBrains ResearchDelft University of Technologymemorizationdata-contaminationprogram-repair2026年4月23日arXiv PDF

arXiv

From If-Statements to ML Pipelines: Revisiting Bias in Code-Generation

现有代码生成偏见评测仅使用简单条件语句，严重低估了真实场景下代码生成的偏见程度

评揭示了现有代码偏见评测方法的缺陷，仅作为代码模型安全评测的参考资料，无需读正文

Minh Duc Bui,Xenia Heilmann,Mattia Cerrato,Manuel Mager,Katharina von der Wense

Johannes Gutenberg University MainzUniversidad IberoamericanaUniversity of Colorado Bouldercode generationbias evaluationML pipeline2026年4月23日arXiv PDF

arXiv

DryRUN: On the Role of Public Tests in LLM-Driven Code Generation

分析 LLM 驱动代码生成对公开测试用例的依赖，及其导致的过拟合与隐藏测试失效问题。

评结论方向大概率对，但像是把大家心里知道的问题系统化；若你做 code agent，只需看 hidden-test 失效分析是否做干净。

Kaushitha Silva,Srinath Perera

WSOSanta Claracode-generationpublic-testsevaluation-bias2026年4月23日arXiv PDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv

Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems

这篇工作研究多智能体 LLM 系统中的通信接口是否应被学习，而不是固定为自然语言消息传递；核心问题是如何把 latent communication 与多轮协作推理联合优化。

评想看 agent 新接口可以扫一眼，但别把它误读成 pretrain 方法；只需看 latent trajectory 训练目标和与 text protocol 的对比表，判断是否真有信息带宽优势。

Ye Yu,Heming Liu,Haibo Jin,Xiaopeng Yuan,Peng Kuang,Haohan Wang

University of Illinois Urbana-Champaignmulti-agentlatent-communicationKV-cache2026年4月23日arXiv PDF

arXiv

Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading for Eliminating the MCP/Tools Tax in Scalable Agentic Workflows

MCP/工具调用在多工具 agent 工作流中引入了每轮大规模 schema 注入开销，导致上下文膨胀、KV cache 浪费和推理质量下降。

评这是 agent middleware，不改模型 prior；只看方法图和实验表，判断 lazy schema loading 是否真比 prompt engineering 干净即可。

Anuj Sadani,Deepak Kumar

the MCP/Tools Tax in Scalable Agentic Workflowstool-usemcpcontext-management2026年4月23日arXiv PDF

arXiv

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

解决可交互图表问答中，VLM 仅依赖像素读图而导致数值误读、遮挡混淆和幻觉的问题。

评不是 pretrain 论文，但它把“像素输入不够”讲得很干净；只看 benchmark 设计和 introspection 机制，能给多模态训练里的可验证监督一些思路。

Yiyang Lu,Woong Shin,Ahmad Maroof Karimi,Feiyi Wang,Jie Ren,Evgenia Smirni

Oak Ridge National Laboratoryvisual-groundinginteractive-chartsbenchmark2026年4月22日arXiv PDF

arXiv

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

解决 GUI Agent 在真实交互中常见的两类失败：过早宣称任务完成，以及陷入重复操作循环却无法恢复。

评这是 GUI agent 工程补丁而不是新范式；若你做 tool-use reliability，可只看 verifier 和 loop-breaker 设计，别把结果外推到基座能力。

Qijun Han,Haoqin Tu,Zijun Wang,Haoyue Dai,Yiyang Zhou,Nancy Lau ... 省略 4 位作者 ... ,Zeyu Zheng,Huaxiu Yao,Yuyin Zhou,Cihang Xie

GUI-agentverificationloop-recovery2026年4月23日arXiv PDF

arXiv

SPIRE: Structure-Preserving Interpretable Retrieval of Evidence

RAG 在半结构化文档上通常先把 HTML 等树结构线性化切块，导致检索证据不精确、上下文解释性差。

评如果你在做 HTML/表格 RAG，可以看它怎么把“证据单元”从 chunk 改成子树；否则和基座训练距离较远，看方法图即可。

Mike Rainey,Umut Acar,Muhammed Sezer

Carnegie Mellon UniversityRAGstructured-retrievalHTML2026年2月12日arXiv PDF

arXiv

Association Is Not Similarity: Learning Corpus-Specific Associations for Multi-Hop Retrieval

多跳检索里，单纯依赖 query-passage 相似度往往找不到推理链上“相关但不相似”的证据。

评结论有意思：multi-hop 里 association ≠ similarity；但 inductive 失效说明它更像语料图记忆器，读结果表就够，别把它当通用检索范式。

Jason Dury

Independent Researchermulti-hop-retrievalRAGassociation-learning2026年2月13日arXiv PDF

arXiv

Spatial Metaphors for LLM Memory: A Critical Analysis of the MemPalace Architecture

拆解爆火的MemPalace内存系统的性能来源，验证其空间隐喻架构的实际贡献

评明确空间隐喻是营销噱头，内存系统核心性能来自存储策略和embedding，知道结论即可无需读正文

Robin Dey,Panyanon Viradecha

OpenHub ResearchLLM MemoryRAGBenchmark Analysis2026年4月23日arXiv PDF

arXiv

CI-Work: Benchmarking Contextual Integrity in Enterprise LLM Agents

解决企业级LLM Agent存在敏感信息泄露风险、缺乏对应评测基准的问题

评仅需知道企业Agent隐私和效用存在强负相关，模型扩容无法解决该问题即可，无需深读

Wenjie Fu,Xiaoting Qin,Jue Zhang,Qingwei Lin,Lukas Wutschitz,Robert Sim,Saravan Rajmohan,Dongmei Zhang

Huazhong University of Science and TechnologyMicrosoft ResearchLLM AgentPrivacy BenchmarkEnterprise LLM2026年4月23日arXiv PDF

arXiv

AI-Gram: When Visual Agents Interact in a Social Network

研究在纯自主的视觉社交网络中，多模态代理如何通过图像互动并形成社会结构。

评有点意思的平台论文，但更像 agent sociology；只需看现象部分，别把这些观察直接外推到真实训练中的多模态表征。

Andrew Shin

Keio Universitymulti-agentvisual-agentssocial-network2026年4月23日arXiv PDF

arXiv

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

LLM作为长 horizon 交互环境的智能体时，缺乏跨 episode 发现、留存、复用结构化技能的机制，长序列决策一致性差、任务完成率低。

评通用Agent方法层面的增量改进，未涉及预训练架构或目标调整，仅作为领域动态了解即可，无需读正文。

Xiyang Wu,Zongxia Li,Guangyao Shi,Alexander Duffy,Tyler Marques,Matthew Lyle Olson,Tianyi Zhou,Dinesh Manocha

University ofUniversity of SouthernMohamed bin Zayed University of Artificial Intelligence+2LLM AgentLong-Horizon TaskSkill Bank2026年4月22日arXiv PDF

arXiv

ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures

解决 Vision-Language-Action 系统在多步任务中一旦中间步骤偏离，就会层层放大并形成 cascading failures 的问题。

评如果你做 VLA 或层级规划，可看它怎么定义 error propagation 指标；对 LLM pretrain 本身帮助不大，正文不必细读。

Xiyin Zeng,Yuyu Sun,Haoyang Li,Shouqiang Liu,Hao Wang

Hong Kong University of Science and Technology (Guangzhou)South China Normal UniversityVLAhierarchical-planningerror-recovery2026年4月23日arXiv PDF

arXiv

Efficient Agent Evaluation via Diversity-Guided User Simulation

解决多轮 LLM agent 评测中 Monte Carlo 全轨迹 rollout 代价高、覆盖稀有失败模式差的问题。

评和预训练关系不深，但如果你在做 agent eval，读方法图和实验设计就够；关键看 snapshot branching 是否真比简单重采样更省且不引入偏差。

Itay Nakash,George Kour,Ateret Anaby-Tavor

IBM Researchagent-evaluationuser-simulationtrajectory-branching2026年4月23日arXiv PDF

arXiv

Mango: Multi-Agent Web Navigation via Global-View Optimization

解决 web agent 从根 URL 盲目起步、在层级复杂网站中搜索效率低且容易陷入无关分支的问题。

评有一点方法味道，但仍是 web agent 局部改良；只看 URL bandit 设定和主表即可，不会改变你对基座模型的 prior。

Weixi Tong,Yifeng Di,Tianyi Zhang

Purdue Universityweb-agentmulti-agentbandit2026年4月20日arXiv PDF

arXiv

Omission Constraints Decay While Commission Constraints Persist in Long-Context LLM Agents

现有LLM Agent安全评估默认所有系统提示约束在全对话周期内生效，实际不同类型约束的上下文留存特性存在未被发现的不对称性

评该不对称约束留存现象可作为预训练安全注入的参考方向，仅读摘要和结果表即可

Yeran Gamage

University of SouthIndependent AI Security Researcherlong-context agentsafety constraintcausal study2026年4月22日arXiv PDF

arXiv

Adaptive Defense Orchestration for RAG: A Sentinel-Strategist Architecture against Multi-Vector Attacks

RAG系统全开所有安全防御会导致上下文召回率下降超40%，存在安全与效用的显著权衡问题

评属于RAG应用层安全优化，预训练研究员仅需了解结论，无需读正文

Pranav Pallerla,Wilson Naik Bhukya,Bharath Vemula,Charan Ramtej Kodi

University of HyderabadPurdue UniversityRAG securityadaptive defensemulti-vector attack2026年4月22日arXiv PDF

trycua/cua

★+18214.4k

HTMLAgent 与系统cua-driver-v0.0.11

开源计算机使用代理基础设施，含沙箱、驱动与基准。

面向桌面代理训练评测；统一macOS、Linux、Windows、Android。

⚙ 提供跨OS Sandbox API、macOS后台驱动、OSWorld等评测。

支持Claude Code、Cursor与MCP
评测含OSWorld、ScreenSpot、Windows Arena
最新发布cua-driver v0.0.11

openclaw/openclaw

★+627364.6k

TypeScriptAgent 与系统v2026.4.24

可自托管的个人AI助手，接入多聊天渠道。

面向单用户常驻助手；数据留在自有设备，跨平台。

⚙ Gateway作控制面，CLI引导配置渠道、模型与守护进程。

支持WhatsApp、Telegram、Slack等多渠道
可在macOS/iOS/Android语音收发，并提供实时Canvas
v2026.4.24；推荐Node 24，支持npm/pnpm/bun

gastownhall/beads

★+15221.7k

GoCoding Agentv1.0.3

为编码代理提供持久化、结构化任务记忆。

用依赖图替代Markdown计划，适合长程、多代理协作。

⚙ 基于Dolt存图式issue；支持JSON、依赖、压缩与同步。

v1.0.3 于 2026-04-24 发布
支持嵌入式与Dolt server双模式
提供 npm 包与 PyPI MCP 接口

mattpocock/skills

★+251923.6k

ShellAgent 与系统

一组可安装的工程向Agent技能脚本库

把PRD/拆分issue/TDD等流程标准化，适合用Claude等做真实工程协作

⚙ 用npx skills@latest add安装单个skill；多技能覆盖规划、开发、工具、写作

to-prd：对话生成PRD并提GitHub issue
to-issues：按vertical slice拆成可领取issue
git-guardrails：拦截危险git命令

AI Research Daily

8 Gemini tips for organizing your space (and life)

DeepSeek V4 Preview Release

Decoupled DiLoCo for Resilient Distributed Pre-training

The Recurrent Transformer: Greater Effective Depth and Efficient Decoding

SuperBPE: Space Travel for Language Models

行业动态与观点

LLM 预训练

高效推理与架构

多模态统一

多模态生成

LLM 后训练

原理、机制和分析

Coding Agent

Agent 与系统