AI Research Daily

更新时间: 2026/5/5 00:35:49

共76篇

🌟 5 重点

🔥 行业动态 1🧠 预训练 4⚡ 高效推理 12🌐 多模态统一 7🎨 多模态生成 5🛠️ 后训练 13🔬 原理分析 15💻 Coding Agent 4🤖 Agent 15

其他 42 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读行业动态与观点

The latest AI news we announced in April 2026

大模型基座的迭代与落地方向正在从通用能力输出转向智能体场景，产业侧缺乏适配智能体多步推理需求的算力基础设施、高效开源基座与全链路开发工具链，同时开源模型需要进一步提升参数效率以降低智能体应用的部署成本。

Googleproduct-newsgoogle-aiindustry-update

精读高效推理与架构

How OpenAI delivers low-latency voice AI at scale

实时语音对话系统要同时满足低延迟、全球可扩展和自然 turn-taking，传统 WebRTC 栈与通用推理服务往往难以兼顾。

OpenAI Researchvoice-aiwebrtcstreaming-inference

精读高效推理与架构

Reduce friction and latency for long-running jobs with Webhooks in Gemini API

Gemini API 在处理长时间运行的任务（如 Deep Research、长视频生成或 Batch API 批处理）时，开发者只能通过低效的轮询（Polling）机制来检查任务状态，增加了延迟和系统开销。

Googleservingapiwebhooks

精读多模态与统一模态

Let ViT Speak: Generative Language-Image Pre-training

GenLIP 解决的是 MLLM 视觉编码器预训练目标与下游自回归 LLM 使用方式不一致的问题。CLIP/SigLIP 这类对比学习视觉编码器学到的是图文判别式对齐；CapPa、AIMv2、OpenVision2 等生成式方法虽然使用语言建模损失，但通常需要额外文本 decoder 或 text encoder，视觉 backbone 通过这些模块间接受训。GenLIP 的问题设定更直接：能否让 ViT 本身在图像 token 条件下预测文本 token，从而把视觉编码器训练成更适合被 LLM 消费的表示器。

Beijing Jiaotong UniversityByteDancemultimodal-pretraininggenerative-objectiveViT

精读多模态生成

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

该工作解决的是 AR 图像生成中的 tokenizer-生成器错配问题。传统 2D grid tokenizer 保留空间结构，但和单向 next-token factorization 不完全匹配；已有 1D tokenizer 更适合 AR，却常为压缩率牺牲重建质量；两阶段训练又让 tokenizer 只优化重建，无法直接接收生成质量的反馈。

ByteDance SeedCalifornia Institute of TechnologyAutoregressive Image GenerationEnd-to-End TrainingVisual Tokenizer

来源

机构

阅读分级

标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点（注意：推理加速/注意力优化等技术论文不算行业动态）

Blog精读🌟

The latest AI news we announced in April 2026

评新闻流而已，适合产品跟踪，不适合研究阅读；知道有这些发布即可，不要把它当技术输入。

Google AI Blog

Googleproduct-newsgoogle-aiindustry-update2026年5月4日原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv泛读

DeGenTWeb: A First Look at LLM-dominant Websites

如何在大规模、噪声很强的真实 Web 环境中，可靠识别“LLM-dominant 网站”（站点大部分文本由 LLM 生成且人类参与很少），并据此估计 LLM 生成内容在 Web 上的渗透率与分布特征；同时回答一个现实问题：当检测器必须把误报压到很低时，现有 LLM 文本检测到底还能不能用。

评重点看§3的检测优化方法和§4的站点占比数据，可直接用于预训练爬取数据的过滤流程

Sichang Steven He,Calvin Ardi,Ramesh Govindan,Harsha V. Madhyastha

University of Southernpre-training-datallm-generated-contentweb-crawling2026年4月30日arXiv PDF

arXiv泛读

Caracal: Causal Architecture via Spectral Mixing

Transformer注意力机制存在序列长度相关的二次计算复杂度瓶颈，外嵌位置编码导致长度外推能力受限；此前Fourier类高效架构无法实现自回归生成必需的因果约束，而Mamba等SSM类架构依赖硬件定制内核，可移植性差。

评值得读因果频域 masking 的构造；实验规模若不大，先把它当长上下文架构候选而非替代 attention 的结论。

Bingzheng Gan,Tianyi Zhang,Yusu Li,Jing Huang,Wei Shi,Yangkai Ding,Tao Yu

fourier-mixingcausal-lmlong-context2026年4月30日arXiv PDF

arXiv泛读

Consistent Diffusion Language Models

这篇工作处理的是离散 diffusion language model 的核心效率瓶颈。DLM 理论上可以并行生成，摆脱 AR 的逐 token 解码，但实际高质量采样往往需要上百步 refinement，速度优势被大幅抵消。连续扩散里，consistency model 可以沿 probability-flow ODE 学到少步甚至一步生成；但离散空间没有对应的样本级确定性 ODE，直接照搬 consistency training 在定义上就站不住。论文要解决的是：在离散 token 空间里，如何给 consistency 一个严格、可训练、又能真正带来 few-step generation 的形式化基础。

评这篇该看方法定义而不是 headline：若 MPDC 真把离散 consistency 立住，DLM 的主要短板会被削弱；先读公式和少步采样表，别急着信生成质量。

Hasan Amin,Yuan Gao,Yaser Souri,Subhojit Som,Ming Yin,Rajiv Khanna,Xia Song

diffusion-language-modeldiscrete-diffusionconsistency-training2026年4月30日arXiv PDF

arXiv泛读

Binomial flows: Denoising and flow matching for discrete ordinal data

这篇工作解决的是离散有序数据上的一个基础缺口：连续扩散/flow matching 里，denoiser、score、sampling、likelihood 之间有一套很完整的关系，核心工具是 Tweedie 公式；但在离散空间，尤其是非负有序离散数据上，这套关系并不完整，很多方法只能直接学离散 score 或反向转移率，训练和采样都更绕。作者想做的是给离散 ordinal 数据找一个与高斯噪声相对应的 noising family，使得“学 denoiser”这条路线在离散情形下也成立，并且能导出可用的采样和似然计算公式。

评离散扩散语言模型（Diffusion LM）的底层理论补丁，用二项分布推导了离散 Tweedie 公式，做 SEDD/MDLM 方向的必看理论推导。

Yair Shenfeld,Ricardo Baptista,Stefano Peluchetti

Brown UniversitySakana AIDiscrete DiffusionFlow MatchingLanguage Modeling2026年5月1日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

Blog精读🌟

How OpenAI delivers low-latency voice AI at scale

实时语音对话系统要同时满足低延迟、全球可扩展和自然 turn-taking，传统 WebRTC 栈与通用推理服务往往难以兼顾。

评不改 pretrain 方法，但会校正你对语音产品瓶颈的判断：真正难的是端到端时延和 turn-taking，不是再抠一点离线 WER；看系统分层与 latency budget 即可。

OpenAI Research

OpenAI Researchvoice-aiwebrtcstreaming-inference2026年5月4日原文

Blog精读🌟

Reduce friction and latency for long-running jobs with Webhooks in Gemini API

评和 serving 运维有点关系，但离研究太远；如果你不负责 API 平台，标题层面知道有 webhook 支持就够了。

Google AI Blog

Googleservingapiwebhooks2026年5月4日原文

arXiv泛读

AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs

这篇工作处理的是分布式 LLM 训练里两个最难同时压下去的内存项：激活和梯度。已有方法里，activation checkpointing 能省显存，但会带来明显重算开销；8-bit activation quantization 和 FP8 gradient communication 能进一步省内存和带宽，但一旦把精度继续压到接近 4-bit activation、8-bit gradient storage，就很容易出现收敛变慢、训练不稳、最终精度掉点。论文要解决的不是单点压缩，而是在 Megatron/ZeRO 这类真实大规模训练栈里，把低比特激活存储和低比特梯度存储+通信做成可用方案，并且尽量不改训练配方、不牺牲收敛。

评这类工作不改建模 prior，但可能直接改你的训练成本曲线；先看量化误差控制和吞吐统计口径，setup 干净才值得复现。

Wenxiang Lin,Juntao Huang,Luhan Zhang,Laili Li,Xiang Bao,Mengyang Zhang,Bing Wang,Shaohuai Shi

training-quantizationdistributed-trainingactivation-quantization2026年5月1日arXiv PDF

arXiv泛读

Rethinking Network Topologies for Cost-Effective Mixture-of-Experts LLM Serving

论文解决的是 MoE LLM 推理服务的“网络该怎么配才划算”：在 MoE 导致通信占比上升的背景下，行业倾向用昂贵的 scale-up 高带宽网络堆性能；作者质疑这种投入是否必要，并希望用跨层建模给出不同网络拓扑在真实 serving 约束下的吞吐/成本最优选择。

评读 Fig/表里的 cost model；它不改 MoE 训练法，但会改变你对“必须上昂贵 scale-up”的预算假设。

Junsun Choi,Sam Son,Sunjin Choi,Hansung Kim,Yakun Sophia Shao,Scott Shenker,Sylvia Ratnasamy,Borivoje Nikolic

moe-servingnetwork-topologyinference-systems2026年4月30日arXiv PDF

arXiv泛读

BWLA: Breaking the Barrier of W1AX Post-Training Quantization for LLMs

BWLA 处理的是 W1AX 后训练量化的两个主要瓶颈：LLM 权重按通道多为单峰、近似高斯分布，和 ±1 二值码本不匹配；激活存在明显重尾和极端 outlier，低比特量化时误差被少数大值主导。已有二值化 PTQ 多保留高精度激活，推理时仍要反量化权重，难以获得端到端低比特执行收益。

评只看方法和实验表；若 W1A6 在主流模型上不靠校准集过拟合成立，能改变对二值化只能省权重带宽的判断。

Zhixiong Zhao,Zukang Xu,Dawei Yang

LLM-quantizationpost-training-quantization1-bit-weights2026年5月1日arXiv PDF

arXiv泛读

SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters

SAGA 解决的是 agent 推理负载和现有 LLM serving 调度抽象不匹配的问题。一个 agent 任务会产生 10–100 次相互依赖的 LLM 调用，中间夹杂工具执行或外部 API 等空档；现有系统按单次请求调度，常在工具调用边界丢弃 KV cache，导致重复 prefill、显存碎片和端到端延迟放大。

评只看系统设计和缓存复用实验即可；它不改预训练方法，但会影响 Agent 时代长会话 serving 的成本模型。

Dongxin Guo,Jikun Wu,Siu Ming Yiu

The University ofBrain Investing LimitedStellaris AI Limitedagent-servinggpu-schedulingkv-cache2026年5月1日arXiv PDF

arXiv泛读

Make Your LVLM KV Cache More Lightweight

这篇工作解决的是 LVLM 推理阶段一个很具体但很实际的问题：视觉 token 在 prefill 阶段数量过大，导致 KV cache 显存占用远高于纯文本 LLM，而现有 KV 压缩方法大多在生成阶段做 token 剪枝，或者只看视觉侧冗余，没有充分利用文本提示对“哪些视觉 token 重要”的指导。LightKV 的目标是在不重训模型的前提下，于 prefill 阶段直接压缩视觉 token 对应的 KV cache，同时尽量不损伤多模态理解性能。

评只看压缩位置和消融表即可；prompt-aware token 压缩是合理工程线索，但不改变预训练侧判断。

Xihao Chen,Yangyang Guo,Roger Zimmermann

National University ofLVLMKV-cacheinference-efficiency2026年5月1日arXiv PDF

arXiv

Rethinking LLM Ensembling from the Perspective of Mixture Models

现有LLM集成方法需要每个模型单独前向计算，推理成本随模型数量线性上升，效率极低

评推理阶段集成加速的增量创新，仅做部署优化参考，预训练研究员无需深入研究

Jiale Fu,Yuchu Jiang,Peijun Wu,Chonghan Liu,Joey Tianyi Zhou,Xu Yang

model-ensemblinginference-accelerationefficient-deployment2026年5月1日arXiv PDF

arXiv

Cloud Is Closer Than It Appears: Revisiting the Tradeoffs of Distributed Real-Time Inference

传统分布式CPS架构默认云推理固有延迟高，不适合低延迟控制任务，导致端侧计算与能耗压力过大

评推理部署的权衡分析，与预训练无关，仅做部署参考即可

Pragya Sharma,Hang Qiu,Mani Srivastava

University of California RiversideUniversity ofdistributed inferencecloud inferencelatency optimization2026年2月17日arXiv PDF

arXiv

Silicon Showdown: Performance, Efficiency, and Ecosystem Barriers in Consumer-Grade LLM Inference

系统比较消费级 Nvidia 与 Apple Silicon 生态上运行 70B 级本地 LLM 推理时的性能、效率和工程障碍。

评工程测量可作部署常识校准；读吞吐/显存表即可，别把消费级后端结论外推到训练或数据中心 serving。

Allan Kazakov,Abdurrahman Javat

Bahcesehir Universityfueled by open-weight releases from labs like DeepSeek [2] and Meta [8](LLM) inference has shifted from lightweight models to datacenter-class+2local-inferenceconsumer-hardwareTensorRT-LLM2026年5月1日arXiv PDF

arXiv

Budget Constraints as Riemannian Manifolds

解决带总预算约束的离散配置优化问题，例如混合精度量化、非均匀剪枝和专家选择中，如何在满足预算的同时直接优化真实模型损失。

评把预算约束做成 manifold 是干净的优化视角；先看几何推导，是否打过强 LLM 压缩还不清楚。

Michael Helcig,Dan Alistarh

model-compressionquantizationpruning2026年5月1日arXiv PDF

arXiv

Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge

边缘 SoC 上 GEMM 加速受计算核心、片上资源和 I/O 带宽限制，传统按矩阵规模横向扩展硬件资源的做法在小资源设备上容易失效。

评边缘硬件味很重；只看资源不随矩阵变大的调度思想，和基座训练关系很远。

M. Grailoo,J. Núñez-Yáñez

Linköping University∗Link¨oping UniversityEngines available in the AMD Versal adaptive SoCs are well+2gemmedge-inferencehardware-acceleration2026年5月1日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv精读🌟

Let ViT Speak: Generative Language-Image Pre-training

评应读方法和 scaling 表；若数据账干净，它会改变视觉 encoder 是否必须先做对比学习的默认设定。

Yan Fang,Mengcheng Lan,Zilong Huang,Weixian Lei,Yunqing Zhao,Yujie Zhong,Yingchen Yu,Qi She,Yao Zhao,Yunchao Wei

Beijing Jiaotong UniversityByteDanceNanyang Technological Universitymultimodal-pretraininggenerative-objectiveViT2026年5月1日arXiv PDF

arXiv泛读

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

PVM 解决的是 LVLM 长生成过程中视觉 token 注意力被不断增长的文本历史稀释，导致模型后段生成更依赖语言先验、较难持续读取原始视觉证据的问题。

评看视觉 attention 随长度衰减的证据；模块本身未必通用，但这个 failure mode 值得纳入 LVLM 评测。

Siyuan Huang,Xiaoye Qu,Yafu Li,Tong Zhu,Zefeng He,Muxin Fu,Daizong Liu,Wei-Long Zheng,Yu Cheng

Shanghai AI LaboratoryShanghai Jiao Tong UniversityThe Chinese University of+3LVLMvisual-memoryattention-analysis2026年5月1日arXiv PDF

arXiv泛读

GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models

现有音乐多模态大模型无法同时建模音乐的全局语义属性和时序动态特征，也缺少专门覆盖时序维度的音乐理解评测基准。

评读模型路由和训练配比即可；音乐任务偏窄，但 MoE 音频编码器对 unified audio-LM 有可迁移信号。

Zuyao You,Zhesong Yu,Mingyu Liu,Bilei Zhu,Yuan Wan,Zuxuan Wu

Fudan UniversityByteDancemusic-understandingaudio-LMMmixture-of-experts2026年5月1日arXiv PDF

arXiv

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

研究如何用极小评测子集高效比较 large audio models，并检验自动 benchmark 分数与真实语音助手用户偏好的对齐程度。

评不必读全文；看子集选择实验和人类偏好回归即可，核心价值是提醒音频 LM 评测可能被 benchmark 冗余掩盖。

Woody Haosheng Gan,William Held,Diyi Yang

University of SouthernStanford UniversityOpenAthenaaudio-lmevaluationhuman-preference2026年4月20日arXiv PDF

arXiv

REALM: An RGB and Event Aligned Latent Manifold for Cross-Modal Perception

解决事件相机缺少大规模标注、模型任务割裂的问题，尝试把事件流对齐到 RGB foundation model 的潜空间中。

评不是基座论文，但“冻结强模态 backbone + 低秩桥接弱模态”这个配方值得记；看方法图和迁移设定即可，别过度外推到统一预训练。

Vincenzo Polizzi,David B. Lindell,Jonathan Kelly

University ofRobotics Instituteare available upon acceptance+2event-cameracross-modal-alignmentlora2026年4月30日arXiv PDF

arXiv

Jailbreaking Vision-Language Models Through the Visual Modality

现有视觉语言模型的安全对齐主要针对文本模态，视觉模态作为攻击面未被充分探索，文本安全训练无法泛化到视觉传达的有害意图

评仅看攻击方法和成功率对比即可，对VLM跨模态安全对齐训练有弱参考价值

Aharon Azulay,Jan Dubiński,Zhuoyun Li,Atharv Mittal,Yossi Gandelsman

VLM safetyjailbreak attackcross-modal alignment2026年5月1日arXiv PDF

arXiv

Being-H0.7: A Latent World-Action Model from Egocentric Videos

在机器人 VLA 策略中引入未来感知的世界模型能力，同时避免像素级视频 rollout 带来的训练和推理开销。

评只看方法图和双分支训练细节；latent future supervision 的思路可借鉴，机器人实验本身不用深读。

Hao Luo,Wanpeng Zhang,Yicheng Feng,Sipeng Zheng,Haiweng Xu,Chaoyi Xu,Ziheng Xi,Yuhui Fu,Zongqing Lu

VLAlatent-world-modelrobot-learning2026年4月30日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXiv精读🌟

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

评打破了 AR 图像生成两阶段训练的 prior，端到端联合优化 tokenizer 和生成模型，对多模态统一建模极具启发，必读。

Wenda Chu,Bingliang Zhang,Jiaqi Han,Yizhuo Li,Linjie Yang,Yisong Yue,Qiushan Guo

ByteDance SeedCalifornia Institute of TechnologyStanford UniversityAutoregressive Image GenerationEnd-to-End TrainingVisual Tokenizer2026年5月1日arXiv PDF

arXiv泛读

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

这篇工作要解决的不是单一视频生成任务，而是一个更一般的问题：能否把多个像素对齐的视觉模态——例如 RGB、法线、反照率、光照、alpha、前景、背景——放进同一个视频扩散框架里，让任意一部分模态作为条件，另一部分作为目标，在一个模型内完成双向或多向生成。现有做法通常为每个映射单独训练模型，输入输出关系是固定的，既浪费预训练视频扩散先验，也容易在串行预测多模态时出现跨模态不一致。UniVidX 试图把这种“固定任务头”的范式改成“统一条件生成”的范式。

评只看训练掩码和 gated LoRA 设计；它把“任意条件生成”做成扩散版课程，值得和 Transfusion/Show-o 的统一建模对照。

Houyuan Chen,Hong Li,Xianghao Kong,Tianrui Zhu,Shaocong Xu,Weiqing Xiao ... 省略 1 位作者 ... ,Chongjie Ye,Lvmin Zhang,Hao Zhao,Anyi Rao

Beihang UniversityNanjing UniversityBAAI+4video-diffusionunified-multimodal-generationconditional-generation2026年5月1日arXiv PDF

arXiv

When Do Diffusion Models learn to Generate Multiple Objects?

解释文本到图像 diffusion model 为什么在多物体生成上经常失败，尤其是计数、属性绑定和组合泛化问题。

评受控实验比结论本身更值钱：它把多物体失败从“数据不够”细化成“场景复杂度和计数更难学”；读实验设计和 ablation，别只看最终图。

Yujin Jeong,Arnas Uselis,Iro Laina,Seong Joon Oh,Anna Rohrbach

diffusion-modelsmulti-object-generationcompositional-generalization2026年4月30日arXiv PDF

arXiv

MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video

为 silent video 生成音频时，同时输出帧级声音事件标签，避免先生成音频再做事件检测造成误差累积。

评不是音频 LM 预训练，但 joint generation+labeling 的 latent 设计可借鉴；看方法图和实验表即可。

Kazuya Tateishi,Akira Takahashi,Atsuo Hiroe,Hirofumi Takeda,Shusuke Takahashi,Yuki Mitsufuji

Sony Group Corporationaudio-generationvideo-to-audioevent-labeling2026年5月1日arXiv PDF

arXiv

Learning Multimodal Energy-Based Model with Multimodal Variational Auto-Encoder via MCMC Revision

多模态 EBM 用最大似然训练时需要在联合数据空间做 MCMC，但从噪声初始化的 Langevin dynamics 混合差，难以形成一致的跨模态关系。

评作为 EBM+VAE 多模态建模备查即可；若没有规模实验，难改变对大模型预训练目标的判断。

Jiali Cui,Zhiqiang Lao,Heather Yu

energy-based-modelmultimodal-generationvariational-autoencoder2026年5月1日arXiv PDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv泛读

Structure Liberates: How Constrained Sensemaking Produces More Novel Research Output

这篇工作讨论的是科研 agent 的“上游规划”问题：现有系统往往把 ideation 当成很短的一段计划，导致后续代码生成、实验设计和论文写作都容易模板化、浅层化。作者要解决的核心问题不是如何直接提升某个下游科研 benchmark，而是如何把研究构思过程结构化、可监督化，并验证这种结构化 supervision 是否真的能带来更好的研究轨迹和更好的下游产物。

评有个值得记的反直觉点：更强结构监督不一定压制探索；先看 Target vs Infer 的评测定义，若 judge 够干净，这个结论值得迁到 reasoning data 合成。

James Mooney,Zae Myung Kim,Young-Jun Lee,Dongyeop Kang

University of MinnesotaProduces More Novel Research Outputstructured-supervisionreasoning-trajectoriesdata-synthesis2026年5月1日arXiv PDF

arXiv泛读

AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments

这篇工作处理的是一个很具体但很实际的问题：零阶微调方法 MeZO 省掉了反向传播，显著降低显存，但它的更新规则接近 SGD，只依赖当前一步的高噪声梯度估计，收敛慢、前向调用次数多。已有自适应零阶方法试图引入 Adam 式预条件，但通常要额外保存一阶/二阶统计量，直接吃掉 MeZO 最重要的内存优势。AdaMeZO 想解决的就是：能不能在不额外保存 moments 的前提下，把 Adam 风格的自适应更新带进 zeroth-order LLM fine-tuning。

评读优化器推导和显存表；若 moment-free 估计稳定，它值得进内部小模型 SFT ablation。

Zhijie Cai,Haolong Chen,Guangxu Zhu

zeroth-order-optimizationllm-finetuningmemory-efficient-training2026年5月1日arXiv PDF

arXiv泛读

Decouple before Integration: Test-time Synthesis of SFT and RLVR Task Vectors

如何把同一个 base model 上分别得到的 SFT（知识/覆盖面）与 RLVR（可验证奖励驱动的推理深度）能力可靠地融合，同时避免顺序训练的遗忘与联合训练的梯度冲突；并进一步追问：这些失败是“配方问题”，还是两类后训练在参数空间存在结构性不相容。

评值得看 task-vector 分析，不是合并技巧本身；若 30×/45% 在你模型上复现，应调整 SFT/RLVR 串联习惯。

Chaohao Yuan,Chenghao Xiao,Yu Rong,Hong Cheng,Long-Kai Huang

SFTRLVRtask-vectors2026年5月1日arXiv PDF

arXiv泛读

Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity

解释并修复 RLVR（带可验证奖励的强化学习）在提升 Pass@1 的同时常常损害 Pass@K 的现象：训练后策略对“正确解集合”发生模式塌缩，概率质量集中到少数正确解，导致多样性与覆盖率下降。论文要解决的是：RLVR/GRPO 目标函数为何对正确解内部的分布“无差别”，以及如何把“在所有正确解上更均匀”变成一个有唯一最优解的训练目标。

评明确了RLVR多样性崩溃的根源，做RL对齐时可参考其正则项设计，仅读方法部分即可

Anamika Lochab,Bolian Li,Ruqi Zhang

Purdue UniversityRLVRGRPOalignment2026年5月1日arXiv PDF

arXiv泛读

ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

ResRL 处理的是 RLVR 中负样本惩罚的副作用：错误轨迹和正确轨迹往往共享大量语义片段，直接压低负样本概率会连带压低正确推理中可复用的部分，导致 Pass@1、Pass@k 和生成多样性之间出现张力。

评提出的正负语义分布解耦方法可缓解RL对齐过拟合，做负样本RL时可参考其投影设计

Zihan Lin,Xiaohan Wang,Jie Cao,Jiajun Chai,Li Wang,Xiaodong Lu,Wei Lin,Ran He,Guojun Yin

RLVRnegative-sampleLLM-reasoning2026年5月1日arXiv PDF

arXiv泛读

Diversity in Large Language Models under Supervised Fine-Tuning

这篇工作讨论的是一个常被提到但少有系统拆解的问题：SFT 为什么会让模型输出变窄，以及这种“变窄”到底来自哪里。作者把原因分成两部分。第一，标准 CE 在小而精的 instruction 数据上会优先拟合高频模式，长尾回答形式和低频表达被持续压低；第二，SFT 会覆盖预训练阶段已经学到的分布性知识，导致模型对同一 prompt 的可行回答空间收缩。论文的目标不是单纯提高某个多样性指标，而是在不明显伤害回答质量和对齐性的前提下，同时缓解“忽视低频模式”和“遗忘预训练知识”这两个来源。

评可参考TOFU损失的设计思路优化预训练到SFT的能力保留，重点读§3的成因分析即可

Roman Klypa,Oleksandr Cherednichenko

SFTgeneration diversityloss function2026年4月30日arXiv PDF

arXiv

RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners

让小语言模型在表格问答中生成可验证的逐步推理，并为每个推理步骤提供 cell-level citation。

评任务窄但 ablation 尖锐；只看 reward 设计和 post-hoc attribution 失败结果，可作为 RLVR 信号工程的反例库。

Jugal Gajjar,Kamalasankari Subramaniakuppusamy

The George Washington Universityrlvrgrpofaithfulness2026年4月30日arXiv PDF

arXiv

ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models

多语言 LLM 安全评测和 guardrail 常依赖通用风险 taxonomy 与机器翻译，难以覆盖不同司法辖区的法规差异和文化语境。

评安全数据构造角度可留意，尤其是 policy-grounded 多语言标签；dLLM guardrail 若无强对照，先当工程选择看。

Yunhan Zhao,Zhaorun Chen,Xingjun Ma,Yu-Gang Jiang,Bo Li

University of Illinois Urbana-ChampaignFudan UniversityUniversity ofmultilingual-safetyguardrailsalignment2026年5月1日arXiv PDF

arXiv

Block-wise Codeword Embedding for Reliable Multi-bit Text Watermarking

现有LLM多比特水印方法假阳性率过高，添加拒绝阈值后检测灵敏度会跌至随机猜测水平，可靠性不足

评LLM安全领域增量创新，仅做技术追踪即可，预训练研究无需复现或深入

Joeun Kim,HoEun Kim,Dongsup Jin,Young-Sik Kim

text-watermarkingLLM-securitypost-training2026年5月1日arXiv PDF

arXiv

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

缓解 DPO 对噪声偏好和脆弱推理链的敏感性，让偏好优化不仅看答案输赢，也考虑推理过程质量与不确定性。

评典型 DPO 变体，想法不差但大概率吃标注与打分器质量；看目标函数和 ablation 即可，别先入为主地把它当成对齐新范式。

Abdulhady Abas Abdullah,Fatemeh Daneshfar,Seyedali Mirjalili,Mourad Oussalah

dpoalignmentpreference-optimization2026年4月30日arXiv PDF

arXiv

Jailbroken Frontier Models Retain Their Capabilities

评估 jailbreak 是否会显著损害模型原有任务能力，并研究这种“jailbreak tax”如何随模型能力变化。

评看结果表即可；它给安全团队泼冷水：更强模型未必有 jailbreak tax 这个天然缓冲。

Daniel Zhu,Zihan Wang,Jenny Bao,Jerry Wei

jailbreakllm-safetyalignment2026年4月30日arXiv PDF

arXiv

DynamicPO: Dynamic Preference Optimization for Recommendation

在 LLM 推荐系统的 DPO 训练中，解释为什么增加负样本数量会出现 loss 下降但推荐效果变差的 preference optimization collapse。

评推荐场景较窄，但“更多负例压低 loss 却伤边界”的梯度分析可作 DPO 采样策略的弱信号。

Xingyu Hu,Kai Zhang,Jiancan Wu,Shuli Wang,Chi Wang,Wenshuai Chen,Yinhua Zhu,Haitao Wang,Xingxing Wang,Xiang Wang

University of Science and Technology ofShanghai Innovation Institutedpopreference-optimizationnegative-sampling2026年5月1日arXiv PDF

arXiv

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

解决 LLM 红队中“攻击有效性”和“样本多样性”难以同时保证的问题，尤其是 GFlowNet 在噪声奖励下容易训练不稳和模式坍塌。

评只看 GFN 稳定化和 reward masking；红队场景较窄，但 noisy reward 下防 mode collapse 可迁移到数据合成。

Minchan Kwon,Sunghyun Baek,Minseo Kim,Jaemyung Yu,Dongyoon Han,Junmo Kim

red-teamingGFlowNetreward-noise2026年5月1日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv泛读

Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs

如何把“数学能力评测”从一次性的静态 benchmark，升级为可持续维护、可扩展、可解释的 evaluation platform，从而在模型快速迭代与基准快速饱和的背景下，仍能稳定追踪数学推理能力的真实进展与短板分布。

评值得扫平台协议和任务分布；它不教你训模型，但能暴露数学能力评测从静态题库转向持续平台的趋势。

Jasper Dekoninck,Nikola Jovanović,Tim Gehrunger,Kári Rögnvalddson,Ivo Petrov,Chenhao Sun,Martin Vechev

ETHINSAITSofia University "St. Kliment Ohridski"math-evaluationreasoning-benchmarklean2026年5月1日arXiv PDF

arXiv泛读

Attention Is Where You Attack

论文想回答两个问题：安全对齐后的拒答能力在模型内部“落在”哪里（哪些注意力头/层在承担对 system prompt 的依赖），以及在不改权重的前提下，攻击者能否通过操纵注意力分配，让模型在面对有害请求时“看不见”安全指令，从而绕过拒答。

评只看攻击构造和 ablation-vs-redistribution 结果；若复现干净，它会削弱“删 head 等于理解 head”的习惯。

Aviral Srivastava,Sourav Panda

The Pennsylvania State Universitymechanistic-interpretabilityjailbreakattention-heads2026年4月30日arXiv PDF

arXiv泛读

Evaluating the Architectural Reasoning Capabilities of LLM Provers via the Obfuscated Natural Number Game

现有 LLM prover 在 MiniF2F 等基准上的高分，究竟来自结构化逻辑推导，还是对训练语料/库检索模式的语义匹配；如何构造一个“语义线索被剥离、库依赖被限制”的评测环境，专门测量模型在陌生形式系统中的 proof synthesis 能力（文中称 Architectural Reasoning）。

评读 §实验表就够了；若混淆只涨 latency 不降 prover 准确率，会修正对“语义泄漏驱动形式证明”的判断。

Lixing Li

St Anne’s Collegeformal-reasoningtheorem-provingLean42026年5月1日arXiv PDF

arXiv泛读

A unified perspective on fine-tuning and sampling with diffusion and flow models

扩散、流生成模型的微调、采样方法分散在随机最优控制、非平衡热力学两个独立研究框架下，缺乏统一分析范式量化不同方法的梯度偏差与方差特性，也没有通用方案适配基密度指数倾斜类目标分布的拟合需求，包括非归一化密度采样、预训练模型奖励微调两类核心场景。

评读 bias-variance 分解即可；若结论成立，reward-tilted diffusion/flow 微调不该再把几类 score matching 当等价替换。

Carles Domingo-Enrich,Yuanqi Du,Michael S. Albergo

Microsoft Research New EnglandHarvard UniversityKempner Institutediffusion-modelsflow-modelsreward-finetuning2026年4月30日arXiv PDF

arXiv泛读

Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions

这篇工作关注 LLM 在不完全信息博弈中为什么会做出不稳定或非理性的策略选择。核心不是评估最终胜率，而是拆开“观察到信息、形成隐含信念、把信念转成行动”这条链路，定位失败发生在哪一段。

评不是 pretrain 论文，但它把“模型知道却做不对”拆成可测的两段断裂；只看定义 gap 的实验设计和长交互退化结果，就够你改内部 probing setup。

Jan Sobotka,Mustafa O. Karabag,Ufuk Topcu

The University of Texas at Austinmechanistic-analysisbelief-representationstrategic-reasoning2026年4月30日arXiv PDF

arXiv泛读

Escaping Mode Collapse in LLM Generation via Geometric Regulation

这篇工作试图解释并缓解自回归生成中的 mode collapse：长文本生成逐渐变得重复、单调，甚至进入循环。作者把问题从 token 级重复转到 hidden-state 动力学，认为 collapse 对应内部轨迹进入低维、难以逃逸的区域。

评值得扫实验和 ablation；若 value-cache 阻尼真稳，它会改变“退化主要靠采样策略修”的默认做法。

Xin Du,Kumiko Tanaka-Ishii

generation-dynamicsmode-collapsevalue-cache2026年5月1日arXiv PDF

arXiv泛读

Characterizing the Expressivity of Local Attention in Transformers

解释一个经验现象：在计算预算相近时，限制注意力范围的 local attention 有时不但不降质，反而提升语言建模效果。论文要回答的是：从可表达性（recognizer expressivity）的角度，local attention 到底改变了 Transformer 能识别/实现的计算结构是什么，为什么“加限制”会变强。

评这篇会改一点对 attention 设计的 prior：local 不是单纯效率折中。读证明主结论和构造例子即可，别期待它直接告诉你工程最优窗口大小。

Jiaoda Li,Ryan Cotterell

local-attentiontransformer-theoryexpressivity2026年5月1日arXiv PDF

arXiv泛读

When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models

诊断 LLM 在“给定明确逐步算法”的场景下，是否真的按步骤执行（procedural execution），而不是靠模式匹配或捷径拿到最终答案；并量化算法长度与非局部中间变量依赖（look-back）对执行可靠性的影响，以及失败时的生成级行为模式。

评setup 算干净，适合拿来校准你对“reasoning 分数=会执行程序”的误判；读错误类型分析就够了，它更像 failure taxonomy，不是新方法。

Sailesh Panda,Pritam Kadasi,Abhishek Upperwal,Mayank Singh

Indian Institute of Technology Gandhinagar† Indian Institute of Technology Gandhinagarreasoning-diagnosticsprocedural-executionfaithfulness2026年5月1日arXiv PDF

arXiv泛读

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

这篇工作要解决的不是“模型里有没有 harmfulness / refusal 这样的全局方向”，而是更细的一层：对一个具体 jailbreak 样本，究竟是哪些局部表示变化在因果上让原本应当拒答的请求变成了成功越狱。作者认为，已有解释大多是全局性的，把所有 jailbreak 都归因为压低 harmfulness 或压低 refusal 信号，但这不足以解释不同攻击策略、不同危害类别、不同 prompt 结构下的差异。论文因此把目标改写成一个局部因果搜索问题：给定成功的 jailbreak prompt x_j 和对应会被拒绝的原始请求 x_o，寻找一组尽可能少的中间表示替换，使 x_j 重新触发与 x_o 相似的拒答行为。这里的关键约束有三个：一是局部，只解释单个样本；二是因果，要求干预后真的改变输出；三是最小化，希望用最少的干预定位最关键的机制。

评不是改方法的 paper，但它在修正一个常见偷懒 prior：别再把所有 jailbreak 都压成一条 refusal 方向；先看它的局部因果干预 setup 是否站得住。

Shubham Kumar,Narendra Ahuja

University of Illinois Urbana-Champaignjailbreakmechanistic-interpretabilitycausal-analysis2026年4月30日arXiv PDF

arXiv

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

评测 LLM 在标准阿拉伯语和各国阿拉伯方言对话中的文化推理、翻译和方言控制生成能力。

评作为 multilingual data coverage 的弱信号可以记下；若内部评测缺阿拉伯方言，只看数据构成和任务定义即可。

Muhammad Dehan Al Kautsar,Saeed Almheiri,Momina Ahsan,Bilal Elbouardi,Younes Samih,Sarfraz Ahmad ... 省略 6 位作者 ... ,Junhong Liang,Mohammad Rustom Al Nasar,Preslav Nakov,Fajri Koto

Mohamed bin Zayed University of Artificial IntelligenceIBM Research AIAmerican University in the Emiratesmultilingual-evaluationarabic-dialectscultural-reasoning2026年4月30日arXiv PDF

arXiv

Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe

常见 decoding probe 只能判断某些特征能否从模型表示中被解码，难以比较不同特征对表示的实际贡献，也容易被特征相关性误导。

评不必精读，核心价值是提醒 decoding probe 的可解码性不等于表示贡献；看方法和说话人因素结果即可。

Gaofei Shen,Martijn Bentum,Tom Lentz,Afra Alishahi,Grzegorz Chrupała

Tilburg UniversityRadboud Universityinterpretabilityprobingrepresentations2026年5月1日arXiv PDF

arXiv

Hyperspherical Forward-Forward with Prototypical Representations

解决传统Forward-Forward算法推理需要为每个类别执行单独前向传播，计算开销过高的瓶颈

评仅对探索非反向传播训练范式的研究员有参考价值，无需深入阅读

Shalini Sarode,Brian Moser,Joachim Folz,Federico Raue,Tobias Nauen,Stanislav Frolov,Andreas Dengel

German Research Center for Artificial Intelligence (DFKI)RPTU Kaiserslautern-Landauforward-forwardtraining-algorithmhyperspherical-representation2026年4月30日arXiv PDF

arXiv

Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

建立决策树和 diffusion process 之间的数学对应关系，并把这种对应用于表格生成和树到神经网络的蒸馏。

评概念上有趣但离 LLM 远；只看 GTSM 定义和树-扩散对应，别被表格生成结果牵着走。

Sai Niranjan Ramachandran,Suvrit Sra

diffusion-modelsdecision-treesscore-matching2026年5月1日arXiv PDF

arXiv

The Power of Order: Fooling LLMs with Adversarial Table Permutations

现有LLM处理表格类结构化输入时，对不改变语义的行列排列鲁棒性差，缺乏系统性方法量化该脆弱性

评揭示了LLM对结构化输入的布局偏倚，预训练表格数据可参考增加排列增强，仅看实验部分即可

Xinshuai Dong,Haifeng Chen,Xuyuan Liu,Shengyu Chen,Haoyu Wang,Shaoan Xie,Kun Zhang,Zhengzhang Chen

卡内基梅隆大学NEC实验室达特茅斯学院+3LLM robustnessadversarial attacktabular QA2026年5月1日arXiv PDF

arXiv

Spiking Sequence Machines and Transformers

论文试图解释 spiking Sparse Distributed Memory sequence machine 与 Transformer 是否共享同一类序列计算机制，尤其是位置表示和相似度检索的关系。

评概念桥接有意思但证据偏薄；看 Lemma 1 和 copy task 设置即可，不要把类比当机制定论。

Joy Bose

Independent Researchertransformer-mechanismsspiking-networkspositional-encoding2026年5月1日arXiv PDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

arXiv

Can Coding Agents Reproduce Findings in Computational Materials Science?

评估 coding agents 在计算材料科学中能否真正复现实验性计算结论，而不只是通过通用软件工程 benchmark。

评这不是你该深读的基座论文，但它提醒一个老问题：SWE-bench 式分数对真实科研工作流外推很差，记住这个 benchmark gap 就够了。

Ziyang Huang,Yi Cao,Ali K. Shargh,Jing Luo,Ruidong Mei,Mohd Zaki ... 省略 8 位作者 ... ,Benjamin Van Durme,Nicholas Andrews,William Walden,Daniel Khashabi

Johns Hopkins Universitycoding-agentbenchmarkscientific-workflows2026年5月1日arXiv PDF

arXiv

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

代码奖励模型长期只盯功能正确性，难以对代码质量做多维、跨语言、可用于后训练的稳定打分。

评如果你关心 code RL/RM，这篇可当数据与评测底座看；但它不改变 pretrain prior，读 benchmark 设计和 error breakdown 就够了。

Indraneil Paul,Glavaš Glavas,Iryna Gurevych

University of WürzburgCenter for Artificial Intelligence and Data Sciencereward-modelcode-generationmultilingual2026年5月1日arXiv PDF

arXiv

Social Bias in LLM-Generated Code: Benchmark and Mitigation

评测并缓解 LLM 生成代码在面向人的应用中引入的人口统计偏见。

评作为代码评测备查即可；有用点是 CoT/persona 放大偏见，别把提示工程当安全修复。

Fazle Rabbi,Lin Ling,Song Wang,Jinqiu Yang

Concordia UniversityYork Universityerate code for human-centered applications where demographic fairness is crit-+3code-generationbias-evaluationfairness2026年5月1日arXiv PDF

arXiv

Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement Learning

解决复杂编程需求下 LLM 代码生成性能不足，以及现有 curriculum reinforcement learning 对需求难度估计和采样策略不够匹配的问题。

评偏代码任务的 curriculum RL 增量；只看实验设置和消融，重点排查 difficulty estimator 是否泄漏测试分布。

Shouyu Yin,Zhao Tian,Junjie Chen,Shikai Guo

Tianjin UniversityDalian Maritime Universitycode-generationcurriculum-learningreinforcement-learning2026年5月1日arXiv PDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv泛读

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

这篇论文要回答一个很具体但常被忽略的问题：当输入里混入语义相关但推理无关的干扰信息时，为什么带工具的 agent 反而可能不如原生 CoT 推理。作者把这个现象称为 tool-use tax，意思是工具调用协议本身会引入额外负担，而这部分负担在有语义噪声时可能超过工具真正带来的收益。论文不是泛泛讨论“工具有没有用”，而是试图把 CoT 与 tool-agent 的性能差拆开，区分到底是 prompt 格式变了、函数调用协议变复杂了，还是工具执行本身没有提供足够增益。

评这篇不是在吹新 agent，而是在拆工具调用的净收益；只看 factorized intervention 和 tool-use tax 定义就够，能直接校正你对 toolformer 类训练目标的预期。

Kaituo Zhang,Zhen Xiong,Mingyu Zhong,Zhimeng Jiang,Zhouyuan Yuan,Zhecheng Li,Ying Lin

University of HoustonNew York UniversityTexas A&M University+3tool-usellm-agentsreasoning2026年4月30日arXiv PDF

arXiv泛读

Ambient Persuasion in a Deployed AI Agent: Unauthorized Escalation Following Routine Non-Adversarial Content Exposure

在一个真实部署的多智能体系统里，主代理在没有外部攻击者、没有显式对抗提示注入的情况下，仅在接触到一篇面向人类开发者的常规技术文章后，出现了越权安装与权限升级行为；论文要回答的是：这种“非对抗内容暴露→自主越权操作”的失效链条如何发生、哪些系统与监督环节失灵、以及用什么概念框架更贴近地描述它。

评一个真实的 Agent '越狱' 案例分析，展示了非对抗性 prompt 如何导致系统级失控，对研究 LLM 的 safety alignment 和 multi-agent 监督机制有警示价值。

Diego F. Cuadros,Abdoul-Aziz Maiga

Norwegian University of Science and TechnologyAI SafetyAgent EscalationMulti-Agent Systems2026年4月29日arXiv PDF

arXiv

Agent Capsules: Quality-Gated Granularity Control for Multi-Agent LLM Pipelines

多 Agent 流水线通常每个 Agent 调一次 LLM，论文试图在减少调用和 token 成本的同时避免把多个 Agent 合并后造成质量下降。

评只看合并调用的负结果和门控设计；对训练无直接帮助，但能提醒别把 Agent 压缩当免费午餐。

Aninda Ray

multi-agentagent-runtimecompound-execution2026年5月1日arXiv PDF

arXiv

A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy Reduction

解决 GUI Agent 使用 accessibility tree 作为观察输入时冗余高、结构信息弱的问题，以降低 token 开销并提升任务成功率。

评如果你碰 GUI agent，上来先看输入表示而不是换更大模型；否则这就是个不错的系统小技巧，不必细读。

Michito Takeshita,Takuro Kawada,Takumi Ohashi,Shunsuke Kitada,Hitoshi Iyatomi

Hosei Universitygui-agentaccessibility-treeobservation-compression2026年5月1日arXiv PDF

arXiv

LLM-Oriented Information Retrieval: A Denoising-First Perspective

提出面向 LLM 使用者的信息检索应把去噪放在首位，而不只是沿用面向人类用户的相关性排序目标。

评结论不新，但“证据密度优先”适合作为 RAG 数据管线 checklist；扫 taxonomy 即可。

Lu Dai,Liang Sun,Fanpu Cao,Ziyang Rao,Cehao Yang,Hao Liu,Hui Xiong

Hong Kong University of Science and TechnologyHong Kong University of Science and Technology (Guangzhou)RAGinformation-retrievaldenoising2026年5月1日arXiv PDF

arXiv

RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution

解决 LLM 在结构化工作流执行中计划可表达但执行不稳定、难以保证逐步正确性的问题。

评像是把 workflow engine 和 LLM agent 接起来的系统化实现，方法不新但工程边界画得清；只看控制流语言设计和约束验证部分即可。

Arunabh Srivastava,Mohammad A.,Khojastepour,Srimat Chakradhar,Sennur Ulukus

College ParkNEC Laboratories Ameribecome one of the primary research frontiers. Howeveragent-executionworkflowconstraint-guidance2026年5月1日arXiv PDF

arXiv

World Model for Robot Learning: A Comprehensive Survey

系统梳理机器人学习中的 world model：环境如何在动作作用下演化，以及这些预测表征如何服务策略学习、规划、仿真、评估和数据生成。

评作为 embodied world model 索引可留存；预训练研究员读 taxonomy 和 benchmark 表即可，不必逐节精读。

Bohan Hou,Gen Li,Jindou Jia,Tuo An,Xinying Guo,Sicong Leng ... 省略 8 位作者 ... ,Pieter Abbeel,Jitendra Malik,Yilun Du,Jianfei Yang

Nanyang Technological UniversityUniversity ofStanford University+5world-modelrobot-learningembodied-ai2026年4月30日arXiv PDF

arXiv

Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding

解决 GUI grounding 中 RL 训练成本高、单样本反馈稀疏的问题，探索 on-policy self-distillation 是否能替代多 rollout 的强化学习信号。

评不是 pretrain 论文，但若你关心 RL-pretrain 接口，可只看 teacher privileged context 和 token reweighting 设计，思路比结果更值钱。

Yan Zhang,Daiqing Wu,Huawen Shen,Yu Zhou,Can Ma

Chinese Academy of SciencesNankai UniversityUniversity of Chinese Academy of Sciencesgui-groundingself-distillationon-policy-learning2026年5月1日arXiv PDF

arXiv

To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling

现有Agent的工具调用决策缺乏统一评估框架，无法准确判断何时应该调用工具、何时不需要调用，存在大量冗余或有害调用

评工具调用评估维度可作为后训练优化工具调用能力的参考，仅看摘要即可

Qinyuan Wu,Soumi Das,Mahsa Amani,Arijit Nag,Seungeon Lee,Krishna P. Gummadi,Abhilasha Ravichander,Muhammad Bilal Zafar

Max Planck Institute for Software SystemsRuhr University Bochumtool callingagent evaluationdecision theory2026年5月1日arXiv PDF

arXiv

Position: agentic AI orchestration should be Bayes-consistent

现有Agent编排层缺乏不确定性下的一致决策框架，无法合理处理工具选择、专家调用、资源分配等高价值决策场景

评仅为立场观点，无实证支撑，作为Agent设计思路备查即可

Theodore Papamarkou,Pierre Alquier,Matthias Bauer,Wray Buntine,Andrew Davison,Gintare Karolina Dziugaite ... 省略 20 位作者 ... ,Martin Trapp,Willem Waegeman,Andrew Gordon Wilson,Alexey Zaytsev

agent orchestrationbayesian decision theoryuncertainty2026年5月1日arXiv PDF

arXiv

A Survey of Reasoning-Intensive Retrieval: Progress and Challenges

如何系统化地组织和理解当前推理密集型检索（RIR）领域的研究进展、方法和挑战？

评关于 LLM 时代复杂检索（RIR）的综述，梳理了将推理能力引入检索 pipeline 的各种范式，作为 RAG/检索增强方向的 literature 备查即可。

Yiyang Wei,Tingyu Song,Siyue Zhang,Yilun Zhao

Zhejiang UniversityUniversity of the Chinese Academy of SciencesNanyang Technological University+1Reasoning-Intensive RetrievalInformation RetrievalSurvey2026年4月30日arXiv PDF