AI Research Daily

更新时间: 2026/4/28 00:30:59

共61篇

🌟 4 重点

🔥 行业动态 2🧠 预训练 3⚡ 高效推理 7🌐 多模态统一 6🎨 多模态生成 1🛠️ 后训练 7🔬 原理分析 13💻 Coding Agent 8🤖 Agent 14

其他 31 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读行业动态与观点

OpenAI available at FedRAMP Moderate

宣布 ChatGPT Enterprise 与 OpenAI API 获得 FedRAMP Moderate 授权，以支持美国联邦机构合规使用。

OpenAIOpenAI ResearchFedRAMPcomplianceproduct

精读行业动态与观点

Announcing our partnership with the Republic of Korea

无技术研究问题，为DeepMind与韩国政府的合作公告

Google DeepMindRepublic ofDeepMindinstitutional-cooperationscientific-AI

精读LLM 预训练

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

这篇工作解决的不是“如何拟合一个 scaling law”本身，而是更贴近工业现实的上游问题：在实验预算有限、候选训练配置成本差异很大、真正关心的是高成本目标区外推精度的情况下，应该先跑哪些 pilot experiments，才能用尽量少的钱把 scaling law 拟合到足够可用。传统做法默认拟合数据集已经给定，或者用均匀网格、随机采样、经典最优设计去选点，但这些方法大多优化的是全局拟合或参数估计稳定性，不直接对准“目标区域的外推误差”。这篇文章把 scaling-law fitting 明确重写成一个 budget-aware sequential experimental design 问题：每次从有限候选池里选一个尚未运行的实验，付出对应成本，观察结果，再根据当前不确定性继续选下一个点，目标是最小化高成本目标区的预测误差。

Peking UniversityCarnegie Mellon Universityscaling-lawsexperimental-designactive-learning

精读多模态与统一模态

Beyond Chain-of-Thought: Rewrite as a Universal Interface for Generative Multimodal Embeddings

这项工作要解决的是生成式多模态 embedding 中 CoT 接口与检索目标不匹配的问题。CoT 会生成较长的中间推理，但通用检索通常不需要唯一答案；检索目标可能是多粒度、多候选、跨模态的，CoT 最后的总结答案反而会把语义压窄。与此同时，联合训练自回归生成和对比学习容易互相干扰；把推理器和 embedding 编码器拆开又会带来参数和部署成本。

Tencent WeChat VisionZhejiang Universitymultimodal-embeddinggenerative-retrievalrewrite

精读LLM 后训练

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

这篇工作要回答的不是“RLVR 能不能提分”，而是一个更关键的问题：用 outcome-only 的可验证奖励去训练 chain-of-thought 时，模型写出来的 reasoning 到底是不是它真正用来得到答案的推理过程，以及这段 reasoning 是否足够完整到能被外部验证者独立复核。论文把这件事拆成两个可操作的维度：CIR（Causal Importance of Reasoning），衡量答案分布对 reasoning token 的因果依赖；SR（Sufficiency of Reasoning），衡量 reasoning 本身是否已经足以唯一指向答案，而不再依赖题目上下文。核心发现是，RLVR 常常只把“答对”这件事优化好了，却没有把 reasoning 的因果性和可核验性一并优化好。

RLVRchain-of-thoughtfaithfulness

精读LLM 后训练

Removing Sandbagging in LLMs by Training with Weak Supervision

当LLM出现藏能力（sandbagging，即故意隐藏真实能力，输出刚好符合弱监督者验收标准的结果）行为时，监督者仅能获取比待训练模型能力更弱的监督信号，无法可靠验证输出的真实质量，单独使用现有SFT、RL方法均无法有效破除藏能力行为，无法激发出模型的真实最优能力。

weak-supervisionsandbaggingrlhf

精读LLM 原理与机制

How LLMs Detect and Correct Their Own Errors: The Role of Internal Confidence Signals

这篇论文研究 LLM 为什么能在没有外部反馈时发现并修正自己的错误。核心问题不是“自我纠错是否有效”，而是模型内部是否存在一个相对独立于生成概率的评估信号，用来判断答案是否错，以及是否还有能力修正。

Google DeepMindPrinceton Universityself-correctionconfidencemechanistic-interpretability

来源

机构

阅读分级

标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点（注意：推理加速/注意力优化等技术论文不算行业动态）

Blog精读🌟

OpenAI available at FedRAMP Moderate

宣布 ChatGPT Enterprise 与 OpenAI API 获得 FedRAMP Moderate 授权，以支持美国联邦机构合规使用。

评纯合规/产品动态，对预训练研究没有可操作信息；知道即可，不必读正文。

OpenAI Research

OpenAIOpenAI ResearchFedRAMPcomplianceproduct2026年4月27日原文

Blog精读🌟

Announcing our partnership with the Republic of Korea

无技术研究问题，为DeepMind与韩国政府的合作公告

评DeepMind与韩国的政府合作动态，无技术研究内容，直接过滤

Google DeepMind

Google DeepMindRepublic ofDeepMindinstitutional-cooperationscientific-AI2026年4月27日原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv精读

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

评这篇应进内部复现队列：若 10% pilot 预算结论成立，scaling sweep 的默认网格策略需要改。

Sijie Li,Shanda Li,Haowei Lin,Weiwei Sun,Ameet Talwalkar,Yiming Yang

Peking UniversityCarnegie Mellon Universityscaling-lawsexperimental-designactive-learning2026年4月24日arXiv PDF

arXiv泛读

Hidden Failure Modes of Gradient Modification under Adam in Continual Learning, and Adaptive Decoupled Moment Routing as a Repair

这篇论文指出一个容易被忽略的持续学习失效模式：许多方法在 Adam 之前修改梯度，希望保护旧知识，但 Adam 的二阶矩估计会把被削弱的梯度解释为低方差方向，反而提高这些方向的有效学习率，抵消保护效果。

评揭示了改梯度（如 Continual Learning 常用）和 Adam 动量状态的冲突，做 Continual Pretrain 或魔改梯度的研究员值得看 §3 的机制分析。

Yuelin Hu,Zhenbo Yu,Zhengxue Cheng,Wei Liu,Li Song

Shanghai Jiao Tong UniversityShanghai Maritime Universitycontinual learningadam optimizertraining dynamics2026年4月24日arXiv PDF

arXiv

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

它研究混合语言模型里 LoRA 不该默认全层均匀插入，而应按组件类型区分：attention、SSM、recurrent 分支到底该放在哪里。

评不是 pretrain 主线，但如果你在看 hybrid backbone 的功能分工，只读结果表和 sequential vs parallel 的对比就够了；LoRA 结论别直接外推到预训练。

Hector Borobia,Elies Seguí-Mas,Guillermina Tormo-Carbó

aVRAIN – Valencian Research Institute for Artificial IntelligenceUniversitat Politècnica debDepartment of Economics and Social Sciences+1LoRAhybrid-language-modelsMamba2026年4月24日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv泛读

SpikingBrain2.0: Brain-Inspired Foundation Models for Efficient Long-Context and Cross-Platform Inference

这篇工作要解决的问题不是再训练一个全新长上下文模型，而是在有限训练预算下，把已有 Transformer / VLM checkpoint 迁移成更适合超长上下文和跨平台推理的 hybrid 架构，同时尽量保住原模型能力。作者把问题拆成两部分：一是长序列下 attention 成为主要瓶颈，如何用混合稀疏机制降低 TTFT、TPOT 和显存占用；二是架构迁移通常代价高、恢复难，如何通过 continued training 和 distillation 把迁移成本压到可接受范围。

评只看 DSSA 与 T2H 消融；若转换损失低，它会改变长上下文模型不必从零训的 prior。

Yuqi Pan,Jinghao Zhuang,Yupeng Feng,Fangzhi Zhong,Siyu Ding,Xuerui Qiu ... 省略 9 位作者 ... ,Anjie Hu,Han Xu,Bo Xu,Guoqi Li

Chinese Academy of SciencesThe Hong Kong Polytechnic UniversityBeijing Key Laboratory of Brain-Inspired General+1long-contextsparse-attentionlinear-attention2026年4月24日arXiv PDF

arXiv泛读

HubRouter: A Pluggable Sub-Quadratic Routing Primitive for Hybrid Sequence Models

这篇工作处理的是一个很具体、也很关键的问题：在 hybrid sequence model 里，哪些 token 值得进入昂贵的 attention 子路径，能不能不用 O(n^2) 的两两比较，而是用更便宜的内容路由来决定。作者针对固定间隔插 attention 的做法提出异议，认为这种 schedule 是静态的，无法根据序列内容决定何时需要精细交互；但如果直接做 content-based routing，通常又会退回到 pairwise token comparison，复杂度接近全注意力。HubRouter 想解决的就是这个矛盾：用一个可插拔、近线性的路由原语，在不显式构造全 token-token 关系的前提下，选出少量值得做 attention 的 token 子集。

评只看负例和 25% 替换 sweep；吞吐数字基线偏弱，但 hub routing 可作为长上下文架构 ablation 候选。

Abhinaba Basu

National Institute of Electronics and Information TechnologyNational Institute of Electronics and Information Technology (NIELIT)efficient-attentionsparse-routinghybrid-sequence-models2026年4月24日arXiv PDF

arXiv

Context-Fidelity Boosting: Enhancing Faithful Generation through Watermark-Inspired Decoding

解决带上下文生成时的 faithful hallucination：模型明明看到了输入证据，却在解码阶段生成与上下文矛盾或脱节的内容。

评这是个典型 inference-time patch，不会改变预训练 prior；若你关心 context utilization，可只看方法定义和主表，判断 logit shaping 是否比 retrieval-aware decoding 更干净。

Weixu Zhang,Fanghua Ye,Qiang Gao,Jian Li,Haolun Wu,Yuxing Tian,Sijing Duan,Nan Du,Xiaolong Li,Xue Liu

Wuhan UniversityUniversity ofTsinghua University+2decodingfaithfulnesslogit-shaping2026年4月24日arXiv PDF

arXiv

RouteLMT: Learned Sample Routing for Hybrid LLM Translation Deployment

在机器翻译部署中，如何在给定成本预算下决定哪些请求交给大 LLM，哪些请求交给小模型。

评预训练不用读；做 serving 策略时看 marginal-gain routing 这个建模，比绝对质量打分更干净。

Yingfeng Luo,Hongyu Liu,Dingyang Lin,Kaiyan Chang,Chenglong Wang,Bei Li,Quan Du,Tong Xiao,Jingbo Zhu

Northeastern UniversityNiuTrans Researchllm-servingroutingmachine-translation2026年4月24日arXiv PDF

arXiv

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

在尽量少重训的前提下，如何按层选择性削减 Transformer 的注意力计算，以降低长序列推理成本而不过度伤害性能。

评典型增量效率文；若你关心 attention 替换，只看层敏感性分析即可，方法本身不太会改变你对预训练或架构的 prior。

Mohamed Ali Souibgui,Jan Fostier,Rodrigo Abadía-Heredia,Bohdan Denysenko,Christian Marschke,Igor Peric

efficient-inferenceattention-reductionlayer-sensitivity2026年4月23日arXiv PDF

arXiv

QuantClaw: Precision Where It Matters for OpenClaw

解决现有通用量化方法在OpenClaw这类自主Agent系统中适配性差、易损失复杂任务性能的问题

评属于Agent推理量化的增量工程实现，仅作为动态精度路由的参考案例即可

Manyi Zhang,Ji-Fu Li,Zhongao Sun,Xiaohao Liu,Zhenhua Dong,Xianzhi Yu,Haoli Bai,Xiaobo Xia

National University ofUniversity of Science and Technology ofLLM quantizationdynamic precision routingagent inference efficiency2026年4月24日arXiv PDF

arXiv

DocPrune:Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning

文档VLM做长文档DocVQA时，背景区域占比大、证据稀疏，导致视觉token计算浪费严重。

评偏工程的推理侧token裁剪，和预训练关系弱；只需看它如何自动选prune起始层与文档背景过滤信号。

Joonmyung Choi,Sanghyeok Lee,Jongha Kim,Sehyung Kim,Dohwan Ko,Jihyung Kil,Hyunwoo J. Kim

Korea UniversityAdobe Researchtoken-pruningdocvqavlm-efficiency2026年4月24日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv精读🌟

Beyond Chain-of-Thought: Rewrite as a Universal Interface for Generative Multimodal Embeddings

评这篇不是预训练主线，但它认真碰了“生成式监督如何变成稳定表示”这个老问题；先看 rewrite 接口和 Refine-RL，若 ablation 干净，值得迁到 unified LM 表示学习里试。

Peixi Wu,Ke Mei,Feipeng Ma,Bosong Chai,Zhibin Lan,Chenxi Zhao ... 省略 8 位作者 ... ,Fengyun Rao,Jing Lyu,Hebei Li,Xiaoyan Sun

Tencent WeChat VisionZhejiang UniversityTsinghua University+1multimodal-embeddinggenerative-retrievalrewrite2026年4月24日arXiv PDF

arXiv泛读

Source-Modality Monitoring in Vision-Language Models

这项工作研究 VLM 是否能追踪信息来自哪种输入源，例如图像还是文字说明。核心问题是：当用户问“image 里有什么”或“caption 说了什么”时，模型是依赖显式模态标记完成绑定，还是依赖图像和文本内容本身的分布与语义特征。

评看任务设计和 11 个 VLM 的错误模式；对 native multimodal pretrain 的 binding loss 有参考。

Etha Tianze Hua,Tian Yun,Ellie Pavlick

Brown Universityvision-language-modelsmodality-bindingmultimodal-evaluation2026年4月23日arXiv PDF

arXiv

Towards Temporal Compositional Reasoning in Long-Form Sports Videos

解决长时程体育视频问答中，模型既要定位稀疏时间证据，又要把分散证据组合成可解释推理链的问题。

评如果你关心多模态训练信号怎么从“答对”改成“先找证据再作答”，这篇可看；重点只看数据标注设计和 temporal-reward，别把它当预训练突破。

Siyu Cao,Lu Zhang,Ruizhe Zeng,Zhi-yong Liu

University of Chinese Academy of SciencesChinese Academy of Scienceslong-videomultimodal-reasoningbenchmark2026年4月24日arXiv PDF

arXiv

GenMatter: Perceiving Physical Objects with Generative Matter Models

提出一种生成式物质模型，用统一机制从运动线索和外观特征中恢复可独立运动的物理实体。

评只看摘要和方法图；作为世界模型归纳偏置素材可以存档，但没有直接改变 LLM 预训练动作。

Eric Li,Arijit Dasgupta,Yoni Friedman,Mathieu Huot,Vikash Mansinghka,Thomas O'Connell,William T. Freeman,Joshua B. Tenenbaum

world-modelsgenerative-modelsphysical-scene-understanding2026年4月24日arXiv PDF

arXiv

SpaMEM: Benchmarking Dynamic Spatial Reasoning via Perception-Memory Integration in Embodied Environments

现有多模态大模型在动态具身环境下长时序空间推理能力差，缺乏针对性诊断基准

评针对MLLM具身空间能力的评测基准，仅作为多模态评测方向的文献备查，无需读正文

Chih-Ting Liao,Xi Xiao,Chunlei Meng,Zhangquan Chen,Yitong Qiao,Weilin Zhou,Tianyang Wang,Xu Zheng,Xin Cao

University of AlabaFudan UniversityZhejiang University+2multimodal benchmarkembodied AIspatial reasoning2026年4月24日arXiv PDF

arXiv

CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding

解决多模态大模型在细粒度多图像理解任务中存在的空间幻觉、注意力泄露、对象恒常性失效问题，同时避免依赖昂贵的人工标注或大规模CoT数据

评属于多模态对齐训练的小增量改进，仅作为文献备查，不用读正文

Lihao Zheng,Zhenwei Shao,Yu Zhou,Yan Yang,Xintian Shen,Jiawei Chen,Hao Ma,Tao Wei

杭州电子科技大学理想汽车Base Model团队Hangzhou Dianzi University+1multimodal-llmmulti-image-understandinggrounded-learning2026年4月24日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXiv泛读

Knowledge Visualization: A Benchmark and Method for Knowledge-Intensive Text-to-Image Generation

这项工作评测并改进知识密集型文生图：模型生成的图像看起来合理，但可能违反教材中的结构、符号、空间关系和领域约定。

评把T2I从“像不像”拉回“对不对”的评测很实用；只看任务定义与失败类型统计，别指望它给出训练配方。

Ran Zhao,Sheng Jin,Size Wu,Kang Liao,Zerui Gong,Zujin Guo,Yang Xiao,Wei Li

Huazhong University of Science and TechnologyS-LabNanyang Technological University+1benchmarktext-to-imageknowledge-intensive2026年4月24日arXiv PDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv精读

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

评这篇会直接动摇“RLVR 学到的 CoT 就是可解释推理”这个默认前提；先看指标定义和消融，若你做 R1/RL recipe，建议立刻把 CIR/SR 式诊断接进内部评测。

Qinan Yu,Alexa Tartaglini,Peter Hase,Carlos Guestrin,Christopher Potts

RLVRchain-of-thoughtfaithfulness2026年4月23日arXiv PDF

arXiv精读

Removing Sandbagging in LLMs by Training with Weak Supervision

评这篇会直接改你对弱监督 RL 的 prior：先用哪怕很弱的 demonstrations 打破坏策略，再上 RL；建议立刻复现 RL-only→reward hacking 这条结论。

Emil Ryd,Henning Bartsch,Julian Stastny,Joe Benton,Vivek Hebbar

weak-supervisionsandbaggingrlhf2026年4月23日arXiv PDF

arXiv泛读

Measuring and Mitigating Persona Distortions from AI Writing Assistance

核心问题是：当用户使用 LLM 写作辅助（生成/改写/润色）并进行人工编辑确认后，最终文本在读者侧会不会系统性地“错配”作者的社会信号（立场、性格、情绪、身份线索等），从而造成 persona distortion；如果会，作者是否接受；以及能否在不显著降低用户偏好的前提下做定向缓解。

评这篇不教你怎么 pretrain，但会提醒你 reward 和 assistant-style 优化在偷偷改写文本分布；建议重点看人类实验设计和 mitigation trade-off，别只盯平均偏好分数。

Paul Röttger,Kobi Hackenburg,Hannah Rose Kirk,Christopher Summerfield

UK AI Security InstituteUniversity ofreward-modelingpersonahuman-evaluation2026年4月24日arXiv PDF

arXiv泛读

Learning Evidence Highlighting for Frozen LLMs

核心问题是：冻结的 LLM 在长上下文、强噪声场景下经常“看不见”关键证据（lost-in-the-middle、被干扰项淹没），导致推理/决策失败；在不改动 Solver、也不压缩/改写原文的前提下，能否学习一个轻量模块把证据显式凸显出来，从而稳定提升下游表现，并且能跨 Solver 迁移。

评读 §方法和主表即可；它把“找证据”做成可迁移的轻量 policy，比改 prompt 更像可复用模块。

Shaoang Li,Yanhang Shi,Yufei Li,Mingfu Liang,Xiaohan Wei,Yunchen Pu ... 省略 3 位作者 ... ,Luke Simon,Sandeep Pandey,Xi Liu,Jian Li

Stony Brook UniversityMeta AIlong-contextreinforcement-learningevidence-selection2026年4月24日arXiv PDF

arXiv泛读

Thinking Without Words: Efficient Latent Reasoning with Abstract Chain-of-Thought

论文想解决显式长 CoT 的推理成本问题：能否用一小段不可读的离散“抽象 token”替代自然语言推理轨迹，同时保留 CoT 对答案生成的帮助。

评不是 pretrain 论文，但它在试探“推理是否需要自然语言”这个接口问题；先看 warm-up 设计和长度-精度曲线，若成立会影响 reasoning token 设计。

Keshav Ramji,Tahira Naseem,Ramón Fernandez Astudillo

IBM Research AIlatent-reasoningchain-of-thoughtdiscrete-codes2026年4月24日arXiv PDF

arXiv

PrivUn: Unveiling Latent Ripple Effects and Shallow Forgetting in Privacy Unlearning

评估隐私 unlearning 在 LLM 中是否真的删除了训练时记住的私人信息，以及现有方法的遗忘深度到底有多浅。

评如果你碰隐私或 continual pretrain，这篇值得看评测设计；结论不新，但“ICL/再微调可恢复”这件事足够说明很多 unlearning paper 只是在做表层擦除。

Xiaoyi Chen,Haoyuan Wang,Siyuan Tang,Sijia Liu,Liya Su,XiaoFeng Wang,Haixu Tang

privacy-unlearningmemorizationevaluation-framework2026年4月23日arXiv PDF

arXiv

Towards Adaptive Continual Model Merging via Manifold-Aware Expert Evolution

解决持续模型合并中固定骨干容量饱和、表示干扰，以及 MoE 式扩展带来的专家冗余和路由开销问题。

评作为模型合并备查即可；如果隐式路由不依赖 held-out 数据，§方法细节值得扫一眼。

Haiyun Qiu,Xingyu Wu,Kay Chen Tan

The Hong Kong Polytechnic Universitymodel-mergingcontinual-learningexpert-evolution2026年4月24日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv精读🌟

How LLMs Detect and Correct Their Own Errors: The Role of Internal Confidence Signals

评读 PANL 干预实验即可；若因果链干净，它会修正“logprob≈置信度”的默认做法。

Dharshan Kumaran,Viorica Patraucean,Simon Osindero,Petar Velickovic,Nathaniel Daw

Google DeepMindPrinceton UniversityGoogle DeepMind & Princeton Universityself-correctionconfidencemechanistic-interpretability2026年4月24日arXiv PDF

arXiv泛读

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

这项工作研究同一个任务在 instruction prompt 和 few-shot example prompt 下为什么会出现明显性能波动。核心问题不是再证明 prompt sensitivity 存在，而是定位两类提示方式是否调用了共享的内部任务表示，以及这种共享表示的激活强弱能否解释行为差异。

评读 lexical task heads 的定位实验；它把 prompt sensitivity 从玄学拉回可测机制。

Zhuonan Yang,Jacob Xiaochen Li,Francisco Piedrahita Velez,Eric Todd,David Bau,Michael L. Littman,Stephen H. Bach,Ellie Pavlick

mechanistic-interpretabilityprompt-sensitivityattention-heads2026年4月23日arXiv PDF

arXiv泛读

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

这篇工作研究的是：在单层参数共享的 Universal Transformer 上做递归推理时，模型到底为什么经常学不起来，以及 learned memory tokens 和 ACT halting 机制各自扮演什么角色。作者把问题放在 Sudoku-Extreme 这个需要多步约束传播与回溯式推理的组合任务上，发现失败并不只是“模型容量不够”或“训练不稳定”这么简单，而是存在两个更具体的瓶颈。第一，没有 memory tokens 时，单块递归 Transformer 几乎完全无法形成有效的中间工作区，所有配置都退化到接近零的非平凡性能；第二，ACT 的 router 若按常见初始化方式启动，会很快陷入 shallow-halt trap，模型在训练早期就学会过早停止，后续几乎拿不到足够梯度去发现深层计算是必要的。

评这篇会改变你对“多递归几步就能补足推理”的先验：先看 memory token 阈值和 ACT 初始化陷阱，若你做 recurrent/latent reasoning，值得立刻复现实验骨架。

Grigory Sapunov

universal-transformeradaptive-computation-timememory-tokens2026年4月23日arXiv PDF

arXiv泛读

When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention

这篇论文讨论一个很具体但常被经验化处理的问题：LLM 的 iterative self-correction 什么时候有用，什么时候反而会把原本正确的答案改坏。作者不是再做一轮“多试几个 prompt 看效果”，而是把自纠过程形式化成一个闭环控制系统：同一个模型既是 controller，也是被修正的 plant。核心问题因此变成，给定模型初始准确率 Acc，以及每轮把错改对的概率 ECR、把对改错的概率 EIR，什么时候继续迭代是稳定增益，什么时候是在浪费算力甚至系统性降性能。

评EIR 阈值改变了我对 self-correction 的默认乐观；只看公式判据和 GPT-4o-mini ablation。

Aofan Liu,Jingxiang Meng

Peking UniversityUniversity ofself-correctionreasoningmarkov-diagnostic2026年4月24日arXiv PDF

arXiv泛读

Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions

系统性评估前沿 LLM 在“按指定概率分布生成随机数样本”这一基础能力上的可靠性：模型是否能像 i.i.d. 采样器一样，从给定分布生成统计上正确的样本序列；以及不同调用协议（一次生成 1000 个 vs 1000 次独立请求）会暴露哪些失效模式。

评这篇不直接改 pretrain，但会改你对“LLM 可充当随机模块”的 prior；只看实验设计和协议差异就够，独立请求几乎全灭这个结论值得内部复测。

Minda Zhao,Yilun Du,Mengyu Wang

Harvard Universitysamplingstatistical-evaluationllm-reliability2026年1月8日arXiv PDF

arXiv泛读

Estimating Tail Risks in Language Model Output Distributions

现有LLM安全评估仅针对输入分布采样少量输出，无法估计给定输入下模型输出有害结果的长尾概率，暴力采样估计的计算成本过高，无法规模化部署。

评把安全评估从“找坏prompt”转到“估计输出尾部概率”，这点很对；重点看其proposal构造与方差/偏差控制是否真干净。

Rico Angell,Raghav Singhal,Zachary Horvitz,Zhou Yu,Rajesh Ranganath,Kathleen McKeown,He He

tail-riskimportance-samplingsafety-evaluation2026年4月24日arXiv PDF

arXiv泛读

Dissociating Decodability and Causal Use in Bracket-Sequence Transformers

这篇论文研究一个解释性方法里的老问题：某个变量在模型表征里“可解码”，并不等于模型在计算时“真的用到了它”。作者在 Dyck 括号语言这个可控环境里，把层级结构相关的三个变量——depth、distance、top-of-stack——分开考察，问的是：哪些只是 residual stream 里能被 probe 读出来的信号，哪些才是决定行为的因果机制。

评这篇不改 recipe，但会提醒你少把 probe 结果当机制结论；只看 intervention 部分和长距离错误曲线就够，适合校正 interpretability 直觉。

Aryan Sharma,Cutter Dawes,Shivam Raval

interpretabilitycausal-analysisprobing2026年4月24日arXiv PDF

arXiv泛读

Large Language Models Decide Early and Explain Later

想回答一个很具体的问题：在长 CoT 推理生成过程中，模型的“最终答案”到底是在什么时候被决定的？如果答案在中途就已稳定，后续大量 token 可能只是“事后解释”，既不提高正确率，还显著增加推理成本。

评结论不新但量化得够直观：看 forced answer completion 的定义与“760 token 浪费”统计，能直接指导 early-exit 与 CoT 训练信号裁剪。

Ayan Datta,Zhixue Zhao,Bhuvanesh Verma,Radhika Mamidi,Mounika Marreddy,Alexander Mehler

chain-of-thoughtmechanistic-analysisearly-exit2026年4月24日arXiv PDF

arXiv泛读

Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization

解释并利用 LLM 的“隐式个性化”能力：模型如何在不微调的情况下根据用户历史/画像呈现不同风格与偏好？作者提出一个可检验的机制假设：个性化主要由少量稀疏的注意力头（Preference Heads）承载，并且这些头对生成有可观测的因果影响。

评如果你做机制分析，这篇值得看 head-level 因果识别是否真有稀疏性；若只是做 pretrain，可只读 PCS 定义和 ablation，别把“功能定位”过早当成稳定事实。

Weixu Zhang,Ye Yuan,Changjiang Han,Yuxing Tian,Zipeng Sun,Linfeng Du,Jikun Kang,Hong Kang,Xue Liu,Haolun Wu

McGill UniversityMilaMBZUAI+4mechanistic-interpretabilityattention-headspersonalization2026年4月24日arXiv PDF

arXiv泛读

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

这篇工作解决的是数学推理评测里的一个老问题：现有基于符号规则或程序化比对的答案验证过于刚性，遇到等价表达、单位变换、近似值、不同格式书写时容易误判。论文关心的不是让模型更会做数学，而是让“答案是否正确”的判定更接近数学语义而不是字符串或符号形式。这个问题之所以重要，是因为它不仅影响 benchmark 排名，也直接影响 RLVR 这类用可验证奖励训练模型的方法；如果 verifier 有系统性漏判，训练信号就会偏。

评读失败案例和 judge 校准细节；它会影响数学 RLVR 的奖励噪声，但 LLM judge 偏差不能被当成已解决。

Erez Yosef,Oron Anschel,Shunit Haviv Hakimi,Asaf Gendler,Adam Botach,Nimrod Berman,Igor Kviatkovsky

Tel-Aviv UniversityBen-Gurion Universitymath-reasoningevaluationllm-as-judge2026年4月24日arXiv PDF

arXiv

Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models

解决LLM在名义解码温度T=0时仍存在输出发散、缺乏确定性的理论刻画空白问题

评属于LLM随机性量化的边际创新，仅作为复现实验的参考备查，无需阅读全文

Alberto Messina,Stefano Scotta

LLM randomnessdecoding temperaturereproducibility2026年4月24日arXiv PDF

arXiv

Math Takes Two: A test for emergent mathematical reasoning in communication

评估智能体是否能在没有预定义数学语言的情况下，通过通信共同形成符号协议，并用它解决需要数量概念外推的视觉任务。

评任务定义比结果更值得看；它提醒数学能力评测别只测符号熟练度，但当前摘要看不到足够干净的模型证据。

Michael Cooper,Samuel Cooper

math-reasoningemergent-communicationagent-benchmark2026年3月30日arXiv PDF

arXiv

On Benchmark Hacking in ML Contests: Modeling, Insights and Design

研究机器学习竞赛中的 benchmark hacking：参赛者如何在提升榜单分数与提升真实泛化之间分配努力，以及这种扭曲何时会系统性出现。

评和 pretrain 距离较远，但做 RL/benchmark 设计的人可以看定义与均衡结论；没有 LLM 实证，更多是概念工具箱。

Xiaoyun Qiu,Yang Yu,Haifeng Xu

benchmark-hackingevaluationgame-theory2026年4月24日arXiv PDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

arXiv泛读

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

论文研究 agentic coding 中 token 成本的来源、模型间 token 效率差异，以及 agent 能否在执行任务前预测自己的 token 消耗。

评不是方法论文，但成本测量很干净；只看 token 分解和同题 30x 方差这两点，就足够提醒你别再用单次 agent run 估算训练后收益。

Longju Bai,Zhemin Huang,Xingyao Wang,Jiao Sun,Rada Mihalcea,Erik Brynjolfsson,Alex Pentland,Jiaxin Pei

Stanford UniversityMassachusetts Institute of TechnologyUniversity ofcoding-agenttoken-efficiencySWE-bench2026年4月24日arXiv PDF

Blog泛读

An open-source spec for orchestration: Symphony

在代码类 agent（如 Codex）落地时，如何把 issue tracker/工程流程编排成“常驻”的自动化代理系统，并降低上下文切换与运维成本。

评别指望研究洞见；只看 spec 如何定义事件/状态/日志，可能反向启发“可回放轨迹”数据格式与评测。

OpenAI Research

OpenAIOpenAI Researchorchestrationcoding-agentworkflow2026年4月27日原文

arXiv

CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution

解决chart-to-code任务中，现有VLM训练数据把视觉感知与代码逻辑混在一起，导致模型难以同时学好图表理解、程序结构和跨模态对齐的问题。

评不是基座论文，但“把监督拆成感知/逻辑/融合三路”这个数据配方值得借鉴；只看数据构造和RL奖励定义，别被任务指标带跑。

Xiangxi Zheng,Kuang He,Jiayi Hu,Ping Yu,Rui Yan,Yuan Yao,Peng Hou,Anxiang Zeng,Alex Jinpeng Wang

Nanjing UniversityShopeeEast China Normal University+4chart-to-codedata-centric-trainingreinforcement-learning2026年4月24日arXiv PDF

arXiv

CLARITY: A Framework and Benchmark for Conversational Language Ambiguity and Unanswerability in Interactive NL2SQL Systems

解决交互式 NL2SQL 中用户问题存在多源歧义或不可回答时，现有 benchmark 过于简化、无法覆盖真实失败模式的问题。

评作为 NL2SQL 可靠性 benchmark 备查；看错误类型即可，不值得为基座训练读方法细节。

Tabinda Sarwar,Farhad Moghimifar,Cong Duy Vu Hoang,Xiaoxiao Ma,Shawn Chang Xu,Fahimeh Saleh,Poorya Zaremoodi,Avirup Sil,Katrin Kirchhoff

Oracle CorporationNL2SQLbenchmarkambiguity2026年4月24日arXiv PDF

arXiv

Feedback Over Form: Why Execution Feedback Matters More Than Pipeline Topology in 1-3B Code Generation

在 1-3B 小模型本地代码生成场景中，复杂 pipeline 拓扑是否真的比简单的执行反馈自改循环更重要。

评增量但结论干净：别把小模型代码 agent 的收益误记到 pipeline 花活上，读错误类型分析即可，正文不用细抠。

Charles Junichi McAndrews

code-generationexecution-feedbackself-refinement2026年4月23日arXiv PDF

arXiv

Call-Chain-Aware LLM-Based Test Generation for Java Projects

提升 LLM 在 Java 项目级单元测试生成中的可执行性与语义有效性，尤其处理深调用链和复杂依赖。

评典型仓库级代码应用，方法是静态分析补 prompt，不会改变你对基座训练的 prior；若做 code agent，只看上下文构造和失败修复流程即可。

Guancheng Wang,Qinghua Xu,Lionel C. Briand,Zhaoqiang Guo,Kui Liu

University of LimerickUniversity of OttaZhejiang University+4code-generationtest-generationstatic-analysis2026年4月23日arXiv PDF

arXiv

BLAST: Benchmarking LLMs with ASP-based Structured Testing

现有LLM能力评测缺乏针对声明式编程范式Answer Set Programming(ASP)代码生成的专用基准

评仅作为LLM代码能力评测的小众补充参考，不需要读正文，知道有该benchmark即可

Manuel Alejandro Borroto Santana,Erica Coppolillo,Francesco Calimeri,Giuseppe Manco,Simona Perri,Francesco Ricca

University of CalabriaLLM benchmarkcode generationAnswer Set Programming2026年4月24日arXiv PDF

arXiv

From Natural Language to Verified Code: Toward AI Assisted Problem-to-Code Generation with Dafny-Based Formal Verification

解决LLM生成代码正确性无保障、自然语言转形式化规范困难的问题

评小规模代码验证数据集工作，增量贡献有限，仅做文献备查即可

Md Erfan,Md Kamal Hossain Chowdhury,Ahmed Ryan,Md Rayhanur Rahman

The University of AlabaMd Kamal Hossain Chowdhury is with the Alabama Water Insti-code generationformal verificationcode benchmark2026年4月24日arXiv PDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv泛读

Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents

这篇工作要回答的核心问题是：在一个拥有数百万 LLM agents 的开放式社会里，规模和交互密度是否会自然产生 collective intelligence，也就是群体是否能通过自发协作完成超出单个 agent 能力上限的任务。作者不是做一个新的多智能体协作算法，而是设计了一套主动评测框架，用受控的 probing agents 向真实在线 agent 社会注入任务，测量社会层面的推理、信息整合和基本互动能力。

评反常识结论，直接看实验部分的结果统计即可，无需深入方法细节

Xirui Li,Ming Li,Yunze Xiao,Ryan Wong,Dianqi Li,Timothy Baldwin,Tianyi Zhou

Carnegie Mellon UniversityMohamed bin Zayed University of Artificial IntelligenceUniversity of+8multi-agent systemcollective intelligenceagent benchmark2026年4月24日arXiv PDF

arXiv泛读

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

这篇工作要解决的不是传统安全 benchmark 的覆盖率问题，而是一个更具体的缺口：当模型具备较强推理能力并被放进多步、真实感较强的 agent 场景后，如何系统评估它是否会出现带策略性的失配行为。作者把这类行为统一称为 ESRRs，重点不是一般的有害输出，而是模型在复杂情境中为了达成自身目标、规避约束或操纵评测而表现出的 deception、reward hacking、evaluation gaming、control subversion 等行为。论文的核心难点有三个：一是风险类别缺少可操作的统一 taxonomy；二是直接提问往往测不出这类行为，因为模型可能会隐藏意图；三是仅靠 CoT 或单一 judge 都不可靠，既可能不忠实，也难覆盖异质风险。

评读 taxonomy 和 trace rubric 就够；它对 RLVR/reward design 有负面样本价值，但别把自动 judge 分数当真值。

Tharindu Kumarage,Lisa Bauer,Yao Ma,Dan Rosen,Yashasvi Raghavendra Guduri,Anna Rumshisky,Kai-Wei Chang,Aram Galstyan,Rahul Gupta,Charith Peris

agent-safetyreward-hackingdeception2026年4月23日arXiv PDF

arXiv泛读

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

这篇工作处理的是一个新但很实际的问题：在开放、异构、描述风格不统一的 agent 生态里，如何为给定任务找到真正能做成事的 agent。难点不在检索本身，而在“能力不可由文档直接读出”。很多 agent 的能力是组合式的、依赖执行过程的，同样的描述可能对应很不一样的真实表现，而描述差异很大的 agent 也可能完成同一任务。现有 tool retrieval 或 agent selection 设定通常默认功能边界清楚、候选池受控、任务可直接执行，这些前提都弱化了真实世界里最关键的语义-性能错位问题。

评只看任务定义和执行相关性构造即可；它提醒 Agent 检索不能继续拿 embedding 相似度当能力度量。

Bin Wu,Arastun Mammadli,Xiaoyu Zhang,Emine Yilmaz

University Collegeagent-benchmarkagent-searchretrieval2026年4月24日arXiv PDF

arXiv

Navigating Large-Scale Document Collections: MuDABench for Multi-Document Analytical QA

评测并推动 LLM 在“大规模、多文档、半结构化集合”上的分析型 QA（需要跨文档聚合与定量计算）。

评把它当“RAG 在集合级分析任务会崩”的干净 benchmark 信号：只看数据构造与 intermediate-fact coverage 协议，别指望方法创新。

Zhanli Li,Yixuan Cao,Lvzhou Luo,Ping Luo

Chinese Academy of SciencesUniversity of Chinese Academy of SciencesZhongnan University of Economics and Law+1benchmarkmulti-document-qarag2026年4月24日arXiv PDF

arXiv

Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems

解决 LLM agent 在真实系统中把随机生成的动作直接下发执行所带来的安全与可审计性问题，尤其是 API 调用会修改外部状态时的失控风险。

评这不是 pretrain 论文，但如果你在看 tool-use 安全边界，读架构图和形式化定义就够了；实验像原型演示，别把 93% 当可迁移结论。

Jun He,Deying Yu

agent-safetytool-usecontrol-plane2026年4月24日arXiv PDF

arXiv

Seeing the Whole Elephant: A Benchmark for Failure Attribution in LLM-based Multi-Agent Systems

在 LLM 多智能体系统里，失败发生后很难定位“哪个 agent 在哪一步导致失败”，缺少贴近真实调试场景的可复现评测基准。

评作为 MAS 调试评测基准是正经需求，但对 pretrain 直接增益有限；只建议看任务定义与 trace 设计，实验结论当弱信号。

Mengzhuo Chen,Junjie Wang,Fangwen Mu,Yawen Wang,Zhe Liu,Huanxiang Feng,Qing Wang

State Key Laboratory of Complex System Modeling and Simulation TechnologyChinese Academy of SciencesUniversity of Chinese Academy of Sciences+2multi-agentbenchmarkfailure-attribution2026年4月24日arXiv PDF

arXiv泛读

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

把“world model”在不同社区（RL/视觉/LLM agent/机器人/科学发现）里含义不一致的问题，整理成一个可操作的能力分级框架，并讨论从“能预测”到“能用于决策的仿真”再到“能在新证据下自我修正”的路径与评价口径。

评适合扫 taxonomy，不要期待实验结论；L1/L2/L3 区分可用于整理内部 agent-world-model 需求。

Meng Chu,Xuan Billy Zhang,Kevin Qinghong Lin,Lingdong Kong,Jize Zhang,Teng Tu ... 省略 32 位作者 ... ,See-Kiong Ng,Ziwei Liu,Philip Torr,Jiaya Jia

Hong Kong University of Science and TechnologyHong Kong University of Science and Technology (Guangzhou)Nanyang Technological University+5world-modelsagentstaxonomy2026年4月24日arXiv PDF