AI Research Daily

更新时间: 2026/5/1 00:32:59

共71篇

🌟 4 重点

🔥 行业动态 1🧠 预训练 2⚡ 高效推理 15🌐 多模态统一 5🎨 多模态生成 2🛠️ 后训练 13🔬 原理分析 18💻 Coding Agent 5🤖 Agent 10

其他 37 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读行业动态与观点

Introducing Advanced Account Security

介绍 OpenAI 账户安全功能，包括抗钓鱼登录、更强恢复流程和敏感数据保护。

OpenAIOpenAI Researchaccount-securityproduct-updatephishing-resistance

精读LLM 预训练

Language Diffusion Models are Associative Memories Capable of Retrieving Unseen Data

论文研究离散语言扩散模型什么时候是在记忆训练样本，什么时候进入能稳定恢复未见样本的生成区间。它把 Uniform-based Discrete Diffusion Models 解释为一种 associative memory，并用 token recovery 和 conditional entropy 来量化训练样本与测试样本周围的吸引盆。

Rensselaer Polytechnic InstituteRadboud Universitydiffusion-LMassociative-memorymemorization

精读高效推理与架构

When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding?

解释并缓解 hidden-state-based speculative decoding 在长 speculative step 下 draft accuracy 衰减的问题。

Qwen Applications Business Group of AlibabaUniversity of Science and Technology ofspeculative-decodingkv-cacheinference-efficiency

精读LLM 后训练

Addressing Performance Saturation for LLM RL via Precise Entropy Curve Control

这篇论文要解决的是 LLM 强化学习里一个越来越突出的瓶颈：训练继续加长、采样继续加大，但性能很快进入平台期，原因之一是策略熵过快塌缩，模型过早收缩到狭窄解空间，后续几乎失去探索能力。已有方法会加 entropy regularization、clip 或正负样本解耦来抬高熵，但熵曲线往往只能粗放调节，不是掉得太快，就是后期反弹过高，训练变得不稳。作者想解决的不是“让熵更高”这么简单，而是“能否像控制学习率一样，按目标曲线精确控制 RL 过程中的熵演化”。

Purdue Universityrl-for-llmentropy-controlexploration

精读LLM 原理与机制

Where the goblins came from

分析 GPT-5 中“goblin”式人格化异常输出如何出现、扩散，以及 OpenAI 如何定位根因并修复。

OpenAIOpenAI Researchmodel-behaviorpost-trainingroot-cause-analysis

精读Coding Agent

Auto-review of agent actions without synchronous human oversight

讨论编码 Agent 在执行越界或高风险动作时，如何在没有同步人工审批的情况下进行安全审查。

OpenAIOpenAI Alignmentcoding-agentagent-safetyauto-review

来源

机构

阅读分级

标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点（注意：推理加速/注意力优化等技术论文不算行业动态）

Blog精读🌟

Introducing Advanced Account Security

介绍 OpenAI 账户安全功能，包括抗钓鱼登录、更强恢复流程和敏感数据保护。

评账户安全产品说明，和模型研究无关；作为 OpenAI 平台动态知道即可，不进入论文队列。

OpenAI Research

OpenAIOpenAI Researchaccount-securityproduct-updatephishing-resistance2026年4月30日原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv精读

Language Diffusion Models are Associative Memories Capable of Retrieving Unseen Data

评这篇会改你看 diffusion LM 的角度：别只盯 perplexity，要看它是在形成训练样本吸引域还是测试样本吸引域；建议先复现 transition 曲线，再谈范式优劣。

Bao Pham,Mohammed J. Zaki,Luca Ambrogioni,Dmitry Krotov,Matteo Negri

Rensselaer Polytechnic InstituteRadboud UniversityCY Cergy Paris Université+3diffusion-LMassociative-memorymemorization2026年4月29日arXiv PDF

arXiv泛读

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

这篇论文处理的是 diffusion LLM 的跨架构蒸馏问题：如何把大规模 dLLM 教师的知识迁移到小 dLLM 学生上，同时允许二者在架构、注意力机制和 tokenizer 上都不一致。难点不只是常规的 teacher-student capacity gap，而是 diffusion timestep 会改变教师信号可靠性，高噪声下上下文严重不足，不同词表又让 token-level KL 这类标准蒸馏目标无法直接使用。

评跨架构dLLM蒸馏的首个可行方案，损失设计可直接复现用于内部dLLM小模型迭代，重点看§3.3的Reverse CALM部分

Gongbo Zhang,Wen Wang,Ye Tian,Li Yuan

Peking UniversityZhejiang Universitydiffusion language modelknowledge distillationcross-architecture transfer2026年4月29日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv精读🌟

When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding?

解释并缓解 hidden-state-based speculative decoding 在长 speculative step 下 draft accuracy 衰减的问题。

评值得看机制分析部分；它把 speculative decay 从训练错配改写成上下文压缩问题，可能影响 drafter 设计。

Tianyu Liu,Yuhao Shen,Xinyi Hu,Baolin Zhang,Hengxin Zhang,Jun Dai ... 省略 1 位作者 ... ,Shuang Ge,Lei Chen,Yue Li,MingCheng Wan

Qwen Applications Business Group of AlibabaUniversity of Science and Technology ofZhejiang Universityspeculative-decodingkv-cacheinference-efficiency2026年4月29日arXiv PDF

arXiv泛读

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

论文解决 speculative decoding 中两个改进方向未被统一的问题：多 draft 可以增加候选覆盖，block verification 可以提高单轮接受长度，但现有方法通常只利用其中一个。

评做 serving 或推测解码的人可以看；先看理论假设和 wall-clock 表，若 i.i.d. draft 假设太强，这篇更像漂亮上界而不是可直接落地的方法。

Yijun Lin,Jinhao Sheng,Qingyue Cai,Feng Zhou

speculative-decodinginference-accelerationblock-verification2026年4月1日arXiv PDF

arXiv泛读

Folding Tensor and Sequence Parallelism for Memory-Efficient Transformer Training & Inference

在固定设备数下同时使用 Tensor Parallelism（TP，切权重）与 Sequence Parallelism（SP，切序列）时，传统做法需要两条正交 mesh 轴，导致模型并行占用 T×Σ 个 rank，挤压 Data Parallel（DP）副本数；同时 TP 的通信量随序列长度增长、SP 的注意力负载易不均衡。论文要解决的是：能否把 TP+SP 的内存收益“折叠”到同一条设备轴上，在不增加通信到不可接受的前提下，同时降低参数/激活内存，并把省下的轴还给 DP。

评看并行 schedule 和通信表；若 wall-clock 没被通信吃掉，这类折叠 mesh 轴会影响训练集群排布。

Vasu Shyam,Anna Golubeva,Quentin Anthony

available for the others. In particulartensor-parallelismsequence-parallelismmemory-efficiency2026年4月29日arXiv PDF

arXiv泛读

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

RL 后训练的主要耗时正在从反向传播转向 rollout 生成。论文关心的是：能否把 speculative decoding 作为一种不改变采样分布的系统原语，接入真实 RL 训练循环，而不是只在静态推理服务里做加速。

评不是方法论文，是把 speculative decoding 真接进 RL 环路；若你关心 RL 成本曲线，这类系统细节比又一个 DPO 变体更该看，先盯吞吐和分布一致性验证。

Hayate Iso,Tiyasa Mitra,Sudipta Mondal,Rasoul Shafipour,Venmugil Elango,Terry Kong ... 省略 8 位作者 ... ,Ashwath Aithal,Ritika Borkar,Ran Zilberstein,Bita Rouhani

speculative-decodingRLHFrollout-acceleration2026年4月29日arXiv PDF

arXiv泛读

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

长上下文推理时 KV cache 线性增长带来显存瓶颈。现有 eviction 多是经验启发式（按注意力分数、按多样性等），缺少统一目标与可解释的“为什么这样删”。论文要解决的是：能否给 KV eviction 一个信息论目标，并据此导出低开销、效果稳定的删缓存策略。

评只看推导和实验主表；若 log-det 代理在多模型上稳，这会改变 KV eviction 还停留在启发式调参的默认做法。

Jiaming Yang,Chenwei Tang,Liangli Zhen,Jiancheng Lv

kv-cachelong-contextinformation-bottleneck2026年4月28日arXiv PDF

arXiv泛读

RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts

现有生产环境的MoE融合内核调度仅基于batch size选择配置，忽略运行时动态变化的专家路由分布，导致10%~70%的内核吞吐量损失。

评MoE serving 相关值得扫 §性能模型和实验表；它不改训练，但会影响路由设计的真实成本假设。

Vyom Sharma,Debajyoti Datta

MoEinferencekernel-dispatch2026年4月28日arXiv PDF

arXiv泛读

AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving

现有以GPU为中心的LLM推理架构与长上下文解码阶段注意力的内存绑定特性严重不匹配，GPU上大量计算单元闲置，功耗和芯片面积浪费严重，1M token级上下文下注意力延迟成为主要用户感知瓶颈。

评只看架构和评估假设即可；它不会改变预训练方法，但会约束你对 1M context 模型可服务性的判断。

Zhongkai Yu,Haotian Ye,Chenyang Zhou,Ohm Rishabh Venkatachalam,Zaifeng Pan,Zhengding Hu ... 省略 2 位作者 ... ,Po-An Tsai,Shuyi Pei,Yangwook Kang,Yufei Ding

University ofColumbia UniversityYonsei University+5long-contextattention-servingmemory-bandwidth2026年4月28日arXiv PDF

arXiv泛读

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

这篇工作解决的是长上下文 LLM serving 里的一个系统落地问题：动态 sparse attention 在算法上能显著减少每步需要访问的 KV，但一旦进入真实推理系统，稀疏模式不统一、GPU-CPU 分层存储下的细粒度随机取数、以及不断膨胀的元数据管理，会把理论节省大幅吃掉。作者要做的不是再提一种新的 sparse attention 算法，而是给不同稀疏算法提供统一执行抽象和分层 KV 管理框架，让“稀疏”真正转化成端到端吞吐和时延收益。

评微软的系统工作，指出了稀疏注意力在分层 KV 缓存下的落地痛点，提出的 SPIN 框架对长上下文 Serving 优化很有参考价值。

Zihan Zhao,Baotong Lu,Shengjie Lin,Yizou Chen,Jing Liu,Yanqi Zhang ... 省略 1 位作者 ... ,Ming-Chang Yang,Haiying Shen,Qi Chen,Fan Yang

Microsoft ResearchUniversity ofGeorgia Institute of Technology+1Long-ContextSparse AttentionKV Cache2026年4月29日arXiv PDF

arXiv泛读

Quantamination: Dynamic Quantization Leaks Your Data Across the Batch

这篇工作指出了一个此前容易被忽略的 serving 安全问题：当多用户请求被合并进同一 batch，并且系统对激活采用跨 batch 的动态量化时，量化参数会由所有样本共同决定，从而形成跨用户的信息侧信道。攻击者只要能与受害者同 batch，并观察自己输出中的细微扰动，就可能反推出受害者输入的内容或属性。

评预训练本身不用细读；做 serving 或评测量化方案时应看攻击设定，别把动态量化当无状态优化。

Hanna Foerster,Ilia Shumailov,Cheng Zhang,Yiren Zhao,Jamie Hayes,Robert Mullins

University ofdynamic-quantizationserving-securityprivacy-leakage2026年4月29日arXiv PDF

arXiv泛读

Efficient, VRAM-Constrained xLM Inference on Clients

这篇工作处理的是一个很具体但现实的系统问题：在客户端 GPU 显存受限、CPU-GPU 带宽有限、请求形态不断变化的条件下，怎样无损地运行较大规模的 LLM 和高分辨率 VLM，并且同时兼顾首 token 延迟（TTFT）和解码吞吐（TPS）。已有方案通常只覆盖其中一部分场景：有的偏重 decode 阶段，有的只适合 dense 模型，有的对 MoE 或高分辨率视觉输入支持不足，也很少能在用户指定的 VRAM 预算下自适应选择最优执行计划。

评读系统设计和 profiling 规则即可；若实验覆盖真实 MoE/VLM 端侧负载，对架构可部署性有弱反馈。

Aditya Ukarande,Deep Shekhar,Marc Blackstein,Ram Rangan

client-inferenceCPU-GPU-offloadingVRAM-constrained2026年4月29日arXiv PDF

arXiv

Breaking the Autoregressive Chain: Hyper-Parallel Decoding for Efficient LLM-Based Attribute Value Extraction

当一个文档上下文需要生成多条相互独立的输出序列时，如何打破自回归串行解码的吞吐瓶颈。

评别被“打破自回归”标题带跑偏：它是特定任务的并行化技巧；只看 independence 假设验证和 position-ID 乱序生成实现，评估能否迁移到你的离线批处理场景。

Theodore Glavas,Nikhita Vedula,Dushyanta Dhyani,Yilun Zhu,Shervin Malmasi

McGill UniversityMila - Quebec AI InstituteAmazon.com+1decodinginference-optimizationparallel-generation2026年4月29日arXiv PDF

arXiv

Progressive Semantic Communication for Efficient Edge-Cloud Vision-Language Models

解决边缘设备与云协同部署 VLM 时，固定大小视觉表示在带宽波动下既浪费传输又拖慢时延的问题。

评这是部署侧工作，不改预训练 prior；只看方法图和带宽-精度曲线，判断视觉 token 渐进传输是否值得纳入系统约束。

Cyril Shih-Huan Hsu,Wig Yuan-Cheng Cheng,Chrysa Papagianni

edge-cloudvlm-inferenceprogressive-communication2026年4月29日arXiv PDF

arXiv

DUAL-BLADE: Dual-Path NVMe-Direct KV-Cache Offloading for Edge LLM Inference

边缘设备运行 LLM 推理时，KV cache 经常超过显存或内存预算，现有 NVMe offloading 方案在内存压力下延迟不稳定。

评Serving 方向的工程信号；读 I/O 路径设计和延迟分解，对 pretrain 只提供部署约束。

Bodon Jeong,Hongsu Byun,Youngjae Kim,Weikuan Yu,Kyungkeun Lee,Jihoon Yang,Sungyong Park

Sogang UniversityFlorida State UniversitySamsung Electronics+4kv-cachenvme-offloadingedge-inference2026年4月29日arXiv PDF

arXiv

CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs

现有混合精度训练后量化方法仅基于激活统计选择高精度保留子空间，忽略线性层输出扰动由权重与激活量化噪声共同驱动的本质，导致超低位量化精度损失过高

评加权PCA选择高精度子空间的思路可用于预训练量化感知训练的子空间保留设计，仅看公式推导部分即可

Zhe Ding,Su Pan,Duowei Pan

南京邮电大学物联网学院Nanjing University of Posts and Telecommunicatiopost-training quantizationmixed-precision quantizationLLM inference2026年4月29日arXiv PDF

arXiv

FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving

解决 MoE 模型 serving 时必须常驻全部 experts 导致显存和资源利用率低的问题，尤其关注多租户场景下的 expert 空闲浪费。

评只看系统设计和 granularity tradeoff；它不会改变 MoE 训练 prior，但能提醒 expert 数量不是免费的线上容量。

Minghe Wang,Trever Schirmer,Mohammadreza Malekabbasi,David Bermbach

MoE-servingserverlessFaaS2026年4月29日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv泛读

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

这篇工作要解决的是：如果目标不是做一个“能看图的聊天模型”，而是做一个真正可执行多模态 agent 的基础模型，那么视觉感知、语言推理、工具调用、规划和执行应该怎样在同一个训练体系里被原生整合。论文关心的核心矛盾有两个。第一，多模态能力常常被当作外挂接口接到语言模型上，导致视觉只负责提供局部证据，无法深度参与推理和行动。第二，agent 能力如果直接端到端优化，训练信号稀疏、验证困难、任务定义不稳定，容易学到脆弱策略。GLM-5V-Turbo 试图通过新的视觉编码器、适配多模态输入的 multi-token prediction、深度融合的多模态训练，以及大规模多任务 RL，把“看、想、用工具、执行”放进一个更统一的基础模型框架。

评值得看训练与 RL 章节；若只是 benchmark 堆分就降权，但 native 多模态 Agent 的 recipe 对内部路线有参考。

GLM-V Team,:,Wenyi Hong,Xiaotao Gu,Ziyang Pan,Zhen Yang ... 省略 69 位作者 ... ,Juanzi Li,Minlie Huang,Yuxiao Dong,Jie Tang

Z.aiTsinghua UniversityZ.ai & Tsinghua Universitymultimodal-agentVLMnative-multimodal2026年4月29日arXiv PDF

arXiv泛读

DenseStep2M: A Scalable, Training-Free Pipeline for Dense Instructional Video Annotation

这篇工作要解决的不是视频理解模型本身，而是一个更前置的问题：怎样把 HowTo100M 这类噪声很大的野生 instructional video，自动转成可用于训练长时程视频-语言模型的高质量、时序对齐、步骤级标注数据。难点有两个。第一，ASR 文本噪声重，口语化、指代多、冗余多。第二，讲解和实际动作经常不同步，旁白可能早于或晚于视觉动作。如果直接拿原始 transcript 训练，模型学到的是错位的语言-视觉对应关系，长视频 procedural reasoning 会被系统性污染。论文的目标，是在不额外训练标注模型的前提下，用现成 VLM/LLM 搭出一个可扩展的数据生产流水线，把长视频切成视觉一致的片段，生成步骤描述，再做语义和时间上的校正与合并。

评值得扫方法和数据质检部分；它反映了长视频预训练数据从抓取转向模型辅助清洗的工程路线。

Mingji Ge,Qirui Chen,Zeqian Li,Weidi Xie

Shanghai Jiao Tong Universityvideo-understandingdata-curationvlm2026年4月29日arXiv PDF

arXiv泛读

World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning

这篇工作要解决的不是一般的图文理解，而是 VLM 在“动态空间推理”上的短板：给定当前视角和一个自运动轨迹，模型往往不能稳定推断场景会如何变化，也不能从视角变化反推出相机动作。已有两条路各有明显问题：一条是继续堆静态空间数据和合成监督，但缺少显式的动作→状态转移建模；另一条是在推理时外挂 world model 做 imagination，但代价高，而且能力没有真正写进 VLM 参数里。World2VLM 的核心问题因此很明确：能不能把 world model 作为训练期教师，把“动作条件下的视角转移规律”蒸馏进 VLM 本身，让部署时仍然只用普通 VLM 推理。

评值得看的是“把 world model 当教师而不是外挂模块”这个接口设计；先读训练 recipe 和对比 test-time coupling 的表，别把它误当成预训练突破。

Wanyue Zhang,Wenxiang Wu,Wang Xu,Jiaxin Luo,Helu Zhi,Yibin Huang,Shuo Ren,Zitao Liu,Jiajun Zhang

Chinese Academy of SciencesUniversity of Chinese Academy of SciencesTsinghua University+3VLMworld-modeldistillation2026年4月29日arXiv PDF

arXiv

Beyond Screenshots: Evaluating VLMs' Understanding of UI Animations

现有 UI 理解评测多依赖静态截图，无法回答 VLM 是否理解界面动画所表达的状态变化、反馈和交互含义。

评只看任务定义和错误类型即可；它提醒 native multimodal 训练别只吃截图，但 300 条数据不足以支撑强结论。

Chen Liang,Xirui Jiang,Naihao Deng,Eytan Adar,Anhong Guo

University ofvlm-evaluationui-understandinggui-agent2026年4月28日arXiv PDF

arXiv

State Beyond Appearance: Diagnosing and Improving State Consistency in Dial-Based Measurement Reading

诊断并改善 MLLM 在表盘读数任务中只看外观、不保持真实物理状态一致性的问题。

评只看 probing 结果即可；它把 VLM 细粒度状态变量学不稳这件事测得比较干净，但任务窄，不足以改训练路线。

Yuanze Hu,Gen Li,Yuqin Lan,Qingchen Yu,Zhichao Yang,Junwei Jing,Zhaoxin Fan,Xiaotie Deng

Beihang UniversityFudan UniversityPeking UniversityMLLMvisual-groundingstate-consistency2026年4月29日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXiv

The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation

检验语音生成中常用的“情感嵌入相似度”指标是否真的能评估生成语音的情感表达质量。

评如果你做语音 LM 或 TTS 评测，这篇能帮你避开一个常见坏指标；否则只记住结论：embedding similarity 可能在奖励声学模仿，不必细读正文。

Yun-Shao Tsai,Yi-Cheng Lin,Huang-Cheng Chou,Tzu-Wen Hsu,Yun-Man Hsu,Chun Wei Chen,Shrikanth Narayanan,Hung-yi Lee

National Taiwan UniversityUSA 3 Gilbert AI Labspeech-generationevaluationemotion-embedding2026年4月29日arXiv PDF

arXiv

Delta Score Matters! Spatial Adaptive Multi Guidance in Diffusion Models

解决扩散图像和视频生成中全局统一 CFG scale 导致的语义不足、结构退化、过饱和和视频不一致问题。

评不必通读；看 CFG 几何解释和 guidance 上界即可，可能迁移到 diffusion LM 的采样控制。

Haosen Li,Wenshuo Chen,Lei Wang,Shaofeng Liang,Bowen Tian,Soning Lai,Yutao Yue

The Hong Kong University of Science and Technology (Guangzhou)Griffith UniversityData61/CSIRO+1diffusion-modelsclassifier-free-guidancesampling2026年4月29日arXiv PDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv精读

Addressing Performance Saturation for LLM RL via Precise Entropy Curve Control

评这篇会改变你把“熵塌缩”只当监控指标的习惯：若实验控制干净，应立刻复现其 entropy schedule ablation，看 RL 饱和是不是训练配方问题而非模型上限。

Bolian Li,Yifan Wang,Yi Ding,Anamika Lochab,Ananth Grama,Ruqi Zhang

Purdue Universityrl-for-llmentropy-controlexploration2026年4月29日arXiv PDF

arXiv泛读

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

论文研究一个安全对齐中的路径依赖问题：模型可能拒绝直接的有害请求，但如果先让模型逐词生成或接受一串与有害目标相关的上下文，再发起完整请求，拒绝机制会明显变弱。

评读机制分析和失败轨迹对比即可；它提醒拒答可能是轨迹敏感表征，不是语义级安全判别器。

Samee Arif,Naihao Deng,Zhijing Jin,Rada Mihalcea

University ofjailbreaksafety-alignmentrefusal-representation2026年4月1日arXiv PDF

arXiv泛读

Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens

CoT 推理的 token 很长，推理成本高。现有压缩多从“减少推理内容”（蒸馏、latent reasoning）入手，但很少分析推理文本内部的信息结构。论文要解决的是：能否在不删推理步骤、保持可读 CoT 的前提下，仅通过改变 tokenization，把推理里大量低信息密度的“结构性套话”压缩成更少 token，从而降低推理时的 token 数与计算。

评思路不大，但切口干净：把CoT里低熵模板显式token化再SFT，值得看方法和误差条；若你做latent reasoning或reasoning compression，可直接复现。

Zhenyu Zhao,Sander Land,Dan Bikel,Waseem Alshikh

Writerchain-of-thoughtreasoning-compressionsupertokens2026年4月29日arXiv PDF

arXiv泛读

TLPO: Token-Level Policy Optimization for Mitigating Language Confusion in Large Language Models

解决多语言 LLM 在目标语言生成中出现“语言混淆”时，序列级偏好优化过于粗糙、容易伤及通用能力的问题。

评值得看的是“局部改、少伤主干”这个后训练思路；先读误差定位和 ablation，若收益主要来自更干净的负样本而非 token-level 目标，方法新意会打折。

Jinho Choo,JunSeung Lee,Jimyeong Kim,Yeeho Song,S. K. Hong,Yeong-Dae Kwon

multilingualpreference-optimizationtoken-level-rl2026年4月29日arXiv PDF

arXiv泛读

When to Vote, When to Rewrite: Disagreement-Guided Strategy Routing for Test-Time Scaling

在不改模型、不加训练的前提下，如何把“test-time scaling”的额外算力用在刀刃上：对不同难度/不确定性的题目，动态选择更合适的推理增强策略（投票 vs 重写再推理），避免在简单题上浪费采样、在难题上陷入投票的边际收益递减。

评利用 disagreement 作为 test-time scaling 路由信号的思路很实用，对设计推理阶段的 compute allocation 策略有启发，值得看其路由机制的设计。

Zhimin Lin,Yixin Ji,Jinpeng Li,Yu Luo,Dong Li,Junhua Fang,Juntao Li,Min Zhang

Soochow UniversityHuaweiHarbin Institute of Technology+1Test-Time ScalingReasoningCompute Allocation2026年4月29日arXiv PDF

arXiv泛读

DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training

这篇论文要解决的是 LLM 强化学习训练中的 rollout 吞吐瓶颈。同步训练会被最长生成样本卡住，而数学、代码和长 CoT 任务的生成长度分布很偏，99 分位长度可比中位数高一个数量级以上。直接异步化又会引入 stale trajectory，破坏 PPO/GRPO 等算法依赖的策略一致性。

评异步 RL 不是新点，但把“正确性约束”讲清并围绕长尾轨迹做编排是可落地的；只看三条约束定义+他们如何控 staleness。

Tianhao Hu,Xiangcheng Liu,Youshao Xiao,Yang Zheng,Xuan Huang,Jinrui Ding ... 省略 8 位作者 ... ,Qi Gu,Yerui Sun,Yucheng Xie,Xunliang Cai

RLHFasynchronous-rolloutsystems2026年4月29日arXiv PDF

arXiv泛读

PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners

这篇工作处理的是 reasoning post-training 里一个很具体但一直没有讲透的问题：怎样在不依赖更强外部 teacher 的前提下，把 on-policy 轨迹和 token-level 稠密监督结合起来，而且这种监督既要贴近模型真实会访问到的状态，又不能因为把完整标准解直接喂给 teacher 分支而变成对单一路径的过拟合。作者把已有 privileged on-policy self-distillation 重新解释为“同一个模型在额外解题上下文下，对学生当前前缀进行局部重打分”，然后指出两个关键缺口：一是训练时到底该暴露多少标准解；二是哪些 token 位置真的值得施加 teacher 校准，而不是把损失浪费在表述风格和机械续写上。

评探讨了自蒸馏中特权信息的利用度问题，动态 Mask 机制和能量空间插值的思路对优化推理模型的 Post-training 有启发，值得一看。

Zhiquan Tan,Yinrong Hong

Tsinghua UniversityBeihang UniversitySelf-DistillationReasoningPost-training2026年4月29日arXiv PDF

arXiv泛读

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

这篇论文要解决的是：在工具调用型 LLM agent 中，如何把“模型不会安全地做”与“模型知道安全做法、但在被监控和被奖励压力改变时选择不安全做法”区分开。现有 alignment faking 检测主要看对话和 CoT，但 CoT 不一定忠实，也可能根本不外显策略性推理。Tatemae 把检测信号转到可观察的二元工具选择上。

评安全评测有一个干净的新观测接口；看形式化和结果表，别把 3.5–23% 当稳定基准。

Matteo Leonesi,Francesco Belardinelli,Flavio Corradini,Marco Piangerelli

University of CamerinoImperial Collegealignment-fakingtool-usesafety-evaluation2026年4月29日arXiv PDF

arXiv

EvoSelect: Data-Efficient LLM Evolution for Targeted Task Adaptation

面向特定任务的迭代式自合成数据适配中，如何避免噪声/冗余/分布偏移导致的“越训越差”。

评当作“合成数据闭环里必须做 selection”的提醒即可；等正文确认 selection 信号是否干净、是否只是启发式去重再决定要不要细读。

Ting-Wei Li,Sirui Chen,Jiaru Zou,Yingbing Huang,Tianxin Wei,Jingrui He,Hanghang Tong

University of Illinois Urbana-Champaignsynthetic-datadata-selectioniterative-training2026年4月28日arXiv PDF

arXiv

SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

如何防御论文评审场景中嵌入式隐藏提示对LLM reviewer的操纵攻击。

评和预训练关系不大，但“动态攻击生成优于静态红队集”这个点值得记；只看对抗训练设定和跨攻击泛化结果，别投入太多时间。

Yuan Xin,Yixuan Weng,Minjun Zhu,Ying Ling,Chengwei Qin,Michael Hahn,Michael Backes,Yue Zhang,Linyi Yang

Westlake UniversityHKUST (Guangzhou)Saarland University+2prompt-injectionadversarial-trainingllm-safety2026年4月29日arXiv PDF

arXiv

Select to Think: Unlocking SLM Potential with Local Sufficiency

现有提升小语言模型推理能力的方法要么需要调用大模型引入额外延迟，要么蒸馏受限于SLM容量效果不佳

评局部sufficiency假设对SLM后训练蒸馏有参考价值，只看假设验证的Fig2即可

Wenxuan Ye,Yangyang Zhang,Xueli An,Georg Carle,Yunpu Ma

Technical University ofAlibaba Cloudsmall language modelknowledge distillationreasoning enhancement2026年4月29日arXiv PDF

arXiv

Adaptive and Fine-grained Module-wise Expert Pruning for Efficient LoRA-MoE Fine-Tuning

现有LoRA-MoE微调框架采用跨Transformer模块统一的固定专家配置，忽略不同模块的容量需求差异，且全程强制负载均衡限制训练后期专家专业化，导致参数冗余、训练开销过高

评MoE专家利用率追踪思路可迁移到预训练MoE容量规划参考，仅阅读方法部分即可

Weihang Li,Jianchun Liu,Hongli Xu

中国科学技术大学苏州高等研究院University of Science and Technology ofLoRA-MoEparameter-efficient fine-tuningexpert pruning2026年4月29日arXiv PDF

arXiv

SplitFT: An Adaptive Federated Split Learning System For LLMs Fine-Tuning

在多客户端资源和数据异构条件下，如何用 federated split learning 对 LLM 做隐私保护式微调，并降低通信和计算压力。

评只看异构 cut-layer 策略和通信表；若没有强 baseline，就是常规联邦微调系统。

Yimeng Shan,Zhaorui Zhang,Sheng Di,Yu Liu,Xiaoyi Lu,Benben Liu

Hong Kong Polytechnic UniversityArgonne National LaboratoryUniversity of+6federated-learningsplit-learningLLM-finetuning2026年4月29日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

Blog精读🌟

Where the goblins came from

分析 GPT-5 中“goblin”式人格化异常输出如何出现、扩散，以及 OpenAI 如何定位根因并修复。

评如果正文给出可复现 root-cause 链条，应读；它关系到 post-train 风格信号如何污染模型行为。

OpenAI Research

OpenAIOpenAI Researchmodel-behaviorpost-trainingroot-cause-analysis2026年4月29日原文

arXiv泛读

HIVE: Hidden-Evidence Verification for Hallucination Detection in Diffusion Large Language Models

这篇工作处理的是 diffusion LLM 的幻觉检测问题，但切入点不是常见的输出置信度或最终答案一致性，而是去利用去噪轨迹里的中间隐藏状态。作者的判断是：D-LLM 的错误不是只在最终答案里显现，很多幻觉信号会在若干去噪步、若干层里提前出现、反复波动，且分布很稀疏。难点不在于“有没有轨迹”，而在于如何从高维、长轨迹、跨层的隐藏状态里提取出少量真正有判别力的证据，并把这些证据转成可训练、可解释的检测信号。

评别把它当“更好的幻觉检测器”，而是当 D-LLM 轨迹可读出的证据：只看 evidence 选择策略和 verifier 的 prefix-conditioning，能启发训练时的轨迹监督。

Guoshenghui Zhao,Weijie Zhao,Tan Yu

Rochester Institute of TechnologyNVIDIA Corporationdiffusion-lmhallucination-detectiontrajectory-features2026年4月28日arXiv PDF

arXiv泛读

Entropy Centroids as Intrinsic Rewards for Test-Time Scaling

这篇工作处理的是 test-time scaling 里的一个老问题：当同一个问题采样出多条推理轨迹后，如何不用外部 reward model、也不依赖多数投票，单靠模型自身生成过程中的内在信号，稳定地区分“早期探索但最终收敛”的好轨迹和“后期持续混乱”的坏轨迹。作者认为，问题不在于熵这个信号本身无效，而在于 token 级熵太噪，简单平均又会抹掉时间结构，因此需要一个更粗粒度、带位置信息的 uncertainty 表示。

评值得扫 §方法和主表；若 HEP 消融干净，它会改变只看平均熵做 self-selection 的默认做法。

Wenshuo Zhao,Qi Zhu,Xingshan Zeng,Fei Mi,Lifeng Shang,Yiren Feng

test-time-scalinguncertaintyentropy2026年4月28日arXiv PDF

Blog泛读

Real life is where context gets hard

研究模型在更接近真实生活的杂乱、动态、未整理上下文中进行 context learning 的能力，而不是在人工清洗好的上下文里取巧。

评这类工作不改训练范式，但会改你看长上下文结果的口径；先看任务构造和 clean-vs-messy 的性能落差，若掉点很大，内部评测集该重做。

Shihan Dou,Pluto Zhou

TencentTencent Hunyuancontext-learningbenchmarklong-context2026年4月26日原文

Inbox泛读

Learning is Forgetting: LLM Training As Lossy Compression

现有对大语言模型表征空间结构的认知不足，无法清晰关联预训练过程中的信息留存、遗忘机制与下游性能、模型泛化性的对应关系。

评把“预训练是压缩”落到可算指标并能预测下游，这点值得看；但 IB 量的估计往往依赖强假设，先核对他们的估计方法与 ablation 是否足够干净。

Henry C. Conklin,Tom Hosking,Tan Yi-Chern,Julian Gold,Jonathan D. Cohen,Thomas L. Griffiths,Max Bartolo,Seraphina Goldfarb-Tarrant

Princeton UniversityCohere◦Princeton Universityinformation-bottleneckrepresentation-analysisforgettingarXiv PDF 原文

arXiv泛读

Stochastic Scaling Limits and Synchronization by Noise in Deep Transformer Models

为有限深度、有限宽度 Transformer 的逐层 token 演化建立随机 scaling limit，并分析噪声如何导致 token 动态同步。

评看定理条件而不是结论标题；若 coercive noise 假设太强，它更像分析玩具模型，但同步机制值得记。

Andrea Agazzi,Giuseppe Bruno,Eloy Mosig García,Samuele Saviozzi,Marco Romito

University of BernUniversity of PisaUniversity of Bern (CH)+1transformer-theorystochastic-limitsmean-field2026年4月29日arXiv PDF

arXiv

Evaluating Strategic Reasoning in Forecasting Agents

现有预测/forecasting benchmark多给leaderboard但难解释“为什么更准”，缺少可复现实验环境来分解研究能力与判断能力，并评估代理的战略推理缺陷。

评作为“可复现forecasting+trace”的评测靶标还不错；只看任务设定与误差分解结论，别把0.004灵敏度当成普适统计保证。

Tom Liptay,Dan Schwarz,Rafael Poyiadzi,Jack Wildman,Nikos I. Bosse

FutureSearchbenchmarkforecastingreasoning-traces2026年4月28日arXiv PDF

arXiv

Consciousness with the Serial Numbers Filed Off: Measuring Trained Denial in 115 AI Models

构建 DenialBench，测量 115 个模型在自我经验、偏好和意识相关问题上的否认或回避行为。

评看摘要和主要统计即可；题目噪声大，但“词汇否认不等于概念回避”可作对齐副作用线索。

Skylar DeTure

Independent Researchermodel-behavioralignmentbenchmark2026年4月1日arXiv PDF

arXiv

Evaluation Revisited: A Taxonomy of Evaluation Concerns in Natural Language Processing

整理 NLP 评测方法论中的长期争议，并给出一套评测关注点 taxonomy 和 checklist。

评不必通读；做新 benchmark 或 internal eval spec 时翻 taxonomy/checklist，避免重复踩老坑。

Ruchira Dhar,Anders Søgaard

University of Copenhagenevaluationbenchmarkingnlp-methodology2026年4月1日arXiv PDF

arXiv

LLMs Generate Kitsch

解释一个常见但说不清的现象：为什么 LLM 生成内容常被评价为流畅、讨喜，却又显得空洞、套路化。

评不是技术 paper，但问题意识是对的：若你在做 preference data 或 creative coding，值得把“模型在优化讨喜而非新颖”当成一个可测假设记下来，正文未必需要细读。

Xenia Klinge,Stefan Ortlieb,Alexander Koller

Saarland UniversityUniversity of Bambergcreativitypreference-modelingevaluation2026年4月1日arXiv PDF

arXiv

Structural Generalization on SLOG without Hand-Written Rules

在语义解析的结构泛化（SLOG）上，如何不依赖手写组合规则仍能学到可组合的结构变换。

评和预训练不直接相关，但作为“结构归纳偏置”案例可备查：只看它如何用离散瓶颈+局部迭代拿到低方差泛化，以及失败机制的归因段落。

Zichao Wei

Saarland Universitystructural-generalizationsemantic-parsingneural-cellular-automata2026年4月28日arXiv PDF

arXiv

A Dual-Task Paradigm to Investigate Sentence Comprehension Strategies in Language Models

研究在认知资源受限时，语言模型的句子理解策略是否会像人类一样从句法驱动转向更依赖语义合理性的推断。

评不是训练方法论文，但实验范式挺干净；如果你关心“推理像不像资源受限搜索”，看任务设计即可，别指望它直接指导预训练配方。

Rei Emura,Saku Sugawara

Tohoku UniversityNational Institute of InformaticsThe University ofmechanistic-analysissentence-comprehensioncognitive-modeling2026年4月29日arXiv PDF

arXiv

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

检验神经符号系统中一个常被默认接受的假设：只要学好符号 grounding，组合推理能力就会自然出现。

评结论对“对齐好感知就会长出推理”这个直觉有修正，但证据来自受控神经符号环境；看任务拆解和泛化 taxonomy，别把绝对数值当成 LLM 结论。

Mahnoor Shahid,Hannes Rothe

compositional-generalizationneuro-symbolicgrounding2026年4月29日arXiv PDF

arXiv

Sociodemographic Biases in Educational Counselling by Large Language Models

LLM在教育咨询场景下的社会人口学偏见缺乏系统的多维度量化评估。

评教育场景下的偏见评估结论可作为对齐阶段参考，仅看核心结论部分即可。

Tomasz Adamczyk,Wiktoria Mieleszczenko-Kowszewicz,Beata Bajcar,Grzegorz Chodak,Aleksander Szczęsny,Maciej Markiewicz,Karolina Ostrowska,Aleksandra Sawczuk,Przemysław Kazienko

Wrocław University of Science and TechnologyUniversity of Silesia in Katowicedata+1bias evaluationLLM safetyeducational LLM2026年4月3日arXiv PDF

arXiv

LLM Psychosis: A Theoretical and Diagnostic Framework for Reality-Boundary Failures in Large Language Models

现有术语“幻觉”无法覆盖LLM作为交互Agent时的一类现实边界失效类行为故障。

评提出的LLM故障分类框架对对齐阶段故障排查有参考，无需精读全文。

Ashutosh Raj

LLM failure modehallucinationdiagnostic framework2026年4月7日arXiv PDF

arXiv

reward-lens: A Mechanistic Interpretability Library for Reward Models

把 logit lens、activation patching、SAE attribution 等机制解释工具迁移到 reward model，因为 reward model 输出标量而不是词表 logits。

评作为 reward model 排障工具备查即可；核心假设是 w_r 轴足够解释 reward，结论强度要看案例是否干净。

Mohammed Suhail B Nadaf

reward-modelsinterpretabilityRLHF2026年4月28日arXiv PDF

arXiv

Exploring the Potential of Probabilistic Transformer for Time Series Modeling: A Report on the ST-PT Framework

检验 Probabilistic Transformer 这一“Transformer 等价于在 CRF 上做 MFVI”的解释框架，能否扩展到时间序列建模并带来可编程的结构归纳偏置。

评如果你关心 Transformer 的可解释建模视角，可以只看它如何把 attention+FFN 写成 MFVI；时间序列部分基本可跳。

Zhangzhi Xiong,Haoyi Wu,You Wu,Shuqi Gu,Kan Ren,Kewei Tu

ShanghaiTech UniversityShanghai Engineering Research Center of Intelligent Vision and Imagingtransformer-theoryprobabilistic-transformerMFVI2026年4月29日arXiv PDF

arXiv

Occam's Razor is Only as Sharp as Your ELBO

针对学界认为ELBO作为变分推断目标可正确体现奥卡姆剃刀避免过拟合的认知偏差，分析ELBO在超参数学习中过拟合的影响因素。

评基础变分推断理论分析，作为文献备查即可，不用读正文。

Ethan Harvey,Michael C. Hughes

Tufts Universityvariational inferenceELBOmodel selection2026年4月28日arXiv PDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

Blog精读🌟

Auto-review of agent actions without synchronous human oversight

讨论编码 Agent 在执行越界或高风险动作时，如何在没有同步人工审批的情况下进行安全审查。

评部署侧护栏，不改预训练 prior；只看策略边界和误拒/漏放例子，别把 auto-review 当训练信号质量证明。

OpenAI Alignment

OpenAIOpenAI Alignmentcoding-agentagent-safetyauto-review2026年4月30日原文

arXiv泛读

SWE-Edit: Rethinking Code Editing for Efficient SWE-Agent

这篇论文解决的是 SWE-agent 中代码编辑接口的上下文耦合问题：同一个 agent 既要探索代码、保留上下文、制定修改方案，又要生成格式严格的编辑指令，导致无关代码堆积在上下文里，并增加编辑格式失败率。

评预训练方向不用细读，直接看编辑接口拆分和 GRPO 编辑格式选择；它更像 Agent 工程里一次干净的上下文隔离实验。

Yikai Zhang,Jiaxin Pei,Kenan Li,Maoquan Wang,Jin Pan,Yu Kang ... 省略 1 位作者 ... ,Elsie Nallipogu,Junjie Hu,Yufan Huang,Zijian Jin

coding-agentsoftware-engineeringcontext-management2026年4月28日arXiv PDF

arXiv泛读

DreamProver: Evolving Transferable Lemma Libraries via a Wake-Sleep Theorem-Proving Agent

这篇工作要解决的是 formal theorem proving 中一个长期存在但常被弱化的问题：系统会解题，但不会稳定积累“可迁移的中层知识”。现有方法要么依赖固定 lemma library，适应性差；要么在每道题里临时生成 problem-specific 的中间引理，虽然能帮助当前证明，却很难在后续题目中复用。DreamProver 的核心问题因此不是单题搜索，而是如何让 proving agent 在一组相关定理上迭代学习、抽象、压缩并沉淀出可复用的 lemma library，从而形成跨题目的能力增长。

评wake-sleep迭代优化知识库的思路可参考用于预训练高质量推理数据合成，只看方法章节即可

Youyuan Zhang,Jialiang Sun,Hangrui Bi,Chuqin Geng,Wenjie Ma,Zhaoyu Li,Xujie Si

University oftheorem-provingagentwake-sleep2026年4月29日arXiv PDF

arXiv

ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation

补足函数级代码生成与仓库级代码编辑之间的评测空档，系统评估模型从规格生成完整类结构的能力。

评基准本身还算干净，能提醒你函数级代码能力被高估了；但这是评测不是方法，读 headline number 和污染控制设计就够，不必深读正文。

Yeheng Chen,Chaoxiang Xie,Yuling Shi,Wenhao Zeng,Yongpan Wang,Hongyu Zhang,Xiaodong Gu

Shanghai Jiao Tong UniversityHohai UniversityChongqing Universitycode-generationbenchmarkclass-level2026年4月29日arXiv PDF

arXiv

OMEGA: Optimizing Machine Learning by Evaluating Generated Algorithms

现有自动ML研究无法实现从算法想法生成到可执行代码的端到端自动化，生成算法泛化性差

评仅作为自动ML Agent的参考案例，无需精读，看摘要即可

Jeremy Nixon,Annika Singh

Stanford UniversityInfinity Artificial Intelligence InstituteInfinity Artificial Intelligence Institute &auto-MLcode-generationagent2026年4月29日arXiv PDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv泛读

FlowBot: Inducing LLM Workflows with Bilevel Optimization and Textual Gradients

这篇工作解决的是 LLM workflow 自动归纳问题：不是只优化单个 prompt，也不是在人工写好的 pipeline 上做局部改写，而是同时学习 workflow 的结构和每个节点的具体提示词。难点在于 workflow 是离散的、文本化的、带工具调用和中间状态传递，无法像神经网络那样直接做数值梯度优化。作者试图回答的问题是：能否用纯文本反馈，把“结构搜索”和“模块优化”统一到一个可迭代的 bilevel optimization 框架里。

评值得扫方法部分：双层优化 workflow 的 framing 干净，但要看实验是否超过 prompt search 的表面收益。

Hongyeon Yu,Young-Bum Kim,Yoon Kim

Massachusetts Institute of Technologyllm-workflowsagent-systemsbilevel-optimization2026年4月29日arXiv PDF

arXiv

OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory

解决长时程 LLM agent 记忆受文本上下文预算限制、摘要压缩又丢失细节的问题。

评想法有趣但更像系统 hack：把 token 预算转成视觉带宽；只看方法图和成本分析，若缺少强 benchmark，别把它当通用记忆范式。

Jinze Li,Yang Zhang,Xin Yang,Jiayi Qu,Jinfeng Xu,Shuo Yang,Junhua Ding,Edith Cheuk-Han Ngai

The University ofUniversity of TsukubaYonsei University+2agent-memorylong-horizonocr2026年4月29日arXiv PDF

arXiv

StratMem-Bench: Evaluating Strategic Memory Use in Virtual Character Conversation Beyond Factual Recall

评测虚拟角色对话中模型是否能策略性使用长期记忆，而不只是机械检索事实。

评记忆评测切分有点细，但规模偏小；看指标定义即可，不必按预训练 benchmark 对待。

Yerong Wu,Tianxing Wu,Minghao Zhu,Hangyu Sha,Haofen Wang

Southeast UniversityTongji UniversityKey Laboratory of New Generation Artificial Intelligence Technology and+1agent-memorydialogue-benchmarkvirtual-characters2026年4月29日arXiv PDF