📚Papers

AI Research Daily

更新时间: 2026/5/1 00:32:59

71
🌟 4 重点
🔥 行业动态 1🧠 预训练 2 高效推理 15🌐 多模态统一 5🎨 多模态生成 2🛠️ 后训练 13🔬 原理分析 18💻 Coding Agent 5🤖 Agent 10
其他 37 篇看总结即可

方法或结果明显独立成立的工作,建议读全文

精读行业动态与观点

Introducing Advanced Account Security

介绍 OpenAI 账户安全功能,包括抗钓鱼登录、更强恢复流程和敏感数据保护。

OpenAIOpenAI Researchaccount-securityproduct-updatephishing-resistance
精读LLM 预训练

Language Diffusion Models are Associative Memories Capable of Retrieving Unseen Data

论文研究离散语言扩散模型什么时候是在记忆训练样本,什么时候进入能稳定恢复未见样本的生成区间。它把 Uniform-based Discrete Diffusion Models 解释为一种 associative memory,并用 token recovery 和 conditional entropy 来量化训练样本与测试样本周围的吸引盆。

Rensselaer Polytechnic InstituteRadboud Universitydiffusion-LMassociative-memorymemorization
精读高效推理与架构

When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding?

解释并缓解 hidden-state-based speculative decoding 在长 speculative step 下 draft accuracy 衰减的问题。

Qwen Applications Business Group of AlibabaUniversity of Science and Technology ofspeculative-decodingkv-cacheinference-efficiency
精读LLM 后训练

Addressing Performance Saturation for LLM RL via Precise Entropy Curve Control

这篇论文要解决的是 LLM 强化学习里一个越来越突出的瓶颈:训练继续加长、采样继续加大,但性能很快进入平台期,原因之一是策略熵过快塌缩,模型过早收缩到狭窄解空间,后续几乎失去探索能力。已有方法会加 entropy regularization、clip 或正负样本解耦来抬高熵,但熵曲线往往只能粗放调节,不是掉得太快,就是后期反弹过高,训练变得不稳。作者想解决的不是“让熵更高”这么简单,而是“能否像控制学习率一样,按目标曲线精确控制 RL 过程中的熵演化”。

Purdue Universityrl-for-llmentropy-controlexploration
精读LLM 原理与机制

Where the goblins came from

分析 GPT-5 中“goblin”式人格化异常输出如何出现、扩散,以及 OpenAI 如何定位根因并修复。

OpenAIOpenAI Researchmodel-behaviorpost-trainingroot-cause-analysis
精读Coding Agent

Auto-review of agent actions without synchronous human oversight

讨论编码 Agent 在执行越界或高风险动作时,如何在没有同步人工审批的情况下进行安全审查。

OpenAIOpenAI Alignmentcoding-agentagent-safetyauto-review
来源
机构
阅读分级
标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点(注意:推理加速/注意力优化等技术论文不算行业动态)

介绍 OpenAI 账户安全功能,包括抗钓鱼登录、更强恢复流程和敏感数据保护。

账户安全产品说明,和模型研究无关;作为 OpenAI 平台动态知道即可,不进入论文队列。
OpenAI Research
OpenAIOpenAI Researchaccount-securityproduct-updatephishing-resistance2026年4月30日原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

论文研究离散语言扩散模型什么时候是在记忆训练样本,什么时候进入能稳定恢复未见样本的生成区间。它把 Uniform-based Discrete Diffusion Models 解释为一种 associative memory,并用 token recovery 和 conditional entropy 来量化训练样本与测试样本周围的吸引盆。

这篇会改你看 diffusion LM 的角度:别只盯 perplexity,要看它是在形成训练样本吸引域还是测试样本吸引域;建议先复现 transition 曲线,再谈范式优劣。
Bao Pham,Mohammed J. Zaki,Luca Ambrogioni,Dmitry Krotov,Matteo Negri
Rensselaer Polytechnic InstituteRadboud UniversityCY Cergy Paris Université+3diffusion-LMassociative-memorymemorization2026年4月29日arXivPDF

这篇论文处理的是 diffusion LLM 的跨架构蒸馏问题:如何把大规模 dLLM 教师的知识迁移到小 dLLM 学生上,同时允许二者在架构、注意力机制和 tokenizer 上都不一致。难点不只是常规的 teacher-student capacity gap,而是 diffusion timestep 会改变教师信号可靠性,高噪声下上下文严重不足,不同词表又让 token-level KL 这类标准蒸馏目标无法直接使用。

跨架构dLLM蒸馏的首个可行方案,损失设计可直接复现用于内部dLLM小模型迭代,重点看§3.3的Reverse CALM部分
Gongbo Zhang,Wen Wang,Ye Tian,Li Yuan
Peking UniversityZhejiang Universitydiffusion language modelknowledge distillationcross-architecture transfer2026年4月29日arXivPDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

解释并缓解 hidden-state-based speculative decoding 在长 speculative step 下 draft accuracy 衰减的问题。

值得看机制分析部分;它把 speculative decay 从训练错配改写成上下文压缩问题,可能影响 drafter 设计。
Tianyu Liu,Yuhao Shen,Xinyi Hu,Baolin Zhang,Hengxin Zhang,Jun Dai ... 省略 1 位作者 ... ,Shuang Ge,Lei Chen,Yue Li,MingCheng Wan
Qwen Applications Business Group of AlibabaUniversity of Science and Technology ofZhejiang Universityspeculative-decodingkv-cacheinference-efficiency2026年4月29日arXivPDF

论文解决 speculative decoding 中两个改进方向未被统一的问题:多 draft 可以增加候选覆盖,block verification 可以提高单轮接受长度,但现有方法通常只利用其中一个。

做 serving 或推测解码的人可以看;先看理论假设和 wall-clock 表,若 i.i.d. draft 假设太强,这篇更像漂亮上界而不是可直接落地的方法。
Yijun Lin,Jinhao Sheng,Qingyue Cai,Feng Zhou
speculative-decodinginference-accelerationblock-verification2026年4月1日arXivPDF

在固定设备数下同时使用 Tensor Parallelism(TP,切权重)与 Sequence Parallelism(SP,切序列)时,传统做法需要两条正交 mesh 轴,导致模型并行占用 T×Σ 个 rank,挤压 Data Parallel(DP)副本数;同时 TP 的通信量随序列长度增长、SP 的注意力负载易不均衡。论文要解决的是:能否把 TP+SP 的内存收益“折叠”到同一条设备轴上,在不增加通信到不可接受的前提下,同时降低参数/激活内存,并把省下的轴还给 DP。

看并行 schedule 和通信表;若 wall-clock 没被通信吃掉,这类折叠 mesh 轴会影响训练集群排布。
Vasu Shyam,Anna Golubeva,Quentin Anthony
available for the others. In particulartensor-parallelismsequence-parallelismmemory-efficiency2026年4月29日arXivPDF

RL 后训练的主要耗时正在从反向传播转向 rollout 生成。论文关心的是:能否把 speculative decoding 作为一种不改变采样分布的系统原语,接入真实 RL 训练循环,而不是只在静态推理服务里做加速。

不是方法论文,是把 speculative decoding 真接进 RL 环路;若你关心 RL 成本曲线,这类系统细节比又一个 DPO 变体更该看,先盯吞吐和分布一致性验证。
Hayate Iso,Tiyasa Mitra,Sudipta Mondal,Rasoul Shafipour,Venmugil Elango,Terry Kong ... 省略 8 位作者 ... ,Ashwath Aithal,Ritika Borkar,Ran Zilberstein,Bita Rouhani
speculative-decodingRLHFrollout-acceleration2026年4月29日arXivPDF

长上下文推理时 KV cache 线性增长带来显存瓶颈。现有 eviction 多是经验启发式(按注意力分数、按多样性等),缺少统一目标与可解释的“为什么这样删”。论文要解决的是:能否给 KV eviction 一个信息论目标,并据此导出低开销、效果稳定的删缓存策略。

只看推导和实验主表;若 log-det 代理在多模型上稳,这会改变 KV eviction 还停留在启发式调参的默认做法。
Jiaming Yang,Chenwei Tang,Liangli Zhen,Jiancheng Lv
kv-cachelong-contextinformation-bottleneck2026年4月28日arXivPDF

现有生产环境的MoE融合内核调度仅基于batch size选择配置,忽略运行时动态变化的专家路由分布,导致10%~70%的内核吞吐量损失。

MoE serving 相关值得扫 §性能模型和实验表;它不改训练,但会影响路由设计的真实成本假设。
Vyom Sharma,Debajyoti Datta
MoEinferencekernel-dispatch2026年4月28日arXivPDF

现有以GPU为中心的LLM推理架构与长上下文解码阶段注意力的内存绑定特性严重不匹配,GPU上大量计算单元闲置,功耗和芯片面积浪费严重,1M token级上下文下注意力延迟成为主要用户感知瓶颈。

只看架构和评估假设即可;它不会改变预训练方法,但会约束你对 1M context 模型可服务性的判断。
Zhongkai Yu,Haotian Ye,Chenyang Zhou,Ohm Rishabh Venkatachalam,Zaifeng Pan,Zhengding Hu ... 省略 2 位作者 ... ,Po-An Tsai,Shuyi Pei,Yangwook Kang,Yufei Ding
University ofColumbia UniversityYonsei University+5long-contextattention-servingmemory-bandwidth2026年4月28日arXivPDF

这篇工作解决的是长上下文 LLM serving 里的一个系统落地问题:动态 sparse attention 在算法上能显著减少每步需要访问的 KV,但一旦进入真实推理系统,稀疏模式不统一、GPU-CPU 分层存储下的细粒度随机取数、以及不断膨胀的元数据管理,会把理论节省大幅吃掉。作者要做的不是再提一种新的 sparse attention 算法,而是给不同稀疏算法提供统一执行抽象和分层 KV 管理框架,让“稀疏”真正转化成端到端吞吐和时延收益。

微软的系统工作,指出了稀疏注意力在分层 KV 缓存下的落地痛点,提出的 SPIN 框架对长上下文 Serving 优化很有参考价值。
Zihan Zhao,Baotong Lu,Shengjie Lin,Yizou Chen,Jing Liu,Yanqi Zhang ... 省略 1 位作者 ... ,Ming-Chang Yang,Haiying Shen,Qi Chen,Fan Yang
Microsoft ResearchUniversity ofGeorgia Institute of Technology+1Long-ContextSparse AttentionKV Cache2026年4月29日arXivPDF

这篇工作指出了一个此前容易被忽略的 serving 安全问题:当多用户请求被合并进同一 batch,并且系统对激活采用跨 batch 的动态量化时,量化参数会由所有样本共同决定,从而形成跨用户的信息侧信道。攻击者只要能与受害者同 batch,并观察自己输出中的细微扰动,就可能反推出受害者输入的内容或属性。

预训练本身不用细读;做 serving 或评测量化方案时应看攻击设定,别把动态量化当无状态优化。
Hanna Foerster,Ilia Shumailov,Cheng Zhang,Yiren Zhao,Jamie Hayes,Robert Mullins
University ofdynamic-quantizationserving-securityprivacy-leakage2026年4月29日arXivPDF

这篇工作处理的是一个很具体但现实的系统问题:在客户端 GPU 显存受限、CPU-GPU 带宽有限、请求形态不断变化的条件下,怎样无损地运行较大规模的 LLM 和高分辨率 VLM,并且同时兼顾首 token 延迟(TTFT)和解码吞吐(TPS)。已有方案通常只覆盖其中一部分场景:有的偏重 decode 阶段,有的只适合 dense 模型,有的对 MoE 或高分辨率视觉输入支持不足,也很少能在用户指定的 VRAM 预算下自适应选择最优执行计划。

读系统设计和 profiling 规则即可;若实验覆盖真实 MoE/VLM 端侧负载,对架构可部署性有弱反馈。
Aditya Ukarande,Deep Shekhar,Marc Blackstein,Ram Rangan
client-inferenceCPU-GPU-offloadingVRAM-constrained2026年4月29日arXivPDF

当一个文档上下文需要生成多条相互独立的输出序列时,如何打破自回归串行解码的吞吐瓶颈。

别被“打破自回归”标题带跑偏:它是特定任务的并行化技巧;只看 independence 假设验证和 position-ID 乱序生成实现,评估能否迁移到你的离线批处理场景。
Theodore Glavas,Nikhita Vedula,Dushyanta Dhyani,Yilun Zhu,Shervin Malmasi
McGill UniversityMila - Quebec AI InstituteAmazon.com+1decodinginference-optimizationparallel-generation2026年4月29日arXivPDF

解决边缘设备与云协同部署 VLM 时,固定大小视觉表示在带宽波动下既浪费传输又拖慢时延的问题。

这是部署侧工作,不改预训练 prior;只看方法图和带宽-精度曲线,判断视觉 token 渐进传输是否值得纳入系统约束。
Cyril Shih-Huan Hsu,Wig Yuan-Cheng Cheng,Chrysa Papagianni
edge-cloudvlm-inferenceprogressive-communication2026年4月29日arXivPDF

边缘设备运行 LLM 推理时,KV cache 经常超过显存或内存预算,现有 NVMe offloading 方案在内存压力下延迟不稳定。

Serving 方向的工程信号;读 I/O 路径设计和延迟分解,对 pretrain 只提供部署约束。
Bodon Jeong,Hongsu Byun,Youngjae Kim,Weikuan Yu,Kyungkeun Lee,Jihoon Yang,Sungyong Park
Sogang UniversityFlorida State UniversitySamsung Electronics+4kv-cachenvme-offloadingedge-inference2026年4月29日arXivPDF

现有混合精度训练后量化方法仅基于激活统计选择高精度保留子空间,忽略线性层输出扰动由权重与激活量化噪声共同驱动的本质,导致超低位量化精度损失过高

加权PCA选择高精度子空间的思路可用于预训练量化感知训练的子空间保留设计,仅看公式推导部分即可
Zhe Ding,Su Pan,Duowei Pan
南京邮电大学物联网学院Nanjing University of Posts and Telecommunicatiopost-training quantizationmixed-precision quantizationLLM inference2026年4月29日arXivPDF

解决 MoE 模型 serving 时必须常驻全部 experts 导致显存和资源利用率低的问题,尤其关注多租户场景下的 expert 空闲浪费。

只看系统设计和 granularity tradeoff;它不会改变 MoE 训练 prior,但能提醒 expert 数量不是免费的线上容量。
Minghe Wang,Trever Schirmer,Mohammadreza Malekabbasi,David Bermbach
MoE-servingserverlessFaaS2026年4月29日arXivPDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

这篇工作要解决的是:如果目标不是做一个“能看图的聊天模型”,而是做一个真正可执行多模态 agent 的基础模型,那么视觉感知、语言推理、工具调用、规划和执行应该怎样在同一个训练体系里被原生整合。论文关心的核心矛盾有两个。第一,多模态能力常常被当作外挂接口接到语言模型上,导致视觉只负责提供局部证据,无法深度参与推理和行动。第二,agent 能力如果直接端到端优化,训练信号稀疏、验证困难、任务定义不稳定,容易学到脆弱策略。GLM-5V-Turbo 试图通过新的视觉编码器、适配多模态输入的 multi-token prediction、深度融合的多模态训练,以及大规模多任务 RL,把“看、想、用工具、执行”放进一个更统一的基础模型框架。

值得看训练与 RL 章节;若只是 benchmark 堆分就降权,但 native 多模态 Agent 的 recipe 对内部路线有参考。
GLM-V Team,:,Wenyi Hong,Xiaotao Gu,Ziyang Pan,Zhen Yang ... 省略 69 位作者 ... ,Juanzi Li,Minlie Huang,Yuxiao Dong,Jie Tang
Z.aiTsinghua UniversityZ.ai & Tsinghua Universitymultimodal-agentVLMnative-multimodal2026年4月29日arXivPDF

这篇工作要解决的不是视频理解模型本身,而是一个更前置的问题:怎样把 HowTo100M 这类噪声很大的野生 instructional video,自动转成可用于训练长时程视频-语言模型的高质量、时序对齐、步骤级标注数据。难点有两个。第一,ASR 文本噪声重,口语化、指代多、冗余多。第二,讲解和实际动作经常不同步,旁白可能早于或晚于视觉动作。如果直接拿原始 transcript 训练,模型学到的是错位的语言-视觉对应关系,长视频 procedural reasoning 会被系统性污染。论文的目标,是在不额外训练标注模型的前提下,用现成 VLM/LLM 搭出一个可扩展的数据生产流水线,把长视频切成视觉一致的片段,生成步骤描述,再做语义和时间上的校正与合并。

值得扫方法和数据质检部分;它反映了长视频预训练数据从抓取转向模型辅助清洗的工程路线。
Mingji Ge,Qirui Chen,Zeqian Li,Weidi Xie
Shanghai Jiao Tong Universityvideo-understandingdata-curationvlm2026年4月29日arXivPDF

这篇工作要解决的不是一般的图文理解,而是 VLM 在“动态空间推理”上的短板:给定当前视角和一个自运动轨迹,模型往往不能稳定推断场景会如何变化,也不能从视角变化反推出相机动作。已有两条路各有明显问题:一条是继续堆静态空间数据和合成监督,但缺少显式的动作→状态转移建模;另一条是在推理时外挂 world model 做 imagination,但代价高,而且能力没有真正写进 VLM 参数里。World2VLM 的核心问题因此很明确:能不能把 world model 作为训练期教师,把“动作条件下的视角转移规律”蒸馏进 VLM 本身,让部署时仍然只用普通 VLM 推理。

值得看的是“把 world model 当教师而不是外挂模块”这个接口设计;先读训练 recipe 和对比 test-time coupling 的表,别把它误当成预训练突破。
Wanyue Zhang,Wenxiang Wu,Wang Xu,Jiaxin Luo,Helu Zhi,Yibin Huang,Shuo Ren,Zitao Liu,Jiajun Zhang
Chinese Academy of SciencesUniversity of Chinese Academy of SciencesTsinghua University+3VLMworld-modeldistillation2026年4月29日arXivPDF

现有 UI 理解评测多依赖静态截图,无法回答 VLM 是否理解界面动画所表达的状态变化、反馈和交互含义。

只看任务定义和错误类型即可;它提醒 native multimodal 训练别只吃截图,但 300 条数据不足以支撑强结论。
Chen Liang,Xirui Jiang,Naihao Deng,Eytan Adar,Anhong Guo
University ofvlm-evaluationui-understandinggui-agent2026年4月28日arXivPDF

诊断并改善 MLLM 在表盘读数任务中只看外观、不保持真实物理状态一致性的问题。

只看 probing 结果即可;它把 VLM 细粒度状态变量学不稳这件事测得比较干净,但任务窄,不足以改训练路线。
Yuanze Hu,Gen Li,Yuqin Lan,Qingchen Yu,Zhichao Yang,Junwei Jing,Zhaoxin Fan,Xiaotie Deng
Beihang UniversityFudan UniversityPeking UniversityMLLMvisual-groundingstate-consistency2026年4月29日arXivPDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

检验语音生成中常用的“情感嵌入相似度”指标是否真的能评估生成语音的情感表达质量。

如果你做语音 LM 或 TTS 评测,这篇能帮你避开一个常见坏指标;否则只记住结论:embedding similarity 可能在奖励声学模仿,不必细读正文。
Yun-Shao Tsai,Yi-Cheng Lin,Huang-Cheng Chou,Tzu-Wen Hsu,Yun-Man Hsu,Chun Wei Chen,Shrikanth Narayanan,Hung-yi Lee
National Taiwan UniversityUSA 3 Gilbert AI Labspeech-generationevaluationemotion-embedding2026年4月29日arXivPDF

解决扩散图像和视频生成中全局统一 CFG scale 导致的语义不足、结构退化、过饱和和视频不一致问题。

不必通读;看 CFG 几何解释和 guidance 上界即可,可能迁移到 diffusion LM 的采样控制。
Haosen Li,Wenshuo Chen,Lei Wang,Shaofeng Liang,Bowen Tian,Soning Lai,Yutao Yue
The Hong Kong University of Science and Technology (Guangzhou)Griffith UniversityData61/CSIRO+1diffusion-modelsclassifier-free-guidancesampling2026年4月29日arXivPDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

这篇论文要解决的是 LLM 强化学习里一个越来越突出的瓶颈:训练继续加长、采样继续加大,但性能很快进入平台期,原因之一是策略熵过快塌缩,模型过早收缩到狭窄解空间,后续几乎失去探索能力。已有方法会加 entropy regularization、clip 或正负样本解耦来抬高熵,但熵曲线往往只能粗放调节,不是掉得太快,就是后期反弹过高,训练变得不稳。作者想解决的不是“让熵更高”这么简单,而是“能否像控制学习率一样,按目标曲线精确控制 RL 过程中的熵演化”。

这篇会改变你把“熵塌缩”只当监控指标的习惯:若实验控制干净,应立刻复现其 entropy schedule ablation,看 RL 饱和是不是训练配方问题而非模型上限。
Bolian Li,Yifan Wang,Yi Ding,Anamika Lochab,Ananth Grama,Ruqi Zhang
Purdue Universityrl-for-llmentropy-controlexploration2026年4月29日arXivPDF

论文研究一个安全对齐中的路径依赖问题:模型可能拒绝直接的有害请求,但如果先让模型逐词生成或接受一串与有害目标相关的上下文,再发起完整请求,拒绝机制会明显变弱。

读机制分析和失败轨迹对比即可;它提醒拒答可能是轨迹敏感表征,不是语义级安全判别器。
Samee Arif,Naihao Deng,Zhijing Jin,Rada Mihalcea
University ofjailbreaksafety-alignmentrefusal-representation2026年4月1日arXivPDF

CoT 推理的 token 很长,推理成本高。现有压缩多从“减少推理内容”(蒸馏、latent reasoning)入手,但很少分析推理文本内部的信息结构。论文要解决的是:能否在不删推理步骤、保持可读 CoT 的前提下,仅通过改变 tokenization,把推理里大量低信息密度的“结构性套话”压缩成更少 token,从而降低推理时的 token 数与计算。

思路不大,但切口干净:把CoT里低熵模板显式token化再SFT,值得看方法和误差条;若你做latent reasoning或reasoning compression,可直接复现。
Zhenyu Zhao,Sander Land,Dan Bikel,Waseem Alshikh
Writerchain-of-thoughtreasoning-compressionsupertokens2026年4月29日arXivPDF

解决多语言 LLM 在目标语言生成中出现“语言混淆”时,序列级偏好优化过于粗糙、容易伤及通用能力的问题。

值得看的是“局部改、少伤主干”这个后训练思路;先读误差定位和 ablation,若收益主要来自更干净的负样本而非 token-level 目标,方法新意会打折。
Jinho Choo,JunSeung Lee,Jimyeong Kim,Yeeho Song,S. K. Hong,Yeong-Dae Kwon
multilingualpreference-optimizationtoken-level-rl2026年4月29日arXivPDF

在不改模型、不加训练的前提下,如何把“test-time scaling”的额外算力用在刀刃上:对不同难度/不确定性的题目,动态选择更合适的推理增强策略(投票 vs 重写再推理),避免在简单题上浪费采样、在难题上陷入投票的边际收益递减。

利用 disagreement 作为 test-time scaling 路由信号的思路很实用,对设计推理阶段的 compute allocation 策略有启发,值得看其路由机制的设计。
Zhimin Lin,Yixin Ji,Jinpeng Li,Yu Luo,Dong Li,Junhua Fang,Juntao Li,Min Zhang
Soochow UniversityHuaweiHarbin Institute of Technology+1Test-Time ScalingReasoningCompute Allocation2026年4月29日arXivPDF

这篇论文要解决的是 LLM 强化学习训练中的 rollout 吞吐瓶颈。同步训练会被最长生成样本卡住,而数学、代码和长 CoT 任务的生成长度分布很偏,99 分位长度可比中位数高一个数量级以上。直接异步化又会引入 stale trajectory,破坏 PPO/GRPO 等算法依赖的策略一致性。

异步 RL 不是新点,但把“正确性约束”讲清并围绕长尾轨迹做编排是可落地的;只看三条约束定义+他们如何控 staleness。
Tianhao Hu,Xiangcheng Liu,Youshao Xiao,Yang Zheng,Xuan Huang,Jinrui Ding ... 省略 8 位作者 ... ,Qi Gu,Yerui Sun,Yucheng Xie,Xunliang Cai
RLHFasynchronous-rolloutsystems2026年4月29日arXivPDF

这篇工作处理的是 reasoning post-training 里一个很具体但一直没有讲透的问题:怎样在不依赖更强外部 teacher 的前提下,把 on-policy 轨迹和 token-level 稠密监督结合起来,而且这种监督既要贴近模型真实会访问到的状态,又不能因为把完整标准解直接喂给 teacher 分支而变成对单一路径的过拟合。作者把已有 privileged on-policy self-distillation 重新解释为“同一个模型在额外解题上下文下,对学生当前前缀进行局部重打分”,然后指出两个关键缺口:一是训练时到底该暴露多少标准解;二是哪些 token 位置真的值得施加 teacher 校准,而不是把损失浪费在表述风格和机械续写上。

探讨了自蒸馏中特权信息的利用度问题,动态 Mask 机制和能量空间插值的思路对优化推理模型的 Post-training 有启发,值得一看。
Zhiquan Tan,Yinrong Hong
Tsinghua UniversityBeihang UniversitySelf-DistillationReasoningPost-training2026年4月29日arXivPDF

这篇论文要解决的是:在工具调用型 LLM agent 中,如何把“模型不会安全地做”与“模型知道安全做法、但在被监控和被奖励压力改变时选择不安全做法”区分开。现有 alignment faking 检测主要看对话和 CoT,但 CoT 不一定忠实,也可能根本不外显策略性推理。Tatemae 把检测信号转到可观察的二元工具选择上。

安全评测有一个干净的新观测接口;看形式化和结果表,别把 3.5–23% 当稳定基准。
Matteo Leonesi,Francesco Belardinelli,Flavio Corradini,Marco Piangerelli
University of CamerinoImperial Collegealignment-fakingtool-usesafety-evaluation2026年4月29日arXivPDF

面向特定任务的迭代式自合成数据适配中,如何避免噪声/冗余/分布偏移导致的“越训越差”。

当作“合成数据闭环里必须做 selection”的提醒即可;等正文确认 selection 信号是否干净、是否只是启发式去重再决定要不要细读。
Ting-Wei Li,Sirui Chen,Jiaru Zou,Yingbing Huang,Tianxin Wei,Jingrui He,Hanghang Tong
University of Illinois Urbana-Champaignsynthetic-datadata-selectioniterative-training2026年4月28日arXivPDF

如何防御论文评审场景中嵌入式隐藏提示对LLM reviewer的操纵攻击。

和预训练关系不大,但“动态攻击生成优于静态红队集”这个点值得记;只看对抗训练设定和跨攻击泛化结果,别投入太多时间。
Yuan Xin,Yixuan Weng,Minjun Zhu,Ying Ling,Chengwei Qin,Michael Hahn,Michael Backes,Yue Zhang,Linyi Yang
Westlake UniversityHKUST (Guangzhou)Saarland University+2prompt-injectionadversarial-trainingllm-safety2026年4月29日arXivPDF

现有提升小语言模型推理能力的方法要么需要调用大模型引入额外延迟,要么蒸馏受限于SLM容量效果不佳

局部sufficiency假设对SLM后训练蒸馏有参考价值,只看假设验证的Fig2即可
Wenxuan Ye,Yangyang Zhang,Xueli An,Georg Carle,Yunpu Ma
Technical University ofAlibaba Cloudsmall language modelknowledge distillationreasoning enhancement2026年4月29日arXivPDF

现有LoRA-MoE微调框架采用跨Transformer模块统一的固定专家配置,忽略不同模块的容量需求差异,且全程强制负载均衡限制训练后期专家专业化,导致参数冗余、训练开销过高

MoE专家利用率追踪思路可迁移到预训练MoE容量规划参考,仅阅读方法部分即可
Weihang Li,Jianchun Liu,Hongli Xu
中国科学技术大学苏州高等研究院University of Science and Technology ofLoRA-MoEparameter-efficient fine-tuningexpert pruning2026年4月29日arXivPDF

在多客户端资源和数据异构条件下,如何用 federated split learning 对 LLM 做隐私保护式微调,并降低通信和计算压力。

只看异构 cut-layer 策略和通信表;若没有强 baseline,就是常规联邦微调系统。
Yimeng Shan,Zhaorui Zhang,Sheng Di,Yu Liu,Xiaoyi Lu,Benben Liu
Hong Kong Polytechnic UniversityArgonne National LaboratoryUniversity of+6federated-learningsplit-learningLLM-finetuning2026年4月29日arXivPDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

分析 GPT-5 中“goblin”式人格化异常输出如何出现、扩散,以及 OpenAI 如何定位根因并修复。

如果正文给出可复现 root-cause 链条,应读;它关系到 post-train 风格信号如何污染模型行为。
OpenAI Research
OpenAIOpenAI Researchmodel-behaviorpost-trainingroot-cause-analysis2026年4月29日原文

这篇工作处理的是 diffusion LLM 的幻觉检测问题,但切入点不是常见的输出置信度或最终答案一致性,而是去利用去噪轨迹里的中间隐藏状态。作者的判断是:D-LLM 的错误不是只在最终答案里显现,很多幻觉信号会在若干去噪步、若干层里提前出现、反复波动,且分布很稀疏。难点不在于“有没有轨迹”,而在于如何从高维、长轨迹、跨层的隐藏状态里提取出少量真正有判别力的证据,并把这些证据转成可训练、可解释的检测信号。

别把它当“更好的幻觉检测器”,而是当 D-LLM 轨迹可读出的证据:只看 evidence 选择策略和 verifier 的 prefix-conditioning,能启发训练时的轨迹监督。
Guoshenghui Zhao,Weijie Zhao,Tan Yu
Rochester Institute of TechnologyNVIDIA Corporationdiffusion-lmhallucination-detectiontrajectory-features2026年4月28日arXivPDF

这篇工作处理的是 test-time scaling 里的一个老问题:当同一个问题采样出多条推理轨迹后,如何不用外部 reward model、也不依赖多数投票,单靠模型自身生成过程中的内在信号,稳定地区分“早期探索但最终收敛”的好轨迹和“后期持续混乱”的坏轨迹。作者认为,问题不在于熵这个信号本身无效,而在于 token 级熵太噪,简单平均又会抹掉时间结构,因此需要一个更粗粒度、带位置信息的 uncertainty 表示。

值得扫 §方法和主表;若 HEP 消融干净,它会改变只看平均熵做 self-selection 的默认做法。
Wenshuo Zhao,Qi Zhu,Xingshan Zeng,Fei Mi,Lifeng Shang,Yiren Feng
test-time-scalinguncertaintyentropy2026年4月28日arXivPDF

研究模型在更接近真实生活的杂乱、动态、未整理上下文中进行 context learning 的能力,而不是在人工清洗好的上下文里取巧。

这类工作不改训练范式,但会改你看长上下文结果的口径;先看任务构造和 clean-vs-messy 的性能落差,若掉点很大,内部评测集该重做。
Shihan Dou,Pluto Zhou
TencentTencent Hunyuancontext-learningbenchmarklong-context2026年4月26日原文

现有对大语言模型表征空间结构的认知不足,无法清晰关联预训练过程中的信息留存、遗忘机制与下游性能、模型泛化性的对应关系。

把“预训练是压缩”落到可算指标并能预测下游,这点值得看;但 IB 量的估计往往依赖强假设,先核对他们的估计方法与 ablation 是否足够干净。
Henry C. Conklin,Tom Hosking,Tan Yi-Chern,Julian Gold,Jonathan D. Cohen,Thomas L. Griffiths,Max Bartolo,Seraphina Goldfarb-Tarrant
Princeton UniversityCohere◦Princeton Universityinformation-bottleneckrepresentation-analysisforgettingarXivPDF原文

为有限深度、有限宽度 Transformer 的逐层 token 演化建立随机 scaling limit,并分析噪声如何导致 token 动态同步。

看定理条件而不是结论标题;若 coercive noise 假设太强,它更像分析玩具模型,但同步机制值得记。
Andrea Agazzi,Giuseppe Bruno,Eloy Mosig García,Samuele Saviozzi,Marco Romito
University of BernUniversity of PisaUniversity of Bern (CH)+1transformer-theorystochastic-limitsmean-field2026年4月29日arXivPDF

现有预测/forecasting benchmark多给leaderboard但难解释“为什么更准”,缺少可复现实验环境来分解研究能力与判断能力,并评估代理的战略推理缺陷。

作为“可复现forecasting+trace”的评测靶标还不错;只看任务设定与误差分解结论,别把0.004灵敏度当成普适统计保证。
Tom Liptay,Dan Schwarz,Rafael Poyiadzi,Jack Wildman,Nikos I. Bosse
FutureSearchbenchmarkforecastingreasoning-traces2026年4月28日arXivPDF

构建 DenialBench,测量 115 个模型在自我经验、偏好和意识相关问题上的否认或回避行为。

看摘要和主要统计即可;题目噪声大,但“词汇否认不等于概念回避”可作对齐副作用线索。
Skylar DeTure
Independent Researchermodel-behavioralignmentbenchmark2026年4月1日arXivPDF

整理 NLP 评测方法论中的长期争议,并给出一套评测关注点 taxonomy 和 checklist。

不必通读;做新 benchmark 或 internal eval spec 时翻 taxonomy/checklist,避免重复踩老坑。
Ruchira Dhar,Anders Søgaard
University of Copenhagenevaluationbenchmarkingnlp-methodology2026年4月1日arXivPDF

解释一个常见但说不清的现象:为什么 LLM 生成内容常被评价为流畅、讨喜,却又显得空洞、套路化。

不是技术 paper,但问题意识是对的:若你在做 preference data 或 creative coding,值得把“模型在优化讨喜而非新颖”当成一个可测假设记下来,正文未必需要细读。
Xenia Klinge,Stefan Ortlieb,Alexander Koller
Saarland UniversityUniversity of Bambergcreativitypreference-modelingevaluation2026年4月1日arXivPDF

在语义解析的结构泛化(SLOG)上,如何不依赖手写组合规则仍能学到可组合的结构变换。

和预训练不直接相关,但作为“结构归纳偏置”案例可备查:只看它如何用离散瓶颈+局部迭代拿到低方差泛化,以及失败机制的归因段落。
Zichao Wei
Saarland Universitystructural-generalizationsemantic-parsingneural-cellular-automata2026年4月28日arXivPDF

研究在认知资源受限时,语言模型的句子理解策略是否会像人类一样从句法驱动转向更依赖语义合理性的推断。

不是训练方法论文,但实验范式挺干净;如果你关心“推理像不像资源受限搜索”,看任务设计即可,别指望它直接指导预训练配方。
Rei Emura,Saku Sugawara
Tohoku UniversityNational Institute of InformaticsThe University ofmechanistic-analysissentence-comprehensioncognitive-modeling2026年4月29日arXivPDF

检验神经符号系统中一个常被默认接受的假设:只要学好符号 grounding,组合推理能力就会自然出现。

结论对“对齐好感知就会长出推理”这个直觉有修正,但证据来自受控神经符号环境;看任务拆解和泛化 taxonomy,别把绝对数值当成 LLM 结论。
Mahnoor Shahid,Hannes Rothe
compositional-generalizationneuro-symbolicgrounding2026年4月29日arXivPDF

LLM在教育咨询场景下的社会人口学偏见缺乏系统的多维度量化评估。

教育场景下的偏见评估结论可作为对齐阶段参考,仅看核心结论部分即可。
Tomasz Adamczyk,Wiktoria Mieleszczenko-Kowszewicz,Beata Bajcar,Grzegorz Chodak,Aleksander Szczęsny,Maciej Markiewicz,Karolina Ostrowska,Aleksandra Sawczuk,Przemysław Kazienko
Wrocław University of Science and TechnologyUniversity of Silesia in Katowicedata+1bias evaluationLLM safetyeducational LLM2026年4月3日arXivPDF

现有术语“幻觉”无法覆盖LLM作为交互Agent时的一类现实边界失效类行为故障。

提出的LLM故障分类框架对对齐阶段故障排查有参考,无需精读全文。
Ashutosh Raj
LLM failure modehallucinationdiagnostic framework2026年4月7日arXivPDF

把 logit lens、activation patching、SAE attribution 等机制解释工具迁移到 reward model,因为 reward model 输出标量而不是词表 logits。

作为 reward model 排障工具备查即可;核心假设是 w_r 轴足够解释 reward,结论强度要看案例是否干净。
Mohammed Suhail B Nadaf
reward-modelsinterpretabilityRLHF2026年4月28日arXivPDF

检验 Probabilistic Transformer 这一“Transformer 等价于在 CRF 上做 MFVI”的解释框架,能否扩展到时间序列建模并带来可编程的结构归纳偏置。

如果你关心 Transformer 的可解释建模视角,可以只看它如何把 attention+FFN 写成 MFVI;时间序列部分基本可跳。
Zhangzhi Xiong,Haoyi Wu,You Wu,Shuqi Gu,Kan Ren,Kewei Tu
ShanghaiTech UniversityShanghai Engineering Research Center of Intelligent Vision and Imagingtransformer-theoryprobabilistic-transformerMFVI2026年4月29日arXivPDF

针对学界认为ELBO作为变分推断目标可正确体现奥卡姆剃刀避免过拟合的认知偏差,分析ELBO在超参数学习中过拟合的影响因素。

基础变分推断理论分析,作为文献备查即可,不用读正文。
Ethan Harvey,Michael C. Hughes
Tufts Universityvariational inferenceELBOmodel selection2026年4月28日arXivPDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

讨论编码 Agent 在执行越界或高风险动作时,如何在没有同步人工审批的情况下进行安全审查。

部署侧护栏,不改预训练 prior;只看策略边界和误拒/漏放例子,别把 auto-review 当训练信号质量证明。
OpenAI Alignment
OpenAIOpenAI Alignmentcoding-agentagent-safetyauto-review2026年4月30日原文

这篇论文解决的是 SWE-agent 中代码编辑接口的上下文耦合问题:同一个 agent 既要探索代码、保留上下文、制定修改方案,又要生成格式严格的编辑指令,导致无关代码堆积在上下文里,并增加编辑格式失败率。

预训练方向不用细读,直接看编辑接口拆分和 GRPO 编辑格式选择;它更像 Agent 工程里一次干净的上下文隔离实验。
Yikai Zhang,Jiaxin Pei,Kenan Li,Maoquan Wang,Jin Pan,Yu Kang ... 省略 1 位作者 ... ,Elsie Nallipogu,Junjie Hu,Yufan Huang,Zijian Jin
coding-agentsoftware-engineeringcontext-management2026年4月28日arXivPDF

这篇工作要解决的是 formal theorem proving 中一个长期存在但常被弱化的问题:系统会解题,但不会稳定积累“可迁移的中层知识”。现有方法要么依赖固定 lemma library,适应性差;要么在每道题里临时生成 problem-specific 的中间引理,虽然能帮助当前证明,却很难在后续题目中复用。DreamProver 的核心问题因此不是单题搜索,而是如何让 proving agent 在一组相关定理上迭代学习、抽象、压缩并沉淀出可复用的 lemma library,从而形成跨题目的能力增长。

wake-sleep迭代优化知识库的思路可参考用于预训练高质量推理数据合成,只看方法章节即可
Youyuan Zhang,Jialiang Sun,Hangrui Bi,Chuqin Geng,Wenjie Ma,Zhaoyu Li,Xujie Si
University oftheorem-provingagentwake-sleep2026年4月29日arXivPDF

补足函数级代码生成与仓库级代码编辑之间的评测空档,系统评估模型从规格生成完整类结构的能力。

基准本身还算干净,能提醒你函数级代码能力被高估了;但这是评测不是方法,读 headline number 和污染控制设计就够,不必深读正文。
Yeheng Chen,Chaoxiang Xie,Yuling Shi,Wenhao Zeng,Yongpan Wang,Hongyu Zhang,Xiaodong Gu
Shanghai Jiao Tong UniversityHohai UniversityChongqing Universitycode-generationbenchmarkclass-level2026年4月29日arXivPDF

现有自动ML研究无法实现从算法想法生成到可执行代码的端到端自动化,生成算法泛化性差

仅作为自动ML Agent的参考案例,无需精读,看摘要即可
Jeremy Nixon,Annika Singh
Stanford UniversityInfinity Artificial Intelligence InstituteInfinity Artificial Intelligence Institute &auto-MLcode-generationagent2026年4月29日arXivPDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

这篇工作解决的是 LLM workflow 自动归纳问题:不是只优化单个 prompt,也不是在人工写好的 pipeline 上做局部改写,而是同时学习 workflow 的结构和每个节点的具体提示词。难点在于 workflow 是离散的、文本化的、带工具调用和中间状态传递,无法像神经网络那样直接做数值梯度优化。作者试图回答的问题是:能否用纯文本反馈,把“结构搜索”和“模块优化”统一到一个可迭代的 bilevel optimization 框架里。

值得扫方法部分:双层优化 workflow 的 framing 干净,但要看实验是否超过 prompt search 的表面收益。
Hongyeon Yu,Young-Bum Kim,Yoon Kim
Massachusetts Institute of Technologyllm-workflowsagent-systemsbilevel-optimization2026年4月29日arXivPDF

解决长时程 LLM agent 记忆受文本上下文预算限制、摘要压缩又丢失细节的问题。

想法有趣但更像系统 hack:把 token 预算转成视觉带宽;只看方法图和成本分析,若缺少强 benchmark,别把它当通用记忆范式。
Jinze Li,Yang Zhang,Xin Yang,Jiayi Qu,Jinfeng Xu,Shuo Yang,Junhua Ding,Edith Cheuk-Han Ngai
The University ofUniversity of TsukubaYonsei University+2agent-memorylong-horizonocr2026年4月29日arXivPDF

评测虚拟角色对话中模型是否能策略性使用长期记忆,而不只是机械检索事实。

记忆评测切分有点细,但规模偏小;看指标定义即可,不必按预训练 benchmark 对待。
Yerong Wu,Tianxing Wu,Minghao Zhu,Hangyu Sha,Haofen Wang
Southeast UniversityTongji UniversityKey Laboratory of New Generation Artificial Intelligence Technology and+1agent-memorydialogue-benchmarkvirtual-characters2026年4月29日arXivPDF

在立场检测任务上,系统比较prompting方法与multi-agent辩论方法,澄清哪类LLM推理框架更有效、更划算。

这是任务域里的负结果benchmark:如果你关心“multi-agent 是否真有增益”,只看结论和成本表就够,别把它外推到通用Agent或预训练。
Genan Dai,Zini Chen,Yi Yang,Bowen Zhang
Shenzhen Technology Universitystance-detectionmulti-agentprompting2026年4月29日arXivPDF

解决企业文档 AI 管线难以端到端评估的问题,把解析、索引、检索和生成的质量放在同一框架中测量。

只看结果表和相关性分析即可;对预训练没帮助,但能提醒 RAG 评测别迷信单阶段指标。
Saurabh K. Singh,Sachin Raj
rag-evaluationdocument-aibenchmark2026年4月29日arXivPDF

解决长链推理模型在何时触发检索的问题:传统 RAG 在推理前一次性给上下文,但多步推理往往需要在中途按需补证据。

这是 RAG 时机控制,不会改变预训练方法论;若你在看 test-time tool use,只读触发策略和开销表,别把 QA 提升误当成通用 reasoning 增益。
Dongxin Guo,Jikun Wu,Siu Ming Yiu
Brain Investing LimitedStellaris AI LimitedThe University ofadaptive-retrievalreasoningRAG2026年4月29日arXivPDF

在“真实资金约束”的长程自治LM代理中,如何把用户意图可靠地转成可验证、可结算的工具动作,并在大规模部署下保持低失败率。

不是算法论文,但真实资金+长程trace很稀缺;只看系统约束/验证层如何把LM变“可结算动作”,别指望学到训练法。
T. J. Barton,Chris Constantakis,Patti Hauseman,Annie Mous,Alaska Hoffman,Brian Bergeron,Hunter Goodreau
DX Research Group (DXRG)agentstool-usereliability2026年4月28日arXivPDF

现有实时未来预测任务缺乏统一的交互式学习环境,无法实现预测、真实结果反馈、参数更新的闭环训练,且存在答案泄露问题。

仅为面向未来预测的Agent训练环境,无预训练相关insight,作为文献备查即可。
Zhixin Han,Yanzhi Zhang,Chuyang Wei,Maohang Gao,Xiawei Yue,Kefei Chen ... 省略 4 位作者 ... ,Yitong Duan,Yu Shi,Mengting Hu,Shuxin Zheng
Nankai UniversityTsinghua Universityagentpredictive agentRL environment2026年4月29日arXivPDF

为结构化工作流中的 LLM Agent 提供运行时安全边界,降低恶意或异常工具调用轨迹造成的攻击成功率。

只看方法图和 ASB 结果即可;pDFA 边界适合固定工作流,泛化到开放 Agent 仍是弱信号。
Hung Dang
Van Lang Universityagent-securitytool-useruntime-guardrails2026年4月29日arXivPDF

多智能体政策模拟容易出现人工共识:不同价值立场的 evaluator agents 最终收敛到同一选项,削弱模拟的多元性。

多智能体结论有意思但样本窄;看异构模型降低假共识的统计表,不必读政策案例。
Ariel Sela
Tel Aviv UniversityCoheremulti-agentdeliberationmodel-heterogeneity2026年4月29日arXivPDF
TauricResearch/TradingAgents
★+202357.7k
PythonAgent 与系统连续 2 天📄 论文配套代码v0.2.4

用多智能体LLM模拟交易公司做决策

把分析/研究/交易/风控拆分,便于复现实验与对比不同LLM/数据

角色化代理辩论+汇总,组合管理审批并接回测/模拟交易

  • v0.2.4:结构化输出代理+决策日志
  • v0.2.4:LangGraph断点恢复、Docker
  • 多LLM提供商:DeepSeek/Qwen/GLM/Azure等
1jehuang/jcode
★+6751.9k
RustCoding Agent连续 2 天v0.11.6

面向终端的多会话编码Agent框架(jcode)。

对比多款CLI,给出RAM/启动耗时数据;适合多会话工作流与低资源环境。

Rust实现TUI/PTY交互;会话可扩展,支持可选本地embedding以控内存。

  • v0.11.1 (2026-04-28)
  • TTF 14.0ms;首输入48.7ms(10次PTY)
  • 1会话PSS 27.8MB(关embedding);每加会话~9.9MB
browserbase/skills
★+69827
JavaScriptAgent 与系统

给Claude Code提供Browserbase浏览与bb CLI技能集

让编码代理可控地做网页自动化、调试与云函数部署

以skills插件封装browser/bb命令,支持远程会话、CDP trace与cookie同步

  • browser:反爬隐身、验证码、住宅代理
  • browser-trace:CDP+截图+DOM并可分桶检索
  • site-debugger:分析失败原因并生成可复现playbook
warpdotdev/warp
★+839949.2k
RustCoding Agent连续 2 天v0.2026.04.29.08.56.stable_00

开源终端式代理开发环境,支持内置或外接CLI代理。

把编码代理放进终端工作流,适合Rust终端与AI编程研究者。

Rust客户端;可接Claude Code、Codex、Gemini CLI等代理。

  • v0.2026.04.29.08.56.stable_00
  • 客户端代码开源;UI框架MIT,其余AGPLv3
  • 提供build.warp.dev查看代理分诊、写规格与审PR