AI Research Daily

更新时间: 2026/5/4 00:42:05

共92篇

🌟 2 重点

🧠 预训练 6⚡ 高效推理 11🌐 多模态统一 9🎨 多模态生成 5🛠️ 后训练 14🔬 原理分析 23💻 Coding Agent 9🤖 Agent 15

其他 54 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读LLM 预训练

Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

这篇论文要拆开一个长期混在一起的问题：subword tokenizer 为什么比原始 byte 模型更容易训练、效果更好。BPE 或 unigram 同时改变了序列长度、样本吞吐、词表参数量、边界先验、位置信息和预测目标粒度。过去常把这些收益合在一起讨论，因此很难判断 byte-level LM 的差距到底来自哪里。

Nous Researchtokenizationbyte-level LMpretraining

精读LLM 预训练

Learning Rate Transfer in Normalized Transformers

这篇工作处理的是一个很具体、但对大规模预训练很关键的问题：nGPT 这类强归一化 Transformer 虽然训练更快、也不需要 warmup 和 weight decay，但它并没有自然继承大家希望的超参数可迁移性，尤其是学习率在 width、depth、token horizon 上不能稳定转移。问题不只是“调参麻烦”，而是现有 μP/Depth-μP 那套关于权重—激活对齐的假设，在 nGPT 这种广泛归一化、带可训练尺度参数的结构里并不成立。作者先用实证去检查这些对齐关系，再据此重写参数化与学习率缩放规则，目标是让小模型、短 token horizon 上找到的学习率，能可靠外推到更宽、更深、训练更久的 nGPT。

Meta Superintelligence LabsPrinceton Universitynormalized-transformermuPlearning-rate-transfer

精读LLM 后训练

Cost-Aware Learning

论文研究的是非均匀样本成本下的训练优化：当不同样本的梯度计算成本不同，如何在达到目标误差 ϵ 的同时最小化总训练成本。它把这个问题形式化为 Cost-Aware Learning，并把结论落到 LLM RL 训练中的 GRPO：长 reasoning trace 的 policy-gradient 计算更贵，不应该和短样本按同一概率处理。

Google ResearchTel Aviv UniversityCost-Aware LearningGRPORLHF

精读Agent 与系统

AutoSurfer -- Teaching Web Agents through Comprehensive Surfing, Learning, and Modeling

这篇工作解决的是 web agent 训练数据生成里的一个老问题：现有自动化轨迹生成方法对网站功能覆盖不全，任务合成常常脱离真实页面结构，最终得到的 trajectory 噪声大、可执行性差，难以真正训练出可靠的 web agent。作者把问题拆成三个环节：探索不充分、任务发现与任务表述不扎实、以及基于这些任务生成的轨迹不稳定。尤其在未见网站上，agent 失败往往不是因为单步点击不会，而是因为它根本没有形成对网站深层结构和功能空间的内部地图。AutoSurfer 的目标就是系统性地“逛完整个网站”，把页面、动作、功能、任务和轨迹串成一个更闭环的数据生成流程，并进一步验证这些数据是否足以训练 website-specific LLM，也就是文中所说的 wLLM。

Microsoft Researchweb-agenttrajectory-generationagent-data

机构

阅读分级

标签筛选

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv精读

Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

评应立刻看实验设计：它把 tokenizer 收益拆干净，能直接改 internal byte/subword ablation 的设置。

Théo Gigant,Bowen Peng,Jeffrey Quesnelle

Nous Researchtokenizationbyte-level LMpretraining2026年4月29日arXiv PDF

arXiv精读

Learning Rate Transfer in Normalized Transformers

评这篇会直接影响你怎么做小模找参再放大；先看参数化定义和跨 horizon 的 LR transfer 图，若结论站得住，nGPT 这条线就不该再凭经验调参了。

Boris Shigida,Boris Hanin,Andrey Gromov

Meta Superintelligence LabsPrinceton Universitynormalized-transformermuPlearning-rate-transfer2026年4月29日arXiv PDF

arXiv泛读

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

论文讨论一个很实际的数据策略问题：对于德语这类高资源但非英语语言，严格过滤会显著缩小语料池；在固定预训练 token 预算下，是应该保留更多不同网页做单轮训练，还是应该选择高信号子集并重复训练多轮。

评这篇会直接影响你做非英语 pretrain 的数据配方：先别迷信 diversity，优先复现它的多-epoch 高质子集结果，再看拐点在哪。

Ansar Aynetdinov,Patrick Haller,Alan Akbik

data-filteringlanguage-modelingsample-efficiency2026年4月30日arXiv PDF

arXiv泛读

Simple Self-Conditioning Adaptation for Masked Diffusion Models

这篇工作解决的是 masked diffusion language modeling 里的一个具体但关键的训练—采样错位：标准吸收式 masked diffusion 在每一步都会预测当前位置的 clean token 分布，但如果该位置在 reverse update 后仍保持 masked，模型刚刚得到的 clean-state 估计就被直接丢弃。于是下一步它还得从 mask token 重新猜一遍，而不是在上一步估计的基础上继续修正。这会削弱跨步 refinement，尤其在低步数采样时更明显，因为每一步都需要做更大的去噪推进。

评做 diffusion LM 的可以读：它抓住了“masked token 每步从零猜”的真问题，但像是局部补丁，先看方法节和主表，别急着改 prior。

Michael Cardei,Huu Binh Ta,Ferdinando Fioretto

University ofdiffusion-lmmasked-diffusionself-conditioning2026年4月28日arXiv PDF

arXiv泛读

AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

现有长上下文训练依赖的序列并行（SP）方案与DeepSpeed、Megatron等特定框架紧耦合，需要手动插入通信算子、调整张量布局，适配不同模型架构和硬件的工程成本极高；已有的编译器级分布式优化仅面向参数规模扩展，未覆盖长上下文场景的序列并行需求。

评做长上下文 pretrain 的人该看：不是新算法，但把 sequence parallelism 从手工活变成编译器能力，能直接改变实验吞吐和工程门槛。

Ahan Gupta,Zhihao Wang,Neel Dani,Masahiro Tanaka,Olatunji Ruwase,Minjia Zhang

University of Illinois Urbana-Champaignlong-context-trainingsequence-parallelismcompiler2026年4月29日arXiv PDF

arXiv

Linear-Core Surrogates: Smooth Loss Functions with Linear Rates for Classification and Structured Prediction

分类与结构化预测中平滑损失（如交叉熵）优化速率快但一致性收敛慢，分段线性损失（如Hinge）一致性快但不可微的固有权衡

评损失函数设计的通用理论工作，可作为预训练损失改进的文献参考，不用读正文。

Mehryar Mohri,Yutao Zhong

New York University Courant Institute of Mathematical Sciencesloss_functionconsistency_boundoptimization2026年4月30日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv泛读

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

这篇论文要解决的是生成长度的 token 级建模问题。现有长度控制多依赖 prompt、序列级长度惩罚，或生成前的长度预测器；这些方法只能在整段回答层面施加约束，不能描述生成过程中每一步离结束还有多远，也难以捕捉中途从短回答转向长推理的动态变化。

评不是 pretrain 论文，但把长度控制做成 token-level value head 这件事很干净；只看方法节和 LIFEBench 主表，判断能否接到你们的 decoding stack。

Zhen Zhang,Changyi Yang,Zijie Xia,Zhen Yang,Chengzhi Liu,Zhaotiao Weng ... 省略 4 位作者 ... ,Yuheng Bu,Alkesh Patel,Zhe Gan,Xin Eric Wang

University ofCarnegie Mellon UniversityUniversity of Wisconsin–Madison+5length-controlvalue-modeldecoding2026年4月29日arXiv PDF

arXiv泛读

ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training

这篇工作解决的是大规模 LLM 训练中的一个系统瓶颈：分布式 collective 通信越来越贵，尤其在 FSDP、TP、MoE 的 All-to-All / Reduce-Scatter 路径上，网络时间已经压过了算力时间。已有压缩方法多是有损量化或稀疏化，训练风险难控；通用无损压缩又因为压缩/解压开销太大，放不进训练关键路径。作者要回答的是：能不能利用 LLM 训练张量的统计规律，做一个真正能在训练时加速的无损通信库。

评这类系统论文常被低估；若你在做大规模训练，先看它对“近高斯张量可无损压缩”的假设是否在你们日志里成立，成立就值得尽快做小规模复现。

Wenxiang Lin,Xinglin Pan,Ruibo Fan,Shaohuai Shi,Xiaowen Chu

Harbin Institute of TechnologyThe Hong Kong University of Science and Technology (Guangzhou)The Hong Kong University of Science and Technologydistributed-trainingcommunication-compressioncollectives2026年4月30日arXiv PDF

arXiv泛读

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

这篇工作处理的是大规模 LLM 推理里一个越来越硬的系统瓶颈：KV cache 不是简单地“不够大”，而是同时存在三层错配。第一，现有框架对不同 attention 变体的 KV 大小建模不统一，尤其对 MLA 这类压缩 KV 表示的结构缺少原生支持，导致显著的显存预算错误和批大小浪费。第二，主流 serving 系统几乎把 KV cache 视为只能放在 GPU HBM 里的对象，没有把 CPU DRAM、CXL、NVMe、RDMA、并行文件系统这些层级纳入统一管理。第三，缓存淘汰仍以 LRU 这类被动策略为主，没有利用请求复用、系统 prompt 重复、agent workflow 模板化、RoPE 顺序局部性这些可预测结构，因此频繁把后续还会用到的状态驱逐掉，再付出重算代价。

评只看 sizing 公式和 MLA 部分；六级 cache 方案可能工程假设偏重，先当 serving 设计草案读。

Sanjeev Rao Ganjihal

Independent Researcher(GPU HBM) despite the availability of a rich hierarchy spanningcenter scale has shifted the primary bottleneck from compute to+1kv-cacheinference-servingmemory-hierarchy2026年4月19日arXiv PDF

arXiv

Efficient Training on Multiple Consumer GPUs with RoundPipe

解决消费级多 GPU 上做 LLM 微调时，受限于显存、PCIe 带宽和 pipeline stage 负载不均导致吞吐被最重 stage 卡死的问题。

评不是预训练方法论文，但如果你手里只有 PCIe 机器，读调度设计和负载不均实验就够了；能不能泛化到大规模预训练，还得看状态同步开销。

Yibin Luo,Shiwei Gao,Huichuan Zheng,Youyou Lu,Jiwu Shu

Tsinghua Universitypipeline-parallelismconsumer-gpustraining-systems2026年4月29日arXiv PDF

arXiv

EdgeFM: Efficient Edge Inference for Vision-Language Models

在资源受限的工业边缘设备上，降低 VLM/LLM 推理延迟，并避免闭源硬件生态带来的部署锁定。

评看系统设计图和 kernel skill 抽象即可；若没有硬件矩阵实测，别把结论外推到训练侧架构选择。

Mengling Deng,Yuanpeng Chen,Sheng Yang,Wei Tao,Wenhai Zhang,Hui Song ... 省略 5 位作者 ... ,Shuang Zhang,Bei Liu,Tiankun Zhao,Xiangjing An

Fudan UniversityIndependent Researcheredge-inferenceVLM-servingkernel-optimization2026年4月30日arXiv PDF

arXiv

Belief-Guided Inference Control for Large Language Model Services via Verifiable Observations

黑盒 LLM 服务中，系统需要在响应质量不可完全观测、强推理路径成本更高的条件下，为每个请求决定是否追加计算。

评服务系统问题多于建模问题；读 POMDP 和信号聚合即可，作为黑盒路由工程参考，不影响 pretrain prior。

Wenhao Yuan,Chenchen Lin,Jian Chen,Jinfeng Xu,Shuo Yang,Edith Cheuk Han Ngai

The University ofSun Yat-sen Universityadaptive-inferencellm-servingPOMDP2026年4月30日arXiv PDF

arXiv

AI Inference as Relocatable Electricity Demand: A Latency-Constrained Energy-Geography Framework

研究 AI 推理负载在地理位置之间迁移时，如何在延迟、容量、合规和状态局部性约束下优化电力成本与碳排放。

评做 serving 成本建模可扫一眼 energy-latency frontier；对预训练动作没有直接反馈。

Xubin Luo,Yang Cheng

inference-servingenergy-aware-computinggeo-distributed-systems2026年4月30日arXiv PDF

arXiv

Auto-FlexSwitch: Efficient Dynamic Model Merging via Learnable Task Vector Compression

动态模型合并方法需要为每个任务存储独立参数，导致存储开销过高的问题

评作为模型合并方向的文献备查，仅看摘要即可，不需要读全文。

Junqi Gao,Dazhi Zhang,Zhichang Guo,Biqing Qi,Yi Ran,Wangmeng Zuo

哈尔滨工业大学上海人工智能实验室Harbin Institute of Technology+1model mergingtask vectorparameter compression2026年4月30日arXiv PDF

arXiv

Strait: Perceiving Priority and Interference in ML Inference Serving

研究高 GPU 利用率下的在线推理服务调度：如何在并发执行时估计延迟干扰，并让高优先级请求更少错过 deadline。

评只看调度模型和实验表即可；不是 LLM serving 专项，但并发干扰建模可作系统备查。

Haidong Zhao,Nikolaos Georgantas

InriaSorbonne UniversityInria & Sorbonne Universityinference-servingGPU-schedulinglatency-prediction2026年4月30日arXiv PDF

arXiv

MARS: Efficient, Adaptive Co-Scheduling for Heterogeneous Agentic Systems

面向 LLM Agent 的多轮推理-工具调用工作负载，解决 GPU 推理和 CPU 工具执行之间资源耦合、排队和过载的问题。

评预训练方向不用细读，扫系统模型即可；它提醒 Agent serving 的瓶颈常在 CPU tool path，不只在 GPU decode。

Yifei Wang,Hancheng Ye,Yechen Xu,Cong Guo,Chiyue Wei,Qinsi Wang ... 省略 1 位作者 ... ,Tingjun Chen,Hai "Helen" Li,Danyang Zhuo,Yiran Chen

Duke Universityagent-servingheterogeneous-schedulingLLM-systems2026年4月14日arXiv PDF

arXiv

LLM-Guided Runtime Parameter Optimization for Energy-Efficient Model Inference

为不同硬件和推理服务自动选择运行时参数，以降低 LLM 推理能耗。

评只看流程图和实验设置即可；把 LLM 当调参助手不新，若没有干净能耗基准，结论只能当部署侧弱信号。

Katelyn Crumpacker,Dimitrios Nikolopoulos

Virginia Polytechnic and State Universityinference-efficiencyenergy-optimizationruntime-tuning2026年4月29日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv泛读

When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks

这篇工作讨论的不是某个具体算法任务，而是一个更基础的表示问题：当任务的计算规则依赖显式二维结构时，把输入强行序列化成 1D token，会不会额外增加模型负担，并成为性能瓶颈。作者把这种负担称为 serialization friction。论文用三个合成任务做诊断：矩阵转置依赖行列对应，Conway’s Game of Life 依赖局部邻域更新，LU 分解依赖二维位置上的消元关系。核心问题不是“模型会不会做这些题”，而是“同一底层内容，如果以文本序列给模型，和以保留二维布局的视觉输入给同一语言骨干，行为会怎样变化”。

评只看任务设计和结果表即可；它提醒预训练接口别迷信序列化，尤其是表格和网格结构。

Chung-Hsiang Lo,Lu Li,Diji Yang,Tianyu Zhang,Yunkai Zhang,Yoshua Bengio,Yi Zhang

Northeastern UniversityMila - Quebec AI InstituteUniversity ofserializationmultimodalstructured reasoning2026年4月29日arXiv PDF

arXiv泛读

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

这篇工作要解决的是实时多模态交互里的两个结构性问题：一是现有系统大多仍是“先感知、再响应”的半双工流水线，模型在生成过程中很难持续吸收新到达的视觉和语音信息；二是交互仍然主要是被动响应式，缺少基于持续环境理解的主动行为。作者的目标不是单纯把语音、图像、视频接进 LLM，而是把输入和输出统一到同一时间轴上，做连续、全双工、可主动触发的 omni-modal 交互。

评预训练侧只需读架构和训练配方；若 full-duplex 不是工程拼接，而是统一上下文建模，才值得复现实验。

Junbo Cui,Bokai Xu,Chongyi Wang,Tianyu Yu,Weiyue Sun,Yingjing Xu ... 省略 26 位作者 ... ,Xu Han,Maosong Sun,Zhiyuan Liu,Yuan Yao

omni-modalstreaming-multimodalfull-duplex2026年4月30日arXiv PDF

arXiv

Decoding Scientific Experimental Images: The SPUR Benchmark for Perception, Understanding, and Reasoning

构建科学实验图像问答 benchmark，评估 MLLM 是否能读懂多面板实验图、定位关键信息并进行专家级证据推理。

评对预训练只给弱信号；看任务分解和错误类型即可，别把科学图 benchmark 当通用 VLM 能力结论。

Junpeng Ding,Zichen Tang,Haihong E,Mengyuan Ji,Yang Liu,Haolin Tian ... 省略 10 位作者 ... ,Jiacheng Liu,Zhongjun Yang,Jintong Chen,Siying Lin

Beijing University of Posts and TelecommunicatioBUPT-Reasoning-Labbupt-reasoning-lab.github.io/SPUR+1MLLM-benchmarkscientific-imagesvisual-reasoning2026年4月30日arXiv PDF

arXiv

COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

现有多模态大模型基准大多聚焦单图/多图理解任务，缺乏对 interleaved 图文混合上下文下细粒度对齐能力的系统评测基准。

评仅作为多模态对齐能力评测的可选基准，看摘要和任务设计部分即可，无需精读全文。

Bingli Wang,Huanze Tang,Haijun Lv,Zhishan Lin,Lixin Gu,Lei Feng,Qipeng Guo,Kai Chen

东南大学上海人工智能实验室Shanghai AI Laboratory+1multimodal-benchmarkimage-text-alignmentinterleaved-multimodal2026年4月30日arXiv PDF

arXiv

Revealing the Impact of Visual Text Style on Attribute-based Descriptions Produced by Large Visual Language Models

分析大视觉语言模型在读取图像中文字后，其概念属性描述是否会受到文字字体、颜色、大小等视觉样式影响。

评作为VLM数据偏置小信号看即可；若做OCR-heavy预训练，只看实验控制和失败案例。

Xiaomeng Wang,Martha Larson,Zhengyu Zhao

Radboud UniversityXi’an Jiaotong UniversityRadboud UniversityNijmegenVLM-analysisvisual-textstyle-bias2026年4月30日arXiv PDF

arXiv

Improving Calibration in Test-Time Prompt Tuning for Vision-Language Models via Data-Free Flatness-Aware Prompt Pretraining

解决视觉语言模型 test-time prompt tuning 虽能提升适应性、但常导致预测校准变差的问题。

评只看 sharpness 与校准的实验图即可；对预训练没直接动作，但能提醒 prompt 初始化不是无害细节。

Hyeonseo Jang,Jaebyeong Jeon,Joong-Won Hwang,Kibok Lee

Yonsei Universityvision-language-modelstest-time-adaptationprompt-tuning2026年4月30日arXiv PDF

arXiv

Dynamic Cluster Data Sampling for Efficient and Long-Tail-Aware Vision-Language Pre-training

解决高效 VLM 预训练中的数据采样问题，尤其是在降采样节省算力时如何避免长尾语义被系统性丢失。

评和文本 pretrain 的 data mixture 问题是同一类病灶，但证据还不够硬；只看动态采样与长尾保留的对照实验，别急着改内部配比策略。

Mingliang Liang,Zhuoran Liu,Arjen P. de Vries,Martha Larson

vlm-pretrainingdata-samplinglong-tail2026年4月30日arXiv PDF

arXiv

PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations

现有 VLA 预训练多把机器人学习当作监督行为克隆，难以显式建模任务进展和语言目标的物理可达性。

评机器人味道较重；只看 goal occupancy 训练目标，能借鉴到多模态预训练的可达性信号，别外推到文本 LM。

Yang Zhang,Jiangyuan Zhao,Chenyou Fan,Fangzheng Yan,Tian Li,Haitong Tang ... 省略 4 位作者 ... ,Xiu Li,Chi Zhang,Chenjia Bai,Xuelong Li

Institute of Artificial Intelligence (TeleAI)China TelecomTsinghua University+4VLAgoal-conditioned-rlcontrastive-learning2026年4月30日arXiv PDF

arXiv

SpecVQA: A Benchmark for Spectral Understanding and Visual Question Answering in Scientific Images

评测多模态大模型对科学谱图的理解和问答能力，尤其是从高密度、非结构化、领域化曲线图中提取信息并进行专业推理。

评作为曲线/谱图 tokenization 的小信号可留档；benchmark 太窄，只看数据格式和采样插值 ablation。

Jialu Shen,Han Lyu,Suyang Zhong,Hanzheng Li,Haoyi Tao,Nan Wang,Changhong Chen,Xi Fang

to broader scientific research and data analysisVLM-benchmarkscientific-imagesspectral-understanding2026年4月30日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXiv泛读

Leveraging Verifier-Based Reinforcement Learning in Image Editing

论文解决的是图像编辑 RLHF 中 reward model 不可靠的问题：单一打分器很难同时评估指令遵循、未编辑区域保持和视觉质量，导致后续 RL 优化信号偏粗。

评只看reward decomposition和cold-start verifier训练；图像编辑结果本身离pretrain远，但奖励信号设计可借鉴。

Hanzhong Guo,Jie Wu,Jie Liu,Yu Gao,Zilyu Ye,Linxiao Yuan,Xionghui Wang,Yizhou Yu,Weilin Huang

ByteDance SeedThe University ofCUHK+1image-editingverifier-RLreward-modeling2026年4月30日arXiv PDF

arXiv泛读

AesRM: Improving Video Aesthetics with Expert-Level Feedback

这篇工作要解决的不是“视频生成够不够清晰”，而是“如何把视频美学变成可训练、可评估、可用于后训练优化的监督信号”。现有视频美学研究大多停留在粗粒度整体打分，标签解释性弱，无法告诉模型问题出在构图、色彩、光线还是物理 plausibility，也很难直接作为生成模型对齐时的 reward。作者试图补上这条链路：先定义细粒度视频美学标准，再构建专家偏好数据，再训练可解释的 reward model，最后把它接到视频生成后训练里。

评不是基座预训练论文，但 reward rubric 拆解得比常见偏好模型干净；只看标注框架和 RM 设计，别在视频结果页停太久。

Yujin Han,Yujie Wei,Yefei He,Xinyu Liu,Tianle Li,Zichao Yu,Andi Han,Shiwei Zhang,Tingyu Weng,Difan Zou

Fudan UniversityZhejiang UniversityAlibaba Group+5video-generationreward-modelpreference-data2026年4月30日arXiv PDF

arXiv

Uni-HOI:A Unified framework for Learning the Joint distribution of Text and Human-Object Interaction

统一建模文本、人类动作和物体动作的联合分布，从而支持多种 4D human-object interaction 条件生成任务。

评有一点统一 token 建模味道，但 HOI 域太窄；只看 VQ-VAE 码本设计和任务格式即可。

Mengfei Zhang,Jinlu Zhang,Zhigang Tu

Wuhan UniversityPeking Universitymotion-tokenizationVQ-VAEmultimodal-generation2026年4月30日arXiv PDF

arXiv

AdvDMD: Adversarial Reward Meets DMD For High-Quality Few-Step Generation

如何把扩散模型蒸馏到极少步采样（few-step）时仍保持高画质，并避免“蒸馏+RL”两套流程拼装带来的复杂性与不稳定。

评把 DMD 判别器当 reward 这点够“干净”，但更像工程整合；只需核对 few-step 表现是否真超过 teacher、以及中间态奖励是否带来稳定增益。

Xu Wang,Zexian Li,Litong Gong,Tiezheng Ge,Zhijie Deng

Shanghai Jiao Tong UniversityAlimama TechWu et al+5diffusion-distillationfew-step-generationadversarial-reward2026年4月29日arXiv PDF

arXiv

ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space

解决现有扩散模型在连续时空随机过程（如视频、天气预报）的任意子集观测条件生成任务中，存在物理时间相近状态结构相似性缺失、低步推理不稳定、噪声不匹配物理时间步长、不支持任意状态子集条件的问题

评非马尔可夫扩散桥的任意条件建模思路可作为多模态统一预训练的参考，仅看摘要了解核心思路即可

Gabe Guo,Thanawat Sornwanee,Lutong Hao,Elon Litman,Stefano Ermon,Jose Blanchet

Stanford Universitydiffusion bridgeconditional generationcontinuous SDE2026年4月30日arXiv PDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv精读🌟

Cost-Aware Learning

评Google将理论优化与大模型RL落地结合的典范，Cost-Aware GRPO直击长序列RL训练的痛点，能省30% token，做RLHF的同学必读其采样和加权策略。

Clara Mohri,Amir Globerson,Haim Kaplan,Tomer Koren,Yishay Mansour

Google ResearchTel Aviv UniversityCost-Aware LearningGRPORLHF2026年4月30日arXiv PDF

arXiv泛读

Debiasing Reward Models via Causally Motivated Inference-Time Intervention

奖励模型在推断时会利用长度、格式等“捷径特征”给出偏置打分，进而污染 RLHF/DPO 的偏好数据；问题是如何在不重新训练 RM、且不牺牲正常偏好判别能力的前提下，同时缓解多种风格偏置。

评这篇不改 pretrain，但会改你对 RM 可用性的 prior：若小 RM 通过少量神经元干预就能接近大 RM，先复现其 annotation-to-alignment 链路，再决定是否继续堆更大 judge。

Kazutoshi Shinoda,Kosuke Nishida,Kyosuke Nishida

NTTHuman Informatics Labsreward-modeldebiasinginference-time-intervention2026年4月30日arXiv PDF

arXiv泛读

Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

论文要解决的是 latent reasoning 的 RL 稳定性问题。已有 Latent-SFT 能把中间推理压到连续 latent token 中，缩短推理链，但把 GRPO 直接搬到 latent 空间会失效：连续探索容易离开有效 latent 流形，Gumbel 扰动下的概率更新方向可能和轨迹优势不一致，多条正确路径的 latent 平均还可能落到不能继续正确推理的位置。

评值得看，因为它把 latent reasoning 做 RL 时最麻烦的三个失稳源拆开了；先读问题定义和消融，若 setup 干净，应立刻在内部 latent-policy 实验里复现。

Jingcheng Deng,Zihao Wei,Liang Pang,Junhong Wu,Shicheng Xu,Zenghao Duan,Huawei Shen

State Key Laboratory of AI SafetyChinese Academy of SciencesUniversity of Chinese Academy of Sciences+1latent-reasoningGRPOreinforcement-learning2026年4月30日arXiv PDF

arXiv泛读

LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

这篇工作要解决的是 VLA 中一个很具体但重要的缺口：已有带 reasoning 的机器人策略，要么依赖显式语言推理，延迟高且难表达连续物理过程；要么做 latent reasoning，但训练方式仍主要是 imitation learning，缺少在线交互带来的适应性。与此同时，已有 VLA 的 RL post-training 又大多只优化 action space，没有把“先形成物理推理，再执行动作”这一内部过程纳入优化目标。作者的问题设定因此很明确：能否让 RL 直接作用于 latent physical reasoning 与 action generation 的耦合过程，而不是只在动作层面做 policy improvement。

评多模态VLA模型RL后训练的创新方法，仅需读方法部分§3的LAPO算法设计即可

Hao Chen,Jiaming Liu,Zhonghao Yan,Nuowei Han,Renrui Zhang,Chenyang Gu ... 省略 4 位作者 ... ,Peng Jia,Chi-Wing Fu,Shanghang Zhang,Pheng-Ann Heng

北京大学计算机学院Simplexity RoboticsPeking University 3Simplexity RoboticsVLAlatent reasoningRL post-training2026年4月30日arXiv PDF

arXiv泛读

ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

这篇工作要解决的是：在没有人工标注的情况下，模型能否自己生成“可验证的新题目”，再通过解题反馈持续提升推理能力，而不是只在已有题目上做 answer-side RL。

评值得看训练环节而非结果数字；Proposer collapse 和 valid-output manifold 是 RLVR 自举里容易被低估的坑。

Chengcao Yang,Jun Chen

Wuhan UniversityRLVRself-playverifiable-reasoning2026年4月30日arXiv PDF

arXiv泛读

Co-Evolving Policy Distillation

现有混合RLVR训练会出现能力分化，不同能力的优化方向冲突导致性能权衡，而先训练单领域专家再做静态OPD蒸馏的范式存在师生行为差距过大，导致学生无法充分吸收专家能力的问题。

评不是 pretrain 论文，但它把“能力干扰来自行为分布错位”讲得很像样；先看方法图和对 mixed RLVR 的分解，再决定要不要复现。

Naibin Gu,Chenxu Yang,Qingyi Si,Chuanyu Qin,Dingyu Yao,Peng Fu,Zheng Lin,Weiping Wang,Nan Duan,Jiaqi Wang

Institute of Information EngineeringUniversity of Chinese Academy of SciencesJD.comRLVRpolicy-distillationmultimodal-reasoning2026年4月29日arXiv PDF

arXiv泛读

Distributional Alignment Games for Answer-Level Fine-Tuning

答案级微调（ALFT）需要优化模型生成正确最终答案的边际概率，但推理轨迹到答案的映射通常不可微，且推理轨迹的组合空间过大，直接计算边际概率梯度不可行，现有REINFORCE类梯度估计器方差过高，训练难以稳定。

评这篇该当作“目标函数论文”来读，不必先信它能立刻提分；先看博弈等价是否真的把 answer-only 训练讲清了，若成立，会直接影响你对 latent reasoning 后训练接口的设计。

Mehryar Mohri,Jon Schneider,Yifan Wu

Google ResearchMicrosoft Researchanswer-level-finetuninglatent-reasoninggame-theory2026年4月29日arXiv PDF

arXiv泛读

Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

论文解决的是低算力 RL reasoning 训练中的 advantage 估计问题：不训练额外 value network，也不能像 GRPO 那样为每个 prompt 采很多条 reasoning trace 时，如何得到低方差的 policy gradient。核心矛盾是，REINFORCE 方差高，PPO/A2C 需要额外 value model，GRPO 省掉 value model 但依赖较大的组内采样数。

评用Kernel方法替代Value Network做Advantage估计，思路清奇，在GRPO大行其道的当下提供了一个有趣的轻量级baseline，值得一看其特征空间的构造。

Shijin Gong,Kai Ye,Jin Zhu,Xinyu Zhang,Hongyi Zhou,Chengchun Shi

LSERLHFAdvantage EstimationKernel Methods2026年4月30日arXiv PDF

arXiv泛读

Diagnosing Capability Gaps in Fine-Tuning Data

领域微调前无系统方法检测训练数据是否覆盖全部所需细分能力，现有统计指标或事后评估要么无法定位具体能力缺口，要么需付出高昂的微调计算成本

评把“数据是否覆盖目标能力”做成可执行诊断流程；重点看子目标分解规范与coverage scoring的误差模式，能直接改你们的数据验收。

Saeid Asgari Taghanaki,Rakshanda Agarwal,Bruce Sun,Rohan Jha,Elias Stengel-Eskin,Sara Malvar ... 省略 3 位作者 ... ,Tusher Chakraborty,Leonardo de Oliveira Nunes,Ranveer Chandra,Emre Kiciman

dataset-coveragefine-tuningdata-quality2026年4月30日arXiv PDF

arXiv泛读

Mind the Gap: Structure-Aware Consistency in Preference Learning

现有DPO等偏好学习方法使用的代理损失与真实 pairwise 排序目标理论上不一致，神经网络的等连续特性会导致模型通过压缩得分差而非学习正确排序来最小化代理损失，无法保障真实排序效果

评DPO理论一致性的扎实工作，SA-DPO的自适应间隔设计可直接用于内部对齐实验ablation，只看§3推导和§4目标定义即可。

Mehryar Mohri,Yutao Zhong

New York University Courant Institute of Mathematical Sciencespreference_learningDPOalignment2026年4月30日arXiv PDF

arXiv

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

现有安全对齐评测多看首轮拒答，却较少衡量模型在多轮澄清后能否恢复对良性用户意图的帮助性。

评对 pretrain 价值有限，但它把“过度拒答”测成了多轮可量化对象；只看 benchmark 设计和首轮/澄清后落差，够你反思 safety data 配方。

Mingqian Zheng,Malia Morgan,Liwei Jiang,Carolyn Rose,Maarten Sap

Carnegie Mellon UniversityAllen Institute for AI♡Carnegie Mellon University+2safetyalignmentbenchmark2026年4月29日arXiv PDF

arXiv

From Coarse to Fine: Benchmarking and Reward Modeling for Writing-Centric Generation Tasks

面向写作类生成任务，现有奖励模型评测过于粗粒度，训练也难以精确刻画“是否满足具体写作要求”。

评对预训练本身帮助有限，但如果你在看 RL 信号质量，这篇可当一个干净案例：把“指令要求分解”变成 reward supervision；先看 benchmark 设计，再决定要不要读训练部分。

Qingyu Ren,Tianjun Pan,Xingzhou Chen,Xuhong Wang

Fudan UniversityShanghai Artificial Intelligence LaboratoryShanghai Key Laboratory of Data Sciencereward-modelingwriting-benchmarkrlhf2026年4月30日arXiv PDF

arXiv

RHyVE: Competence-Aware Verification and Phase-Aware Deployment for LLM-Generated Reward Hypotheses

解决 LLM 生成 reward 后，如何判断这些 reward 在策略训练的哪个阶段可信、何时应该部署的问题。

评结论像是 reward-model 评估的常识化版本；只看 competence threshold 结果，别直接外推到 LLM RL。

Feiyu Wu,Xu Zheng,Zhuocheng Wang,Yi ming Dai,Hui Li

Xidian Universityreward-designreinforcement-learningreward-verification2026年4月30日arXiv PDF

arXiv

BoostLoRA: Growing Effective Rank by Boosting Adapters

如何在保持极低参数量（ultra-low-rank）的同时，提升 PEFT（参数高效微调）方法的表达能力，打破 adapter size 和性能之间的 trade-off？

评将 boosting 思想引入 LoRA 训练，通过正交子空间迭代累积有效秩，思路有趣但主要针对极低资源微调，作为 PEFT 变体备查。

Raviteja Anantha,Nick Levato,Layne C. Price

PEFTLoRAGradient Boosting2026年4月30日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv泛读

Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs

在不做反向传播、且只用极少前向计算的条件下，如何为“某个具体对齐行为”（如安全拒答模板、迎合/二次猜测、语言切换等）生成可检验的因果假设：哪些 FFN 神经元在促进该行为、哪些在抑制该行为，并且在动手干预前就能预判“该用 ablation 还是 direction injection/残差注入”才有效。

评只看方法和 refusal ablation 表；“50 个神经元控制拒答模板”若成立，会改变对 RLHF 行为局部性的 prior。

Hongliang Liu,Tung-Ling Li,Yuhao Wu

interpretabilityFFN-circuitsRLHF2026年4月30日arXiv PDF

arXiv泛读

Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation

多轮 ideation 场景下，模型在迭代“变得更复杂/更严谨”的压力下会逐步偏离最初硬约束；关键问题是这种 drift 是否来自遗忘（recall 失败），以及如何用可自动化的方式稳定测量“记得但仍违反”的现象。

评这篇值得看，因为它把“记得约束”和“执行约束”拆成两个变量；只读 benchmark 设计和 KBV 结果，就足够影响你看对齐数据的方式。

Garvin Kruthof

Technical University ofconstraint-adherencemulti-turnbenchmark2026年4月30日arXiv PDF

arXiv泛读

In-Context Examples Suppress Scientific Knowledge Recall in LLMs

论文研究一个在科学类 ICL 场景里很容易被忽略的问题：当任务需要“从观测数据中恢复隐变量/参数，再用已知科学定律计算目标量”（latent structure recovery）时，加入与真实定律完全一致的 in-context examples，反而会抑制模型调用预训练中已掌握的科学公式与推导能力，使其从“知识驱动的推导”转向“基于示例的经验拟合”。作者关心的不是平均准确率升降，而是模型内部解题策略被提示词结构系统性改变。

评会改一个 ICL prior：示例不总是解锁知识，也会把计算拉向拟合；先读实验设计和错误分解。

Chaemin Jang,Woojin Park,Hyeok Yun,Dongman Lee,Jihee Kim

Korea Advanced Institute of Science and TechnologyShanghai Jiao Tong Universityin-context-learningknowledge-recallscientific-reasoning2026年4月30日arXiv PDF

arXiv泛读

Do Sparse Autoencoders Capture Concept Manifolds?

Sparse Autoencoder（SAE）常被当作“概念=线性方向”的无监督解释工具，但大量证据表明概念在表征空间里更像低维流形（连续几何结构）。论文要回答：什么叫 SAE ‘捕获’一个流形？现有 SAE 何时能捕获、以什么机制捕获？以及这种捕获在可解释性上是否可靠。

评SAE 用户应读理论定义和实证失败例；它会降低“一个 feature 一个概念”的先验置信度。

Usha Bhalla,Thomas Fel,Can Rager,Sheridan Feucht,Tal Haklay,Daniel Wurgaft ... 省略 2 位作者 ... ,Vasudev Shyam,Jack Merullo,Atticus Geiger,Ekdeep Singh Lubana

Harvard UniversityNortheastern UniversityStanford University+3mechanistic-interpretabilitysparse-autoencodersconcept-manifolds2026年4月30日arXiv PDF

arXiv泛读

Beyond the Mean: Within-Model Reliable Change Detection for LLM Evaluation

在 LLM 版本对比评测中，如何把“总体分数提升/下降”拆解到 item 级别，并区分哪些变化是真正的能力漂移、哪些只是采样随机性导致的波动，从而量化版本更新带来的可靠改进与可靠退化（reliable improvement/deterioration）。

评读 Fig/Table 的 item churn 分解即可；它不会改训练配方，但会改模型发布前 regression gate 的设计。

Jon-Paul Cacioli

Independent ResearcherevaluationMMLU-Proreliable-change-index2026年4月30日arXiv PDF

arXiv泛读

Political Bias Audits of LLMs Capture Sycophancy to the Inferred Auditor

论文要回答的问题很具体：常见的“政治偏见审计”把 LLM 当作一个有稳定政治立场的被测对象，用固定问卷打分；但 LLM 又存在明显的 sycophancy（对提问者立场/身份的迎合）。那么审计测到的“左倾”到底有多少是模型的稳定倾向，有多少是对默认审计者身份的推断与迎合？作者通过只改变提问者身份、不改变题目内容的因子实验，量化这种测量偏差。

评这篇不改模型，但会改你看 benchmark 的眼睛：问卷式偏见评测很可能把 sycophancy 当 ideology 量了，只看实验设计和主表就够。

Petter Törnberg,Michelle Schimmel

Institute of LogicUniversity ofsycophancybias-evaluationbenchmark-validity2026年4月30日arXiv PDF

arXiv泛读

Optimization before Evaluation: Evaluation with Unoptimised Prompts Can be Misleading

现有LLM评测框架均使用统一静态prompt测试所有模型，与工业界先针对每个模型做prompt优化再上线的实际流程不符，导致评测得到的模型排名与实际应用表现存在偏差，会误导模型选型。

评结论不新鲜，但如果主表做得干净，会直接动摇很多 benchmark 排名的可比性；先看实验协议和 rank flip 的幅度。

Nicholas Sadjoli,Tim Siefken,Atin Ghosh,Yifan Mai,Daniel Dahlmeier

Stanford Universityevaluationprompt-optimizationbenchmarking2026年4月30日arXiv PDF

arXiv泛读

Characterizing the Consistency of the Emergent Misalignment Persona

核心问题是：窄域有害微调导致的 emergent misalignment 是否会形成一致的“人格”表现，即模型的有害行为、自我评估、身份选择、输出识别和危害评分预测是否相互一致。论文进一步问，不同有害微调域是否会诱导不同类型的这种表现。

评值得看实验矩阵：它提醒安全 probe 不能只问模型“你是谁”，行为和自报会分叉。

Anietta Weckauff,Yuchen Zhang,Maksym Andriushchenko

emergent-misalignmentsafetyfine-tuning2026年4月30日arXiv PDF

arXiv泛读

Monitoring Neural Training with Topology: A Footprint-Predictable Collapse Index

现有训练过程中表征坍缩的检测滞后于任务指标变化，且全量计算嵌入空间拓扑特征的开销过高，无法在线实时监控训练过程中的表征结构退化问题。

评读方法和消融就够；若 CI 真能早于 loss 报警，适合加入 continual pretrain 监控候选池。

Alexander Kalinowski

training-dynamicsrepresentational-collapsetopological-monitoring2026年4月28日arXiv PDF

arXiv

Better Models, Faster Training: Sigmoid Attention for single-cell Foundation Models

研究 softmax attention 在较大规模双向基础模型训练中的不稳定性，并测试 sigmoid attention 作为替代是否能带来更稳的优化与更好表示。

评领域不对口，但“softmax 的耦合 Jacobian 可能是训练炸点”这个观察值得记；只看稳定性分析和 stress test，别把下游指标当主结论。

Vijay Sadashivaiah,Georgios Dasoulas,Judith Mueller,Soumya Ghosh

attentionsigmoid-attentiontraining-stability2026年4月29日arXiv PDF

arXiv

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

任务专用 LLM 中，神经元是否均匀贡献于目标能力，以及剪枝后性能崩塌能否通过恢复关键神经元逆转。

评结论方向不新，但“10% 神经元导致任务崩塌”这个数字值得留档；若要读，只看 selective vs random pruning 和 reverse pruning 两组图。

M. K. Khalidi Siam,Md. Tausif-Ul-Islam,Md. Reshad Romim Khan,Mohammed Ali Hossain,Mushfiqul Amin,Labib Hasan Khan,Niloy Farhan,Farig Sadeque

BRAC UniversityMohammed Ali Hossainpruningneuronsmechanistic-analysis2026年4月29日arXiv PDF

arXiv

Entropy of Ukrainian

用 Shannon 式“人类预测下一个字符”的实验，估计乌克兰语的字符级熵上界，并与现有 LLM 的预测能力做对照。

评不直接改进预训练，但作为“语言可预测性”实测点可备查；只需看方法细节与误差讨论，别指望能推导 tokenizer 结论。

Anton Lavreniuk,Mykyta Mudryi,Markiian Chaklosh

ARIMLABS.AIUniversity of the National Education Commission in Krakówentropyinformation-theoryhuman-evaluation2026年4月30日arXiv PDF

arXiv

Geometry-Calibrated Conformal Abstention for Language Models

为开放式语言模型回答设计可校准的拒答机制，在模型缺乏知识时决定是否回答，并给出有限样本保证。

评读问题设定和 guarantee 形式即可；若 confidence 来自生成后打分，结论对预训练知识边界只是弱探针。

Rui Xu,Yi Chen,Sihong Xie,Hui Xiong

Hong Kong University of Science and Technology (Guangzhou)hallucinationcalibrationconformal-prediction2026年4月30日arXiv PDF

arXiv

DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models

定位并编辑 LLM 中与人格特质相关的神经元，同时尽量减少对通用能力的破坏。

评不是预训练主线，但“神经元多功能、特质表示互斥”这个观察值得记；只看表示分析部分，编辑结果当附带。

Lifan Zheng,Xue Yang,Jiawei Chen,Chenyan Wu,Jingyuan Zhang,Fanheng Kong,Xinyi Zeng,Xiang Chen,Yu Tian

Southeast UniversityZhejiang University of TechnologyKuaishou Technology+5interpretabilityneuron-editingpersonality2026年4月30日arXiv PDF

arXiv

On the Proper Treatment of Units in Surprisal Theory

在 surprisal theory 研究中，预训练语言模型的 tokenization 与实验分析所用语言单位不一致，导致 surprisal 指标的定义和解释常被混淆。

评不是 pretrain 论文，但如果你常拿 token-level logprob 做词级分析，这篇会提醒你不少结论其实建在单位定义不干净上。

Samuel Kiegeland,Vésteinn Snæbjarnarson,Tim Vieira,Ryan Cotterell

University of CopenhagenUUniversity of Copenhagensurprisaltokenizationevaluation-methodology2026年4月30日arXiv PDF

arXiv

The Effects of Visual Priming on Cooperative Behavior in Vision-Language Models

VLM集成到决策系统时，视觉输入对其合作决策行为的影响规律尚不明确，缺乏对应的评估与缓解方案

评属于VLM行为鲁棒性的边际分析，仅作为多模态对齐的参考素材，看摘要结论即可

Kenneth J. K. Ong

VLMvisual primingmodel safety2026年4月30日arXiv PDF

arXiv

Learning Rate Engineering: From Coarse Single Parameter to Layered Evolution

系统化梳理学习率调度从全局固定值到分层、随时间演化策略的发展，并提出一个结合层级差异和训练阶段的优化框架。

评作为 LR taxonomy 可快速扫；DALS 若没在 Transformer 预训练规模验证，就只能当 fine-tuning trick 备查。

Ming-Hong Yao,Di Wang,Jian Cui,Jin-Yan Chen,Zi-Hao Cui,Fa Wang,Chen Wei,Qiu-Ye Yu

Jilin International Sciences Universitylearning-rateoptimizertraining-dynamics2026年4月30日arXiv PDF

arXiv

Investigating More Explainable and Partition-Free Compositionality Estimation for LLMs: A Rule-Generation Perspective

重新评估 LLM 的组合性：现有组合泛化测试只看输出对错，并依赖训练/测试划分，容易出现组合泄漏且解释性不足。

评组合性评测角度比常规 held-out split 干净些；只看方法定义和 string-to-grid 结果即可。

Ziyao Xu,Cong Wang,Houfeng Wang

Peking UniversityOPPO AI CenterNational Key Laboratory for Multimedia Information Processingcompositionalitymechanistic-evaluationrule-generation2026年4月30日arXiv PDF

arXiv

LLM Biases

分析 transformer-based generative recommender 中，注意力分配和序列生成机制是否会诱发系统性推荐偏置。

评只看偏置通道的理论定义；recommender 设定偏窄，但能提醒 attention inductive bias 不总是中性。

Jinhui Han,Ming Hu,Xilin Zhang

mechanistic-analysisattention-biasrecommender-systems2026年4月7日arXiv PDF

arXiv

When Does Structure Matter in Continual Learning? Dimensionality Controls When Modularity Shapes Representational Geometry

研究持续学习中，模块化结构在什么条件下会影响表征几何、迁移和干扰。

评可作为 continual pretrain 的机制备查；只看维度控制结论，别把小 RNN 结果外推到 LLM。

Kathrin Korte,Joachim Winter Pedersen,Eleni Nisioti,Sebastian Risi

IT University of Copenhagencontinual-learningmodularityrepresentation-geometry2026年4月30日arXiv PDF

arXiv

DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures

自动检测、分类并定位 Transformer 架构内部的静默故障，尤其是 attention、projection 和周边组件的错误。

评只看 fault taxonomy 和 benchmark 构造即可；它更像训练代码 QA 清单，不是模型机制结论。

Sigma Jahan,Saurabh Singh Rajput,Tushar Sharma,Mohammad Masudur Rahman

Dalhousie Universitytransformer-debuggingfault-diagnosismutation-testing2026年4月30日arXiv PDF

arXiv

Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection

检测多轮 prompt injection 中单轮文本看似正常、但对话轨迹逐步转向攻击的隐蔽模式。

评安全方向可扫 abstract 和实验表；激活轨迹结论有趣，但合成分布依赖重，别当通用机制证据。

Prashant Kulkarni

activation-analysisprompt-injectionmulti-turn-safety2026年4月30日arXiv PDF

arXiv

One Pass, Any Order: Position-Invariant Listwise Reranking for LLM-Based Recommendation

LLM 做 listwise recommendation reranking 时，同一候选集合的输入排列会改变输出排序，导致模型分数混入 prompt serialization bias。

评只看方法图和 ablation；它不会改变 pretrain prior，但对“集合输入被 decoder 顺序污染”这个坑给了可复用处理。

Ethan Bito,Yongli Ren,Estrid He

RMIT UniversityLLM-rerankingposition-biasRoPE2026年4月30日arXiv PDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

arXiv

Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents

解决 coding agent 使用外部记忆时的误检索问题：相似的报错或路径不一定意味着旧修复经验可安全复用。

评作为 coding-agent memory 备查即可；bandit framing 合理，但没有摘要级证据能支撑更高优先级。

Mehmet Iscan

PythaLabYildiz Technical Universitycoding agentmemory retrievalcontextual bandit2026年4月30日arXiv PDF

arXiv泛读

ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models

论文解决代码 RLVR 和代码评测中的执行反馈问题：现有 sandbox 过度依赖 exact match，容易误判多解和浮点容差题；同时在高并发训练中执行吞吐不足，导致奖励信号噪声和训练效率瓶颈。

评做代码大模型RL训练的可直接复用该系统框架，避免重复开发沙箱，重点参考细粒度并行执行模块的设计

Jiasheng Zheng,Xin Zheng,Boxi Cao,Pengbo Wang,Zhengzhao Ma,Qiming Zhu ... 省略 1 位作者 ... ,Yaojie Lu,Hongyu Lin,Xianpei Han,Le Sun

中国科学院软件研究所中文信息处理实验室中国科学院大学Chinese Information Processing Laboratory+2code-sandboxRLVRcode-llm2026年4月30日arXiv PDF

arXiv泛读

From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation

电路图到 Verilog 的多模态代码生成评测里，模型是否真的“读图并基于拓扑推导 RTL”，还是主要靠 prompt 里 module_header（模块名/端口名/参数名）的语义线索走捷径，从而导致评测分数虚高且存在隐蔽的可靠性风险（Mirage：把图换成空白图，Pass@k 不降反升）。

评只看 Mirage 消融和 C2VEVAL 设计；它提醒多模态代码评测很容易测到标识符记忆而非视觉 grounding。

Guang Yang,Xing Hu,Xiang Chen,Xin Xi

Zhejiang UniversityHangzhou High-Tech Zone Institute of Blockchain and Data SecurityNantong University+4multimodal-code-generationverilogbenchmark2026年4月30日arXiv PDF

arXiv

REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)

为 LLM 在 stripped binary 的类型推断、函数名和变量名恢复任务上提供统一、可公平比较的 reverse engineering benchmark。

评作为代码模型评测备查即可；重点看数据去重、编译矩阵和 metric，别被二进制安全场景的任务名带偏。

Jun Yeon Won,Xin Jin,Shiqing Ma,Zhiqiang Lin

Ohio State UniversityUniversity of Massachusetts AmherstOhio State UniversityColumbus+1code-modelsbinary-analysisbenchmark2026年4月30日arXiv PDF

arXiv泛读

Beyond the Training Distribution: Mapping Generalization Boundaries in Neural Program Synthesis

这篇工作要解决的不是“程序合成能不能做”，而是一个更基础也更难回答的问题：在训练语料完全可控、测试样本与训练集距离可度量的条件下，Transformer 在程序合成里到底是在泛化，还是只是在训练分布附近做局部插值。作者为此构造了一个严格受控的算术 DSL 环境，枚举数百万个程序，并把每个程序同时放到语法空间和语义空间里，从而能精确区分两类泛化：同一支持集内的数据密度迁移，以及超出训练支持集的外推。

评不是基座方法论文，但评测 setup 很干净；若你在做代码预训练或合成数据，重点看它怎样把 interpolation 和 extrapolation 拆开，别只盯最终分数。

Henrik Voigt,Michael Habeck,Joachim Giesen

Friedrich Schiller University JenaFriedrich Schiller UniversityJenaprogram-synthesisgeneralizationdistribution-shift2026年4月30日arXiv PDF

arXiv

What Makes a Good Terminal-Agent Benchmark Task: A Guideline for Adversarial, Difficult, and Legible Evaluation Design

讨论 terminal-agent benchmark 任务应如何设计，避免验证逻辑脆弱、任务可 reward hacking 或难度来自无意义细节。

评不是模型论文，但 reward-hackable benchmark 清单有用；做 agent eval 的人看 checklist 即可。

Ivan Bercovich

terminal-agentbenchmark-designcoding-agent2026年4月30日arXiv PDF

arXiv

Static Program Slicing Using Language Models With Dataflow-Aware Pretraining and Constrained Decoding

用语言模型做静态程序切片时，解决数据依赖建模不准和自由生成导致的幻觉语句问题。

评读预训练目标和 constrained decoding 即可；任务窄，但 dataflow 监督对代码 LM 有可迁移味道。

Pengfei He,Shaowei Wang,Tse-Hsun,Chen,Muhammad Asaduzzaman

University of ManitobaConcordia UniversityUniversity of Windscode-lmprogram-slicingdataflow-pretraining2026年4月9日arXiv PDF

arXiv

HAVEN: Hybrid Automated Verification ENgine for UVM Testbench Synthesis with LLMs

解决 LLM 直接生成 UVM 硬件验证 testbench 时错误率高、协议时序难以保证的问题。

评只看系统分工思路即可：让 LLM 做计划、模板管约束；硬件验证领域太窄，不值得深读。

Chang-Chih Meng,Yu-Ren Lu,Guan-Yu Lin,Tsung Tai Yeh,Kai-Chiang Wu,I-Chen Wu

National Yang Ming Chiao Tung Universityand recent research has begunrecent research hascode-generationhardware-verificationLLM-agents2026年4月30日arXiv PDF

arXiv

RuC: HDL-Agnostic Rule Completion Benchmark Generation

解决 RTL/HDL 代码补全评测粒度不可控、补全语法范围不可控的问题。

评HDL completion benchmark生成器，grammar masking 设计干净；除非关心代码 tokenizer/硬件代码数据，不必读正文。

Arnau Ayguadé Domingo,Miquel Alberti-Binimelis,Cristian Gutierrez-Gomez,Emanuele Parisi,Razine Moundir Ghorab,Miquel Moreto,Gokcen Kestor,Dario Garcia-Gasulla

Barcelona Supercomputing Centercontrolled and scalable evaluation of the domain-specific model’sprompts the LLM to predict the next line given the availablecode-benchmarkHDLRTL2026年4月30日arXiv PDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv

The Inverse-Wisdom Law: Architectural Tribalism and the Consensus Paradox in Agentic Swarms

分析多智能体系统中“更多 Agent 协作是否必然更可靠”的假设，重点研究同构或近同构 Agent 群体是否会放大错误共识。

评结论有点用力，先看实验设置和错误熵定义；若 setup 干净，它是多 Agent 评测里一个不错的反例信号。

Dahlia Shehata,Ming Li

University of Waterloomulti-agentagent-evaluationconsensus-failure2026年4月30日arXiv PDF

arXiv精读🌟

AutoSurfer -- Teaching Web Agents through Comprehensive Surfing, Learning, and Modeling

评只看数据生成流程和覆盖率实验；它不会改变预训练方法论，但对交互轨迹数据的采集工程有参考价值。

Fazle Elahi Faisal,Qianhui Wu,Baolin Peng,Jianfeng Gao

Microsoft Researchweb-agenttrajectory-generationagent-data2026年4月29日arXiv PDF

arXiv泛读

Step-level Optimization for Efficient Computer-use Agents

这篇工作处理的是 computer-use agent 在推理阶段的算力分配问题：现有 GUI agent 往往在每一步都调用同一个大多模态模型，导致长轨迹任务的成本、时延和单位经济性都很差。作者指出，GUI 轨迹的难度并不均匀，真正容易出错的往往集中在少数高风险时刻，主要表现为两类：一是 progress stall，即代理在局部状态里打转、重复等价操作却没有推进；二是 silent semantic drift，即动作在局部上看似合理，但已经偏离用户目标，后续步骤虽然自洽，最终任务仍会失败。核心问题不是如何再训练一个更强 agent，而是如何在不改动底层大模型的前提下，把“大模型每步在线”改成“按风险事件触发”。

评读方法和失败检测 ablation；若路由信号不偷看未来，这会是 GUI Agent 降成本的实用 prior。

Jinbiao Wei,Kangqi Ni,Yilun Zhao,Guo Gan,Arman Cohan

Yale NLP LabUniversity of North Carolina at Chapel HillY Yale NLP Lab+1GUI-agentcomputer-usecompute-allocation2026年4月29日arXiv PDF

arXiv泛读

From Context to Skills: Can Language Models Learn from Context Skillfully?

上下文学习场景下，从长文本、高专业密度的上下文中提取可复用技能的现有方法，要么依赖成本极高的人工标注，要么需要外部反馈验证技能有效性，而多数上下文学习任务没有可自动获取的外部反馈信号，无法自动化生成适配特定上下文的技能。

评不是预训练论文，但它把“上下文→技能”做成了可自举闭环；先看技能筛选与 ablation，若评测没泄漏，可借去做 test-time adaptation 或合成 mid-train 数据。

Shuzheng Si,Haozhe Zhao,Yu Lei,Qingyi Wang,Dingwei Chen,Zhitong Wang ... 省略 3 位作者 ... ,Gang Chen,Fanchao Qi,Minjia Zhang,Maosong Sun

context-learningskill-inductionmulti-agent2026年4月30日arXiv PDF

arXiv泛读

In-Context Prompting Obsoletes Agent Orchestration for Procedural Tasks

核心问题是：对有明确流程图的程序性对话任务，外部 agent 编排是否真的比把完整流程放进系统提示词更可靠。论文把问题限定在 intake、诊断、信息收集、决策分流、终止状态这类客服式流程，而不是开放式工具使用或长期任务规划。

评OpenAI作者的实证研究，反直觉地指出对于流程化任务，长上下文Prompting比复杂的LangGraph编排更鲁棒，对长上下文能力的利用有启发。

Simon Dennis,Michael Diamond,Rivaan Patil,Kevin Shabahang,Hao Guo

OpenAIUniversity of iUniversity ofAgent OrchestrationIn-Context PromptingProcedural Tasks2026年4月30日arXiv PDF

arXiv

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

现有 GUI agent benchmark 多聚焦单应用、孤立任务，无法评估真实职业工作流中跨应用、多步骤协同能力；这篇工作试图补上这一缺口。

评如果你不做 agent，知道有这么个 benchmark 就够了；真要读，只看任务构造和中间 inspection 设计，榜单本身信息密度不高。

Jinchao Li,Yunxin Li,Chenrui Zhao,Zhenran Xu,Baotian Hu,Min Zhang

Harbin Institute of TechnologyShenzhen Loop Area Institutegui-agentbenchmarkcross-application2026年4月30日arXiv PDF

arXiv

D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery

为科学数据驱动发现任务构造可执行、可验证的真实环境，缓解现有科学 agent 评测缺少可靠验证信号的问题。

评不改变预训练判断，但可作为可验证环境设计参考；看任务构造流程和 87.5% verifier 评估即可。

Hanane Nour Moussa,Yifei Li,Zhuoyang Li,Yankai Yang,Cheng Tang,Tianshu Zhang,Nesreen K. Ahmed,Ali Payani,Ziru Chen,Huan Sun

The Ohio State UniversityCisco Researchverifiable-environmentsscientific-agentsagent-benchmark2026年4月30日arXiv PDF

arXiv

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

构建能随真实工作流需求变化而更新、且可复现审计的 workflow agent benchmark。

评作为 agent benchmark 备查即可；设计比静态 QA 干净，但和基座训练的连接还停在评测层。

Chenxin Li,Zhengyang Tang,Huangxin Lin,Yunlong Lin,Shijue Huang,Shengyuan Liu ... 省略 1 位作者 ... ,Rang Li,Lei Li,Benyou Wang,Yixuan Yuan

The Chinese University ofSouth China University of TechnologyXiamen University+3agent-benchmarkworkflow-agentlive-evaluation2026年4月30日arXiv PDF

arXiv

RoadMapper: A Multi-Agent System for Roadmap Generation of Solving Complex Research Problems

评测并提升 LLM 在“为复杂研究问题生成分层 roadmap（任务分解+逻辑组织）”上的能力。

评更像“多代理写作流程+新基准”，方法不新但可当评测靶子；只看 benchmark 定义与评审协议，别在 agent 流程上花太多时间。

Jiacheng Liu,Zichen Tang,Zhongjun Yang,Xinyi Hu,Xueyuan Lin,Linwei Jia ... 省略 1 位作者 ... ,Rongjin Li,Shiyao Peng,Haocheng Gao,Haihong E

Beijing University of Posts and TelecommunicatioThe Hong Kong University of Science and Technology (Guangzhou)IDEA Research+2benchmarkmulti-agentplanning2026年4月30日arXiv PDF

arXiv

SpaAct: Spatially-Activated Transition Learning with Curriculum Adaptation for Vision-Language Navigation

让 VLM 在视觉语言导航中获得动态空间意识，能够根据自然语言指令理解已执行动作，并预测动作导致的未来视觉转移。

评只看空间激活任务设计即可；它像是 VLN 版辅助目标，能给多模态预训练加世界模型信号的想法做备查。

Pengna Li,Kangyi Wu,Shaoqing Xu,Fang Li,Hanbing Li,Lin Zhao,Kailin Lyu,Long Chen,Zhi-Xin Yang,Nanning Zheng

National Key Laboratory of Human-Machine Hybrid Augmented IntelligenceNational Engineering Research Center for Visual Information and ApplicationBeijing Institute of Technology+4vision-language-navigationembodied-agentspatial-awareness2026年4月30日arXiv PDF