📚Papers

AI Research Daily

更新时间: 2026/5/4 00:42:05

92
🌟 2 重点
🧠 预训练 6 高效推理 11🌐 多模态统一 9🎨 多模态生成 5🛠️ 后训练 14🔬 原理分析 23💻 Coding Agent 9🤖 Agent 15
其他 54 篇看总结即可

方法或结果明显独立成立的工作,建议读全文

精读LLM 预训练

Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

这篇论文要拆开一个长期混在一起的问题:subword tokenizer 为什么比原始 byte 模型更容易训练、效果更好。BPE 或 unigram 同时改变了序列长度、样本吞吐、词表参数量、边界先验、位置信息和预测目标粒度。过去常把这些收益合在一起讨论,因此很难判断 byte-level LM 的差距到底来自哪里。

Nous Researchtokenizationbyte-level LMpretraining
精读LLM 预训练

Learning Rate Transfer in Normalized Transformers

这篇工作处理的是一个很具体、但对大规模预训练很关键的问题:nGPT 这类强归一化 Transformer 虽然训练更快、也不需要 warmup 和 weight decay,但它并没有自然继承大家希望的超参数可迁移性,尤其是学习率在 width、depth、token horizon 上不能稳定转移。问题不只是“调参麻烦”,而是现有 μP/Depth-μP 那套关于权重—激活对齐的假设,在 nGPT 这种广泛归一化、带可训练尺度参数的结构里并不成立。作者先用实证去检查这些对齐关系,再据此重写参数化与学习率缩放规则,目标是让小模型、短 token horizon 上找到的学习率,能可靠外推到更宽、更深、训练更久的 nGPT。

Meta Superintelligence LabsPrinceton Universitynormalized-transformermuPlearning-rate-transfer
精读LLM 后训练

Cost-Aware Learning

论文研究的是非均匀样本成本下的训练优化:当不同样本的梯度计算成本不同,如何在达到目标误差 ϵ 的同时最小化总训练成本。它把这个问题形式化为 Cost-Aware Learning,并把结论落到 LLM RL 训练中的 GRPO:长 reasoning trace 的 policy-gradient 计算更贵,不应该和短样本按同一概率处理。

Google ResearchTel Aviv UniversityCost-Aware LearningGRPORLHF
精读Agent 与系统

AutoSurfer -- Teaching Web Agents through Comprehensive Surfing, Learning, and Modeling

这篇工作解决的是 web agent 训练数据生成里的一个老问题:现有自动化轨迹生成方法对网站功能覆盖不全,任务合成常常脱离真实页面结构,最终得到的 trajectory 噪声大、可执行性差,难以真正训练出可靠的 web agent。作者把问题拆成三个环节:探索不充分、任务发现与任务表述不扎实、以及基于这些任务生成的轨迹不稳定。尤其在未见网站上,agent 失败往往不是因为单步点击不会,而是因为它根本没有形成对网站深层结构和功能空间的内部地图。AutoSurfer 的目标就是系统性地“逛完整个网站”,把页面、动作、功能、任务和轨迹串成一个更闭环的数据生成流程,并进一步验证这些数据是否足以训练 website-specific LLM,也就是文中所说的 wLLM。

Microsoft Researchweb-agenttrajectory-generationagent-data
机构
阅读分级
标签筛选

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

这篇论文要拆开一个长期混在一起的问题:subword tokenizer 为什么比原始 byte 模型更容易训练、效果更好。BPE 或 unigram 同时改变了序列长度、样本吞吐、词表参数量、边界先验、位置信息和预测目标粒度。过去常把这些收益合在一起讨论,因此很难判断 byte-level LM 的差距到底来自哪里。

应立刻看实验设计:它把 tokenizer 收益拆干净,能直接改 internal byte/subword ablation 的设置。
Théo Gigant,Bowen Peng,Jeffrey Quesnelle
Nous Researchtokenizationbyte-level LMpretraining2026年4月29日arXivPDF

这篇工作处理的是一个很具体、但对大规模预训练很关键的问题:nGPT 这类强归一化 Transformer 虽然训练更快、也不需要 warmup 和 weight decay,但它并没有自然继承大家希望的超参数可迁移性,尤其是学习率在 width、depth、token horizon 上不能稳定转移。问题不只是“调参麻烦”,而是现有 μP/Depth-μP 那套关于权重—激活对齐的假设,在 nGPT 这种广泛归一化、带可训练尺度参数的结构里并不成立。作者先用实证去检查这些对齐关系,再据此重写参数化与学习率缩放规则,目标是让小模型、短 token horizon 上找到的学习率,能可靠外推到更宽、更深、训练更久的 nGPT。

这篇会直接影响你怎么做小模找参再放大;先看参数化定义和跨 horizon 的 LR transfer 图,若结论站得住,nGPT 这条线就不该再凭经验调参了。
Boris Shigida,Boris Hanin,Andrey Gromov
Meta Superintelligence LabsPrinceton Universitynormalized-transformermuPlearning-rate-transfer2026年4月29日arXivPDF

论文讨论一个很实际的数据策略问题:对于德语这类高资源但非英语语言,严格过滤会显著缩小语料池;在固定预训练 token 预算下,是应该保留更多不同网页做单轮训练,还是应该选择高信号子集并重复训练多轮。

这篇会直接影响你做非英语 pretrain 的数据配方:先别迷信 diversity,优先复现它的多-epoch 高质子集结果,再看拐点在哪。
Ansar Aynetdinov,Patrick Haller,Alan Akbik
data-filteringlanguage-modelingsample-efficiency2026年4月30日arXivPDF

这篇工作解决的是 masked diffusion language modeling 里的一个具体但关键的训练—采样错位:标准吸收式 masked diffusion 在每一步都会预测当前位置的 clean token 分布,但如果该位置在 reverse update 后仍保持 masked,模型刚刚得到的 clean-state 估计就被直接丢弃。于是下一步它还得从 mask token 重新猜一遍,而不是在上一步估计的基础上继续修正。这会削弱跨步 refinement,尤其在低步数采样时更明显,因为每一步都需要做更大的去噪推进。

做 diffusion LM 的可以读:它抓住了“masked token 每步从零猜”的真问题,但像是局部补丁,先看方法节和主表,别急着改 prior。
Michael Cardei,Huu Binh Ta,Ferdinando Fioretto
University ofdiffusion-lmmasked-diffusionself-conditioning2026年4月28日arXivPDF

现有长上下文训练依赖的序列并行(SP)方案与DeepSpeed、Megatron等特定框架紧耦合,需要手动插入通信算子、调整张量布局,适配不同模型架构和硬件的工程成本极高;已有的编译器级分布式优化仅面向参数规模扩展,未覆盖长上下文场景的序列并行需求。

做长上下文 pretrain 的人该看:不是新算法,但把 sequence parallelism 从手工活变成编译器能力,能直接改变实验吞吐和工程门槛。
Ahan Gupta,Zhihao Wang,Neel Dani,Masahiro Tanaka,Olatunji Ruwase,Minjia Zhang
University of Illinois Urbana-Champaignlong-context-trainingsequence-parallelismcompiler2026年4月29日arXivPDF

分类与结构化预测中平滑损失(如交叉熵)优化速率快但一致性收敛慢,分段线性损失(如Hinge)一致性快但不可微的固有权衡

损失函数设计的通用理论工作,可作为预训练损失改进的文献参考,不用读正文。
Mehryar Mohri,Yutao Zhong
New York University Courant Institute of Mathematical Sciencesloss_functionconsistency_boundoptimization2026年4月30日arXivPDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

这篇论文要解决的是生成长度的 token 级建模问题。现有长度控制多依赖 prompt、序列级长度惩罚,或生成前的长度预测器;这些方法只能在整段回答层面施加约束,不能描述生成过程中每一步离结束还有多远,也难以捕捉中途从短回答转向长推理的动态变化。

不是 pretrain 论文,但把长度控制做成 token-level value head 这件事很干净;只看方法节和 LIFEBench 主表,判断能否接到你们的 decoding stack。
Zhen Zhang,Changyi Yang,Zijie Xia,Zhen Yang,Chengzhi Liu,Zhaotiao Weng ... 省略 4 位作者 ... ,Yuheng Bu,Alkesh Patel,Zhe Gan,Xin Eric Wang
University ofCarnegie Mellon UniversityUniversity of Wisconsin–Madison+5length-controlvalue-modeldecoding2026年4月29日arXivPDF

这篇工作解决的是大规模 LLM 训练中的一个系统瓶颈:分布式 collective 通信越来越贵,尤其在 FSDP、TP、MoE 的 All-to-All / Reduce-Scatter 路径上,网络时间已经压过了算力时间。已有压缩方法多是有损量化或稀疏化,训练风险难控;通用无损压缩又因为压缩/解压开销太大,放不进训练关键路径。作者要回答的是:能不能利用 LLM 训练张量的统计规律,做一个真正能在训练时加速的无损通信库。

这类系统论文常被低估;若你在做大规模训练,先看它对“近高斯张量可无损压缩”的假设是否在你们日志里成立,成立就值得尽快做小规模复现。
Wenxiang Lin,Xinglin Pan,Ruibo Fan,Shaohuai Shi,Xiaowen Chu
Harbin Institute of TechnologyThe Hong Kong University of Science and Technology (Guangzhou)The Hong Kong University of Science and Technologydistributed-trainingcommunication-compressioncollectives2026年4月30日arXivPDF

这篇工作处理的是大规模 LLM 推理里一个越来越硬的系统瓶颈:KV cache 不是简单地“不够大”,而是同时存在三层错配。第一,现有框架对不同 attention 变体的 KV 大小建模不统一,尤其对 MLA 这类压缩 KV 表示的结构缺少原生支持,导致显著的显存预算错误和批大小浪费。第二,主流 serving 系统几乎把 KV cache 视为只能放在 GPU HBM 里的对象,没有把 CPU DRAM、CXL、NVMe、RDMA、并行文件系统这些层级纳入统一管理。第三,缓存淘汰仍以 LRU 这类被动策略为主,没有利用请求复用、系统 prompt 重复、agent workflow 模板化、RoPE 顺序局部性这些可预测结构,因此频繁把后续还会用到的状态驱逐掉,再付出重算代价。

只看 sizing 公式和 MLA 部分;六级 cache 方案可能工程假设偏重,先当 serving 设计草案读。
Sanjeev Rao Ganjihal
Independent Researcher(GPU HBM) despite the availability of a rich hierarchy spanningcenter scale has shifted the primary bottleneck from compute to+1kv-cacheinference-servingmemory-hierarchy2026年4月19日arXivPDF

解决消费级多 GPU 上做 LLM 微调时,受限于显存、PCIe 带宽和 pipeline stage 负载不均导致吞吐被最重 stage 卡死的问题。

不是预训练方法论文,但如果你手里只有 PCIe 机器,读调度设计和负载不均实验就够了;能不能泛化到大规模预训练,还得看状态同步开销。
Yibin Luo,Shiwei Gao,Huichuan Zheng,Youyou Lu,Jiwu Shu
Tsinghua Universitypipeline-parallelismconsumer-gpustraining-systems2026年4月29日arXivPDF

在资源受限的工业边缘设备上,降低 VLM/LLM 推理延迟,并避免闭源硬件生态带来的部署锁定。

看系统设计图和 kernel skill 抽象即可;若没有硬件矩阵实测,别把结论外推到训练侧架构选择。
Mengling Deng,Yuanpeng Chen,Sheng Yang,Wei Tao,Wenhai Zhang,Hui Song ... 省略 5 位作者 ... ,Shuang Zhang,Bei Liu,Tiankun Zhao,Xiangjing An
Fudan UniversityIndependent Researcheredge-inferenceVLM-servingkernel-optimization2026年4月30日arXivPDF

黑盒 LLM 服务中,系统需要在响应质量不可完全观测、强推理路径成本更高的条件下,为每个请求决定是否追加计算。

服务系统问题多于建模问题;读 POMDP 和信号聚合即可,作为黑盒路由工程参考,不影响 pretrain prior。
Wenhao Yuan,Chenchen Lin,Jian Chen,Jinfeng Xu,Shuo Yang,Edith Cheuk Han Ngai
The University ofSun Yat-sen Universityadaptive-inferencellm-servingPOMDP2026年4月30日arXivPDF

研究 AI 推理负载在地理位置之间迁移时,如何在延迟、容量、合规和状态局部性约束下优化电力成本与碳排放。

做 serving 成本建模可扫一眼 energy-latency frontier;对预训练动作没有直接反馈。
Xubin Luo,Yang Cheng
inference-servingenergy-aware-computinggeo-distributed-systems2026年4月30日arXivPDF

动态模型合并方法需要为每个任务存储独立参数,导致存储开销过高的问题

作为模型合并方向的文献备查,仅看摘要即可,不需要读全文。
Junqi Gao,Dazhi Zhang,Zhichang Guo,Biqing Qi,Yi Ran,Wangmeng Zuo
哈尔滨工业大学上海人工智能实验室Harbin Institute of Technology+1model mergingtask vectorparameter compression2026年4月30日arXivPDF

研究高 GPU 利用率下的在线推理服务调度:如何在并发执行时估计延迟干扰,并让高优先级请求更少错过 deadline。

只看调度模型和实验表即可;不是 LLM serving 专项,但并发干扰建模可作系统备查。
Haidong Zhao,Nikolaos Georgantas
InriaSorbonne UniversityInria & Sorbonne Universityinference-servingGPU-schedulinglatency-prediction2026年4月30日arXivPDF

面向 LLM Agent 的多轮推理-工具调用工作负载,解决 GPU 推理和 CPU 工具执行之间资源耦合、排队和过载的问题。

预训练方向不用细读,扫系统模型即可;它提醒 Agent serving 的瓶颈常在 CPU tool path,不只在 GPU decode。
Yifei Wang,Hancheng Ye,Yechen Xu,Cong Guo,Chiyue Wei,Qinsi Wang ... 省略 1 位作者 ... ,Tingjun Chen,Hai "Helen" Li,Danyang Zhuo,Yiran Chen
Duke Universityagent-servingheterogeneous-schedulingLLM-systems2026年4月14日arXivPDF

为不同硬件和推理服务自动选择运行时参数,以降低 LLM 推理能耗。

只看流程图和实验设置即可;把 LLM 当调参助手不新,若没有干净能耗基准,结论只能当部署侧弱信号。
Katelyn Crumpacker,Dimitrios Nikolopoulos
Virginia Polytechnic and State Universityinference-efficiencyenergy-optimizationruntime-tuning2026年4月29日arXivPDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

这篇工作讨论的不是某个具体算法任务,而是一个更基础的表示问题:当任务的计算规则依赖显式二维结构时,把输入强行序列化成 1D token,会不会额外增加模型负担,并成为性能瓶颈。作者把这种负担称为 serialization friction。论文用三个合成任务做诊断:矩阵转置依赖行列对应,Conway’s Game of Life 依赖局部邻域更新,LU 分解依赖二维位置上的消元关系。核心问题不是“模型会不会做这些题”,而是“同一底层内容,如果以文本序列给模型,和以保留二维布局的视觉输入给同一语言骨干,行为会怎样变化”。

只看任务设计和结果表即可;它提醒预训练接口别迷信序列化,尤其是表格和网格结构。
Chung-Hsiang Lo,Lu Li,Diji Yang,Tianyu Zhang,Yunkai Zhang,Yoshua Bengio,Yi Zhang
Northeastern UniversityMila - Quebec AI InstituteUniversity ofserializationmultimodalstructured reasoning2026年4月29日arXivPDF

这篇工作要解决的是实时多模态交互里的两个结构性问题:一是现有系统大多仍是“先感知、再响应”的半双工流水线,模型在生成过程中很难持续吸收新到达的视觉和语音信息;二是交互仍然主要是被动响应式,缺少基于持续环境理解的主动行为。作者的目标不是单纯把语音、图像、视频接进 LLM,而是把输入和输出统一到同一时间轴上,做连续、全双工、可主动触发的 omni-modal 交互。

预训练侧只需读架构和训练配方;若 full-duplex 不是工程拼接,而是统一上下文建模,才值得复现实验。
Junbo Cui,Bokai Xu,Chongyi Wang,Tianyu Yu,Weiyue Sun,Yingjing Xu ... 省略 26 位作者 ... ,Xu Han,Maosong Sun,Zhiyuan Liu,Yuan Yao
omni-modalstreaming-multimodalfull-duplex2026年4月30日arXivPDF

构建科学实验图像问答 benchmark,评估 MLLM 是否能读懂多面板实验图、定位关键信息并进行专家级证据推理。

对预训练只给弱信号;看任务分解和错误类型即可,别把科学图 benchmark 当通用 VLM 能力结论。
Junpeng Ding,Zichen Tang,Haihong E,Mengyuan Ji,Yang Liu,Haolin Tian ... 省略 10 位作者 ... ,Jiacheng Liu,Zhongjun Yang,Jintong Chen,Siying Lin
Beijing University of Posts and TelecommunicatioBUPT-Reasoning-Labbupt-reasoning-lab.github.io/SPUR+1MLLM-benchmarkscientific-imagesvisual-reasoning2026年4月30日arXivPDF

现有多模态大模型基准大多聚焦单图/多图理解任务,缺乏对 interleaved 图文混合上下文下细粒度对齐能力的系统评测基准。

仅作为多模态对齐能力评测的可选基准,看摘要和任务设计部分即可,无需精读全文。
Bingli Wang,Huanze Tang,Haijun Lv,Zhishan Lin,Lixin Gu,Lei Feng,Qipeng Guo,Kai Chen
东南大学上海人工智能实验室Shanghai AI Laboratory+1multimodal-benchmarkimage-text-alignmentinterleaved-multimodal2026年4月30日arXivPDF

分析大视觉语言模型在读取图像中文字后,其概念属性描述是否会受到文字字体、颜色、大小等视觉样式影响。

作为VLM数据偏置小信号看即可;若做OCR-heavy预训练,只看实验控制和失败案例。
Xiaomeng Wang,Martha Larson,Zhengyu Zhao
Radboud UniversityXi’an Jiaotong UniversityRadboud UniversityNijmegenVLM-analysisvisual-textstyle-bias2026年4月30日arXivPDF

解决视觉语言模型 test-time prompt tuning 虽能提升适应性、但常导致预测校准变差的问题。

只看 sharpness 与校准的实验图即可;对预训练没直接动作,但能提醒 prompt 初始化不是无害细节。
Hyeonseo Jang,Jaebyeong Jeon,Joong-Won Hwang,Kibok Lee
Yonsei Universityvision-language-modelstest-time-adaptationprompt-tuning2026年4月30日arXivPDF

解决高效 VLM 预训练中的数据采样问题,尤其是在降采样节省算力时如何避免长尾语义被系统性丢失。

和文本 pretrain 的 data mixture 问题是同一类病灶,但证据还不够硬;只看动态采样与长尾保留的对照实验,别急着改内部配比策略。
Mingliang Liang,Zhuoran Liu,Arjen P. de Vries,Martha Larson
vlm-pretrainingdata-samplinglong-tail2026年4月30日arXivPDF

现有 VLA 预训练多把机器人学习当作监督行为克隆,难以显式建模任务进展和语言目标的物理可达性。

机器人味道较重;只看 goal occupancy 训练目标,能借鉴到多模态预训练的可达性信号,别外推到文本 LM。
Yang Zhang,Jiangyuan Zhao,Chenyou Fan,Fangzheng Yan,Tian Li,Haitong Tang ... 省略 4 位作者 ... ,Xiu Li,Chi Zhang,Chenjia Bai,Xuelong Li
Institute of Artificial Intelligence (TeleAI)China TelecomTsinghua University+4VLAgoal-conditioned-rlcontrastive-learning2026年4月30日arXivPDF

评测多模态大模型对科学谱图的理解和问答能力,尤其是从高密度、非结构化、领域化曲线图中提取信息并进行专业推理。

作为曲线/谱图 tokenization 的小信号可留档;benchmark 太窄,只看数据格式和采样插值 ablation。
Jialu Shen,Han Lyu,Suyang Zhong,Hanzheng Li,Haoyi Tao,Nan Wang,Changhong Chen,Xi Fang
to broader scientific research and data analysisVLM-benchmarkscientific-imagesspectral-understanding2026年4月30日arXivPDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

论文解决的是图像编辑 RLHF 中 reward model 不可靠的问题:单一打分器很难同时评估指令遵循、未编辑区域保持和视觉质量,导致后续 RL 优化信号偏粗。

只看reward decomposition和cold-start verifier训练;图像编辑结果本身离pretrain远,但奖励信号设计可借鉴。
Hanzhong Guo,Jie Wu,Jie Liu,Yu Gao,Zilyu Ye,Linxiao Yuan,Xionghui Wang,Yizhou Yu,Weilin Huang
ByteDance SeedThe University ofCUHK+1image-editingverifier-RLreward-modeling2026年4月30日arXivPDF

这篇工作要解决的不是“视频生成够不够清晰”,而是“如何把视频美学变成可训练、可评估、可用于后训练优化的监督信号”。现有视频美学研究大多停留在粗粒度整体打分,标签解释性弱,无法告诉模型问题出在构图、色彩、光线还是物理 plausibility,也很难直接作为生成模型对齐时的 reward。作者试图补上这条链路:先定义细粒度视频美学标准,再构建专家偏好数据,再训练可解释的 reward model,最后把它接到视频生成后训练里。

不是基座预训练论文,但 reward rubric 拆解得比常见偏好模型干净;只看标注框架和 RM 设计,别在视频结果页停太久。
Yujin Han,Yujie Wei,Yefei He,Xinyu Liu,Tianle Li,Zichao Yu,Andi Han,Shiwei Zhang,Tingyu Weng,Difan Zou
Fudan UniversityZhejiang UniversityAlibaba Group+5video-generationreward-modelpreference-data2026年4月30日arXivPDF

统一建模文本、人类动作和物体动作的联合分布,从而支持多种 4D human-object interaction 条件生成任务。

有一点统一 token 建模味道,但 HOI 域太窄;只看 VQ-VAE 码本设计和任务格式即可。
Mengfei Zhang,Jinlu Zhang,Zhigang Tu
Wuhan UniversityPeking Universitymotion-tokenizationVQ-VAEmultimodal-generation2026年4月30日arXivPDF

如何把扩散模型蒸馏到极少步采样(few-step)时仍保持高画质,并避免“蒸馏+RL”两套流程拼装带来的复杂性与不稳定。

把 DMD 判别器当 reward 这点够“干净”,但更像工程整合;只需核对 few-step 表现是否真超过 teacher、以及中间态奖励是否带来稳定增益。
Xu Wang,Zexian Li,Litong Gong,Tiezheng Ge,Zhijie Deng
Shanghai Jiao Tong UniversityAlimama TechWu et al+5diffusion-distillationfew-step-generationadversarial-reward2026年4月29日arXivPDF

解决现有扩散模型在连续时空随机过程(如视频、天气预报)的任意子集观测条件生成任务中,存在物理时间相近状态结构相似性缺失、低步推理不稳定、噪声不匹配物理时间步长、不支持任意状态子集条件的问题

非马尔可夫扩散桥的任意条件建模思路可作为多模态统一预训练的参考,仅看摘要了解核心思路即可
Gabe Guo,Thanawat Sornwanee,Lutong Hao,Elon Litman,Stefano Ermon,Jose Blanchet
Stanford Universitydiffusion bridgeconditional generationcontinuous SDE2026年4月30日arXivPDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv精读🌟

Cost-Aware Learning

论文研究的是非均匀样本成本下的训练优化:当不同样本的梯度计算成本不同,如何在达到目标误差 ϵ 的同时最小化总训练成本。它把这个问题形式化为 Cost-Aware Learning,并把结论落到 LLM RL 训练中的 GRPO:长 reasoning trace 的 policy-gradient 计算更贵,不应该和短样本按同一概率处理。

Google将理论优化与大模型RL落地结合的典范,Cost-Aware GRPO直击长序列RL训练的痛点,能省30% token,做RLHF的同学必读其采样和加权策略。
Clara Mohri,Amir Globerson,Haim Kaplan,Tomer Koren,Yishay Mansour
Google ResearchTel Aviv UniversityCost-Aware LearningGRPORLHF2026年4月30日arXivPDF

奖励模型在推断时会利用长度、格式等“捷径特征”给出偏置打分,进而污染 RLHF/DPO 的偏好数据;问题是如何在不重新训练 RM、且不牺牲正常偏好判别能力的前提下,同时缓解多种风格偏置。

这篇不改 pretrain,但会改你对 RM 可用性的 prior:若小 RM 通过少量神经元干预就能接近大 RM,先复现其 annotation-to-alignment 链路,再决定是否继续堆更大 judge。
Kazutoshi Shinoda,Kosuke Nishida,Kyosuke Nishida
NTTHuman Informatics Labsreward-modeldebiasinginference-time-intervention2026年4月30日arXivPDF

论文要解决的是 latent reasoning 的 RL 稳定性问题。已有 Latent-SFT 能把中间推理压到连续 latent token 中,缩短推理链,但把 GRPO 直接搬到 latent 空间会失效:连续探索容易离开有效 latent 流形,Gumbel 扰动下的概率更新方向可能和轨迹优势不一致,多条正确路径的 latent 平均还可能落到不能继续正确推理的位置。

值得看,因为它把 latent reasoning 做 RL 时最麻烦的三个失稳源拆开了;先读问题定义和消融,若 setup 干净,应立刻在内部 latent-policy 实验里复现。
Jingcheng Deng,Zihao Wei,Liang Pang,Junhong Wu,Shicheng Xu,Zenghao Duan,Huawei Shen
State Key Laboratory of AI SafetyChinese Academy of SciencesUniversity of Chinese Academy of Sciences+1latent-reasoningGRPOreinforcement-learning2026年4月30日arXivPDF

这篇工作要解决的是 VLA 中一个很具体但重要的缺口:已有带 reasoning 的机器人策略,要么依赖显式语言推理,延迟高且难表达连续物理过程;要么做 latent reasoning,但训练方式仍主要是 imitation learning,缺少在线交互带来的适应性。与此同时,已有 VLA 的 RL post-training 又大多只优化 action space,没有把“先形成物理推理,再执行动作”这一内部过程纳入优化目标。作者的问题设定因此很明确:能否让 RL 直接作用于 latent physical reasoning 与 action generation 的耦合过程,而不是只在动作层面做 policy improvement。

多模态VLA模型RL后训练的创新方法,仅需读方法部分§3的LAPO算法设计即可
Hao Chen,Jiaming Liu,Zhonghao Yan,Nuowei Han,Renrui Zhang,Chenyang Gu ... 省略 4 位作者 ... ,Peng Jia,Chi-Wing Fu,Shanghang Zhang,Pheng-Ann Heng
北京大学计算机学院Simplexity RoboticsPeking University 3Simplexity RoboticsVLAlatent reasoningRL post-training2026年4月30日arXivPDF

这篇工作要解决的是:在没有人工标注的情况下,模型能否自己生成“可验证的新题目”,再通过解题反馈持续提升推理能力,而不是只在已有题目上做 answer-side RL。

值得看训练环节而非结果数字;Proposer collapse 和 valid-output manifold 是 RLVR 自举里容易被低估的坑。
Chengcao Yang,Jun Chen
Wuhan UniversityRLVRself-playverifiable-reasoning2026年4月30日arXivPDF

现有混合RLVR训练会出现能力分化,不同能力的优化方向冲突导致性能权衡,而先训练单领域专家再做静态OPD蒸馏的范式存在师生行为差距过大,导致学生无法充分吸收专家能力的问题。

不是 pretrain 论文,但它把“能力干扰来自行为分布错位”讲得很像样;先看方法图和对 mixed RLVR 的分解,再决定要不要复现。
Naibin Gu,Chenxu Yang,Qingyi Si,Chuanyu Qin,Dingyu Yao,Peng Fu,Zheng Lin,Weiping Wang,Nan Duan,Jiaqi Wang
Institute of Information EngineeringUniversity of Chinese Academy of SciencesJD.comRLVRpolicy-distillationmultimodal-reasoning2026年4月29日arXivPDF

答案级微调(ALFT)需要优化模型生成正确最终答案的边际概率,但推理轨迹到答案的映射通常不可微,且推理轨迹的组合空间过大,直接计算边际概率梯度不可行,现有REINFORCE类梯度估计器方差过高,训练难以稳定。

这篇该当作“目标函数论文”来读,不必先信它能立刻提分;先看博弈等价是否真的把 answer-only 训练讲清了,若成立,会直接影响你对 latent reasoning 后训练接口的设计。
Mehryar Mohri,Jon Schneider,Yifan Wu
Google ResearchMicrosoft Researchanswer-level-finetuninglatent-reasoninggame-theory2026年4月29日arXivPDF

论文解决的是低算力 RL reasoning 训练中的 advantage 估计问题:不训练额外 value network,也不能像 GRPO 那样为每个 prompt 采很多条 reasoning trace 时,如何得到低方差的 policy gradient。核心矛盾是,REINFORCE 方差高,PPO/A2C 需要额外 value model,GRPO 省掉 value model 但依赖较大的组内采样数。

用Kernel方法替代Value Network做Advantage估计,思路清奇,在GRPO大行其道的当下提供了一个有趣的轻量级baseline,值得一看其特征空间的构造。
Shijin Gong,Kai Ye,Jin Zhu,Xinyu Zhang,Hongyi Zhou,Chengchun Shi
LSERLHFAdvantage EstimationKernel Methods2026年4月30日arXivPDF

领域微调前无系统方法检测训练数据是否覆盖全部所需细分能力,现有统计指标或事后评估要么无法定位具体能力缺口,要么需付出高昂的微调计算成本

把“数据是否覆盖目标能力”做成可执行诊断流程;重点看子目标分解规范与coverage scoring的误差模式,能直接改你们的数据验收。
Saeid Asgari Taghanaki,Rakshanda Agarwal,Bruce Sun,Rohan Jha,Elias Stengel-Eskin,Sara Malvar ... 省略 3 位作者 ... ,Tusher Chakraborty,Leonardo de Oliveira Nunes,Ranveer Chandra,Emre Kiciman
dataset-coveragefine-tuningdata-quality2026年4月30日arXivPDF

现有DPO等偏好学习方法使用的代理损失与真实 pairwise 排序目标理论上不一致,神经网络的等连续特性会导致模型通过压缩得分差而非学习正确排序来最小化代理损失,无法保障真实排序效果

DPO理论一致性的扎实工作,SA-DPO的自适应间隔设计可直接用于内部对齐实验ablation,只看§3推导和§4目标定义即可。
Mehryar Mohri,Yutao Zhong
New York University Courant Institute of Mathematical Sciencespreference_learningDPOalignment2026年4月30日arXivPDF

现有安全对齐评测多看首轮拒答,却较少衡量模型在多轮澄清后能否恢复对良性用户意图的帮助性。

对 pretrain 价值有限,但它把“过度拒答”测成了多轮可量化对象;只看 benchmark 设计和首轮/澄清后落差,够你反思 safety data 配方。
Mingqian Zheng,Malia Morgan,Liwei Jiang,Carolyn Rose,Maarten Sap
Carnegie Mellon UniversityAllen Institute for AI♡Carnegie Mellon University+2safetyalignmentbenchmark2026年4月29日arXivPDF

面向写作类生成任务,现有奖励模型评测过于粗粒度,训练也难以精确刻画“是否满足具体写作要求”。

对预训练本身帮助有限,但如果你在看 RL 信号质量,这篇可当一个干净案例:把“指令要求分解”变成 reward supervision;先看 benchmark 设计,再决定要不要读训练部分。
Qingyu Ren,Tianjun Pan,Xingzhou Chen,Xuhong Wang
Fudan UniversityShanghai Artificial Intelligence LaboratoryShanghai Key Laboratory of Data Sciencereward-modelingwriting-benchmarkrlhf2026年4月30日arXivPDF

解决 LLM 生成 reward 后,如何判断这些 reward 在策略训练的哪个阶段可信、何时应该部署的问题。

结论像是 reward-model 评估的常识化版本;只看 competence threshold 结果,别直接外推到 LLM RL。
Feiyu Wu,Xu Zheng,Zhuocheng Wang,Yi ming Dai,Hui Li
Xidian Universityreward-designreinforcement-learningreward-verification2026年4月30日arXivPDF

如何在保持极低参数量(ultra-low-rank)的同时,提升 PEFT(参数高效微调)方法的表达能力,打破 adapter size 和性能之间的 trade-off?

将 boosting 思想引入 LoRA 训练,通过正交子空间迭代累积有效秩,思路有趣但主要针对极低资源微调,作为 PEFT 变体备查。
Raviteja Anantha,Nick Levato,Layne C. Price
PEFTLoRAGradient Boosting2026年4月30日arXivPDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

在不做反向传播、且只用极少前向计算的条件下,如何为“某个具体对齐行为”(如安全拒答模板、迎合/二次猜测、语言切换等)生成可检验的因果假设:哪些 FFN 神经元在促进该行为、哪些在抑制该行为,并且在动手干预前就能预判“该用 ablation 还是 direction injection/残差注入”才有效。

只看方法和 refusal ablation 表;“50 个神经元控制拒答模板”若成立,会改变对 RLHF 行为局部性的 prior。
Hongliang Liu,Tung-Ling Li,Yuhao Wu
interpretabilityFFN-circuitsRLHF2026年4月30日arXivPDF

多轮 ideation 场景下,模型在迭代“变得更复杂/更严谨”的压力下会逐步偏离最初硬约束;关键问题是这种 drift 是否来自遗忘(recall 失败),以及如何用可自动化的方式稳定测量“记得但仍违反”的现象。

这篇值得看,因为它把“记得约束”和“执行约束”拆成两个变量;只读 benchmark 设计和 KBV 结果,就足够影响你看对齐数据的方式。
Garvin Kruthof
Technical University ofconstraint-adherencemulti-turnbenchmark2026年4月30日arXivPDF

论文研究一个在科学类 ICL 场景里很容易被忽略的问题:当任务需要“从观测数据中恢复隐变量/参数,再用已知科学定律计算目标量”(latent structure recovery)时,加入与真实定律完全一致的 in-context examples,反而会抑制模型调用预训练中已掌握的科学公式与推导能力,使其从“知识驱动的推导”转向“基于示例的经验拟合”。作者关心的不是平均准确率升降,而是模型内部解题策略被提示词结构系统性改变。

会改一个 ICL prior:示例不总是解锁知识,也会把计算拉向拟合;先读实验设计和错误分解。
Chaemin Jang,Woojin Park,Hyeok Yun,Dongman Lee,Jihee Kim
Korea Advanced Institute of Science and TechnologyShanghai Jiao Tong Universityin-context-learningknowledge-recallscientific-reasoning2026年4月30日arXivPDF

Sparse Autoencoder(SAE)常被当作“概念=线性方向”的无监督解释工具,但大量证据表明概念在表征空间里更像低维流形(连续几何结构)。论文要回答:什么叫 SAE ‘捕获’一个流形?现有 SAE 何时能捕获、以什么机制捕获?以及这种捕获在可解释性上是否可靠。

SAE 用户应读理论定义和实证失败例;它会降低“一个 feature 一个概念”的先验置信度。
Usha Bhalla,Thomas Fel,Can Rager,Sheridan Feucht,Tal Haklay,Daniel Wurgaft ... 省略 2 位作者 ... ,Vasudev Shyam,Jack Merullo,Atticus Geiger,Ekdeep Singh Lubana
Harvard UniversityNortheastern UniversityStanford University+3mechanistic-interpretabilitysparse-autoencodersconcept-manifolds2026年4月30日arXivPDF

在 LLM 版本对比评测中,如何把“总体分数提升/下降”拆解到 item 级别,并区分哪些变化是真正的能力漂移、哪些只是采样随机性导致的波动,从而量化版本更新带来的可靠改进与可靠退化(reliable improvement/deterioration)。

读 Fig/Table 的 item churn 分解即可;它不会改训练配方,但会改模型发布前 regression gate 的设计。
Jon-Paul Cacioli
Independent ResearcherevaluationMMLU-Proreliable-change-index2026年4月30日arXivPDF

论文要回答的问题很具体:常见的“政治偏见审计”把 LLM 当作一个有稳定政治立场的被测对象,用固定问卷打分;但 LLM 又存在明显的 sycophancy(对提问者立场/身份的迎合)。那么审计测到的“左倾”到底有多少是模型的稳定倾向,有多少是对默认审计者身份的推断与迎合?作者通过只改变提问者身份、不改变题目内容的因子实验,量化这种测量偏差。

这篇不改模型,但会改你看 benchmark 的眼睛:问卷式偏见评测很可能把 sycophancy 当 ideology 量了,只看实验设计和主表就够。
Petter Törnberg,Michelle Schimmel
Institute of LogicUniversity ofsycophancybias-evaluationbenchmark-validity2026年4月30日arXivPDF

现有LLM评测框架均使用统一静态prompt测试所有模型,与工业界先针对每个模型做prompt优化再上线的实际流程不符,导致评测得到的模型排名与实际应用表现存在偏差,会误导模型选型。

结论不新鲜,但如果主表做得干净,会直接动摇很多 benchmark 排名的可比性;先看实验协议和 rank flip 的幅度。
Nicholas Sadjoli,Tim Siefken,Atin Ghosh,Yifan Mai,Daniel Dahlmeier
Stanford Universityevaluationprompt-optimizationbenchmarking2026年4月30日arXivPDF

核心问题是:窄域有害微调导致的 emergent misalignment 是否会形成一致的“人格”表现,即模型的有害行为、自我评估、身份选择、输出识别和危害评分预测是否相互一致。论文进一步问,不同有害微调域是否会诱导不同类型的这种表现。

值得看实验矩阵:它提醒安全 probe 不能只问模型“你是谁”,行为和自报会分叉。
Anietta Weckauff,Yuchen Zhang,Maksym Andriushchenko
emergent-misalignmentsafetyfine-tuning2026年4月30日arXivPDF

现有训练过程中表征坍缩的检测滞后于任务指标变化,且全量计算嵌入空间拓扑特征的开销过高,无法在线实时监控训练过程中的表征结构退化问题。

读方法和消融就够;若 CI 真能早于 loss 报警,适合加入 continual pretrain 监控候选池。
Alexander Kalinowski
training-dynamicsrepresentational-collapsetopological-monitoring2026年4月28日arXivPDF

研究 softmax attention 在较大规模双向基础模型训练中的不稳定性,并测试 sigmoid attention 作为替代是否能带来更稳的优化与更好表示。

领域不对口,但“softmax 的耦合 Jacobian 可能是训练炸点”这个观察值得记;只看稳定性分析和 stress test,别把下游指标当主结论。
Vijay Sadashivaiah,Georgios Dasoulas,Judith Mueller,Soumya Ghosh
attentionsigmoid-attentiontraining-stability2026年4月29日arXivPDF

任务专用 LLM 中,神经元是否均匀贡献于目标能力,以及剪枝后性能崩塌能否通过恢复关键神经元逆转。

结论方向不新,但“10% 神经元导致任务崩塌”这个数字值得留档;若要读,只看 selective vs random pruning 和 reverse pruning 两组图。
M. K. Khalidi Siam,Md. Tausif-Ul-Islam,Md. Reshad Romim Khan,Mohammed Ali Hossain,Mushfiqul Amin,Labib Hasan Khan,Niloy Farhan,Farig Sadeque
BRAC UniversityMohammed Ali Hossainpruningneuronsmechanistic-analysis2026年4月29日arXivPDF

用 Shannon 式“人类预测下一个字符”的实验,估计乌克兰语的字符级熵上界,并与现有 LLM 的预测能力做对照。

不直接改进预训练,但作为“语言可预测性”实测点可备查;只需看方法细节与误差讨论,别指望能推导 tokenizer 结论。
Anton Lavreniuk,Mykyta Mudryi,Markiian Chaklosh
ARIMLABS.AIUniversity of the National Education Commission in Krakówentropyinformation-theoryhuman-evaluation2026年4月30日arXivPDF

为开放式语言模型回答设计可校准的拒答机制,在模型缺乏知识时决定是否回答,并给出有限样本保证。

读问题设定和 guarantee 形式即可;若 confidence 来自生成后打分,结论对预训练知识边界只是弱探针。
Rui Xu,Yi Chen,Sihong Xie,Hui Xiong
Hong Kong University of Science and Technology (Guangzhou)hallucinationcalibrationconformal-prediction2026年4月30日arXivPDF

定位并编辑 LLM 中与人格特质相关的神经元,同时尽量减少对通用能力的破坏。

不是预训练主线,但“神经元多功能、特质表示互斥”这个观察值得记;只看表示分析部分,编辑结果当附带。
Lifan Zheng,Xue Yang,Jiawei Chen,Chenyan Wu,Jingyuan Zhang,Fanheng Kong,Xinyi Zeng,Xiang Chen,Yu Tian
Southeast UniversityZhejiang University of TechnologyKuaishou Technology+5interpretabilityneuron-editingpersonality2026年4月30日arXivPDF

在 surprisal theory 研究中,预训练语言模型的 tokenization 与实验分析所用语言单位不一致,导致 surprisal 指标的定义和解释常被混淆。

不是 pretrain 论文,但如果你常拿 token-level logprob 做词级分析,这篇会提醒你不少结论其实建在单位定义不干净上。
Samuel Kiegeland,Vésteinn Snæbjarnarson,Tim Vieira,Ryan Cotterell
University of CopenhagenUUniversity of Copenhagensurprisaltokenizationevaluation-methodology2026年4月30日arXivPDF

VLM集成到决策系统时,视觉输入对其合作决策行为的影响规律尚不明确,缺乏对应的评估与缓解方案

属于VLM行为鲁棒性的边际分析,仅作为多模态对齐的参考素材,看摘要结论即可
Kenneth J. K. Ong
VLMvisual primingmodel safety2026年4月30日arXivPDF

系统化梳理学习率调度从全局固定值到分层、随时间演化策略的发展,并提出一个结合层级差异和训练阶段的优化框架。

作为 LR taxonomy 可快速扫;DALS 若没在 Transformer 预训练规模验证,就只能当 fine-tuning trick 备查。
Ming-Hong Yao,Di Wang,Jian Cui,Jin-Yan Chen,Zi-Hao Cui,Fa Wang,Chen Wei,Qiu-Ye Yu
Jilin International Sciences Universitylearning-rateoptimizertraining-dynamics2026年4月30日arXivPDF

重新评估 LLM 的组合性:现有组合泛化测试只看输出对错,并依赖训练/测试划分,容易出现组合泄漏且解释性不足。

组合性评测角度比常规 held-out split 干净些;只看方法定义和 string-to-grid 结果即可。
Ziyao Xu,Cong Wang,Houfeng Wang
Peking UniversityOPPO AI CenterNational Key Laboratory for Multimedia Information Processingcompositionalitymechanistic-evaluationrule-generation2026年4月30日arXivPDF

分析 transformer-based generative recommender 中,注意力分配和序列生成机制是否会诱发系统性推荐偏置。

只看偏置通道的理论定义;recommender 设定偏窄,但能提醒 attention inductive bias 不总是中性。
Jinhui Han,Ming Hu,Xilin Zhang
mechanistic-analysisattention-biasrecommender-systems2026年4月7日arXivPDF

研究持续学习中,模块化结构在什么条件下会影响表征几何、迁移和干扰。

可作为 continual pretrain 的机制备查;只看维度控制结论,别把小 RNN 结果外推到 LLM。
Kathrin Korte,Joachim Winter Pedersen,Eleni Nisioti,Sebastian Risi
IT University of Copenhagencontinual-learningmodularityrepresentation-geometry2026年4月30日arXivPDF

自动检测、分类并定位 Transformer 架构内部的静默故障,尤其是 attention、projection 和周边组件的错误。

只看 fault taxonomy 和 benchmark 构造即可;它更像训练代码 QA 清单,不是模型机制结论。
Sigma Jahan,Saurabh Singh Rajput,Tushar Sharma,Mohammad Masudur Rahman
Dalhousie Universitytransformer-debuggingfault-diagnosismutation-testing2026年4月30日arXivPDF

检测多轮 prompt injection 中单轮文本看似正常、但对话轨迹逐步转向攻击的隐蔽模式。

安全方向可扫 abstract 和实验表;激活轨迹结论有趣,但合成分布依赖重,别当通用机制证据。
Prashant Kulkarni
activation-analysisprompt-injectionmulti-turn-safety2026年4月30日arXivPDF

LLM 做 listwise recommendation reranking 时,同一候选集合的输入排列会改变输出排序,导致模型分数混入 prompt serialization bias。

只看方法图和 ablation;它不会改变 pretrain prior,但对“集合输入被 decoder 顺序污染”这个坑给了可复用处理。
Ethan Bito,Yongli Ren,Estrid He
RMIT UniversityLLM-rerankingposition-biasRoPE2026年4月30日arXivPDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

解决 coding agent 使用外部记忆时的误检索问题:相似的报错或路径不一定意味着旧修复经验可安全复用。

作为 coding-agent memory 备查即可;bandit framing 合理,但没有摘要级证据能支撑更高优先级。
Mehmet Iscan
PythaLabYildiz Technical Universitycoding agentmemory retrievalcontextual bandit2026年4月30日arXivPDF

论文解决代码 RLVR 和代码评测中的执行反馈问题:现有 sandbox 过度依赖 exact match,容易误判多解和浮点容差题;同时在高并发训练中执行吞吐不足,导致奖励信号噪声和训练效率瓶颈。

做代码大模型RL训练的可直接复用该系统框架,避免重复开发沙箱,重点参考细粒度并行执行模块的设计
Jiasheng Zheng,Xin Zheng,Boxi Cao,Pengbo Wang,Zhengzhao Ma,Qiming Zhu ... 省略 1 位作者 ... ,Yaojie Lu,Hongyu Lin,Xianpei Han,Le Sun
中国科学院软件研究所中文信息处理实验室中国科学院大学Chinese Information Processing Laboratory+2code-sandboxRLVRcode-llm2026年4月30日arXivPDF

电路图到 Verilog 的多模态代码生成评测里,模型是否真的“读图并基于拓扑推导 RTL”,还是主要靠 prompt 里 module_header(模块名/端口名/参数名)的语义线索走捷径,从而导致评测分数虚高且存在隐蔽的可靠性风险(Mirage:把图换成空白图,Pass@k 不降反升)。

只看 Mirage 消融和 C2VEVAL 设计;它提醒多模态代码评测很容易测到标识符记忆而非视觉 grounding。
Guang Yang,Xing Hu,Xiang Chen,Xin Xi
Zhejiang UniversityHangzhou High-Tech Zone Institute of Blockchain and Data SecurityNantong University+4multimodal-code-generationverilogbenchmark2026年4月30日arXivPDF

为 LLM 在 stripped binary 的类型推断、函数名和变量名恢复任务上提供统一、可公平比较的 reverse engineering benchmark。

作为代码模型评测备查即可;重点看数据去重、编译矩阵和 metric,别被二进制安全场景的任务名带偏。
Jun Yeon Won,Xin Jin,Shiqing Ma,Zhiqiang Lin
Ohio State UniversityUniversity of Massachusetts AmherstOhio State UniversityColumbus+1code-modelsbinary-analysisbenchmark2026年4月30日arXivPDF

这篇工作要解决的不是“程序合成能不能做”,而是一个更基础也更难回答的问题:在训练语料完全可控、测试样本与训练集距离可度量的条件下,Transformer 在程序合成里到底是在泛化,还是只是在训练分布附近做局部插值。作者为此构造了一个严格受控的算术 DSL 环境,枚举数百万个程序,并把每个程序同时放到语法空间和语义空间里,从而能精确区分两类泛化:同一支持集内的数据密度迁移,以及超出训练支持集的外推。

不是基座方法论文,但评测 setup 很干净;若你在做代码预训练或合成数据,重点看它怎样把 interpolation 和 extrapolation 拆开,别只盯最终分数。
Henrik Voigt,Michael Habeck,Joachim Giesen
Friedrich Schiller University JenaFriedrich Schiller UniversityJenaprogram-synthesisgeneralizationdistribution-shift2026年4月30日arXivPDF

讨论 terminal-agent benchmark 任务应如何设计,避免验证逻辑脆弱、任务可 reward hacking 或难度来自无意义细节。

不是模型论文,但 reward-hackable benchmark 清单有用;做 agent eval 的人看 checklist 即可。
Ivan Bercovich
terminal-agentbenchmark-designcoding-agent2026年4月30日arXivPDF

用语言模型做静态程序切片时,解决数据依赖建模不准和自由生成导致的幻觉语句问题。

读预训练目标和 constrained decoding 即可;任务窄,但 dataflow 监督对代码 LM 有可迁移味道。
Pengfei He,Shaowei Wang,Tse-Hsun,Chen,Muhammad Asaduzzaman
University of ManitobaConcordia UniversityUniversity of Windscode-lmprogram-slicingdataflow-pretraining2026年4月9日arXivPDF

解决 LLM 直接生成 UVM 硬件验证 testbench 时错误率高、协议时序难以保证的问题。

只看系统分工思路即可:让 LLM 做计划、模板管约束;硬件验证领域太窄,不值得深读。
Chang-Chih Meng,Yu-Ren Lu,Guan-Yu Lin,Tsung Tai Yeh,Kai-Chiang Wu,I-Chen Wu
National Yang Ming Chiao Tung Universityand recent research has begunrecent research hascode-generationhardware-verificationLLM-agents2026年4月30日arXivPDF

解决 RTL/HDL 代码补全评测粒度不可控、补全语法范围不可控的问题。

HDL completion benchmark生成器,grammar masking 设计干净;除非关心代码 tokenizer/硬件代码数据,不必读正文。
Arnau Ayguadé Domingo,Miquel Alberti-Binimelis,Cristian Gutierrez-Gomez,Emanuele Parisi,Razine Moundir Ghorab,Miquel Moreto,Gokcen Kestor,Dario Garcia-Gasulla
Barcelona Supercomputing Centercontrolled and scalable evaluation of the domain-specific model’sprompts the LLM to predict the next line given the availablecode-benchmarkHDLRTL2026年4月30日arXivPDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

分析多智能体系统中“更多 Agent 协作是否必然更可靠”的假设,重点研究同构或近同构 Agent 群体是否会放大错误共识。

结论有点用力,先看实验设置和错误熵定义;若 setup 干净,它是多 Agent 评测里一个不错的反例信号。
Dahlia Shehata,Ming Li
University of Waterloomulti-agentagent-evaluationconsensus-failure2026年4月30日arXivPDF

这篇工作解决的是 web agent 训练数据生成里的一个老问题:现有自动化轨迹生成方法对网站功能覆盖不全,任务合成常常脱离真实页面结构,最终得到的 trajectory 噪声大、可执行性差,难以真正训练出可靠的 web agent。作者把问题拆成三个环节:探索不充分、任务发现与任务表述不扎实、以及基于这些任务生成的轨迹不稳定。尤其在未见网站上,agent 失败往往不是因为单步点击不会,而是因为它根本没有形成对网站深层结构和功能空间的内部地图。AutoSurfer 的目标就是系统性地“逛完整个网站”,把页面、动作、功能、任务和轨迹串成一个更闭环的数据生成流程,并进一步验证这些数据是否足以训练 website-specific LLM,也就是文中所说的 wLLM。

只看数据生成流程和覆盖率实验;它不会改变预训练方法论,但对交互轨迹数据的采集工程有参考价值。
Fazle Elahi Faisal,Qianhui Wu,Baolin Peng,Jianfeng Gao
Microsoft Researchweb-agenttrajectory-generationagent-data2026年4月29日arXivPDF

这篇工作处理的是 computer-use agent 在推理阶段的算力分配问题:现有 GUI agent 往往在每一步都调用同一个大多模态模型,导致长轨迹任务的成本、时延和单位经济性都很差。作者指出,GUI 轨迹的难度并不均匀,真正容易出错的往往集中在少数高风险时刻,主要表现为两类:一是 progress stall,即代理在局部状态里打转、重复等价操作却没有推进;二是 silent semantic drift,即动作在局部上看似合理,但已经偏离用户目标,后续步骤虽然自洽,最终任务仍会失败。核心问题不是如何再训练一个更强 agent,而是如何在不改动底层大模型的前提下,把“大模型每步在线”改成“按风险事件触发”。

读方法和失败检测 ablation;若路由信号不偷看未来,这会是 GUI Agent 降成本的实用 prior。
Jinbiao Wei,Kangqi Ni,Yilun Zhao,Guo Gan,Arman Cohan
Yale NLP LabUniversity of North Carolina at Chapel HillY Yale NLP Lab+1GUI-agentcomputer-usecompute-allocation2026年4月29日arXivPDF

上下文学习场景下,从长文本、高专业密度的上下文中提取可复用技能的现有方法,要么依赖成本极高的人工标注,要么需要外部反馈验证技能有效性,而多数上下文学习任务没有可自动获取的外部反馈信号,无法自动化生成适配特定上下文的技能。

不是预训练论文,但它把“上下文→技能”做成了可自举闭环;先看技能筛选与 ablation,若评测没泄漏,可借去做 test-time adaptation 或合成 mid-train 数据。
Shuzheng Si,Haozhe Zhao,Yu Lei,Qingyi Wang,Dingwei Chen,Zhitong Wang ... 省略 3 位作者 ... ,Gang Chen,Fanchao Qi,Minjia Zhang,Maosong Sun
context-learningskill-inductionmulti-agent2026年4月30日arXivPDF

核心问题是:对有明确流程图的程序性对话任务,外部 agent 编排是否真的比把完整流程放进系统提示词更可靠。论文把问题限定在 intake、诊断、信息收集、决策分流、终止状态这类客服式流程,而不是开放式工具使用或长期任务规划。

OpenAI作者的实证研究,反直觉地指出对于流程化任务,长上下文Prompting比复杂的LangGraph编排更鲁棒,对长上下文能力的利用有启发。
Simon Dennis,Michael Diamond,Rivaan Patil,Kevin Shabahang,Hao Guo
OpenAIUniversity of iUniversity ofAgent OrchestrationIn-Context PromptingProcedural Tasks2026年4月30日arXivPDF

现有 GUI agent benchmark 多聚焦单应用、孤立任务,无法评估真实职业工作流中跨应用、多步骤协同能力;这篇工作试图补上这一缺口。

如果你不做 agent,知道有这么个 benchmark 就够了;真要读,只看任务构造和中间 inspection 设计,榜单本身信息密度不高。
Jinchao Li,Yunxin Li,Chenrui Zhao,Zhenran Xu,Baotian Hu,Min Zhang
Harbin Institute of TechnologyShenzhen Loop Area Institutegui-agentbenchmarkcross-application2026年4月30日arXivPDF

为科学数据驱动发现任务构造可执行、可验证的真实环境,缓解现有科学 agent 评测缺少可靠验证信号的问题。

不改变预训练判断,但可作为可验证环境设计参考;看任务构造流程和 87.5% verifier 评估即可。
Hanane Nour Moussa,Yifei Li,Zhuoyang Li,Yankai Yang,Cheng Tang,Tianshu Zhang,Nesreen K. Ahmed,Ali Payani,Ziru Chen,Huan Sun
The Ohio State UniversityCisco Researchverifiable-environmentsscientific-agentsagent-benchmark2026年4月30日arXivPDF

构建能随真实工作流需求变化而更新、且可复现审计的 workflow agent benchmark。

作为 agent benchmark 备查即可;设计比静态 QA 干净,但和基座训练的连接还停在评测层。
Chenxin Li,Zhengyang Tang,Huangxin Lin,Yunlong Lin,Shijue Huang,Shengyuan Liu ... 省略 1 位作者 ... ,Rang Li,Lei Li,Benyou Wang,Yixuan Yuan
The Chinese University ofSouth China University of TechnologyXiamen University+3agent-benchmarkworkflow-agentlive-evaluation2026年4月30日arXivPDF

评测并提升 LLM 在“为复杂研究问题生成分层 roadmap(任务分解+逻辑组织)”上的能力。

更像“多代理写作流程+新基准”,方法不新但可当评测靶子;只看 benchmark 定义与评审协议,别在 agent 流程上花太多时间。
Jiacheng Liu,Zichen Tang,Zhongjun Yang,Xinyi Hu,Xueyuan Lin,Linwei Jia ... 省略 1 位作者 ... ,Rongjin Li,Shiyao Peng,Haocheng Gao,Haihong E
Beijing University of Posts and TelecommunicatioThe Hong Kong University of Science and Technology (Guangzhou)IDEA Research+2benchmarkmulti-agentplanning2026年4月30日arXivPDF

让 VLM 在视觉语言导航中获得动态空间意识,能够根据自然语言指令理解已执行动作,并预测动作导致的未来视觉转移。

只看空间激活任务设计即可;它像是 VLN 版辅助目标,能给多模态预训练加世界模型信号的想法做备查。
Pengna Li,Kangyi Wu,Shaoqing Xu,Fang Li,Hanbing Li,Lin Zhao,Kailin Lyu,Long Chen,Zhi-Xin Yang,Nanning Zheng
National Key Laboratory of Human-Machine Hybrid Augmented IntelligenceNational Engineering Research Center for Visual Information and ApplicationBeijing Institute of Technology+4vision-language-navigationembodied-agentspatial-awareness2026年4月30日arXivPDF

解决 GUI agent 评测中过于粗粒度的问题,尤其是无法准确判断模型是否定位到正确控件并把界面设置到精确目标状态。

如果你做 agent 数据或 tool-use 后训练,这类分阶段指标比 end-task success 更有用;正文未必都要读,先看 metric 设计和失败案例。
Fengxian Ji,Jingpu Yang,Zirui Song,Yuanxi Wang,Zhexuan Cui,Yuke Li,Qian Jiang,Xiuying Chen
Northeastern Universitygui-agentbenchmarkevaluation2026年4月30日arXivPDF

现有GUI Agent仅靠监督微调无法解决长程信用分配、分布偏移、不可逆环境安全探索问题,缺乏RL与GUI Agent交叉领域的系统梳理

RL与GUI Agent交叉领域的综述,仅作为领域调研备查,无需精读
Junan Hu,Jian Liu,Jingxiang Lai,Jiarui Hu,Yiwei Sheng,Shuang Chen,Jian Li,Dazhao Du,Song Guo
山东大学香港科技大学香港大学+5GUI AgentReinforcement Learningagent survey2026年4月30日arXivPDF

为大型推理模型和多 Agent 系统提供去中心化、可审计、可归因的验证框架。

只读 HDAG/DAAN 定义即可;去中心化验证设想有用,但没有强实验时不要当成可靠结论。
Yu-Chao Huang,Zhen Tan,Mohan Zhang,Pingzhi Li,Zhuo Zhang,Tianlong Chen
UNITES LabUniversity of North Carolina at Chapel HillArizona State University+1agent-verificationdecentralized-aiCoT-auditing2026年4月29日arXivPDF

解决 web agent 在大规模网页信息检索与结构化抽取中,难以同时兼顾深度推理和跨实体广覆盖一致性的问题。

读系统图和错误分析就够了;它更像 web 抽取工程范式整理,不会改变 agent 训练或预训练判断。
Yuxuan Huang,Yihang Chen,Zhiyuan He,Yuxiang Chen,Ka Yiu Lee,Huichi Zhou,Weilin Luo,Meng Fang,Jun Wang
University of LiverpoolHuawei Noah’s Ark LabUniversity Collegeweb-agentmulti-agentinformation-extraction2026年4月29日arXivPDF

解决 tool-calling agent 的评估通常发生在执行之后,无法在工具调用真正执行前纠正错误的问题。

只看 Helpfulness-Harmfulness 定义;reviewer-in-loop 是合理工程补丁,但成本和误伤会限制它的普适性。
Anh Ta,Junjie Zhu,Shahin Shayandeh
tool-callingagent-evaluationinference-time-control2026年4月29日arXivPDF
TauricResearch/TradingAgents
★+331365.2k
PythonAgent 与系统连续 3 天📄 论文配套代码v0.2.4

用多智能体LLM模拟交易公司做决策

把分析/研究/交易/风控拆分,便于复现实验与对比不同LLM/数据

角色化代理辩论+汇总,组合管理审批并接回测/模拟交易

  • v0.2.4:结构化输出代理+决策日志
  • v0.2.4:LangGraph断点恢复、Docker
  • 多LLM提供商:DeepSeek/Qwen/GLM/Azure等
ruvnet/ruflo
★+184039.0k
TypeScriptAgent 与系统v3.6.10

面向Claude Code的多智能体编排平台。

把跨机器代理协作、记忆与联邦通信接入Claude Code。

CLI/MCP接入,Rust+WASM内核,32个插件扩展。

  • 支持100+专用代理协同
  • 原生Claude Code插件与MCP服务器
  • v3.6.10,含RAG记忆与联邦协作
1jehuang/jcode
★+5913.4k
RustCoding Agent连续 3 天v0.11.9

Rust 编写的多会话终端编程代理框架

面向重度代理工作流,低内存和快速启动

TUI/CLI 架构,支持多提供商、MCP、可配置工具

  • 首帧 14.0ms,首输入 48.7ms
  • 10 会话 PSS 260.8MB
  • v0.11.9 发布于 2026-05-03
AIDC-AI/Pixelle-Video
★+4979.9k
Python多模态生成v0.1.15

输入主题,自动生成脚本配图配音并合成短视频

把LLM+生图/生视频+TTS串成流水线,适合AIGC视频应用与工作流复用

基于ComfyUI模块化工作流,Streamlit Web配置LLM/TTS/生图生视频与模板

  • v0.1.15(2026-01-27)发布
  • 新增动作迁移:参考视频+图片
  • 提供Windows一键整合包与文档