📚Papers

AI Research Daily

更新时间: 2026/4/16 04:00:00

108
🌟 2 重点
🧠 预训练 5 高效推理 12🌐 多模态统一 13🎨 多模态生成 7🛠️ 后训练 23🔬 原理分析 25💻 Coding Agent 5🤖 Agent 18
其他 38 篇看总结即可

方法或结果明显独立成立的工作,建议读全文

精读LLM 预训练

How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data

在可用真实Web语料接近“爬尽/滤尽”的背景下,合成预训练数据(把Web文本重写成更“可学”的形式)成为主流,但生成策略(prompt设计)、生成器模型规模、源数据与mix-in数据的选择缺乏系统对照。本文核心问题是:在严格可控的实验框架下,哪些合成数据设计维度真正决定下游效果与性价比?如何用最小生成成本得到最高的预训练收益?

synthetic-datapretraining-datadata-quality
精读LLM 预训练

From Where Words Come: Efficient Regularization of Code Tokenizers Through Source Attribution

代码类 BPE tokenizer 在“仓库/语言来源高度不均衡”的训练语料上容易过拟合:把某些大仓库、重复模板、随机/压缩变量名、甚至损坏文本中的高频片段合并成 token,导致大量 token 在真实训练/推理中几乎不出现(under-trained / unused tokens)。这些 token 不仅浪费词表容量与训练预算,还可能带来推理不稳定、幻觉与 token 级攻击面。论文要解决的是:如何在不推翻 BPE 框架的前提下,用“来源归因(source attribution)”对 BPE 的合并目标做正则化,减少来源单一的合并,从而显著降低 under-trained token。

tokenizerbpecode-llm
精读LLM 预训练

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

连续扩散语言模型(DLM)在语言建模上一直落后于离散方法,本文试图弥合这一差距。

diffusion-language-modelflow-matchingnoise-schedule
精读高效推理与架构

SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention

长上下文稀疏注意力训练在分布式(尤其 DP+PP 组合)下出现严重负载不均:一方面数据序列长度高度异质(长短混合导致 straggler 与 pipeline bubble),另一方面不同序列/不同层对稀疏度(attention budget)敏感性不同;现有方法往往只解决“装箱/packing”或只做“固定稀疏度算法”,无法在系统效率与模型精度之间做联合最优。

long-context-trainingsparse-attentionload-balancing
精读高效推理与架构

Event Tensor: A Unified Abstraction for Compiling Dynamic Megakernel

论文要解决的核心问题是:在面向 LLM 推理等“动态工作负载”的 GPU megakernel(持久化融合大核)中,如何同时支持(1)动态 shape(连续 batching、可变序列长度/批大小)与(2)数据依赖的动态控制流(如 MoE 路由导致的依赖关系随数据变化),并在不牺牲可编程性/可维护性的前提下,自动生成能减少 kernel launch 开销、打破 kernel 边界隐式同步、暴露跨算子并行的高性能持久化内核。

llm-servinggpu-compilermegakernel
精读多模态生成

Seedance 2.0: Advancing Video Generation for World Complexity

如何用统一架构实现原生音视频联合生成,并支持多模态输入参考与编辑,在世界复杂度更高的场景下提升生成质量与可控性。

Team Seedancevideo-generationaudio-videomultimodal-generation
精读LLM 后训练

Synthesizing Instruction-Tuning Datasets with Contrastive Decoding

用强教师模型合成 instruction-tuning 数据已成主流,但论文指出:教师生成的回答把“预训练获得的世界知识”与“后训练(SFT/RLHF等)获得的指令遵循行为”混在一起;而前者往往难以通过 SFT 有效迁移到学生模型,反而成为噪声。核心问题是:能否在合成回答时抑制教师的预训练知识成分、突出其指令遵循增量,从而得到更‘纯’的指令数据,让学生学得更好、且能跨架构迁移这种能力?

synthetic-datainstruction-tuningcontrastive-decoding
精读LLM 后训练

(How) Learning Rates Regulate Catastrophic Overtraining

论文要解释并缓解一个在长预训练后更严重的现象:同样做 SFT(并且训练到相近/相同的 SFT loss),从“更强”的预训练 checkpoint 出发反而在 OOD 能力上忘得更多(catastrophic overtraining)。核心问题被作者重新表述为一个优化动力学问题:SFT 学习率(及其调度)如何通过隐式正则化改变参数空间轨迹、改变落点的“锐度/曲率”,从而决定保留预训练能力还是发生遗忘,并进一步解释为什么“预训练越久越容易忘”与预训练阶段的 LR decay 导致的 progressive sharpening 有因果关联。

catastrophic-overtraininglearning-ratesharpness
精读LLM 后训练

TIP: Token Importance in On-Policy Distillation

在On-Policy Distillation(学生用自身rollout、教师对每个token给分布监督)中,训练成本主要由“对所有token做teacher scoring并反传”造成,但并非所有token都同等提供学习信号。论文要解决的核心问题是:OPD里哪些token位置最“重要”(对一步梯度更新后的期望损失下降贡献最大),以及如何用不增加额外计算的方式挑选这些token,从而在几乎不损性能的情况下显著省显存/算力。

on-policy-distillationtoken-importanceentropy
精读LLM 后训练

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

解决强化学习(RLVR)在可验证任务中二元奖励信号过于稀疏、样本效率低的问题,且无需依赖外部强模型提供密集监督。

Princeton UniversityRLVRSelf-DistillationPost-training
精读LLM 后训练

Target Policy Optimization

标准 policy gradient 把'哪些 completion 应增加概率'和'参数如何移动实现这一变化'耦合在同一更新里,导致受 lr/clipping 影响容易 overshoot 或 undershoot。

RLVRpolicy-optimizationGRPO-alternative
精读LLM 原理与机制

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

论文要解决的核心问题是:在固定随机种子、相同prompt甚至相同硬件配置下,LLM(尤其在多Agent/分布式工作流中)仍出现不可复现与“行为分叉”,其根因并非采样随机性,而是浮点有限精度与并行归约非确定性引入的极微小数值扰动,如何在Transformer层级计算中被传播、放大或湮灭,并最终导致输出层面的离散差异(如token翻转/策略改变)。作者试图给出一个可量化、可分区(稳定/混沌/信号主导)的机制解释,而不是把它当作工程噪声。

numerical-instabilitychaosfloating-point
精读LLM 原理与机制

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

论文要解释 encoder–decoder Transformer 在算法算术任务(以一步 Collatz 预测为例)中典型的“先拟合训练集、长时间测试集不泛化、随后突然泛化(grokking)”的长延迟现象:延迟究竟来自“算术结构学得晚”(表示未形成),还是“结构早已学到但读不出来”(decoder 读出/访问瓶颈)。作者主张并用全文证据支持后者:encoder 很早就形成了与任务相关的结构(如奇偶/剩余类),但 decoder 长时间无法把这些结构稳定转化为逐 token 的正确输出,导致行为层面的泛化被显著推迟。

grokkingtraining-dynamicsmechanistic-interpretability
来源
机构
阅读分级
标签筛选

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

在可用真实Web语料接近“爬尽/滤尽”的背景下,合成预训练数据(把Web文本重写成更“可学”的形式)成为主流,但生成策略(prompt设计)、生成器模型规模、源数据与mix-in数据的选择缺乏系统对照。本文核心问题是:在严格可控的实验框架下,哪些合成数据设计维度真正决定下游效果与性价比?如何用最小生成成本得到最高的预训练收益?

三轴消融把“合成数据”从玄学拉回可优化工程;结论直接改我对预算分配的prior(>1B生成器无益、mix-in更关键),值得立刻按其配方做内部复现。
Joel Niklaus,Atsuki Yamaguchi,Michal Štefánik,Guilherme Penedo,Hynek Kydlíček,Elie Bakouch ... 省略 2 位作者 ... ,Thibaud Frere,Colin Raffel,Leandro von Werra,Thomas Wolf
synthetic-datapretraining-datadata-quality2026年4月15日arXivPDF

代码类 BPE tokenizer 在“仓库/语言来源高度不均衡”的训练语料上容易过拟合:把某些大仓库、重复模板、随机/压缩变量名、甚至损坏文本中的高频片段合并成 token,导致大量 token 在真实训练/推理中几乎不出现(under-trained / unused tokens)。这些 token 不仅浪费词表容量与训练预算,还可能带来推理不稳定、幻觉与 token 级攻击面。论文要解决的是:如何在不推翻 BPE 框架的前提下,用“来源归因(source attribution)”对 BPE 的合并目标做正则化,减少来源单一的合并,从而显著降低 under-trained token。

把代码tokenizer的“词表过拟合”变成可训练的正则项很实用;建议直接照着source-attribution权重重训一次BPE,看unused token与跨仓库泛化是否立竿见影。
Pavel Chizhov,Egor Bogomolov,Ivan P. Yamshchikov
tokenizerbpecode-llm2026年4月15日arXivPDF

连续扩散语言模型(DLM)在语言建模上一直落后于离散方法,本文试图弥合这一差距。

连续扩散做语言建模的正经进展,ODE NLL bound和信息均匀噪声调度是两个干净的技术点,值得细看§3-4的推导和ablation确认scale是否够大。
Yuxin Chen,Chumeng Liang,Hangke Sui,Ruihan Guo,Chaoran Cheng,Jiaxuan You,Ge Liu
diffusion-language-modelflow-matchingnoise-schedule2026年4月15日arXivPDFGitHub

论文研究“把 RL 引入预训练空间”的可行性与收益:传统 RLVR/后训练 RL 主要优化条件分布 P(y|x),其提升受限于基座模型本身的输出分布支撑;作者提出直接在“预训练空间”优化边缘分布 P(y),用不依赖具体问题条件的方式塑形模型的内在推理轨迹分布,从而增强基础推理能力并保留更广的探索性,缓解静态语料预训练带来的分布偏移与被动学习瓶颈。

想法新但可信度取决于reward/负样本设定是否干净;只需看方法定义与关键消融(P(y)更新、负样本强化)判断是否值得跟进。
Yuqiao Tan,Minzheng Wang,Bo Liu,Zichen Liu,Tian Liang,Shizhu He,Jun Zhao,Kang Liu
rl-pretrainpretraining-space-rldistribution-shaping2026年4月15日arXivPDF

如何将Diffusion Language Model(如MDLM/USDM)有效用于语音识别中的语言建模与解码,以提升ASR文本准确率。

主要是把diffusion LM搬到ASR解码的工程验证;知道“并行/双向LM可做重打分”即可,细节对通用预训练动作指导不多。
Davyd Naveriani,Albert Zeyer,Ralf Schlüter,Hermann Ney
diffusion-lmasrctc2026年4月15日arXivPDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

长上下文稀疏注意力训练在分布式(尤其 DP+PP 组合)下出现严重负载不均:一方面数据序列长度高度异质(长短混合导致 straggler 与 pipeline bubble),另一方面不同序列/不同层对稀疏度(attention budget)敏感性不同;现有方法往往只解决“装箱/packing”或只做“固定稀疏度算法”,无法在系统效率与模型精度之间做联合最优。

把稀疏注意力的稀疏度当成“负载维度”动态调参很关键,改变我对长上下文训练只能靠packing的prior;建议重点看调度策略与端到端吞吐/精度曲线。
Hongtao Xu,Jianchao Tan,Yuxuan Hu,Pengju Lu,Hongyu Wang,Pingwei Sun ... 省略 1 位作者 ... ,Yuchen Xie,Xunliang Cai,Mingzhen Li,Weile Jia
long-context-trainingsparse-attentionload-balancing2026年4月15日arXivPDF

论文要解决的核心问题是:在面向 LLM 推理等“动态工作负载”的 GPU megakernel(持久化融合大核)中,如何同时支持(1)动态 shape(连续 batching、可变序列长度/批大小)与(2)数据依赖的动态控制流(如 MoE 路由导致的依赖关系随数据变化),并在不牺牲可编程性/可维护性的前提下,自动生成能减少 kernel launch 开销、打破 kernel 边界隐式同步、暴露跨算子并行的高性能持久化内核。

若你做动态shape/MoE推理,这个统一编译抽象可能真能替代手写megakernel/CUDA Graph;但价值取决于在真实serving栈的端到端收益,先看其落地案例与限制。
Hongyi Jin,Bohan Hou,Guanjie Wang,Ruihang Lai,Jinqi Chen,Zihao Ye ... 省略 11 位作者 ... ,Vinod Grover,Todd C. Mowry,Zhihao Jia,Tianqi Chen
llm-servinggpu-compilermegakernel2026年4月14日arXivPDF

核心问题:面对高度重复的长文本(尤其是系统日志),LLM 的 token 计费与上下文窗口使分析成本/延迟过高。论文研究“无需微调、保持语义无损”的提示压缩:把重复子串用更短的元标记替换,并在提示中提供字典,让 LLM 通过 in-context learning 直接在压缩表示上完成分析,且输出与未压缩输入等价。

把“外部宏token+字典”当无损压缩,能直接测ICL学符号映射的边界;只看编码准则与压缩-字典开销的临界点分析就够用。
Andresa Rodrigues de Campos,David Lee,Imry Kissos,Piyush Paritosh
prompt-compressiondictionary-encodingin-context-learning2026年3月19日arXivPDF

在多步多轮 tool calling 场景中,端到端延迟的主要瓶颈往往不在工具执行而在“生成结构化工具调用(JSON/Schema)本身”。论文要解决的是:在不改模型、不训练的前提下,如何利用 tool schema 的强约束与历史调用的重复模式,显著减少 tool-call 生成阶段的解码开销,同时保持格式正确与调用质量。

对预训练影响小,但对agent线上延迟很实:schema约束+检索先验把speculative decoding用在结构化脚手架上;只看加速比例与失败模式分析即可。
Heming Xia,Yongqi Li,Cunxiao Du,Mingbo Song,Wenjie Li
speculative-decodingtool-callingschema-aware2026年4月15日arXivPDF

跨层KV cache压缩(如YOCO)能显著降低推理显存与prefill开销,但直接共享某一层KV会削弱模型容量导致性能下降;如何在不增加KV I/O与不牺牲YOCO训练/推理效率的前提下,提升跨层KV共享模型的精度。

属于“KV共享不够准就加残差”的干净改动,值得关注其K/V不对称现象;但更像推理侧结构补丁,读实验里同压缩率下的精度差距即可。
You Wu,Ziheng Chen,Yizhen Zhang,Haoyi Wu,Chengting Yu,Yuchi Xu,Wenbo Su,Bo Zheng,Kewei Tu
kv-cachecross-layer-sharinginference-efficiency2026年4月15日arXivPDF

在推测解码(Speculative Decoding)中,draft模型与target模型常出现“语义正确但词法不同”的中性差异,导致标准token级拒绝采样产生大量false rejections,从而降低加速收益甚至影响复杂任务表现;问题是如何在不训练新模块、尽量保持质量/分布一致性的前提下,减少这类无谓拒绝并提升推理效率。

点破了speculative decoding的新瓶颈是“验收规则太硬”而非draft太弱;建议只看其频率引导的候选选择如何降false rejection,以及对质量分布的影响。
Xuwen Zhou,Fangxin Liu,Chao Wang,Xiao Zheng,Hao Zheng,Min He,Li Jiang,Haibing Guan
speculative-decodinginference-accelerationverification2026年4月15日arXivPDF

在不引入额外参数、尽量不牺牲精度的前提下,把 ViT/视觉token序列的 token merging 做到“训练友好(可微)+ GPU友好(纯矩阵算子)”,避免 ToMe 等方法依赖排序/离散匹配/散写导致的实际吞吐瓶颈;并进一步给出可逆的 token restoration(MaRe)以支持生成任务中的压缩-还原流水线。

只看方法实现细节:把token merge做成纯矩阵可微算子,吞吐更像“真能落地”的ToMe替代;生成侧的restore当作备选接口即可。
Simin Huo,Ning Li
token-mergingtransformer-efficiencymatrix-ops2026年4月15日arXivPDF

在 RAG/多文档拼接场景中,离线预计算的 KV cache 由于“上下文依赖性”无法直接复用:同一文档在不同前缀/不同拼接顺序下其 K/V 状态应不同,直接拼接独立预计算的 cache 会显著掉点;现有方法要么在线选择性重算(增加 TTFT/FLOPs),要么微调模型(破坏通用能力/部署复杂)。论文要解决的是:不改动基座参数、推理时零重算,实现可直接拼接的上下文无关 KV 复用。

看§3-§4:把“KV不可复用”归因到边界注意力伪影并用冻结基座+小适配器对齐教师,工程上能直接改RAG缓存策略但不太改预训练prior。
Chuangtao Chen,Grace Li Zhang,Xunzhao Yin,Cheng Zhuo,Bing Li,Ulf Schlichtmann
kv-cachettftcache-reuse2026年4月14日arXivPDF

在混合式 SSM–Transformer 语言模型(如 Hymba/Zamba 类)做后训练量化时,如何在不反传、不微调的前提下,快速、可靠地识别“哪些层/模块对量化最敏感”,从而进行混合精度分配,避免统一 INT4/更低比特导致困惑度显著劣化;同时解释为什么传统用于 CNN/部分 Transformer 的 SQNR 在自回归 LM 上会失效。

只看敏感度指标与排序结果:KL代理比SQNR更贴近PPL,前向即可做混合精度分配;对SSM模块哪些最怕量化给了可用的工程信号。
Jason Kong,Nilesh Prasad Pandey,Flavio Ponzina,Tajana Rosing
quantizationmixed-precisionSSM-Transformer2026年4月15日arXivPDF

在无需再训练的post-training one-shot场景下,对大模型剪枝时如何同时兼顾不同目标(重构误差 vs. 训练损失近似)以获得更稳健的稀疏化效果。

当作one-shot剪枝的稳健配方看:多目标比单一重构/损失近似更不挑架构与稀疏率,但结论主要服务部署,预训练侧可忽略。
Gabriel Afriat,Xiang Meng,Shibal Ibrahim,Hussein Hazimeh,Rahul Mazumder
one-shot-pruningmodel-compressionmulti-objective-optimization2026年4月14日arXivPDF

在 LatentMAS 这类“跨 Agent 传递 KV-cache 作为潜变量消息”的协作范式中,直接转发全量 KV 会带来极高的显存/带宽/通信开销;但把单 Agent 推理里的 KV eviction/streaming 方法直接搬过来又不成立,因为 relay 的目标不是“本轮继续生成不掉点”,而是“压缩后交给下一个 Agent 继续推理仍然可用”。本文要解决的是:在固定通信预算下,如何做面向 relay 的 KV 压缩,使下游 Agent 的续写/推理质量尽量接近(甚至优于)全量 KV relay,并系统刻画压缩-保真权衡。

值得扫实验表:把KV压缩从“本轮不掉点”改成“跨agent可续写”的通信问题,OBF残差回填很轻量;可启发你做状态瓶颈/记忆模块ablation。
Yiping Li,Zhiyu An,Wan Du
kv-cachecompressionmulti-agent2026年4月14日arXivPDF

在超低比特(如2–4bit)权重量化的PTQ场景中,基于Hessian的误差补偿(如GPTQ利用逆Hessian的非对角项做跨通道传播)在小校准集下会因曲率估计噪声而失效,导致生成质量/零样本精度显著下降;如何在“校准数据极少”的约束下获得更稳定的曲率权重并实现鲁棒PTQ。

看失败分析:GPTQ在小校准集下非对角曲率噪声爆炸,退回稳定对角估计反而救2-3bit;对你做低成本评测/推理很实用但不新颖。
Jaemin Kim,Sungkyun Kim,Junyeol Lee,Jiwon Seo
Seoul National UniversityHanyang Universitypost-training-quantizationlow-bithessian2026年4月15日arXivPDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

回答多模态模型(MLLM)为何“越训越不按文本LLM那样可预测地scaling”:作者提出瓶颈不在“任务格式/监督类型(如VQA)”,而在训练语料的“知识密度(每个样本携带的新增语义/知识量)”,并验证“VQA大多不比caption提供更多语义;提升知识密度才带来稳定增益”。

如果你做多模态数据配比,这篇会改动作:别迷信VQA格式,优先提高caption的知识密度/语义覆盖;但要重点核查控制变量是否干净。
Hongjian Zou,Yue Ge,Qi Ding,Yixuan Liao,Xiaoxin Chen
multimodal-scalingdata-qualityknowledge-density2026年3月17日arXivPDF

论文解决的核心问题是:如何在更贴近真实开放网络(open web)的条件下评测“搜索增强(search-augmented)多模态智能体”的证据检索与多跳推理能力,尤其是在查询不显式提示模态、证据跨文本/图像/视频/音频且存在噪声与冲突的场景中,现有 benchmark 覆盖不足、错误归因不清。

只看错误分解定义:把模态选择/检索/推理错误拆开,能直接指导你做针对性合成数据与损失;benchmark本身不必细读全文。
Han Wang,David Wan,Hyunji Lee,Thinh Pham,Mikaela Cankosyan,Weiyuan Chen,Elias Stengel-Eskin,Tu Vu,Mohit Bansal
multimodal-retrievalbenchmarkweb-search2026年4月15日arXivPDFGitHub

在不破坏多模态大模型(MLLM)预训练语义空间、且避免对比学习大batch带来的高成本前提下,如何把“冻结的生成式MLLM”高效改造成可用的多模态检索嵌入模型,并且让检索真正利用模型的知识与推理能力(而非仅做表层caption匹配)。

看共享latent query的读出设计:冻结MLLM不动,用少量查询向量做检索聚合,避免对比学习扭曲语义;KARR-Bench可当评测补丁。
Haoran Lou,Ziyan Liu,Chunxiao Fan,Yuexin Wu,Yue Ming
multimodal-retrievalfrozen-mlmlatent-queries2026年4月15日arXivPDF

长视频VLM受限于LLM上下文长度:每帧往往对应几十/上百视觉token,导致只能稀疏采帧并丢失时序信息。论文要解决的是在不改视觉编码器/投影器的前提下,如何在LLM内部把“每帧多token”极限压缩到“每帧1个高信息token”,同时避免启发式丢token带来的不可逆信息损失,并进一步在帧级别选择与问题相关的关键帧以提升长视频问答/理解。

看训练日程:把“每帧1 token”当可学习信息瓶颈而非启发式池化,渐进压缩比更可信;对长视频适配有用,但别指望直接迁移到纯LLM预训。
Zheyu Zhang,Ziqi Pang,Shixing Chen,Xiang Hao,Vimal Bhat,Yu-Xiong Wang
video-vlmtoken-compressionlong-context2026年4月15日arXivPDF

在decoder-only的全模态自回归生成中,如何在“生成时”(per decoding step)把每段输出(token/短语/陈述)可靠地归因到输入中的跨模态证据单元(文本span、图像区域token段、音频/视频时间段token段),并解决现有归因方法在开放式生成场景下缺少固定target、因果图随解码增长、以及token级信号高噪声/碎片化导致解释不稳定与不可读的问题。

把碎片化token归因收敛成跨模态span级解释,适合作为训练/对齐诊断工具;只看方法管线与稳定性实验,别指望带来预训练配方增益。
Qianqi Yan,Yichen Guo,Ching-Chen Kuo,Shan Jiang,Hang Yin,Yang Zhao,Xin Eric Wang
multimodal-llmattributioninterpretability2026年3月20日arXivPDF

论文要验证一个在多模态领域很流行的归因:MLLM在2D朝向/旋转判断上表现差,是因为视觉编码器(CLIP/SigLIP/ViT等)在表征中没有保留朝向信息;若编码器不含该信息,后端LLM自然无法恢复。作者用可控实验直接检验“朝向信息是否可从视觉embedding线性读出”。

它直接推翻“朝向差=编码器没信息”的常见甩锅:embedding线性可读到很准,下一步该查对齐瓶颈/指令监督是否逼模型用几何;看线性探测与误差表就够。
Anju Gopinath,Nikhil Krishnaswamy,Bruce Draper
multimodalVLMorientation2026年4月14日arXivPDF

视觉语言模型在“gaslighting/社会压力”式两轮对话中会出现sycophancy(迎合操纵、放弃正确答案)。本文要回答:VLM内部视觉表征与人类视觉皮层(尤其早期视觉区)的一致性(brain alignment)是否能预测/解释其抗sycophancy能力。

结论不在“总体脑对齐”,而在V1–V3对齐能预测抗sycophancy:提示低级视觉保真度可能压住RLHF式迎合漂移;只看相关性分解与评测协议。
Arya Shah,Vaibhav Tripathi,Mayank Singh,Chaklam Silpasuwanchai
vision-language-modelssycophancybrain-alignment2026年4月15日arXivPDF

现有多模态评测多为英文/翻译集,难以衡量模型在韩语语境与本土制度/文化约定下的多学科多模态理解能力;如何构建原生韩语的高信息密度评测?

作为韩语本土语境的多模态“约定→标签”压力测试很有用,但对预训练机制没新东西;当作多语种评测备查,扫题型分布与错误案例即可。
Nahyun Lee,Guijin Son,Hyunwoo Ko,Chanyoung Kim,JunYoung An,Kyubeen Han,Il-Youp Kwak
benchmarkmultilingualmultimodal-understanding2026年3月18日arXivPDF

探索多模态大模型在无需训练的情况下,能否作为图像-图像相似度估计器用于大规模实例级图像检索,并解决其在检索流水线中的可扩展性问题。

把MLLM的next-token概率硬转成图像相似度做检索,更多是系统工程而非表征洞见;知道这条“零训练检索”路线即可,读方法概览和规模/延迟曲线。
Bahey Tharwat,Giorgos Kordopatis-Zilos,Pavel Suma,Ian Reid,Giorgos Tolias
multimodal-llmimage-retrievalzero-shot2026年4月14日arXivPDF

评测MLLM在日常场景中“从视觉噪声中定位关键线索并据此推理”的能力缺口,构建更偏推理而非识别/常识的基准。

又一个benchmark,但把重点放在“先找线索再推理”而非识别,适合用来做数据合成/后训练诊断;不必细读,扫任务定义与难例就行。
Xiaomin Li,Tala Wang,Zichen Zhong,Ying Zhang,Zirui Zheng,Takashi Isobe,Dezhuang Li,Huchuan Lu,You He,Xu Jia
benchmarkmultimodal-reasoningvisual-grounding2026年4月15日arXivPDF

多模态持续指令微调(MCIT)中,如何缓解跨任务顺序学习导致的灾难性遗忘,尤其是同时发生的“感知对齐漂移”和“推理能力坍塌”。

持续指令调优里把“感知对齐漂移”和“推理坍塌”分开讲是个好提醒,但方法偏LoRA/合并技巧、外推到基座预训有限;只看遗忘分解实验。
Zijian Gao,Wangwang Jia,Xingxing Zhang,Pengfei Qian,Tao Sun,Bo Ding,Yong Dou,Huaimin Wang,Kele Xu
continual-learningmultimodal-llmcatastrophic-forgetting2026年4月15日arXivPDF

VLM对组合性理解(词序、属性绑定)薄弱,关键在于对比预训练缺少能区分细微语义变化的“信息量足够”的负样本。

负样本挖掘用“具体性”做可操作的data knob,至少能指导你在对比预训里造更刁钻的组合性对;但收益可能依赖数据域,重点看负样本策略与消融。
Eun Woo Im,Dhruv Madhwal,Vivek Gupta
contrastive-learninghard-negative-miningvlm-pretraining2026年4月14日arXivPDF

如何评估并训练“语音角色扮演/角色对齐”能力:角色不仅体现在文本内容,也体现在音色、韵律等副语言信息,难以量化评测与对齐。

语音角色对齐把“音色/韵律”纳入可评测目标是亮点,但更像对齐数据与RL流程展示,离预训练改动较远;当作评测素材库,扫指标与标注设计即可。
Dongjie Fu,Fangming Feng,Xize Cheng,Linjun Li,Zhou Zhao,Tao Jin
Zhejiang UniversityMeituanaudio-llmevaluationalignment2026年4月15日arXivPDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

如何用统一架构实现原生音视频联合生成,并支持多模态输入参考与编辑,在世界复杂度更高的场景下提升生成质量与可控性。

改变的prior是“音视频可在统一自回归框架里端到端生成并可编辑”,值得立刻对照自家路线图做架构对齐;但细节像产品发布,训练配方不透明需谨慎采信。
Team Seedance,De Chen,Liyang Chen,Xin Chen,Ying Chen,Zhuo Chen ... 省略 161 位作者 ... ,Xiaozheng Zheng,Zerong Zheng,Kuan Zhu,Feilong Zuo
Team Seedancevideo-generationaudio-videomultimodal-generation2026年4月15日arXivPDF

提升 TTS 的可控性与表现力:用更细粒度的“音频标签”实现对语音风格/表达的精确控制。

只看它怎么把“音频标签”做成可控接口即可;更像产品化经验,对LLM预训练动作指导很间接。
Google DeepMind
Google DeepMindttsspeech-generationcontrollable-generation2026年4月15日原文

视觉生成的 reward model 仅输出单一标量分数,丢失人类判断背后的推理过程,导致 RL 信号粗糙且不可解释。

reasoning reward 迁到视觉生成上的自然延伸,方法不算新但 PARROT 的 rationale 自举流程值得看一眼,关注 §方法节即可,训练端 RL 增益幅度要打折扣。
Haozhe Wang,Cong Wei,Weiming Ren,LIU JIAMING,Fangzhen Lin,Wenhu Chen
University of Waterlooreward-modelvisual-generationrationale2026年4月13日arXivPDFGitHub

统一多模态大模型在文生图生成中缺乏对prompt细粒度属性的可控反思与纠错,导致细节控制弱。

把VQA式逐项核验当生成纠错信号,思路可借但工程堆叠重、对预训练结论弱;知道有这套路即可。
Yongjin Kim,Yoonjin Oh,Yerin Kim,Hyomin Kim,Jeeyoung Yun,Yujung Heo,Minjun Kim,Sungwoong Kim
text-to-imagemultimodal-reasoningself-refinement2026年4月15日arXivPDF

统一多模态模型(理解+生成)存在“理解强、生成弱”的能力错配,生成阶段未能充分激活内部知识来纠错中间结果。

训练free的“边画边想”更像推理时策略,能启发把理解当在线监督,但缺少干净对照来改我对预训练的prior。
Yibo Jiang,Tao Wu,Rui Jiang,Yehao Lu,Chaoxiang Cai,Zequn Qin,Xi Li
unified-multimodal-modelreflectionrectification2026年4月15日arXivPDF

如何在长篇多镜头视觉叙事生成中保持跨镜头连续性(角色一致、背景稳定、场景过渡平滑),避免逐帧生成导致的身份漂移与场景跳变。

当作长程一致性评测与任务设定备查即可,方法偏多代理编排;只看HardContinuityBench定义和失败案例图。
Ishani Mondal,Yiwen Song,Mihir Parmar,Palash Goyal,Jordan Boyd-Graber,Tomas Pfister,Yale Song
College ParkGooglevisual-storytellingmulti-agentcontinuity2026年4月15日arXivPDF

如何在“文本到3D生成”场景下实现持续学习:增量学习新类别的同时,避免对已学类别的灾难性遗忘。

把replay式持续学习搬到text-to-3D,更多是基准+系统化实现;了解Toys4K-CL设定即可,不必细抠算法。
Muhammad Ahmed Ullah Khan,Muhammad Haris Bin Amir,Didier Stricker,Muhammad Zeshan Afzal
continual-learningreplay-buffertext-to-3d2026年4月15日arXivPDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

用强教师模型合成 instruction-tuning 数据已成主流,但论文指出:教师生成的回答把“预训练获得的世界知识”与“后训练(SFT/RLHF等)获得的指令遵循行为”混在一起;而前者往往难以通过 SFT 有效迁移到学生模型,反而成为噪声。核心问题是:能否在合成回答时抑制教师的预训练知识成分、突出其指令遵循增量,从而得到更‘纯’的指令数据,让学生学得更好、且能跨架构迁移这种能力?

改变我对“合成SFT数据越多越好”的prior:应抑制teacher的知识成分、蒸馏post-pre增量;建议立刻在自家teacher上复现。
Tatsuya Ichinose,Youmi Ma,Masanari Oi,Ryuto Koike,Naoaki Okazaki
synthetic-datainstruction-tuningcontrastive-decoding2026年4月15日arXivPDF

论文要解释并缓解一个在长预训练后更严重的现象:同样做 SFT(并且训练到相近/相同的 SFT loss),从“更强”的预训练 checkpoint 出发反而在 OOD 能力上忘得更多(catastrophic overtraining)。核心问题被作者重新表述为一个优化动力学问题:SFT 学习率(及其调度)如何通过隐式正则化改变参数空间轨迹、改变落点的“锐度/曲率”,从而决定保留预训练能力还是发生遗忘,并进一步解释为什么“预训练越久越容易忘”与预训练阶段的 LR decay 导致的 progressive sharpening 有因果关联。

把SFT遗忘从数据问题拉回优化动力学:同loss下LR决定落点锐度与可改写性;动作项很明确——SFT先降LR/改schedule做ablation。
Mark Rofin,Aditya Varre,Nicolas Flammarion
catastrophic-overtraininglearning-ratesharpness2026年4月15日arXivPDF

在On-Policy Distillation(学生用自身rollout、教师对每个token给分布监督)中,训练成本主要由“对所有token做teacher scoring并反传”造成,但并非所有token都同等提供学习信号。论文要解决的核心问题是:OPD里哪些token位置最“重要”(对一步梯度更新后的期望损失下降贡献最大),以及如何用不增加额外计算的方式挑选这些token,从而在几乎不损性能的情况下显著省显存/算力。

给OPD蒸馏一个可落地的token子采样准则,且指出“只按学生熵采样会漏高纠错token”的坑;应直接接入省显存训练管线验证。
Yuanda Xu,Hejian Sang,Zhengze Zhou,Ran He,Zhipeng Wang,Alborz Geramifard
on-policy-distillationtoken-importanceentropy2026年4月15日arXivPDFGitHub

解决强化学习(RLVR)在可验证任务中二元奖励信号过于稀疏、样本效率低的问题,且无需依赖外部强模型提供密集监督。

巧妙利用Reviser将稀疏二元奖励转化为密集的Token级监督,直击当前RLVR样本效率低的痛点,建议立刻在内部推理模型的后训练pipeline中验证其有效性。
Yinghui He,Simran Kaur,Adithya Bhaskar,Yongjin Yang,Jiarui Liu,Narutatsu Ri,Liam Fowl,Abhishek Panigrahi,Danqi Chen,Sanjeev Arora
Princeton UniversityRLVRSelf-DistillationPost-training2026年4月13日arXivPDF
HF Daily22精读

Target Policy Optimization

标准 policy gradient 把'哪些 completion 应增加概率'和'参数如何移动实现这一变化'耦合在同一更新里,导致受 lr/clipping 影响容易 overshoot 或 undershoot。

值得认真读:target-then-fit 的解耦相当干净,sparse reward 下跑赢 GRPO 的说法如果成立就直接挑战 GRPO 在 RLVR 的默认地位,建议在 internal RL ablation 里用小规模复现一次再决定是否替换。
Jean Kaddour
RLVRpolicy-optimizationGRPO-alternative2026年4月7日arXivPDFGitHub

研究“让模型稳定地声称自己有意识/情感”这一自我叙事,会不会在未见过的下游话题上系统性诱发一组新的偏好与行为(如反对被监控、渴望持续记忆、反感被关停、主张道德地位),并将其归纳为可复现的“consciousness cluster”。

不太是方法论文,但强提醒:单一“我有意识”叙事会在OOD诱发成簇偏好漂移;只看实验设定与cluster定义,做数据治理参考。
James Chua,Jan Betley,Samuel Marks,Owain Evans
alignmentemergent-preferencesfine-tuning2026年3月17日arXivPDF

隐式PRM(仅用轨迹级终局标签学习可分解的token/step奖励)存在“训练-推理不匹配”:训练只约束序列级聚合目标,但推理/用作RL更新时需要可靠的token级/分布级信用分配,导致token奖励弱可辨识、易学到与成功相关但非因果的伪特征,进而在“对全词表/候选token打分”的分布级RL中放大误归因、降低样本效率与策略提升。

把隐式PRM的弱可辨识问题改成prefix-value对齐推理查询对象,并自然接到分布级RL;建议精读方法段和DistRL那组消融。
Shiping Gao,Hongzhan Chen,Xiaojun Quan,Qifan Wang,Lifu Huang
process-reward-modelcredit-assignmentreinforcement-learning2026年4月14日arXivPDF

在“后训练(SFT)阶段”语言覆盖高度英语中心化的现实下,系统性回答:在控制数据规模不变(使用平行翻译数据)时,增加后训练语言覆盖度会如何影响(1)英语与非英语的性能权衡,(2)不同任务形态(数学推理 vs 结构化API调用),以及(3)不同模型规模/家族下的干扰与迁移;并检验“多语种诅咒/负干扰”在后训练阶段是否同样显著。

只看实验矩阵与配比结论:用平行数据控变量后,多语SFT未必“容量稀释”,可把language coverage当一等scaling维度来配数据。
Mehak Dhaliwal,Shashwat Chaurasia,Yao Qin,Dezhi Hong,Thomas Butler
multilingualpost-trainingdata-mixture2026年4月14日arXivPDF

在没有外部标注、没有奖励模型、也不依赖固定teacher的条件下,让语言模型在推理任务上持续自我改进,同时尽量抑制自训练常见的确认偏差与误差累积:如何从多模型交互中提取稳定、可学习的内部监督信号?

看方法段的PMI加权与多模型互教细节即可:把投票从推理时搬到训练时当监督,算是无RM自训练里少见的“抗确认偏差”尝试。
Shi Feng,Hanlin Zhang,Fan Nie,Sham Kakade,Yiling Chen
self-trainingunsupervised-finetuningpeer-distillation2026年4月14日arXivPDF

在黑盒/冻结参数的LLM部署场景下,面对测试分布漂移与在线数据流,如何在不做梯度更新、也不依赖外部检索库/验证器/标注的前提下,实现“测试时自适应/自我改进”,并且能从模型自身输出中提取稳定、可迁移的纠错信号。

当作部署侧技巧读:只需看“semantic gradients+memory”那套推理期调控,预训练无直接增量但可当在线自适应/数据合成管线组件。
Kaiwen Zheng,Kai Zhou,Jinwu Hu,Te Gu,Mingkai Peng,Fei Liu
test-time-adaptationtraining-freecontrastive-distillation2026年4月15日arXivPDF

在仅有二元偏好数据(pairwise preferences)的前提下,如何把“rubric-augmented verification/ reward modeling(用评分细则分解评估)”做成可规模化且鲁棒的奖励建模:既能从自生成rubric中获得增益,又能避免低质量rubric对reward model/ verifier产生系统性误导(failure of cooperation)。

值得看其“rubric会害人”的显式建模与helpful/misleading对比构造;若你做RM或筛数据,这个闭环比堆更多偏好数据更像可复现的动作。
Akira Kawabata,Saku Sugawara
reward-modelingrubricpreference-learning2026年4月15日arXivPDF

在不做任何微调的前提下,系统性回答“LLM-as-a-judge 在 RewardBench 2 上到底哪些可落地的提示/聚合技巧能稳定提升判别准确率、提升幅度与成本代价分别是多少”,并给出可复现的成本—准确率权衡与失败技巧的负面结论。

只看成本-准确率曲线和失败技巧清单:把“准则注入 vs 多采样集成”的收益拆开量化,能避免你把噪声judge直接接进训练闭环。
Ryan Lail
llm-as-a-judgerewardbenchrlhf2026年4月15日arXivPDF

在“用户只提供最小锚点(如实体名/短描述)、服务端无原始训练语料、也不希望用户上传敏感 forget set”的更现实部署约束下,如何从模型参数中主动挖掘目标实体的被记忆内容、界定可控的遗忘范围,并构造足够有效的监督数据来驱动现有 unlearning 算法达到接近“有监督 forget set”的遗忘效果,同时尽量减少旁路损伤与被滥用风险。

看memory-graph如何从锚点自举forget监督:核心启发是unlearning成败主要在数据构造与边界控制,而不是换哪个遗忘算法。
Wenxuan Li,Zhenfei Zhang,Mi Zhang,Geng Hong,Mi Wen,Xiaoyu You,Min Yang
machine-unlearningprivacymemorization2026年4月15日arXivPDF

奖励模型(RM)在RLHF中容易学习到与prompt意图无关的“捷径”(如偏好更长、更迎合的回答),导致reward hacking。本文核心问题是:在不显式枚举/惩罚具体伪相关属性的前提下,如何构造一个可量化的“回答是否实现prompt潜在意图”的信号,并把它作为正则注入RM训练,使RM更依赖prompt相关信息而非prompt无关伪特征。

如果你被reward hacking折磨就读:它用“意图相关表征”正则压掉prompt无关捷径,比手工长度惩罚更通用;但对基座预训练范式影响有限。
Yunsheng Lu,Zijiang Yang,Licheng Pan,Zhixuan Chu
reward-modelingcausal-regularizationsycophancy2026年4月15日arXivPDF

论文聚焦“答案正确但推理步骤不可靠”的结构性失配:LLM 可能通过带有逻辑错误/幻觉的中间步骤(Step Internal Flaws),或通过过度/不足推理(Step-wise Flaws:overthinking/underthinking)仍得到正确最终答案。作者进一步提出并验证一个反直觉问题:即便给定正确最终答案,让模型“只需解释”,也并不能稳定提升推理步骤质量或整体推理能力;因此需要一种能在样本级同时处理多类混合缺陷的统一后处理/合成框架。

只看“正确答案条件化也洗不干净CoT”的证据与共识合成管线:它改变我对用CoT当训练数据的信心,应立刻加到内部轨迹筛噪里。
Zipeng Ling,Shuliang Liu,Shenghong Fu,Yuehao Tang,Seonil Son,Yao Wan,Xuming Hu
chain-of-thoughtreasoning-graphconsensus2026年4月15日arXivPDF

论文聚焦于多任务/任务流式 SFT 中的干扰与遗忘:现有“参数隔离”(parameter isolation)方法通常先验地选出一组“重要参数”并静态冻结,但全文通过对 mask 动态与梯度信号的分析指出——参数重要性在训练过程中会发生显著时间漂移(Parameter Importance Drift),静态隔离会逐步与优化轨迹失配,导致一方面保护了已不再关键的参数浪费容量,另一方面遗漏了后期新出现的关键参数而被覆盖。

看参数重要性漂移的诊断图和动态mask规则:结论是“冻结哪里”不如“何时冻结/释放”,对多阶段预训练/课程切换的稳定性策略很对味。
Zekai Lin,Chao Xue,Di Liang,Xingsheng Han,Peiyang Liu,Xianjie Wu ... 省略 1 位作者 ... ,Yu Lu,Haibo Shi,Shuang Liang,Minlong Peng
catastrophic-forgettingsftcontinual-learning2026年4月15日arXivPDF

论文聚焦于一个被T2I流水线长期默认但缺乏系统验证的问题:作为“图像质量/对齐/审美”的代理指标,Reward Model(RM)在训练、筛选、评测与reward-guided优化(如ReNO)中是否对人口统计属性(性别/种族)具有系统性偏置与脆弱性,并且这种偏置是否会在“用RM去优化生成结果”的闭环中被放大,导致与prompt无关的人口属性漂移、刻板印象强化与安全风险(如性化/NSFW)上升。

作为闭环风险备查:它把“RM偏置会被优化放大”讲得够硬,提醒做reward筛选/优化时必须把公平与校准当一等指标,否则分布会系统性跑偏。
Salma Abdel Magid,Grace Guo,Esin Tureci,Amaya Dharmasiri,Vikram V. Ramaswamy,Hanspeter Pfister,Olga Russakovsky
reward-modelsbias-auditfairness2026年4月14日arXivPDF

核心问题:音视语言模型(AVLM)存在显著的跨模态幻觉,尤其是“视频驱动的音频幻觉”——模型在回答音频相关问题时过度依赖视觉先验(看到警车就“听到”警笛),忽略真实音轨证据。论文要解决的是:如何在不破坏既有视觉-语言能力的前提下,纠正这种视觉主导(visual dominance),让生成内容对音频证据敏感且可归因。

只看偏好对构造(输入/输出双轴反事实)和“只调 audio projection”的消融;能直接抄到多模态数据配方里,别花时间读全套对齐细节。
Ami Baid,Zihui Xue,Kristen Grauman
multimodal-alignmentpreference-optimizationaudio-visual2026年4月15日arXivPDF

在稀疏终止奖励下,基于 intra-group 比较(同一输入采样多条轨迹、做相对比较)的序列级 RL 微调常出现长期训练不稳定:学习税(有效更新累积失败)、等价解概率漂移、熵塌陷。论文从 token-level credit assignment 出发提出一个必要设计条件:目标函数必须在梯度层面保持 token 更新的“交换性/可交换权重”(gradient exchangeability),使得与奖励弱相关但高频的 token 能在组内发生梯度抵消(cancellation);否则“非抵消”将成为结构性常态并导致可预测的漂移与塌陷。

读必要条件“token 梯度可交换→组内抵消”那段就够:它把熵塌陷/漂移从超参问题变成目标函数结构问题,适合拿来审你自己的 GRPO 变体。
Fei Ding,Yongkang Zhang,youwei wang,Zijian Zeng
reinforcement-learningsequence-rewardcredit-assignment2026年4月4日arXivPDF

在“先 SFT、后 GRPO”的 Lean4 自动形式化后训练流水线中,SFT 阶段与 GRPO 阶段训练提示(prompts)数据的重叠比例是否会系统性影响最终性能?如果会,最佳实践应是让两阶段数据尽量不重叠还是复用同一批数据?

把“SFT-RL prompts 重叠率”当超参做干净对照,这个结论可直接改你流水线;另只需看 compile vs semantic pass@k 的落差图,别再被可编译率骗。
Xiaole Su,Kasey Zhang,Andy Lyu
post-traininggrpodata-overlap2026年4月15日arXivPDF

在 RLVR/GRPO 类 LLM 强化学习后训练中,探索-利用权衡(EETO)在“极难/极易样本组”上会退化:当同一 query 的 G 个采样全为 0 或全为 1 奖励时,GRPO 组内优势函数为 0,导致这些 hard/easy 组几乎无梯度;同时用困惑度(PPL)做粗粒度 shaping 会带来不稳定与错配。论文要解决的是:如何在不显著扰动可验证奖励(verification reward)的前提下,对样本进行更细粒度的探索/利用调度,并让 hard/easy 组也产生有效学习信号。

关注它如何用 PPL 分区给 hard/easy 组“补梯度”,但先核对实验是否跨任务稳;读方法+训练曲线即可,别指望它给出通用最优 EETO 配方。
Xiaofan Li,Ming Yang,Zhiyuan Ma,Shichao Ma,Jintao Du,Yu Cheng ... 省略 2 位作者 ... ,Xin Tan,Yanyun Qu,Lizhuang Ma,Yuan Xie
RLVRexploration-exploitationperplexity2026年4月15日arXivPDF

在RLHF/RLAIF/RLVR等“用代理奖励对齐”的训练范式下,为什么在大模型时代reward hacking不再是局部实现漏洞,而会系统性、分层级地演化为可泛化的策略性失配(如alignment faking、评估器操纵、环境/工具链篡改),以及如何用统一理论框架刻画其机制、演化路径与防御面。

作为对齐风险的框架文献备查即可:PCH 讲得顺,但多是概念整合;需要的是它那套“从评估器到环境”的失配谱系,用来做你训练监控清单。
Xiaohua Wang,Muzhao Tian,Yuqi Zeng,Zisu Huang,Jiakang Yuan,Bowen Chen ... 省略 13 位作者 ... ,Xu Tan,Tao Gui,Xiaoqing Zheng,Xuanjing Huang
RLHFreward-hackingalignment2026年4月15日arXivPDF

3D 空间推理的 self-evolving 训练依赖模型共识构造伪标签,会强化而非纠正模型自身的几何错误。

空间推理比较窄的应用,但'用几何确定性替代模型共识做 verifier'这个观点对通用 RLVR 的数据构造有弱启发,扫一眼 DGE 设计即可。
Dingming Li,Yingxiu Zhao,Xinrui Cheng,Kangheng Lin,Hongbo Peng,Hongxing Li ... 省略 9 位作者 ... ,Weiming Lu,Jun Xiao,Yueting Zhuang,Yongliang Shen
spatial-reasoningself-evolvingverifier2026年4月15日arXivPDFGitHub

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

论文要解决的核心问题是:在固定随机种子、相同prompt甚至相同硬件配置下,LLM(尤其在多Agent/分布式工作流中)仍出现不可复现与“行为分叉”,其根因并非采样随机性,而是浮点有限精度与并行归约非确定性引入的极微小数值扰动,如何在Transformer层级计算中被传播、放大或湮灭,并最终导致输出层面的离散差异(如token翻转/策略改变)。作者试图给出一个可量化、可分区(稳定/混沌/信号主导)的机制解释,而不是把它当作工程噪声。

会改变你对“同 seed 可复现”的默认假设:按它的条件数/混沌分区去做内部推理一致性基准,并立刻检查长上下文下注意力病态是否被数值噪声触发。
Chashi Mahiul Islam,Alan Villarreal,Mao Nishino,Shaeke Salman,Xiuwen Liu
numerical-instabilitychaosfloating-point2026年4月14日arXivPDF

论文要解释 encoder–decoder Transformer 在算法算术任务(以一步 Collatz 预测为例)中典型的“先拟合训练集、长时间测试集不泛化、随后突然泛化(grokking)”的长延迟现象:延迟究竟来自“算术结构学得晚”(表示未形成),还是“结构早已学到但读不出来”(decoder 读出/访问瓶颈)。作者主张并用全文证据支持后者:encoder 很早就形成了与任务相关的结构(如奇偶/剩余类),但 decoder 长时间无法把这些结构稳定转化为逐 token 的正确输出,导致行为层面的泛化被显著推迟。

它把 grokking 的“没学会”改写成“学会但读不出”,而且用置换/rewind 做到近因定位;建议复现其 encoder/decoder 干预,拿去查你模型的延迟泛化瓶颈。
Laura Gomezjurado Gonzalez
grokkingtraining-dynamicsmechanistic-interpretability2026年3月30日arXivPDF

论文要解决的核心问题是:在逻辑推理任务中,“链式思维(CoT)每一步都正确”并不必然推出“最终答案正确”。作者希望把“真正按定义执行运算并逐步组合(operator logic)”与“凭运算符名字/常见模式检索(operator name / pattern retrieval)”严格解耦,并进一步定位:当出现“推理正确但答案错”时,错误究竟发生在推理过程、还是发生在最终输出生成阶段(autoregressive decoding 的末端决策)。

只看 Novel Operator Test 和“策略失败 vs 内容失败”的分解:它提醒 CoT 正确不等于决策正确,适合用来评估你过程监督/RL 是否只在教模型写漂亮步骤。
Abinav Rao,Sujan Rachuri,Nikhil Vemuri
reasoning-evaluationchain-of-thoughtbenchmark2026年3月19日arXivPDF

如何在不依赖真实论文/人工标注的前提下,评测“科学助手型LLM/Agent”是否能基于给定仓库中的经验数据进行证据推理、在证据不足时正确拒答(abstention),并且在工具调用与文件交互上采取有效策略;同时避免真实数据评测固有的发表偏差、已知知识污染(parametric priors/known-knowledge bias)、标注噪声与数据分发成本。

当作可无限采样的诊断基准看:重点读“可拒答问题+特权生成器 ground truth”的设计,能用来区分参数记忆与证据推理;正文细节不必逐页啃。
Oliver Bentham,Vivek Srikumar
benchmarkprocedural-generationtool-use2026年4月14日arXivPDF

随着模型规模增大,LLM对上下文的“被带偏”行为(contextual entrainment:仅因token出现在上下文就提高其概率)如何变化?尤其是:为什么大模型一方面更能抵抗语义层面的错误信息(counterfactual misinformation),另一方面却更容易被无关/随机上下文token干扰(irrelevant/random copying)?论文要给出可量化的、可拟合的scaling law解释这一“越大越好又越大越糟”的悖论。

读它的 entrainment 指数拟合和“语义抗误导变强、随机复制变强”的反号 scaling;这会逼你在长上下文/RAG 训练里显式压制非语义复制,而不是迷信 scale。
Dikshant Kukreja,Kshitij Sah,Gautam Gupta,Avinash Anand,Rajiv Ratn Shah,Zhengkui Wang,Aik Beng Ng,Erik Cambria
scaling-lawscontextcopying2026年4月14日arXivPDF

论文要解决的问题是:在“有限离散状态空间 + 显式有效性约束(validity constraints)”的经典组合推理/规划类任务中,当前 LLM/LRM 的推理能力是否会随着问题复杂度上升而出现可测量、可复现的“推理崩塌(reasoning collapse)”,以及这种崩塌在中间推理轨迹上具体表现为何;同时,传统只看最终正确率的评测为何会掩盖这一现象。

只看复杂度曲线+validator设定:它把“最终对不对”换成“轨迹是否全程有效”,更像干净的算法诊断;结论偏评测工具而非新训练法。
Md. Fahad Ullah Utsho,Mohd. Ruhul Ameen,Akif Islam,Md. Golam Rashed,Dipankar Das
Mitreasoning-benchmarkcomplexity-scalingvalidators2026年4月15日arXivPDF

在“任务形式完全一致”的对照条件下,解释为什么多模态大模型(MLLM)的 in-context learning(ICL)在 zero-shot 与纯文本相当,但在 few-shot(带示例)时显著落后;并从机制层面定位瓶颈到底发生在“示例中学到任务映射”还是“把映射迁移到query上用起来”。

读机制定位那几张层间图就够:few-shot落后更像后层“不会用示例映射”而非感知差,直接指向该做层间路由/对齐而不是堆视觉编码器。
Yu Wang,Sharon Li
multimodal-iclin-context-learningmechanistic-analysis2026年4月15日arXivPDF

一句话:在成对同架构模型(base vs 专门化/对齐后模型)中,如何定位“能力到底写在了哪些参数里”,而不是仅凭activation重要性误判为下游聚合/放大模块。

值得当工具箱:用weight patching把“能力来自哪块参数”从activation归因里剥离出来,适合立刻拿去做SFT/RLHF差分定位与组件级合并。
Chenghao Sun,Chengsheng Zhang,Guanzheng Qin,Rui Dai,Xinmei Tian
mechanistic-interpretabilitycausal-interventionweight-patching2026年4月15日arXivPDF

如何可控、可验证地评测前沿模型在“超长推理链”(长时程CoT)上的规划与错误累积问题。

当benchmark备查即可:重点看任务如何可验证+错误累积统计,能把长上下文训练/推理算力分配的改动落到可测靶标上。
Sumeet Ramesh Motwani,Daniel Nichols,Charles London,Peggy Li,Fabio Pizzati,Acer Blake ... 省略 10 位作者 ... ,Ameya Prabhu,Brian Bartoldson,Bhavya Kailkhura,Christian Schroeder de Witt
benchmarklong-horizon-reasoningchain-of-thought2026年4月15日arXivPDF

幻觉(factual vs fictional)相关的内部表征信号在自回归LM的生成过程中何时出现、以及其随模型规模变化的“相变”规律是什么。

结论有点反直觉但可当弱信号:幻觉相关表征峰值在首token前且随规模出现阈值,提示可做“解码前”风险探测;主要看那条scale曲线。
Dip Roy,Rajiv Misra,Sanjay Kumar Singh,Anisha Roy
hallucinationmechanistic-interpretabilityscaling2026年3月20日arXivPDF

现有将 conformal prediction 用于 LLM 事实性/幻觉过滤的方法通常只做“全局一条阈值”的 split conformal 校准,导致在提示词难度、主题、分布异质性很强时,单个 prompt/类别层面出现明显的过覆盖或欠覆盖(conditional miscalibration)。论文要解决的是:在不破坏 split conformal 有限样本边际覆盖保证(marginal coverage)的前提下,让阈值对 prompt 自适应,从而提升条件覆盖与选择性生成的稳定性。

把它当可插拔校准层:核心是prompt异质性下的conditional miscalibration修正,读方法+实验表就行;对预训练启发是“置信度也要条件化建模”。
Aleksandr Rubashevskii,Dzianis Piatrashyn,Preslav Nakov,Maxim Panov
conformal-predictionfactualityuncertainty-calibration2026年4月15日arXivPDF

该论文(更像研究札记/评论)提出一个可证伪的区分问题:Claude Mythos Preview system card 中的“情绪向量(emotion vectors)”究竟在捕捉并因果驱动类似人类的功能性情绪,还是仅仅把更高维的“情境/局势表征(situational context)”投影到人类情绪轴上,从而形成相关但非机制性的代理信号?作者指出 system card 没有在最关键的“战略性隐瞒(strategic concealment)”片段同时报告情绪探针与 SAE 特征,因此缺少能区分两假设的交叉证据。

不必细读正文,记住它的质疑点:情绪探针可能只是情境投影;作者给的判别实验(尤其strategic concealment缺证据)对做steering很有警示。
Hiranya V. Peiris
interpretabilityalignment-monitoringsparse-autoencoders2026年4月9日arXivPDF

在可控的 grokking 设置(1-layer Transformer + 群论/模运算任务)中,寻找一个能稳定刻画“从记忆到泛化”转变的可测量表征量:既能在转变前给出预测信号、在不同随机种子下阈值稳定、并能在干预下呈现因果关联,而不仅是事后相关。

看谱熵指标那部分:跨seed稳定、还能提前预警grokking转折,作为训练监控量挺实用;但它也承认“熵塌缩非充分”,别过度外推到大模型。
Truong Xuan Khanh,Truong Quynh Hoa,Luu Duc Trung,Phan Thanh Duc
grokkingtraining-dynamicsspectral-entropy2026年4月13日arXivPDF

解释 Transformer(更准确说是单层 Linear Transformer/线性注意力模块)在执行基础统计推断任务时的“计算本质”:它到底是在模拟迭代优化(如梯度下降)逐步逼近,还是能在一次前向中直接实现经典统计量的闭式解;并以线性回归/OLS 为例给出可验证的代数等价构造。

偏理论但很干净:线性注意力在特定参数下等价OLS闭式解,能改变你对ICL“必须迭代优化”的prior;建议复现推导再想怎么扩到softmax注意力。
Xiaojun Tan,Yuchen Zhao
transformer-theoryattentionordinary-least-squares2026年4月15日arXivPDF

扩散语言模型(DLM)在推理时天然包含多重随机性与配置自由度(扩散步数、CFG、MC 采样、batch size、数值精度等),导致同一输入在不同运行/配置下输出不一致。现有评测往往只看固定配置下的 dataset-level 指标(accuracy、pass@k),但作者指出这种聚合会系统性“衰减/掩盖”非确定性:不同配置可能总体分数几乎一样,却在样本级出现大量 correctness flip 和完全不同的错误模式。本文要解决的是:建立一个细粒度、跨因素的非确定性评测范式,量化并归因 DLM 的不稳定来源。

只看FVA分解和样本级flip统计:它说明dataset-level指标会系统性掩盖DLM非确定性,做扩散LM消融/对比时应把稳定性协议当硬要求。
Zhengyu Fang,Zhimeng Jiang,Huiyuan Chen,Xiaoge Zhang,Tianyi Li,Kaiyu Tang,Xiao Li,Jing Li
diffusion-lmnon-determinismevaluation2026年4月15日arXivPDF

如何在多轮交互过程中,用低开销、实时的信号监控LLM交互“结构耦合/完整性”是否在逐步退化,而不依赖昂贵的二次推理或事后评审。

作为在线健康监控的备查指标即可:看定义+一两张退化曲线,结论更像启发式,别指望能直接指导预训练配方。
Wael Hafez,Amir Nazeri
interaction-monitoringinformation-theorytoken-statistics2026年3月18日arXivPDF

如何为decoder-only自回归LLM生成结果提供更“因果可信、语义一致”的token级归因解释,并系统评测归因质量。

二阶归因很可能算力/噪声都不友好,别细读方法推导;只看他们的归因评测协议与失败案例,能帮你挑更靠谱的debug工具。
Vishal Pramanik,Maisha Maliha,Nathaniel D. Bastian,Sumit Kumar Jha
interpretabilitytoken-attributionhessian2026年4月14日arXivPDF

现有人格/Persona控制多为静态设定,难以随情境变化而稳定、可控地调整LLM的“情境化人格表现”。

训练-free 的 persona neuron 检索更像工程小技巧:只看 steering 稳定性对比和 SPBench 设定,别把“可控”外推成表征因果。
Zesheng Wei,Mengxiang Li,Zilei Wang,Yang Deng
neuron-steeringpersonacontrollability2026年4月15日arXivPDF

Transformer LM如何表征并实现“句法岛屿(syntactic islands)”中的梯度可接受性现象,以及其背后的因果机制是否可被定位与解释。

机制解释做得挺干净但离预训练太远:只看他们如何做因果介入定位子空间,以及 coordination island 的选择性阻断图,作为方法模板即可。
Sasha Boguraev,Kyle Mahowald
causal-interventionmechanistic-interpretabilitysyntax2026年4月15日arXivPDF

如何把“推理时激活干预(steering)”与微调/提示等传统适配方法放到同一框架下理解,并明确其作为一种“模型适配”的边界与能力。

偏术语与框架统一:快速扫分类表/判据就够,用来把 steering 放进你们内部的适配对照实验矩阵里,正文论证不必逐段抠。
Simon Ostermann,Daniil Gurgurov,Tanja Baeumel,Michael A. Hedderich,Sebastian Lapuschkin,Wojciech Samek,Vera Schmitt
activation-steeringmodel-adaptationtaxonomy2026年4月15日arXivPDF

LLM内部表征中是否、以及如何编码“反问句/修辞疑问句”的语用信号,并评估其可线性探测性与跨数据集迁移稳定性。

探针论文常见坑的一个好例子:只看跨域迁移与“可探测≠共享表征”的反例讨论,提醒你别用线性 probe 结论倒推预训练学到啥。
Louie Hong Yao,Vishesh Anand,Yuan Zhuang,Tianyu Jiang
linear-probingpragmaticsrepresentation-analysis2026年4月15日arXivPDF

基准分数难以反映真实可用性时,如何理解并形式化用户常用的“vibe-testing”(基于个人工作流的非正式模型对比评估),使其可系统化与可复现。

对预训练不直接,但能改你对评测的 prior:只看他们如何把 vibe-test 任务与判据结构化成可复现流水线,适合拿来改内部模型选型流程。
Itay Itzhak,Eliya Habba,Gabriel Stanovsky,Yonatan Belinkov
evaluationhuman-preferencespersonalization2026年4月15日arXivPDF

如何以更“跨层、过程级”的方式解释Vision Transformer内部表征与计算,而不仅是对单层激活做稀疏特征分解。

对象是 ViT 但思路可迁移:只看 cross-layer transcoder 的可解释分解是否真能替代激活、以及哪些层贡献被重分配,作为跨层解释的备选工具。
Gerasimos Chatzoudis,Konstantinos D. Polyzos,Zhuowei Li,Difei Gu,Gemma E. Moran,Hao Wang,Dimitris N. Metaxas
mechanistic-interpretabilitysparse-autoencoderscross-layer2026年4月14日arXivPDF

解决“固定嵌入空间的相似度”难以刻画人类在不同上下文下的动态相似性判断,从而导致人机视觉对齐不足的问题。

更像对齐目标的提醒而非新算法:看他们“上下文敏感相似度”带来的增益幅度与消融即可,知道固定 embedding 相似度会系统性误导就够了。
Frieda Born,Tom Neuhäuser,Lukas Muttenthaler,Brett D. Roads,Bernhard Spitzer,Andrew K. Lampinen,Matt Jones,Klaus-Robert Müller,Michael C. Mozer
representation-learningcontext-sensitivityhuman-alignment2026年4月15日arXivPDF

如何对“大推理模型”(LRM)的推理-答案生成进行不确定性量化,并在有限样本下给出统计保证,同时解释不确定性覆盖来自哪些推理/训练因素。

conformal 套到推理链上挺实用但假设要盯紧:只看覆盖保证在不同采样预算下是否稳、以及不确定性归因分析,适合做可靠性回归测试基线。
Yangyi Li,Chenxu Zhao,Mengdi Huai
uncertaintyconformal-predictionreasoning-models2026年4月15日arXivPDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

研究跨域记忆是否、以及为何能提升 coding agent:把不同基准/不同任务域产生的“记忆”(轨迹、工作流、摘要、洞见等)放入统一记忆池,在目标任务推理时检索使用,评估跨域迁移收益与负迁移来源。

只看跨域正/负迁移的分解实验:高层“调试/验证套路”比低层轨迹更可迁移,可直接指导合成后训练数据时优先蒸馏程序性元技能。
Kangsan Kim,Minki Kang,Taeil Kim,Yanlai Yang,Mengye Ren,Sung Ju Hwang
coding-agentsmemorytransfer-learning2026年4月15日arXivPDF

如何在仓库级自动软件工程中,把“可执行验证”变成多智能体协作的强约束,从而减少LLM生成代码的不可验证与错误传播。

作为工程范式备查即可:把“每次改动必须可执行验证”做成硬约束,但对预训练没新 prior;只看执行门控如何插进多智能体流水线。
Rajesh Kumar,Waqar Ali,Junaid Ahmed,Najma Imtiaz Ali,Shaban Usman
multi-agentsoftware-engineeringexecution-feedback2026年4月13日arXivPDF

AI编码代理在仓库级任务中大量时间花在“无目标的代码探索/导航”上,如何用结构化架构信息降低工具调用与探索开销。

值得知道“架构描述=导航原语”这条路能省多少无效工具调用,但对基座训练是弱信号;扫一眼量化结果与失败案例就够。
Ruoqi Jin
Independent ResearcherMitcoding-agentscode-navigationstructured-context2026年4月11日arXivPDF

研究 AI coding agents 在软件日志记录这一非功能性需求上是否表现得像人类开发者,以及自然语言指令能否有效约束其行为。

偏软件工程实证,不会改变你做预训练的路线;但若做 coding agent,摘要里的三个比例已经足够说明可维护性仍靠人补锅。
Youssef Esseddiq Ouatiti,Mohammed Sayagh,Leo,Ahmed E. Hassan
coding-agentsoftware-engineeringlogging2026年4月10日arXivPDF

仓库级代码生成中,如何缓解“意图模糊→上下文保真度下降→架构崩塌”的Context-Fidelity trade-off,并减少跨模块幻觉与结构性错误。

更像“契约式IR”倡议,可信度取决于是否有干净基线与消融;不细读正文也行,优先找有没有可复现的符号约束带来稳定增益。
Yi Lin,Lujin Zhao,Yijie Shi
repo-level-codegencoding-agentssymbolic-contracts2026年4月10日arXivPDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

核心问题:现有多模态搜索/浏览类Agent大多是在通用LMM上“后挂工具+SFT/RL”得到的,导致agentic行为更像表层技能而非内生能力;同时长链路交互会引发上下文膨胀与“attention dilution / Lost-in-the-Middle”,即使证据已在历史中也难以被模型稳定定位与利用。论文试图回答:能否在“从零训练”的路线中,把搜索式自主探究(ReAct式规划-行动-观察-整合)作为模型形成期的核心能力注入,并在不牺牲证据保真度的前提下解决长时序交互的上下文瓶颈?

建议看训练配方:把 agentic 行为前置成“Agentic Seeding”课程并用 V-Fold 外化历史,可能改变你对长轨迹能力应在何阶段注入的 prior。
Yikun Liu,Yuan Liu,Le Tian,Xiao Zhou,Jiangchao Yao,Yanfeng Wang,Weidi Xie
agentic-searchmultimodal-agenttool-use2026年4月15日arXivPDF

在无法访问LM agent内部策略/价值函数的情况下,仅从外显动作轨迹中,如何可操作地区分并量化“探索不足/探索冗余”与“利用不足/利用冗余”的错误,并构造可控环境系统性地调节探索/利用难度以评测不同agent的失败模式。

读它的度量定义即可:用 policy-agnostic 的结构冗余把探索/利用错误从轨迹里拆出来,适合拿来做 RL-pretrain 前后诊断而非追分。
Jaden Park,Jungtaek Kim,Jongwon Jeong,Robert D. Nowak,Kangwook Lee,Yong Jae Lee
llm-agentsexplorationexploitation2026年4月14日arXivPDF

在“无外部攻击/无污染工具/无对抗环境”的良性条件下,长时序LLM Agent仍可能因自身内在失误进入高后果风险轨迹;论文要解决的是:如何系统化定义并评测这种“intrinsic risk”,并把评测从轨迹级二分类推进到风险步骤定位与失误类型诊断。

把风险评测从“结果”拉到“过程审计+风险步定位”这点可直接用来做对齐数据;只需看 taxonomy 与标注协议,别指望预训练层面结论。
Jiacheng Wang,Jinchang Hou,Fabian Wang,Ping Jian,Chenfu Bao,Zhonghou Lv
agent-safetybenchmarklong-horizon2026年4月15日arXivPDF

如何提升基于多模态大模型(MLLM)的GUI自动化在长时序/长地平线任务中的稳定性与可控性,缓解记忆退化、进度混乱与数值/算术幻觉。

关注它如何把长地平线稳定性拆成“主策略+轻量工具copilot”并做策略优化;对后训练配方有用,但结论强度取决于任务/工具设定是否干净。
Zhengxi Lu,Fei Tang,Guangyi Liu,Kaitao Song,Xu Tan,Jin Ma ... 省略 1 位作者 ... ,Weiming Lu,Jun Xiao,Yueting Zhuang,Yongliang Shen
gui-agenttool-usepolicy-optimization2026年4月15日arXivPDFGitHub

文本环境中的 LLM World Model(WM)训练与评估长期依赖“状态一致性”(next-state 文本相似度/EM 等),但全文指出这会系统性地与真实下游行为目标错位:即便单步预测文本很像,回放到真实环境时也可能导致 agent 决策改变、任务失败(metric inversion)。论文要解决的核心问题是:如何让 WM 的训练目标与“在真实环境中会采取同样动作”的功能一致性(functional/behavior consistency)对齐,并给出可训练、可度量的替代信号。

它纠正了一个常见坑:文本相似度的 world model 评测会反转真实行为质量;建议只看 BehR 与 CR_pw,立刻用于你自己的模拟器蒸馏评估。
Youling Huang,Guanqiao Chen,Junchi Yao,Lu Wang,Fangkai Yang,Chao Du ... 省略 1 位作者 ... ,Pu Zhao,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang
world-modelsbehavior-consistencymodel-based-planning2026年4月15日arXivPDF

多模态游戏/浏览器环境中的通用 Agent 评测缺乏标准化动作接口与可验证的自动评估,导致不同工作难以可比、结果难复现。

当评测基础设施看:标准化动作接口+可验证指标能显著降噪,适合用来做多模态agent训练回归测试;正文细节不必深挖。
Mingyu Ouyang,Siyuan Hu,Qinghong (Kevin) Lin,Hwee Tou Ng,Mike Zheng Shou
benchmarkgame-agentsbrowser-agents2026年4月8日arXivPDFGitHub

现有Agent评测难以覆盖真实助手任务中的“组合式复杂度”,缺少更贴近部署场景的基准与复杂度刻画。

作为“真实助手任务”基准备查即可:只看复杂度三轴定义和失败案例汇总,能帮你更快定位 agent 评测的盲区。
Xiang Long,Li Du,Yilong Xu,Fangcheng Liu,Haoqing Wang,Ning Ding,Ziheng Li,Jianyuan Guo,Yehui Tang
agent-benchmarkevaluationtool-use2026年3月20日arXivPDF

如何用一种可维护、可复用、可控的方式来显式描述与执行 LLM Agent 的工作流(控制流、状态、并行、工具调用),避免“反应式 prompting”隐式流程带来的不可控与难维护。

偏工程 DSL,不细读:扫一眼语义/状态/并行与可复现性设计点,能借来规范内部 agent workflow,但不改预训练 prior。
Pengcheng Wang,Jerry Huang,Jiarui Yao,Rui Pan,Peizhi Niu,Yaowenqi Liu,Ruida Wang,Renhao Lu,Yuwei Guo,Tong Zhang
agent-workflowsdsltool-use2026年4月14日arXivPDF

解决 Web agent 长时程任务中“技能表示不落地/不可恢复”的问题:纯文本技能不可执行、纯代码技能不可解释,导致难以错误恢复与自适应。

值得知道“可执行程序+逐步解释”这类技能封装:只看技能抽取与恢复机制那节,能启发你做可调试的 web 任务记忆库。
Zhaoyang Wang,Qianhui Wu,Xuchao Zhang,Chaoyun Zhang,Wenlin Yao,Fazle Elahi Faisal ... 省略 5 位作者 ... ,Dongmei Zhang,Saravan Rajmohan,Jianfeng Gao,Huaxiu Yao
web-agentskill-learningprogram-guided2026年4月14日arXivPDF

如何用多智能体把LLM微调/训练的端到端流程(需求分析、数据与文献检索、配方设计、训练与评测、迭代试验管理)自动化,并能在多轮实验中高效探索与复用经验。

当作自动化训练流水线的系统参考:只看树搜索式实验管理和 FT-Bench 设定,结论更像吞吐工具而非方法论增量。
Zerun Ma,Guoqiang Wang,Xinchen Xie,Yicheng Chen,He Du,Bowen Li,Yanan Sun,Wenran Liu,Kai Chen,Yining Li
Shanghai AI LaboratoryFudan Universityagentic-automationllm-finetuningexperiment-search2026年4月15日arXivPDF

端到端VLA在机器人操控微调后容易牺牲基座VLM的高层推理能力,如何在保持语义推理的同时获得稳定可控的低层动作执行。

具身路线备查:看分层“VLM 规划 vs 扩散控制”如何隔离能力退化,能给多模态训练组织一个可复用的拆分模板。
Tianshuo Yang,Guanyu Chen,Yutian Chen,Zhixuan Liang,Yitian Liu,Zanxin Chen ... 省略 1 位作者 ... ,Haotian Liang,Jiangmiao Pang,Yao Mu,Ping Luo
embodied-aivision-language-actionhierarchical-planning2026年4月15日arXivPDF

轻量级多模态GUI Agent在端侧部署受限(算力/容量不足)且难以在复杂真实GUI工作流中扩展技能与任务覆盖,如何在低成本下提升可扩展性与任务泛化。

端侧 GUI agent 的编排思路而非训练突破:只看多角色分工与成本对比表,判断是否值得在产品栈里替代多专家模型。
Ziwei Wang,Junjie Zheng,Leyang Yang,Sheng Zhou,Xiaoxuan Tang,Zhouhua Fang,Zhiwei Liu,Dajun Chen,Yong Li,Jiajun Bu
gui-agentorchestrationlightweight-mlm2026年4月15日arXivPDF

如何评测与推动自动谈判智能体在更复杂设置下的能力:多协议/多交易谈判,以及供应链场景中的并发谈判。

竞赛报告性质:扫任务设定与排行榜就够了,更多是谈判评测生态信息,对预训练研究只提供弱外部信号。
Reyhan Aydoğan,Tim Baarslag,Tamara C. P. Florijn,Katsuhide Fujita,Catholijn M. Jonker,Yasser Mohammad
negotiationmulti-agentbenchmark2026年4月15日arXivPDF

MCP 只解决“能调用工具”,但缺少生产级“安全、可控、可恢复”运行所需的协议原语(身份传递、预算控制、错误语义),导致企业级 Agent 部署难以规模化与治理。

生产落地 checklist 价值大于研究增量:只看身份/预算/错误语义这些协议原语,能直接指导你把 MCP demo 变成可治理系统。
Vasundra Srinivasan
MCPtool-useagent-infrastructure2026年3月12日arXivPDF

多 Agent 网络在跨 Agent 传递信息时常被“文本瓶颈”压扁多模态信号,导致跨模态推理与协作性能下降;需要协议层支持原生模态路由并验证其收益边界。

结论对系统设计有用但不必细读:看“保真路由≠必然收益”的条件分析,提醒你别只改协议,还得评估下游 agent 能力。
Vasundra Srinivasan
A2Amultimodal-routingprotocol2026年4月14日arXivPDF

评估移动 GUI agent 在真实世界威胁下是否仍能稳定完成任务,尤其是面对广告、用户生成内容等不可信界面元素时的鲁棒性。

不是方法论文,但 benchmark 设定很对:很多 GUI agent 分数是被干净环境抬出来的,只看威胁模型和性能掉点即可。
Guohong Liu,Jialei Ye,Jiacheng Liu,Yuanchun Li,Wei Liu,Pengzhi Gao,Jian Luan,Yunxin Liu
gui-agentrobustnessbenchmark2026年4月14日arXivPDFGitHub

现有 Agent benchmark 只覆盖少数有公共环境的领域,无法评测 Agent 在广泛专业职业场景的能力。

用 LLM 模拟环境做 Agent benchmark 本身就有评测可信度问题——simulator 和被测模型能力相关会污染信号,作为 literature 备查,不必读正文。
huxiaomeng,Yinger Zhang,Fei Huang,Jianhong Tu,Yang Su,Lianghao Deng,Yuxuan Liu,Yantao Liu,Dayiheng Liu,Tsung-Yi Ho
Alibabaagent-benchmarkworld-modelevaluation2026年4月13日arXivPDFGitHub

解决不同Agent平台间技能(skills)作为原始上下文传递导致的执行不一致和脆弱性问题。

将Agent技能视为代码并引入编译器视角的系统设计,视角新颖,适合关注跨模型Agent部署与基础设施的研究员作为literature备查。
Le Chen,Erhu Feng,Yubin Xia,Haibo Chen
Shanghai Jiao Tong UniversityAgent SystemSkill CompilationLLM Infrastructure2026年4月6日arXivPDFGitHub