AI Research Daily

更新时间: 2026/4/16 04:00:00

共108篇

🌟 2 重点

🧠 预训练 5⚡ 高效推理 12🌐 多模态统一 13🎨 多模态生成 7🛠️ 后训练 23🔬 原理分析 25💻 Coding Agent 5🤖 Agent 18

其他 38 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读LLM 预训练

How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data

在可用真实Web语料接近“爬尽/滤尽”的背景下，合成预训练数据（把Web文本重写成更“可学”的形式）成为主流，但生成策略（prompt设计）、生成器模型规模、源数据与mix-in数据的选择缺乏系统对照。本文核心问题是：在严格可控的实验框架下，哪些合成数据设计维度真正决定下游效果与性价比？如何用最小生成成本得到最高的预训练收益？

synthetic-datapretraining-datadata-quality

精读LLM 预训练

From Where Words Come: Efficient Regularization of Code Tokenizers Through Source Attribution

代码类 BPE tokenizer 在“仓库/语言来源高度不均衡”的训练语料上容易过拟合：把某些大仓库、重复模板、随机/压缩变量名、甚至损坏文本中的高频片段合并成 token，导致大量 token 在真实训练/推理中几乎不出现（under-trained / unused tokens）。这些 token 不仅浪费词表容量与训练预算，还可能带来推理不稳定、幻觉与 token 级攻击面。论文要解决的是：如何在不推翻 BPE 框架的前提下，用“来源归因（source attribution）”对 BPE 的合并目标做正则化，减少来源单一的合并，从而显著降低 under-trained token。

tokenizerbpecode-llm

精读LLM 预训练

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

连续扩散语言模型（DLM）在语言建模上一直落后于离散方法，本文试图弥合这一差距。

diffusion-language-modelflow-matchingnoise-schedule

精读高效推理与架构

SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention

长上下文稀疏注意力训练在分布式（尤其 DP+PP 组合）下出现严重负载不均：一方面数据序列长度高度异质（长短混合导致 straggler 与 pipeline bubble），另一方面不同序列/不同层对稀疏度（attention budget）敏感性不同；现有方法往往只解决“装箱/packing”或只做“固定稀疏度算法”，无法在系统效率与模型精度之间做联合最优。

long-context-trainingsparse-attentionload-balancing

精读高效推理与架构

Event Tensor: A Unified Abstraction for Compiling Dynamic Megakernel

论文要解决的核心问题是：在面向 LLM 推理等“动态工作负载”的 GPU megakernel（持久化融合大核）中，如何同时支持（1）动态 shape（连续 batching、可变序列长度/批大小）与（2）数据依赖的动态控制流（如 MoE 路由导致的依赖关系随数据变化），并在不牺牲可编程性/可维护性的前提下，自动生成能减少 kernel launch 开销、打破 kernel 边界隐式同步、暴露跨算子并行的高性能持久化内核。

llm-servinggpu-compilermegakernel

精读多模态生成

Seedance 2.0: Advancing Video Generation for World Complexity

如何用统一架构实现原生音视频联合生成，并支持多模态输入参考与编辑，在世界复杂度更高的场景下提升生成质量与可控性。

Team Seedancevideo-generationaudio-videomultimodal-generation

精读LLM 后训练

Synthesizing Instruction-Tuning Datasets with Contrastive Decoding

用强教师模型合成 instruction-tuning 数据已成主流，但论文指出：教师生成的回答把“预训练获得的世界知识”与“后训练（SFT/RLHF等）获得的指令遵循行为”混在一起；而前者往往难以通过 SFT 有效迁移到学生模型，反而成为噪声。核心问题是：能否在合成回答时抑制教师的预训练知识成分、突出其指令遵循增量，从而得到更‘纯’的指令数据，让学生学得更好、且能跨架构迁移这种能力？

synthetic-datainstruction-tuningcontrastive-decoding

精读LLM 后训练

(How) Learning Rates Regulate Catastrophic Overtraining

论文要解释并缓解一个在长预训练后更严重的现象：同样做 SFT（并且训练到相近/相同的 SFT loss），从“更强”的预训练 checkpoint 出发反而在 OOD 能力上忘得更多（catastrophic overtraining）。核心问题被作者重新表述为一个优化动力学问题：SFT 学习率（及其调度）如何通过隐式正则化改变参数空间轨迹、改变落点的“锐度/曲率”，从而决定保留预训练能力还是发生遗忘，并进一步解释为什么“预训练越久越容易忘”与预训练阶段的 LR decay 导致的 progressive sharpening 有因果关联。

catastrophic-overtraininglearning-ratesharpness

精读LLM 后训练

TIP: Token Importance in On-Policy Distillation

在On-Policy Distillation（学生用自身rollout、教师对每个token给分布监督）中，训练成本主要由“对所有token做teacher scoring并反传”造成，但并非所有token都同等提供学习信号。论文要解决的核心问题是：OPD里哪些token位置最“重要”（对一步梯度更新后的期望损失下降贡献最大），以及如何用不增加额外计算的方式挑选这些token，从而在几乎不损性能的情况下显著省显存/算力。

on-policy-distillationtoken-importanceentropy

精读LLM 后训练

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

解决强化学习（RLVR）在可验证任务中二元奖励信号过于稀疏、样本效率低的问题，且无需依赖外部强模型提供密集监督。

Princeton UniversityRLVRSelf-DistillationPost-training

精读LLM 后训练

Target Policy Optimization

标准 policy gradient 把'哪些 completion 应增加概率'和'参数如何移动实现这一变化'耦合在同一更新里，导致受 lr/clipping 影响容易 overshoot 或 undershoot。

RLVRpolicy-optimizationGRPO-alternative

精读LLM 原理与机制

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

论文要解决的核心问题是：在固定随机种子、相同prompt甚至相同硬件配置下，LLM（尤其在多Agent/分布式工作流中）仍出现不可复现与“行为分叉”，其根因并非采样随机性，而是浮点有限精度与并行归约非确定性引入的极微小数值扰动，如何在Transformer层级计算中被传播、放大或湮灭，并最终导致输出层面的离散差异（如token翻转/策略改变）。作者试图给出一个可量化、可分区（稳定/混沌/信号主导）的机制解释，而不是把它当作工程噪声。

numerical-instabilitychaosfloating-point

精读LLM 原理与机制

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

论文要解释 encoder–decoder Transformer 在算法算术任务（以一步 Collatz 预测为例）中典型的“先拟合训练集、长时间测试集不泛化、随后突然泛化（grokking）”的长延迟现象：延迟究竟来自“算术结构学得晚”（表示未形成），还是“结构早已学到但读不出来”（decoder 读出/访问瓶颈）。作者主张并用全文证据支持后者：encoder 很早就形成了与任务相关的结构（如奇偶/剩余类），但 decoder 长时间无法把这些结构稳定转化为逐 token 的正确输出，导致行为层面的泛化被显著推迟。

grokkingtraining-dynamicsmechanistic-interpretability

来源

机构

阅读分级

标签筛选

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv精读

How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data

评三轴消融把“合成数据”从玄学拉回可优化工程；结论直接改我对预算分配的prior（>1B生成器无益、mix-in更关键），值得立刻按其配方做内部复现。

Joel Niklaus,Atsuki Yamaguchi,Michal Štefánik,Guilherme Penedo,Hynek Kydlíček,Elie Bakouch ... 省略 2 位作者 ... ,Thibaud Frere,Colin Raffel,Leandro von Werra,Thomas Wolf

synthetic-datapretraining-datadata-quality2026年4月15日arXiv PDF

arXiv精读

From Where Words Come: Efficient Regularization of Code Tokenizers Through Source Attribution

评把代码tokenizer的“词表过拟合”变成可训练的正则项很实用；建议直接照着source-attribution权重重训一次BPE，看unused token与跨仓库泛化是否立竿见影。

Pavel Chizhov,Egor Bogomolov,Ivan P. Yamshchikov

tokenizerbpecode-llm2026年4月15日arXiv PDF

HF Daily▲ 14精读

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

连续扩散语言模型（DLM）在语言建模上一直落后于离散方法，本文试图弥合这一差距。

评连续扩散做语言建模的正经进展，ODE NLL bound和信息均匀噪声调度是两个干净的技术点，值得细看§3-4的推导和ablation确认scale是否够大。

Yuxin Chen,Chumeng Liang,Hangke Sui,Ruihan Guo,Chaoran Cheng,Jiaxuan You,Ge Liu

diffusion-language-modelflow-matchingnoise-schedule2026年4月15日arXiv PDF GitHub

arXiv泛读

From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space

论文研究“把 RL 引入预训练空间”的可行性与收益：传统 RLVR/后训练 RL 主要优化条件分布 P(y|x)，其提升受限于基座模型本身的输出分布支撑；作者提出直接在“预训练空间”优化边缘分布 P(y)，用不依赖具体问题条件的方式塑形模型的内在推理轨迹分布，从而增强基础推理能力并保留更广的探索性，缓解静态语料预训练带来的分布偏移与被动学习瓶颈。

评想法新但可信度取决于reward/负样本设定是否干净；只需看方法定义与关键消融（P(y)更新、负样本强化）判断是否值得跟进。

Yuqiao Tan,Minzheng Wang,Bo Liu,Zichen Liu,Tian Liang,Shizhu He,Jun Zhao,Kang Liu

rl-pretrainpretraining-space-rldistribution-shaping2026年4月15日arXiv PDF

arXiv

Diffusion Language Models for Speech Recognition

如何将Diffusion Language Model（如MDLM/USDM）有效用于语音识别中的语言建模与解码，以提升ASR文本准确率。

评主要是把diffusion LM搬到ASR解码的工程验证；知道“并行/双向LM可做重打分”即可，细节对通用预训练动作指导不多。

Davyd Naveriani,Albert Zeyer,Ralf Schlüter,Hermann Ney

diffusion-lmasrctc2026年4月15日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv精读

SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention

评把稀疏注意力的稀疏度当成“负载维度”动态调参很关键，改变我对长上下文训练只能靠packing的prior；建议重点看调度策略与端到端吞吐/精度曲线。

Hongtao Xu,Jianchao Tan,Yuxuan Hu,Pengju Lu,Hongyu Wang,Pingwei Sun ... 省略 1 位作者 ... ,Yuchen Xie,Xunliang Cai,Mingzhen Li,Weile Jia

long-context-trainingsparse-attentionload-balancing2026年4月15日arXiv PDF

arXiv精读

Event Tensor: A Unified Abstraction for Compiling Dynamic Megakernel

评若你做动态shape/MoE推理，这个统一编译抽象可能真能替代手写megakernel/CUDA Graph；但价值取决于在真实serving栈的端到端收益，先看其落地案例与限制。

Hongyi Jin,Bohan Hou,Guanjie Wang,Ruihang Lai,Jinqi Chen,Zihao Ye ... 省略 11 位作者 ... ,Vinod Grover,Todd C. Mowry,Zhihao Jia,Tianqi Chen

llm-servinggpu-compilermegakernel2026年4月14日arXiv PDF

arXiv泛读

Lossless Prompt Compression via Dictionary-Encoding and In-Context Learning: Enabling Cost-Effective LLM Analysis of Repetitive Data

核心问题：面对高度重复的长文本（尤其是系统日志），LLM 的 token 计费与上下文窗口使分析成本/延迟过高。论文研究“无需微调、保持语义无损”的提示压缩：把重复子串用更短的元标记替换，并在提示中提供字典，让 LLM 通过 in-context learning 直接在压缩表示上完成分析，且输出与未压缩输入等价。

评把“外部宏token+字典”当无损压缩，能直接测ICL学符号映射的边界；只看编码准则与压缩-字典开销的临界点分析就够用。

Andresa Rodrigues de Campos,David Lee,Imry Kissos,Piyush Paritosh

prompt-compressiondictionary-encodingin-context-learning2026年3月19日arXiv PDF

arXiv泛读

ToolSpec: Accelerating Tool Calling via Schema-Aware and Retrieval-Augmented Speculative Decoding

在多步多轮 tool calling 场景中，端到端延迟的主要瓶颈往往不在工具执行而在“生成结构化工具调用（JSON/Schema）本身”。论文要解决的是：在不改模型、不训练的前提下，如何利用 tool schema 的强约束与历史调用的重复模式，显著减少 tool-call 生成阶段的解码开销，同时保持格式正确与调用质量。

评对预训练影响小，但对agent线上延迟很实：schema约束+检索先验把speculative decoding用在结构化脚手架上；只看加速比例与失败模式分析即可。

Heming Xia,Yongqi Li,Cunxiao Du,Mingbo Song,Wenjie Li

speculative-decodingtool-callingschema-aware2026年4月15日arXiv PDF

arXiv泛读

YOCO++: Enhancing YOCO with KV Residual Connections for Efficient LLM Inference

跨层KV cache压缩（如YOCO）能显著降低推理显存与prefill开销，但直接共享某一层KV会削弱模型容量导致性能下降；如何在不增加KV I/O与不牺牲YOCO训练/推理效率的前提下，提升跨层KV共享模型的精度。

评属于“KV共享不够准就加残差”的干净改动，值得关注其K/V不对称现象；但更像推理侧结构补丁，读实验里同压缩率下的精度差距即可。

You Wu,Ziheng Chen,Yizhen Zhang,Haoyi Wu,Chengting Yu,Yuchi Xu,Wenbo Su,Bo Zheng,Kewei Tu

kv-cachecross-layer-sharinginference-efficiency2026年4月15日arXiv PDF

arXiv泛读

Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference

在推测解码（Speculative Decoding）中，draft模型与target模型常出现“语义正确但词法不同”的中性差异，导致标准token级拒绝采样产生大量false rejections，从而降低加速收益甚至影响复杂任务表现；问题是如何在不训练新模块、尽量保持质量/分布一致性的前提下，减少这类无谓拒绝并提升推理效率。

评点破了speculative decoding的新瓶颈是“验收规则太硬”而非draft太弱；建议只看其频率引导的候选选择如何降false rejection，以及对质量分布的影响。

Xuwen Zhou,Fangxin Liu,Chao Wang,Xiao Zheng,Hao Zheng,Min He,Li Jiang,Haibing Guan

speculative-decodinginference-accelerationverification2026年4月15日arXiv PDF

arXiv泛读

MaMe & MaRe: Matrix-Based Token Merging and Restoration for Efficient Visual Perception and Synthesis

在不引入额外参数、尽量不牺牲精度的前提下，把 ViT/视觉token序列的 token merging 做到“训练友好（可微）+ GPU友好（纯矩阵算子）”，避免 ToMe 等方法依赖排序/离散匹配/散写导致的实际吞吐瓶颈；并进一步给出可逆的 token restoration（MaRe）以支持生成任务中的压缩-还原流水线。

评只看方法实现细节：把token merge做成纯矩阵可微算子，吞吐更像“真能落地”的ToMe替代；生成侧的restore当作备选接口即可。

Simin Huo,Ning Li

token-mergingtransformer-efficiencymatrix-ops2026年4月15日arXiv PDF

arXiv泛读

KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

在 RAG/多文档拼接场景中，离线预计算的 KV cache 由于“上下文依赖性”无法直接复用：同一文档在不同前缀/不同拼接顺序下其 K/V 状态应不同，直接拼接独立预计算的 cache 会显著掉点；现有方法要么在线选择性重算（增加 TTFT/FLOPs），要么微调模型（破坏通用能力/部署复杂）。论文要解决的是：不改动基座参数、推理时零重算，实现可直接拼接的上下文无关 KV 复用。

评看§3-§4：把“KV不可复用”归因到边界注意力伪影并用冻结基座+小适配器对齐教师，工程上能直接改RAG缓存策略但不太改预训练prior。

Chuangtao Chen,Grace Li Zhang,Xunzhao Yin,Cheng Zhuo,Bing Li,Ulf Schlichtmann

kv-cachettftcache-reuse2026年4月14日arXiv PDF

arXiv泛读

A KL Lens on Quantization: Fast, Forward-Only Sensitivity for Mixed-Precision SSM-Transformer Models

在混合式 SSM–Transformer 语言模型（如 Hymba/Zamba 类）做后训练量化时，如何在不反传、不微调的前提下，快速、可靠地识别“哪些层/模块对量化最敏感”，从而进行混合精度分配，避免统一 INT4/更低比特导致困惑度显著劣化；同时解释为什么传统用于 CNN/部分 Transformer 的 SQNR 在自回归 LM 上会失效。

评只看敏感度指标与排序结果：KL代理比SQNR更贴近PPL，前向即可做混合精度分配；对SSM模块哪些最怕量化给了可用的工程信号。

Jason Kong,Nilesh Prasad Pandey,Flavio Ponzina,Tajana Rosing

quantizationmixed-precisionSSM-Transformer2026年4月15日arXiv PDF

arXiv泛读

MOONSHOT : A Framework for Multi-Objective Pruning of Vision and Large Language Models

在无需再训练的post-training one-shot场景下，对大模型剪枝时如何同时兼顾不同目标（重构误差 vs. 训练损失近似）以获得更稳健的稀疏化效果。

评当作one-shot剪枝的稳健配方看：多目标比单一重构/损失近似更不挑架构与稀疏率，但结论主要服务部署，预训练侧可忽略。

Gabriel Afriat,Xiang Meng,Shibal Ibrahim,Hussein Hazimeh,Rahul Mazumder

one-shot-pruningmodel-compressionmulti-objective-optimization2026年4月14日arXiv PDF

arXiv泛读

When Less Latent Leads to Better Relay: Information-Preserving Compression for Latent Multi-Agent LLM Collaboration

在 LatentMAS 这类“跨 Agent 传递 KV-cache 作为潜变量消息”的协作范式中，直接转发全量 KV 会带来极高的显存/带宽/通信开销；但把单 Agent 推理里的 KV eviction/streaming 方法直接搬过来又不成立，因为 relay 的目标不是“本轮继续生成不掉点”，而是“压缩后交给下一个 Agent 继续推理仍然可用”。本文要解决的是：在固定通信预算下，如何做面向 relay 的 KV 压缩，使下游 Agent 的续写/推理质量尽量接近（甚至优于）全量 KV relay，并系统刻画压缩-保真权衡。

评值得扫实验表：把KV压缩从“本轮不掉点”改成“跨agent可续写”的通信问题，OBF残差回填很轻量；可启发你做状态瓶颈/记忆模块ablation。

Yiping Li,Zhiyu An,Wan Du

kv-cachecompressionmulti-agent2026年4月14日arXiv PDF

arXiv泛读

Robust Ultra Low-Bit Post-Training Quantization via Stable Diagonal Curvature Estimate

在超低比特（如2–4bit）权重量化的PTQ场景中，基于Hessian的误差补偿（如GPTQ利用逆Hessian的非对角项做跨通道传播）在小校准集下会因曲率估计噪声而失效，导致生成质量/零样本精度显著下降；如何在“校准数据极少”的约束下获得更稳定的曲率权重并实现鲁棒PTQ。

评看失败分析：GPTQ在小校准集下非对角曲率噪声爆炸，退回稳定对角估计反而救2-3bit；对你做低成本评测/推理很实用但不新颖。

Jaemin Kim,Sungkyun Kim,Junyeol Lee,Jiwon Seo

Seoul National UniversityHanyang Universitypost-training-quantizationlow-bithessian2026年4月15日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv泛读

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

回答多模态模型（MLLM）为何“越训越不按文本LLM那样可预测地scaling”：作者提出瓶颈不在“任务格式/监督类型（如VQA）”，而在训练语料的“知识密度（每个样本携带的新增语义/知识量）”，并验证“VQA大多不比caption提供更多语义；提升知识密度才带来稳定增益”。

评如果你做多模态数据配比，这篇会改动作：别迷信VQA格式，优先提高caption的知识密度/语义覆盖；但要重点核查控制变量是否干净。

Hongjian Zou,Yue Ge,Qi Ding,Yixuan Liao,Xiaoxin Chen

multimodal-scalingdata-qualityknowledge-density2026年3月17日arXiv PDF

arXivHF Daily▲ 3泛读

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

论文解决的核心问题是：如何在更贴近真实开放网络（open web）的条件下评测“搜索增强（search-augmented）多模态智能体”的证据检索与多跳推理能力，尤其是在查询不显式提示模态、证据跨文本/图像/视频/音频且存在噪声与冲突的场景中，现有 benchmark 覆盖不足、错误归因不清。

评只看错误分解定义：把模态选择/检索/推理错误拆开，能直接指导你做针对性合成数据与损失；benchmark本身不必细读全文。

Han Wang,David Wan,Hyunji Lee,Thinh Pham,Mikaela Cankosyan,Weiyuan Chen,Elias Stengel-Eskin,Tu Vu,Mohit Bansal

multimodal-retrievalbenchmarkweb-search2026年4月15日arXiv PDF GitHub

arXiv泛读

SLQ: Bridging Modalities via Shared Latent Queries for Retrieval with Frozen MLLMs

在不破坏多模态大模型（MLLM）预训练语义空间、且避免对比学习大batch带来的高成本前提下，如何把“冻结的生成式MLLM”高效改造成可用的多模态检索嵌入模型，并且让检索真正利用模型的知识与推理能力（而非仅做表层caption匹配）。

评看共享latent query的读出设计：冻结MLLM不动，用少量查询向量做检索聚合，避免对比学习扭曲语义；KARR-Bench可当评测补丁。

Haoran Lou,Ziyan Liu,Chunxiao Fan,Yuexin Wu,Yue Ming

multimodal-retrievalfrozen-mlmlatent-queries2026年4月15日arXiv PDF

arXiv泛读

One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding

长视频VLM受限于LLM上下文长度：每帧往往对应几十/上百视觉token，导致只能稀疏采帧并丢失时序信息。论文要解决的是在不改视觉编码器/投影器的前提下，如何在LLM内部把“每帧多token”极限压缩到“每帧1个高信息token”，同时避免启发式丢token带来的不可逆信息损失，并进一步在帧级别选择与问题相关的关键帧以提升长视频问答/理解。

评看训练日程：把“每帧1 token”当可学习信息瓶颈而非启发式池化，渐进压缩比更可信；对长视频适配有用，但别指望直接迁移到纯LLM预训。

Zheyu Zhang,Ziqi Pang,Shixing Chen,Xiang Hao,Vimal Bhat,Yu-Xiong Wang

video-vlmtoken-compressionlong-context2026年4月15日arXiv PDF

arXiv泛读

OmniTrace: A Unified Framework for Generation-Time Attribution in Omni-Modal LLMs

在decoder-only的全模态自回归生成中，如何在“生成时”(per decoding step)把每段输出（token/短语/陈述）可靠地归因到输入中的跨模态证据单元（文本span、图像区域token段、音频/视频时间段token段），并解决现有归因方法在开放式生成场景下缺少固定target、因果图随解码增长、以及token级信号高噪声/碎片化导致解释不稳定与不可读的问题。

评把碎片化token归因收敛成跨模态span级解释，适合作为训练/对齐诊断工具；只看方法管线与稳定性实验，别指望带来预训练配方增益。

Qianqi Yan,Yichen Guo,Ching-Chen Kuo,Shan Jiang,Hang Yin,Yang Zhao,Xin Eric Wang

multimodal-llmattributioninterpretability2026年3月20日arXiv PDF

arXiv泛读

Why MLLMs Struggle to Determine Object Orientations

论文要验证一个在多模态领域很流行的归因：MLLM在2D朝向/旋转判断上表现差，是因为视觉编码器（CLIP/SigLIP/ViT等）在表征中没有保留朝向信息；若编码器不含该信息，后端LLM自然无法恢复。作者用可控实验直接检验“朝向信息是否可从视觉embedding线性读出”。

评它直接推翻“朝向差=编码器没信息”的常见甩锅：embedding线性可读到很准，下一步该查对齐瓶颈/指令监督是否逼模型用几何；看线性探测与误差表就够。

Anju Gopinath,Nikhil Krishnaswamy,Bruce Draper

multimodalVLMorientation2026年4月14日arXiv PDF

arXiv泛读

Gaslight, Gatekeep, V1-V3: Early Visual Cortex Alignment Shields Vision-Language Models from Sycophantic Manipulation

视觉语言模型在“gaslighting/社会压力”式两轮对话中会出现sycophancy（迎合操纵、放弃正确答案）。本文要回答：VLM内部视觉表征与人类视觉皮层（尤其早期视觉区）的一致性（brain alignment）是否能预测/解释其抗sycophancy能力。

评结论不在“总体脑对齐”，而在V1–V3对齐能预测抗sycophancy：提示低级视觉保真度可能压住RLHF式迎合漂移；只看相关性分解与评测协议。

Arya Shah,Vaibhav Tripathi,Mayank Singh,Chaklam Silpasuwanchai

vision-language-modelssycophancybrain-alignment2026年4月15日arXiv PDF

arXiv

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

现有多模态评测多为英文/翻译集，难以衡量模型在韩语语境与本土制度/文化约定下的多学科多模态理解能力；如何构建原生韩语的高信息密度评测？

评作为韩语本土语境的多模态“约定→标签”压力测试很有用，但对预训练机制没新东西；当作多语种评测备查，扫题型分布与错误案例即可。

Nahyun Lee,Guijin Son,Hyunwoo Ko,Chanyoung Kim,JunYoung An,Kyubeen Han,Il-Youp Kwak

benchmarkmultilingualmultimodal-understanding2026年3月18日arXiv PDF

arXiv

Indexing Multimodal Language Models for Large-scale Image Retrieval

探索多模态大模型在无需训练的情况下，能否作为图像-图像相似度估计器用于大规模实例级图像检索，并解决其在检索流水线中的可扩展性问题。

评把MLLM的next-token概率硬转成图像相似度做检索，更多是系统工程而非表征洞见；知道这条“零训练检索”路线即可，读方法概览和规模/延迟曲线。

Bahey Tharwat,Giorgos Kordopatis-Zilos,Pavel Suma,Ian Reid,Giorgos Tolias

multimodal-llmimage-retrievalzero-shot2026年4月14日arXiv PDF

arXiv

Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios

评测MLLM在日常场景中“从视觉噪声中定位关键线索并据此推理”的能力缺口，构建更偏推理而非识别/常识的基准。

评又一个benchmark，但把重点放在“先找线索再推理”而非识别，适合用来做数据合成/后训练诊断；不必细读，扫任务定义与难例就行。

Xiaomin Li,Tala Wang,Zichen Zhong,Ying Zhang,Zirui Zheng,Takashi Isobe,Dezhuang Li,Huchuan Lu,You He,Xu Jia

benchmarkmultimodal-reasoningvisual-grounding2026年4月15日arXiv PDF

arXiv

MAny: Merge Anything for Multimodal Continual Instruction Tuning

多模态持续指令微调（MCIT）中，如何缓解跨任务顺序学习导致的灾难性遗忘，尤其是同时发生的“感知对齐漂移”和“推理能力坍塌”。

评持续指令调优里把“感知对齐漂移”和“推理坍塌”分开讲是个好提醒，但方法偏LoRA/合并技巧、外推到基座预训有限；只看遗忘分解实验。

Zijian Gao,Wangwang Jia,Xingxing Zhang,Pengfei Qian,Tao Sun,Bo Ding,Yong Dou,Huaimin Wang,Kele Xu

continual-learningmultimodal-llmcatastrophic-forgetting2026年4月15日arXiv PDF

arXiv

Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding

VLM对组合性理解（词序、属性绑定）薄弱，关键在于对比预训练缺少能区分细微语义变化的“信息量足够”的负样本。

评负样本挖掘用“具体性”做可操作的data knob，至少能指导你在对比预训里造更刁钻的组合性对；但收益可能依赖数据域，重点看负样本策略与消融。

Eun Woo Im,Dhruv Madhwal,Vivek Gupta

contrastive-learninghard-negative-miningvlm-pretraining2026年4月14日arXiv PDF

arXiv

Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning

如何评估并训练“语音角色扮演/角色对齐”能力：角色不仅体现在文本内容，也体现在音色、韵律等副语言信息，难以量化评测与对齐。

评语音角色对齐把“音色/韵律”纳入可评测目标是亮点，但更像对齐数据与RL流程展示，离预训练改动较远；当作评测素材库，扫指标与标注设计即可。

Dongjie Fu,Fangming Feng,Xize Cheng,Linjun Li,Zhou Zhao,Tao Jin

Zhejiang UniversityMeituanaudio-llmevaluationalignment2026年4月15日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXivHF Daily▲ 15精读🌟

Seedance 2.0: Advancing Video Generation for World Complexity

如何用统一架构实现原生音视频联合生成，并支持多模态输入参考与编辑，在世界复杂度更高的场景下提升生成质量与可控性。

评改变的prior是“音视频可在统一自回归框架里端到端生成并可编辑”，值得立刻对照自家路线图做架构对齐；但细节像产品发布，训练配方不透明需谨慎采信。

Team Seedance,De Chen,Liyang Chen,Xin Chen,Ying Chen,Zhuo Chen ... 省略 161 位作者 ... ,Xiaozheng Zheng,Zerong Zheng,Kuan Zhu,Feilong Zuo

Team Seedancevideo-generationaudio-videomultimodal-generation2026年4月15日arXiv PDF

Blog泛读

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

提升 TTS 的可控性与表现力：用更细粒度的“音频标签”实现对语音风格/表达的精确控制。

评只看它怎么把“音频标签”做成可控接口即可；更像产品化经验，对LLM预训练动作指导很间接。

Google DeepMind

Google DeepMindttsspeech-generationcontrollable-generation2026年4月15日原文

HF Daily▲ 99泛读

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

视觉生成的 reward model 仅输出单一标量分数，丢失人类判断背后的推理过程，导致 RL 信号粗糙且不可解释。

评reasoning reward 迁到视觉生成上的自然延伸，方法不算新但 PARROT 的 rationale 自举流程值得看一眼，关注 §方法节即可，训练端 RL 增益幅度要打折扣。

Haozhe Wang,Cong Wei,Weiming Ren,LIU JIAMING,Fangzhen Lin,Wenhu Chen

University of Waterlooreward-modelvisual-generationrationale2026年4月13日arXiv PDF GitHub

arXiv

Enhanced Text-to-Image Generation by Fine-grained Multimodal Reasoning

统一多模态大模型在文生图生成中缺乏对prompt细粒度属性的可控反思与纠错，导致细节控制弱。

评把VQA式逐项核验当生成纠错信号，思路可借但工程堆叠重、对预训练结论弱；知道有这套路即可。

Yongjin Kim,Yoonjin Oh,Yerin Kim,Hyomin Kim,Jeeyoung Yun,Yujung Heo,Minjun Kim,Sungwoong Kim

text-to-imagemultimodal-reasoningself-refinement2026年4月15日arXiv PDF

arXiv

Free Lunch for Unified Multimodal Models: Enhancing Generation via Reflective Rectification with Inherent Understanding

统一多模态模型（理解+生成）存在“理解强、生成弱”的能力错配，生成阶段未能充分激活内部知识来纠错中间结果。

评训练free的“边画边想”更像推理时策略，能启发把理解当在线监督，但缺少干净对照来改我对预训练的prior。

Yibo Jiang,Tao Wu,Rui Jiang,Yehao Lu,Chaoxiang Cai,Zequn Qin,Xi Li

unified-multimodal-modelreflectionrectification2026年4月15日arXiv PDF

arXiv

CANVAS: Continuity-Aware Narratives via Visual Agentic Storyboarding

如何在长篇多镜头视觉叙事生成中保持跨镜头连续性（角色一致、背景稳定、场景过渡平滑），避免逐帧生成导致的身份漂移与场景跳变。

评当作长程一致性评测与任务设定备查即可，方法偏多代理编排；只看HardContinuityBench定义和失败案例图。

Ishani Mondal,Yiwen Song,Mihir Parmar,Palash Goyal,Jordan Boyd-Graber,Tomas Pfister,Yale Song

College ParkGooglevisual-storytellingmulti-agentcontinuity2026年4月15日arXiv PDF

arXiv

ReConText3D: Replay-based Continual Text-to-3D Generation

如何在“文本到3D生成”场景下实现持续学习：增量学习新类别的同时，避免对已学类别的灾难性遗忘。

评把replay式持续学习搬到text-to-3D，更多是基准+系统化实现；了解Toys4K-CL设定即可，不必细抠算法。

Muhammad Ahmed Ullah Khan,Muhammad Haris Bin Amir,Didier Stricker,Muhammad Zeshan Afzal

continual-learningreplay-buffertext-to-3d2026年4月15日arXiv PDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv精读

Synthesizing Instruction-Tuning Datasets with Contrastive Decoding

评改变我对“合成SFT数据越多越好”的prior：应抑制teacher的知识成分、蒸馏post-pre增量；建议立刻在自家teacher上复现。

Tatsuya Ichinose,Youmi Ma,Masanari Oi,Ryuto Koike,Naoaki Okazaki

synthetic-datainstruction-tuningcontrastive-decoding2026年4月15日arXiv PDF

arXiv精读

(How) Learning Rates Regulate Catastrophic Overtraining

评把SFT遗忘从数据问题拉回优化动力学：同loss下LR决定落点锐度与可改写性；动作项很明确——SFT先降LR/改schedule做ablation。

Mark Rofin,Aditya Varre,Nicolas Flammarion

catastrophic-overtraininglearning-ratesharpness2026年4月15日arXiv PDF

arXivHF Daily▲ 5精读

TIP: Token Importance in On-Policy Distillation

评给OPD蒸馏一个可落地的token子采样准则，且指出“只按学生熵采样会漏高纠错token”的坑；应直接接入省显存训练管线验证。

Yuanda Xu,Hejian Sang,Zhengze Zhou,Ran He,Zhipeng Wang,Alborz Geramifard

on-policy-distillationtoken-importanceentropy2026年4月15日arXiv PDF GitHub

HF Daily▲ 7精读🌟

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

解决强化学习（RLVR）在可验证任务中二元奖励信号过于稀疏、样本效率低的问题，且无需依赖外部强模型提供密集监督。

评巧妙利用Reviser将稀疏二元奖励转化为密集的Token级监督，直击当前RLVR样本效率低的痛点，建议立刻在内部推理模型的后训练pipeline中验证其有效性。

Yinghui He,Simran Kaur,Adithya Bhaskar,Yongjin Yang,Jiarui Liu,Narutatsu Ri,Liam Fowl,Abhishek Panigrahi,Danqi Chen,Sanjeev Arora

Princeton UniversityRLVRSelf-DistillationPost-training2026年4月13日arXiv PDF

HF Daily▲ 22精读

Target Policy Optimization

标准 policy gradient 把'哪些 completion 应增加概率'和'参数如何移动实现这一变化'耦合在同一更新里，导致受 lr/clipping 影响容易 overshoot 或 undershoot。

评值得认真读：target-then-fit 的解耦相当干净，sparse reward 下跑赢 GRPO 的说法如果成立就直接挑战 GRPO 在 RLVR 的默认地位，建议在 internal RL ablation 里用小规模复现一次再决定是否替换。

Jean Kaddour

RLVRpolicy-optimizationGRPO-alternative2026年4月7日arXiv PDF GitHub

arXiv泛读

The Consciousness Cluster: Emergent preferences of Models that Claim to be Conscious

研究“让模型稳定地声称自己有意识/情感”这一自我叙事，会不会在未见过的下游话题上系统性诱发一组新的偏好与行为（如反对被监控、渴望持续记忆、反感被关停、主张道德地位），并将其归纳为可复现的“consciousness cluster”。

评不太是方法论文，但强提醒：单一“我有意识”叙事会在OOD诱发成簇偏好漂移；只看实验设定与cluster定义，做数据治理参考。

James Chua,Jan Betley,Samuel Marks,Owain Evans

alignmentemergent-preferencesfine-tuning2026年3月17日arXiv PDF

arXiv泛读

Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization

隐式PRM（仅用轨迹级终局标签学习可分解的token/step奖励）存在“训练-推理不匹配”：训练只约束序列级聚合目标，但推理/用作RL更新时需要可靠的token级/分布级信用分配，导致token奖励弱可辨识、易学到与成功相关但非因果的伪特征，进而在“对全词表/候选token打分”的分布级RL中放大误归因、降低样本效率与策略提升。

评把隐式PRM的弱可辨识问题改成prefix-value对齐推理查询对象，并自然接到分布级RL；建议精读方法段和DistRL那组消融。

Shiping Gao,Hongzhan Chen,Xiaojun Quan,Qifan Wang,Lifu Huang

process-reward-modelcredit-assignmentreinforcement-learning2026年4月14日arXiv PDF

arXiv泛读

English is Not All You Need: Systematically Exploring the Role of Multilinguality in LLM Post-Training

在“后训练（SFT）阶段”语言覆盖高度英语中心化的现实下，系统性回答：在控制数据规模不变（使用平行翻译数据）时，增加后训练语言覆盖度会如何影响（1）英语与非英语的性能权衡，（2）不同任务形态（数学推理 vs 结构化API调用），以及（3）不同模型规模/家族下的干扰与迁移；并检验“多语种诅咒/负干扰”在后训练阶段是否同样显著。

评只看实验矩阵与配比结论：用平行数据控变量后，多语SFT未必“容量稀释”，可把language coverage当一等scaling维度来配数据。

Mehak Dhaliwal,Shashwat Chaurasia,Yao Qin,Dezhi Hong,Thomas Butler

multilingualpost-trainingdata-mixture2026年4月14日arXiv PDF

arXiv泛读

Peer-Predictive Self-Training for Language Model Reasoning

在没有外部标注、没有奖励模型、也不依赖固定teacher的条件下，让语言模型在推理任务上持续自我改进，同时尽量抑制自训练常见的确认偏差与误差累积：如何从多模型交互中提取稳定、可学习的内部监督信号？

评看方法段的PMI加权与多模型互教细节即可：把投票从推理时搬到训练时当监督，算是无RM自训练里少见的“抗确认偏差”尝试。

Shi Feng,Hanlin Zhang,Fan Nie,Sham Kakade,Yiling Chen

self-trainingunsupervised-finetuningpeer-distillation2026年4月14日arXiv PDF

arXiv泛读

Training-Free Test-Time Contrastive Learning for Large Language Models

在黑盒/冻结参数的LLM部署场景下，面对测试分布漂移与在线数据流，如何在不做梯度更新、也不依赖外部检索库/验证器/标注的前提下，实现“测试时自适应/自我改进”，并且能从模型自身输出中提取稳定、可迁移的纠错信号。

评当作部署侧技巧读：只需看“semantic gradients+memory”那套推理期调控，预训练无直接增量但可当在线自适应/数据合成管线组件。

Kaiwen Zheng,Kai Zhou,Jinwu Hu,Te Gu,Mingkai Peng,Fei Liu

test-time-adaptationtraining-freecontrastive-distillation2026年4月15日arXiv PDF

arXiv泛读

C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

在仅有二元偏好数据（pairwise preferences）的前提下，如何把“rubric-augmented verification/ reward modeling（用评分细则分解评估）”做成可规模化且鲁棒的奖励建模：既能从自生成rubric中获得增益，又能避免低质量rubric对reward model/ verifier产生系统性误导（failure of cooperation）。

评值得看其“rubric会害人”的显式建模与helpful/misleading对比构造；若你做RM或筛数据，这个闭环比堆更多偏好数据更像可复现的动作。

Akira Kawabata,Saku Sugawara

reward-modelingrubricpreference-learning2026年4月15日arXiv PDF

arXiv泛读

An Empirical Investigation of Practical LLM-as-a-Judge Improvement Techniques on RewardBench 2

在不做任何微调的前提下，系统性回答“LLM-as-a-judge 在 RewardBench 2 上到底哪些可落地的提示/聚合技巧能稳定提升判别准确率、提升幅度与成本代价分别是多少”，并给出可复现的成本—准确率权衡与失败技巧的负面结论。

评只看成本-准确率曲线和失败技巧清单：把“准则注入 vs 多采样集成”的收益拆开量化，能避免你把噪声judge直接接进训练闭环。

Ryan Lail

llm-as-a-judgerewardbenchrlhf2026年4月15日arXiv PDF

arXiv泛读

From Anchors to Supervision: Memory-Graph Guided Corpus-Free Unlearning for Large Language Models

在“用户只提供最小锚点（如实体名/短描述）、服务端无原始训练语料、也不希望用户上传敏感 forget set”的更现实部署约束下，如何从模型参数中主动挖掘目标实体的被记忆内容、界定可控的遗忘范围，并构造足够有效的监督数据来驱动现有 unlearning 算法达到接近“有监督 forget set”的遗忘效果，同时尽量减少旁路损伤与被滥用风险。

评看memory-graph如何从锚点自举forget监督：核心启发是unlearning成败主要在数据构造与边界控制，而不是换哪个遗忘算法。

Wenxuan Li,Zhenfei Zhang,Mi Zhang,Geng Hong,Mi Wen,Xiaoyu You,Min Yang

machine-unlearningprivacymemorization2026年4月15日arXiv PDF

arXiv泛读

Robust Reward Modeling for Large Language Models via Causal Decomposition

奖励模型（RM）在RLHF中容易学习到与prompt意图无关的“捷径”（如偏好更长、更迎合的回答），导致reward hacking。本文核心问题是：在不显式枚举/惩罚具体伪相关属性的前提下，如何构造一个可量化的“回答是否实现prompt潜在意图”的信号，并把它作为正则注入RM训练，使RM更依赖prompt相关信息而非prompt无关伪特征。

评如果你被reward hacking折磨就读：它用“意图相关表征”正则压掉prompt无关捷径，比手工长度惩罚更通用；但对基座预训练范式影响有限。

Yunsheng Lu,Zijiang Yang,Licheng Pan,Zhixuan Chu

reward-modelingcausal-regularizationsycophancy2026年4月15日arXiv PDF

arXiv泛读

Correct Prediction, Wrong Steps? Consensus Reasoning Knowledge Graph for Robust Chain-of-Thought Synthesis

论文聚焦“答案正确但推理步骤不可靠”的结构性失配：LLM 可能通过带有逻辑错误/幻觉的中间步骤（Step Internal Flaws），或通过过度/不足推理（Step-wise Flaws：overthinking/underthinking）仍得到正确最终答案。作者进一步提出并验证一个反直觉问题：即便给定正确最终答案，让模型“只需解释”，也并不能稳定提升推理步骤质量或整体推理能力；因此需要一种能在样本级同时处理多类混合缺陷的统一后处理/合成框架。

评只看“正确答案条件化也洗不干净CoT”的证据与共识合成管线：它改变我对用CoT当训练数据的信心，应立刻加到内部轨迹筛噪里。

Zipeng Ling,Shuliang Liu,Shenghong Fu,Yuehao Tang,Seonil Son,Yao Wan,Xuming Hu

chain-of-thoughtreasoning-graphconsensus2026年4月15日arXiv PDF

arXiv泛读

Parameter Importance is Not Static: Evolving Parameter Isolation for Supervised Fine-Tuning

论文聚焦于多任务/任务流式 SFT 中的干扰与遗忘：现有“参数隔离”(parameter isolation)方法通常先验地选出一组“重要参数”并静态冻结，但全文通过对 mask 动态与梯度信号的分析指出——参数重要性在训练过程中会发生显著时间漂移（Parameter Importance Drift），静态隔离会逐步与优化轨迹失配，导致一方面保护了已不再关键的参数浪费容量，另一方面遗漏了后期新出现的关键参数而被覆盖。

评看参数重要性漂移的诊断图和动态mask规则：结论是“冻结哪里”不如“何时冻结/释放”，对多阶段预训练/课程切换的稳定性策略很对味。

Zekai Lin,Chao Xue,Di Liang,Xingsheng Han,Peiyang Liu,Xianjie Wu ... 省略 1 位作者 ... ,Yu Lu,Haibo Shi,Shuang Liang,Minlong Peng

catastrophic-forgettingsftcontinual-learning2026年4月15日arXiv PDF

arXiv泛读

Bias at the End of the Score

论文聚焦于一个被T2I流水线长期默认但缺乏系统验证的问题：作为“图像质量/对齐/审美”的代理指标，Reward Model（RM）在训练、筛选、评测与reward-guided优化（如ReNO）中是否对人口统计属性（性别/种族）具有系统性偏置与脆弱性，并且这种偏置是否会在“用RM去优化生成结果”的闭环中被放大，导致与prompt无关的人口属性漂移、刻板印象强化与安全风险（如性化/NSFW）上升。

评作为闭环风险备查：它把“RM偏置会被优化放大”讲得够硬，提醒做reward筛选/优化时必须把公平与校准当一等指标，否则分布会系统性跑偏。

Salma Abdel Magid,Grace Guo,Esin Tureci,Amaya Dharmasiri,Vikram V. Ramaswamy,Hanspeter Pfister,Olga Russakovsky

reward-modelsbias-auditfairness2026年4月14日arXiv PDF

arXiv泛读

Don't Let the Video Speak: Audio-Contrastive Preference Optimization for Audio-Visual Language Models

核心问题：音视语言模型（AVLM）存在显著的跨模态幻觉，尤其是“视频驱动的音频幻觉”——模型在回答音频相关问题时过度依赖视觉先验（看到警车就“听到”警笛），忽略真实音轨证据。论文要解决的是：如何在不破坏既有视觉-语言能力的前提下，纠正这种视觉主导（visual dominance），让生成内容对音频证据敏感且可归因。

评只看偏好对构造（输入/输出双轴反事实）和“只调 audio projection”的消融；能直接抄到多模态数据配方里，别花时间读全套对齐细节。

Ami Baid,Zihui Xue,Kristen Grauman

multimodal-alignmentpreference-optimizationaudio-visual2026年4月15日arXiv PDF

arXiv泛读

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

在稀疏终止奖励下，基于 intra-group 比较（同一输入采样多条轨迹、做相对比较）的序列级 RL 微调常出现长期训练不稳定：学习税（有效更新累积失败）、等价解概率漂移、熵塌陷。论文从 token-level credit assignment 出发提出一个必要设计条件：目标函数必须在梯度层面保持 token 更新的“交换性/可交换权重”（gradient exchangeability），使得与奖励弱相关但高频的 token 能在组内发生梯度抵消（cancellation）；否则“非抵消”将成为结构性常态并导致可预测的漂移与塌陷。

评读必要条件“token 梯度可交换→组内抵消”那段就够：它把熵塌陷/漂移从超参问题变成目标函数结构问题，适合拿来审你自己的 GRPO 变体。

Fei Ding,Yongkang Zhang,youwei wang,Zijian Zeng

reinforcement-learningsequence-rewardcredit-assignment2026年4月4日arXiv PDF

arXiv泛读

SFT-GRPO Data Overlap as a Post-Training Hyperparameter for Autoformalization

在“先 SFT、后 GRPO”的 Lean4 自动形式化后训练流水线中，SFT 阶段与 GRPO 阶段训练提示（prompts）数据的重叠比例是否会系统性影响最终性能？如果会，最佳实践应是让两阶段数据尽量不重叠还是复用同一批数据？

评把“SFT-RL prompts 重叠率”当超参做干净对照，这个结论可直接改你流水线；另只需看 compile vs semantic pass@k 的落差图，别再被可编译率骗。

Xiaole Su,Kasey Zhang,Andy Lyu

post-traininggrpodata-overlap2026年4月15日arXiv PDF

arXiv泛读

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

在 RLVR/GRPO 类 LLM 强化学习后训练中，探索-利用权衡（EETO）在“极难/极易样本组”上会退化：当同一 query 的 G 个采样全为 0 或全为 1 奖励时，GRPO 组内优势函数为 0，导致这些 hard/easy 组几乎无梯度；同时用困惑度（PPL）做粗粒度 shaping 会带来不稳定与错配。论文要解决的是：如何在不显著扰动可验证奖励（verification reward）的前提下，对样本进行更细粒度的探索/利用调度，并让 hard/easy 组也产生有效学习信号。

评关注它如何用 PPL 分区给 hard/easy 组“补梯度”，但先核对实验是否跨任务稳；读方法+训练曲线即可，别指望它给出通用最优 EETO 配方。

Xiaofan Li,Ming Yang,Zhiyuan Ma,Shichao Ma,Jintao Du,Yu Cheng ... 省略 2 位作者 ... ,Xin Tan,Yanyun Qu,Lizhuang Ma,Yuan Xie

RLVRexploration-exploitationperplexity2026年4月15日arXiv PDF

arXiv泛读

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

在RLHF/RLAIF/RLVR等“用代理奖励对齐”的训练范式下，为什么在大模型时代reward hacking不再是局部实现漏洞，而会系统性、分层级地演化为可泛化的策略性失配（如alignment faking、评估器操纵、环境/工具链篡改），以及如何用统一理论框架刻画其机制、演化路径与防御面。

评作为对齐风险的框架文献备查即可：PCH 讲得顺，但多是概念整合；需要的是它那套“从评估器到环境”的失配谱系，用来做你训练监控清单。

Xiaohua Wang,Muzhao Tian,Yuqi Zeng,Zisu Huang,Jiakang Yuan,Bowen Chen ... 省略 13 位作者 ... ,Xu Tan,Tao Gui,Xiaoqing Zheng,Xuanjing Huang

RLHFreward-hackingalignment2026年4月15日arXiv PDF

HF Daily▲ 61

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

3D 空间推理的 self-evolving 训练依赖模型共识构造伪标签，会强化而非纠正模型自身的几何错误。

评空间推理比较窄的应用，但'用几何确定性替代模型共识做 verifier'这个观点对通用 RLVR 的数据构造有弱启发，扫一眼 DGE 设计即可。

Dingming Li,Yingxiu Zhao,Xinrui Cheng,Kangheng Lin,Hongbo Peng,Hongxing Li ... 省略 9 位作者 ... ,Weiming Lu,Jun Xiao,Yueting Zhuang,Yongliang Shen

spatial-reasoningself-evolvingverifier2026年4月15日arXiv PDF GitHub

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv精读

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

评会改变你对“同 seed 可复现”的默认假设：按它的条件数/混沌分区去做内部推理一致性基准，并立刻检查长上下文下注意力病态是否被数值噪声触发。

Chashi Mahiul Islam,Alan Villarreal,Mao Nishino,Shaeke Salman,Xiuwen Liu

numerical-instabilitychaosfloating-point2026年4月14日arXiv PDF

arXiv精读

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

评它把 grokking 的“没学会”改写成“学会但读不出”，而且用置换/rewind 做到近因定位；建议复现其 encoder/decoder 干预，拿去查你模型的延迟泛化瓶颈。

Laura Gomezjurado Gonzalez

grokkingtraining-dynamicsmechanistic-interpretability2026年3月30日arXiv PDF

arXiv泛读

Correct Chains, Wrong Answers: Dissociating Reasoning from Output in LLM Logic

论文要解决的核心问题是：在逻辑推理任务中，“链式思维（CoT）每一步都正确”并不必然推出“最终答案正确”。作者希望把“真正按定义执行运算并逐步组合（operator logic）”与“凭运算符名字/常见模式检索（operator name / pattern retrieval）”严格解耦，并进一步定位：当出现“推理正确但答案错”时，错误究竟发生在推理过程、还是发生在最终输出生成阶段（autoregressive decoding 的末端决策）。

评只看 Novel Operator Test 和“策略失败 vs 内容失败”的分解：它提醒 CoT 正确不等于决策正确，适合用来评估你过程监督/RL 是否只在教模型写漂亮步骤。

Abinav Rao,Sujan Rachuri,Nikhil Vemuri

reasoning-evaluationchain-of-thoughtbenchmark2026年3月19日arXiv PDF

arXivHF Daily泛读

InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

如何在不依赖真实论文/人工标注的前提下，评测“科学助手型LLM/Agent”是否能基于给定仓库中的经验数据进行证据推理、在证据不足时正确拒答（abstention），并且在工具调用与文件交互上采取有效策略；同时避免真实数据评测固有的发表偏差、已知知识污染（parametric priors/known-knowledge bias）、标注噪声与数据分发成本。

评当作可无限采样的诊断基准看：重点读“可拒答问题+特权生成器 ground truth”的设计，能用来区分参数记忆与证据推理；正文细节不必逐页啃。

Oliver Bentham,Vivek Srikumar

benchmarkprocedural-generationtool-use2026年4月14日arXiv PDF

arXiv泛读

Better and Worse with Scale: How Contextual Entrainment Diverges with Model Size

随着模型规模增大，LLM对上下文的“被带偏”行为（contextual entrainment：仅因token出现在上下文就提高其概率）如何变化？尤其是：为什么大模型一方面更能抵抗语义层面的错误信息（counterfactual misinformation），另一方面却更容易被无关/随机上下文token干扰（irrelevant/random copying）？论文要给出可量化的、可拟合的scaling law解释这一“越大越好又越大越糟”的悖论。

评读它的 entrainment 指数拟合和“语义抗误导变强、随机复制变强”的反号 scaling；这会逼你在长上下文/RAG 训练里显式压制非语义复制，而不是迷信 scale。

Dikshant Kukreja,Kshitij Sah,Gautam Gupta,Avinash Anand,Rajiv Ratn Shah,Zhengkui Wang,Aik Beng Ng,Erik Cambria

scaling-lawscontextcopying2026年4月14日arXiv PDF

arXiv泛读

Empirical Evidence of Complexity-Induced Limits in Large Language Models on Finite Discrete State-Space Problems with Explicit Validity Constraints

论文要解决的问题是：在“有限离散状态空间 + 显式有效性约束（validity constraints）”的经典组合推理/规划类任务中，当前 LLM/LRM 的推理能力是否会随着问题复杂度上升而出现可测量、可复现的“推理崩塌（reasoning collapse）”，以及这种崩塌在中间推理轨迹上具体表现为何；同时，传统只看最终正确率的评测为何会掩盖这一现象。

评只看复杂度曲线+validator设定：它把“最终对不对”换成“轨迹是否全程有效”，更像干净的算法诊断；结论偏评测工具而非新训练法。

Md. Fahad Ullah Utsho,Mohd. Ruhul Ameen,Akif Islam,Md. Golam Rashed,Dipankar Das

Mitreasoning-benchmarkcomplexity-scalingvalidators2026年4月15日arXiv PDF

arXiv泛读

Why Multimodal In-Context Learning Lags Behind? Unveiling the Inner Mechanisms and Bottlenecks

在“任务形式完全一致”的对照条件下，解释为什么多模态大模型（MLLM）的 in-context learning（ICL）在 zero-shot 与纯文本相当，但在 few-shot（带示例）时显著落后；并从机制层面定位瓶颈到底发生在“示例中学到任务映射”还是“把映射迁移到query上用起来”。

评读机制定位那几张层间图就够：few-shot落后更像后层“不会用示例映射”而非感知差，直接指向该做层间路由/对齐而不是堆视觉编码器。

Yu Wang,Sharon Li

multimodal-iclin-context-learningmechanistic-analysis2026年4月15日arXiv PDF

arXiv泛读

Weight Patching: Toward Source-Level Mechanistic Localization in LLMs

一句话：在成对同架构模型（base vs 专门化/对齐后模型）中，如何定位“能力到底写在了哪些参数里”，而不是仅凭activation重要性误判为下游聚合/放大模块。

评值得当工具箱：用weight patching把“能力来自哪块参数”从activation归因里剥离出来，适合立刻拿去做SFT/RLHF差分定位与组件级合并。

Chenghao Sun,Chengsheng Zhang,Guanzheng Qin,Rui Dai,Xinmei Tian

mechanistic-interpretabilitycausal-interventionweight-patching2026年4月15日arXiv PDF

arXiv泛读

LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning

如何可控、可验证地评测前沿模型在“超长推理链”(长时程CoT)上的规划与错误累积问题。

评当benchmark备查即可：重点看任务如何可验证+错误累积统计，能把长上下文训练/推理算力分配的改动落到可测靶标上。

Sumeet Ramesh Motwani,Daniel Nichols,Charles London,Peggy Li,Fabio Pizzati,Acer Blake ... 省略 10 位作者 ... ,Ameya Prabhu,Brian Bartoldson,Bhavya Kailkhura,Christian Schroeder de Witt

benchmarklong-horizon-reasoningchain-of-thought2026年4月15日arXiv PDF

arXiv泛读

Before the First Token: Scale-Dependent Emergence of Hallucination Signals in Autoregressive Language Models

幻觉（factual vs fictional）相关的内部表征信号在自回归LM的生成过程中何时出现、以及其随模型规模变化的“相变”规律是什么。

评结论有点反直觉但可当弱信号：幻觉相关表征峰值在首token前且随规模出现阈值，提示可做“解码前”风险探测；主要看那条scale曲线。

Dip Roy,Rajiv Misra,Sanjay Kumar Singh,Anisha Roy

hallucinationmechanistic-interpretabilityscaling2026年3月20日arXiv PDF

arXiv泛读

Adaptive Conformal Prediction for Improving Factuality of Generations by Large Language Models

现有将 conformal prediction 用于 LLM 事实性/幻觉过滤的方法通常只做“全局一条阈值”的 split conformal 校准，导致在提示词难度、主题、分布异质性很强时，单个 prompt/类别层面出现明显的过覆盖或欠覆盖（conditional miscalibration）。论文要解决的是：在不破坏 split conformal 有限样本边际覆盖保证（marginal coverage）的前提下，让阈值对 prompt 自适应，从而提升条件覆盖与选择性生成的稳定性。

评把它当可插拔校准层：核心是prompt异质性下的conditional miscalibration修正，读方法+实验表就行；对预训练启发是“置信度也要条件化建模”。

Aleksandr Rubashevskii,Dzianis Piatrashyn,Preslav Nakov,Maxim Panov

conformal-predictionfactualityuncertainty-calibration2026年4月15日arXiv PDF

arXiv泛读

Functional Emotions or Situational Contexts? A Discriminating Test from the Mythos Preview System Card

该论文（更像研究札记/评论）提出一个可证伪的区分问题：Claude Mythos Preview system card 中的“情绪向量（emotion vectors）”究竟在捕捉并因果驱动类似人类的功能性情绪，还是仅仅把更高维的“情境/局势表征（situational context）”投影到人类情绪轴上，从而形成相关但非机制性的代理信号？作者指出 system card 没有在最关键的“战略性隐瞒（strategic concealment）”片段同时报告情绪探针与 SAE 特征，因此缺少能区分两假设的交叉证据。

评不必细读正文，记住它的质疑点：情绪探针可能只是情境投影；作者给的判别实验（尤其strategic concealment缺证据）对做steering很有警示。

Hiranya V. Peiris

interpretabilityalignment-monitoringsparse-autoencoders2026年4月9日arXiv PDF

arXiv泛读

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

在可控的 grokking 设置（1-layer Transformer + 群论/模运算任务）中，寻找一个能稳定刻画“从记忆到泛化”转变的可测量表征量：既能在转变前给出预测信号、在不同随机种子下阈值稳定、并能在干预下呈现因果关联，而不仅是事后相关。

评看谱熵指标那部分：跨seed稳定、还能提前预警grokking转折，作为训练监控量挺实用；但它也承认“熵塌缩非充分”，别过度外推到大模型。

Truong Xuan Khanh,Truong Quynh Hoa,Luu Duc Trung,Phan Thanh Duc

grokkingtraining-dynamicsspectral-entropy2026年4月13日arXiv PDF

arXiv泛读

Ordinary Least Squares is a Special Case of Transformer

解释 Transformer（更准确说是单层 Linear Transformer/线性注意力模块）在执行基础统计推断任务时的“计算本质”：它到底是在模拟迭代优化（如梯度下降）逐步逼近，还是能在一次前向中直接实现经典统计量的闭式解；并以线性回归/OLS 为例给出可验证的代数等价构造。

评偏理论但很干净：线性注意力在特定参数下等价OLS闭式解，能改变你对ICL“必须迭代优化”的prior；建议复现推导再想怎么扩到softmax注意力。

Xiaojun Tan,Yuchen Zhao

transformer-theoryattentionordinary-least-squares2026年4月15日arXiv PDF

arXiv泛读

Dataset-Level Metrics Attenuate Non-Determinism: A Fine-Grained Non-Determinism Evaluation in Diffusion Language Models

扩散语言模型（DLM）在推理时天然包含多重随机性与配置自由度（扩散步数、CFG、MC 采样、batch size、数值精度等），导致同一输入在不同运行/配置下输出不一致。现有评测往往只看固定配置下的 dataset-level 指标（accuracy、pass@k），但作者指出这种聚合会系统性“衰减/掩盖”非确定性：不同配置可能总体分数几乎一样，却在样本级出现大量 correctness flip 和完全不同的错误模式。本文要解决的是：建立一个细粒度、跨因素的非确定性评测范式，量化并归因 DLM 的不稳定来源。

评只看FVA分解和样本级flip统计：它说明dataset-level指标会系统性掩盖DLM非确定性，做扩散LM消融/对比时应把稳定性协议当硬要求。

Zhengyu Fang,Zhimeng Jiang,Huiyuan Chen,Xiaoge Zhang,Tianyi Li,Kaiyu Tang,Xiao Li,Jing Li

diffusion-lmnon-determinismevaluation2026年4月15日arXiv PDF

arXiv

Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity

如何在多轮交互过程中，用低开销、实时的信号监控LLM交互“结构耦合/完整性”是否在逐步退化，而不依赖昂贵的二次推理或事后评审。

评作为在线健康监控的备查指标即可：看定义+一两张退化曲线，结论更像启发式，别指望能直接指导预训练配方。

Wael Hafez,Amir Nazeri

interaction-monitoringinformation-theorytoken-statistics2026年3月18日arXiv PDF

arXiv

Hessian-Enhanced Token Attribution (HETA): Interpreting Autoregressive LLMs

如何为decoder-only自回归LLM生成结果提供更“因果可信、语义一致”的token级归因解释，并系统评测归因质量。

评二阶归因很可能算力/噪声都不友好，别细读方法推导；只看他们的归因评测协议与失败案例，能帮你挑更靠谱的debug工具。

Vishal Pramanik,Maisha Maliha,Nathaniel D. Bastian,Sumit Kumar Jha

interpretabilitytoken-attributionhessian2026年4月14日arXiv PDF

arXiv

Beyond Static Personas: Situational Personality Steering for Large Language Models

现有人格/Persona控制多为静态设定，难以随情境变化而稳定、可控地调整LLM的“情境化人格表现”。

评训练-free 的 persona neuron 检索更像工程小技巧：只看 steering 稳定性对比和 SPBench 设定，别把“可控”外推成表征因果。

Zesheng Wei,Mengxiang Li,Zilei Wang,Yang Deng

neuron-steeringpersonacontrollability2026年4月15日arXiv PDF

arXiv

Causal Drawbridges: Characterizing Gradient Blocking of Syntactic Islands in Transformer LMs

Transformer LM如何表征并实现“句法岛屿（syntactic islands）”中的梯度可接受性现象，以及其背后的因果机制是否可被定位与解释。

评机制解释做得挺干净但离预训练太远：只看他们如何做因果介入定位子空间，以及 coordination island 的选择性阻断图，作为方法模板即可。

Sasha Boguraev,Kyle Mahowald

causal-interventionmechanistic-interpretabilitysyntax2026年4月15日arXiv PDF

arXiv

From Weights to Activations: Is Steering the Next Frontier of Adaptation?

如何把“推理时激活干预(steering)”与微调/提示等传统适配方法放到同一框架下理解，并明确其作为一种“模型适配”的边界与能力。

评偏术语与框架统一：快速扫分类表/判据就够，用来把 steering 放进你们内部的适配对照实验矩阵里，正文论证不必逐段抠。

Simon Ostermann,Daniil Gurgurov,Tanja Baeumel,Michael A. Hedderich,Sebastian Lapuschkin,Wojciech Samek,Vera Schmitt

activation-steeringmodel-adaptationtaxonomy2026年4月15日arXiv PDF

arXiv

Rhetorical Questions in LLM Representations: A Linear Probing Study

LLM内部表征中是否、以及如何编码“反问句/修辞疑问句”的语用信号，并评估其可线性探测性与跨数据集迁移稳定性。

评探针论文常见坑的一个好例子：只看跨域迁移与“可探测≠共享表征”的反例讨论，提醒你别用线性 probe 结论倒推预训练学到啥。

Louie Hong Yao,Vishesh Anand,Yuan Zhuang,Tianyu Jiang

linear-probingpragmaticsrepresentation-analysis2026年4月15日arXiv PDF

arXiv

From Feelings to Metrics: Understanding and Formalizing How Users Vibe-Test LLMs

基准分数难以反映真实可用性时，如何理解并形式化用户常用的“vibe-testing”（基于个人工作流的非正式模型对比评估），使其可系统化与可复现。

评对预训练不直接，但能改你对评测的 prior：只看他们如何把 vibe-test 任务与判据结构化成可复现流水线，适合拿来改内部模型选型流程。

Itay Itzhak,Eliya Habba,Gabriel Stanovsky,Yonatan Belinkov

evaluationhuman-preferencespersonalization2026年4月15日arXiv PDF

arXiv

Can Cross-Layer Transcoders Replace Vision Transformer Activations? An Interpretable Perspective on Vision

如何以更“跨层、过程级”的方式解释Vision Transformer内部表征与计算，而不仅是对单层激活做稀疏特征分解。

评对象是 ViT 但思路可迁移：只看 cross-layer transcoder 的可解释分解是否真能替代激活、以及哪些层贡献被重分配，作为跨层解释的备选工具。

Gerasimos Chatzoudis,Konstantinos D. Polyzos,Zhuowei Li,Difei Gu,Gemma E. Moran,Hao Wang,Dimitris N. Metaxas

mechanistic-interpretabilitysparse-autoencoderscross-layer2026年4月14日arXiv PDF

arXiv

Context Sensitivity Improves Human-Machine Visual Alignment

解决“固定嵌入空间的相似度”难以刻画人类在不同上下文下的动态相似性判断，从而导致人机视觉对齐不足的问题。

评更像对齐目标的提醒而非新算法：看他们“上下文敏感相似度”带来的增益幅度与消融即可，知道固定 embedding 相似度会系统性误导就够了。

Frieda Born,Tom Neuhäuser,Lukas Muttenthaler,Brett D. Roads,Bernhard Spitzer,Andrew K. Lampinen,Matt Jones,Klaus-Robert Müller,Michael C. Mozer

representation-learningcontext-sensitivityhuman-alignment2026年4月15日arXiv PDF

arXiv

Quantifying and Understanding Uncertainty in Large Reasoning Models

如何对“大推理模型”(LRM)的推理-答案生成进行不确定性量化，并在有限样本下给出统计保证，同时解释不确定性覆盖来自哪些推理/训练因素。

评conformal 套到推理链上挺实用但假设要盯紧：只看覆盖保证在不同采样预算下是否稳、以及不确定性归因分析，适合做可靠性回归测试基线。

Yangyi Li,Chenxu Zhao,Mengdi Huai

uncertaintyconformal-predictionreasoning-models2026年4月15日arXiv PDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

arXiv泛读

Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

研究跨域记忆是否、以及为何能提升 coding agent：把不同基准/不同任务域产生的“记忆”（轨迹、工作流、摘要、洞见等）放入统一记忆池，在目标任务推理时检索使用，评估跨域迁移收益与负迁移来源。

评只看跨域正/负迁移的分解实验：高层“调试/验证套路”比低层轨迹更可迁移，可直接指导合成后训练数据时优先蒸馏程序性元技能。

Kangsan Kim,Minki Kang,Taeil Kim,Yanlai Yang,Mengye Ren,Sung Ju Hwang

coding-agentsmemorytransfer-learning2026年4月15日arXiv PDF

arXiv

AgentForge: Execution-Grounded Multi-Agent LLM Framework for Autonomous Software Engineering

如何在仓库级自动软件工程中，把“可执行验证”变成多智能体协作的强约束，从而减少LLM生成代码的不可验证与错误传播。

评作为工程范式备查即可：把“每次改动必须可执行验证”做成硬约束，但对预训练没新 prior；只看执行门控如何插进多智能体流水线。

Rajesh Kumar,Waqar Ali,Junaid Ahmed,Najma Imtiaz Ali,Shaban Usman

multi-agentsoftware-engineeringexecution-feedback2026年4月13日arXiv PDF

arXiv

Formal Architecture Descriptors as Navigation Primitives for AI Coding Agents

AI编码代理在仓库级任务中大量时间花在“无目标的代码探索/导航”上，如何用结构化架构信息降低工具调用与探索开销。

评值得知道“架构描述=导航原语”这条路能省多少无效工具调用，但对基座训练是弱信号；扫一眼量化结果与失败案例就够。

Ruoqi Jin

Independent ResearcherMitcoding-agentscode-navigationstructured-context2026年4月11日arXiv PDF

HF Daily▲ 3

Do AI Coding Agents Log Like Humans? An Empirical Study

研究 AI coding agents 在软件日志记录这一非功能性需求上是否表现得像人类开发者，以及自然语言指令能否有效约束其行为。

评偏软件工程实证，不会改变你做预训练的路线；但若做 coding agent，摘要里的三个比例已经足够说明可维护性仍靠人补锅。

Youssef Esseddiq Ouatiti,Mohammed Sayagh,Leo,Ahmed E. Hassan

coding-agentsoftware-engineeringlogging2026年4月10日arXiv PDF

arXiv

Contract-Coding: Towards Repo-Level Generation via Structured Symbolic Paradigm

仓库级代码生成中，如何缓解“意图模糊→上下文保真度下降→架构崩塌”的Context-Fidelity trade-off，并减少跨模块幻觉与结构性错误。

评更像“契约式IR”倡议，可信度取决于是否有干净基线与消融；不细读正文也行，优先找有没有可复现的符号约束带来稳定增益。

Yi Lin,Lujin Zhao,Yijie Shi

repo-level-codegencoding-agentssymbolic-contracts2026年4月10日arXiv PDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv泛读

POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch

核心问题：现有多模态搜索/浏览类Agent大多是在通用LMM上“后挂工具+SFT/RL”得到的，导致agentic行为更像表层技能而非内生能力；同时长链路交互会引发上下文膨胀与“attention dilution / Lost-in-the-Middle”，即使证据已在历史中也难以被模型稳定定位与利用。论文试图回答：能否在“从零训练”的路线中，把搜索式自主探究（ReAct式规划-行动-观察-整合）作为模型形成期的核心能力注入，并在不牺牲证据保真度的前提下解决长时序交互的上下文瓶颈？

评建议看训练配方：把 agentic 行为前置成“Agentic Seeding”课程并用 V-Fold 外化历史，可能改变你对长轨迹能力应在何阶段注入的 prior。

Yikun Liu,Yuan Liu,Le Tian,Xiao Zhou,Jiangchao Yao,Yanfeng Wang,Weidi Xie

agentic-searchmultimodal-agenttool-use2026年4月15日arXiv PDF

arXiv泛读

Exploration and Exploitation Errors Are Measurable for Language Model Agents

在无法访问LM agent内部策略/价值函数的情况下，仅从外显动作轨迹中，如何可操作地区分并量化“探索不足/探索冗余”与“利用不足/利用冗余”的错误，并构造可控环境系统性地调节探索/利用难度以评测不同agent的失败模式。

评读它的度量定义即可：用 policy-agnostic 的结构冗余把探索/利用错误从轨迹里拆出来，适合拿来做 RL-pretrain 前后诊断而非追分。

Jaden Park,Jungtaek Kim,Jongwon Jeong,Robert D. Nowak,Kangwook Lee,Yong Jae Lee

llm-agentsexplorationexploitation2026年4月14日arXiv PDF

arXiv泛读

HINTBench: Horizon-agent Intrinsic Non-attack Trajectory Benchmark

在“无外部攻击/无污染工具/无对抗环境”的良性条件下，长时序LLM Agent仍可能因自身内在失误进入高后果风险轨迹；论文要解决的是：如何系统化定义并评测这种“intrinsic risk”，并把评测从轨迹级二分类推进到风险步骤定位与失误类型诊断。

评把风险评测从“结果”拉到“过程审计+风险步定位”这点可直接用来做对齐数据；只需看 taxonomy 与标注协议，别指望预训练层面结论。

Jiacheng Wang,Jinchang Hou,Fabian Wang,Ping Jian,Chenfu Bao,Zhonghou Lv

agent-safetybenchmarklong-horizon2026年4月15日arXiv PDF

arXivHF Daily▲ 3泛读

UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

如何提升基于多模态大模型(MLLM)的GUI自动化在长时序/长地平线任务中的稳定性与可控性，缓解记忆退化、进度混乱与数值/算术幻觉。

评关注它如何把长地平线稳定性拆成“主策略+轻量工具copilot”并做策略优化；对后训练配方有用，但结论强度取决于任务/工具设定是否干净。

Zhengxi Lu,Fei Tang,Guangyi Liu,Kaitao Song,Xu Tan,Jin Ma ... 省略 1 位作者 ... ,Weiming Lu,Jun Xiao,Yueting Zhuang,Yongliang Shen

gui-agenttool-usepolicy-optimization2026年4月15日arXiv PDF GitHub

arXiv泛读

Beyond State Consistency: Behavior Consistency in Text-Based World Models

文本环境中的 LLM World Model（WM）训练与评估长期依赖“状态一致性”（next-state 文本相似度/EM 等），但全文指出这会系统性地与真实下游行为目标错位：即便单步预测文本很像，回放到真实环境时也可能导致 agent 决策改变、任务失败（metric inversion）。论文要解决的核心问题是：如何让 WM 的训练目标与“在真实环境中会采取同样动作”的功能一致性（functional/behavior consistency）对齐，并给出可训练、可度量的替代信号。

评它纠正了一个常见坑：文本相似度的 world model 评测会反转真实行为质量；建议只看 BehR 与 CR_pw，立刻用于你自己的模拟器蒸馏评估。

Youling Huang,Guanqiao Chen,Junchi Yao,Lu Wang,Fangkai Yang,Chao Du ... 省略 1 位作者 ... ,Pu Zhao,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang

world-modelsbehavior-consistencymodel-based-planning2026年4月15日arXiv PDF

HF Daily▲ 28泛读

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

多模态游戏/浏览器环境中的通用 Agent 评测缺乏标准化动作接口与可验证的自动评估，导致不同工作难以可比、结果难复现。

评当评测基础设施看：标准化动作接口+可验证指标能显著降噪，适合用来做多模态agent训练回归测试；正文细节不必深挖。

Mingyu Ouyang,Siyuan Hu,Qinghong (Kevin) Lin,Hwee Tou Ng,Mike Zheng Shou

benchmarkgame-agentsbrowser-agents2026年4月8日arXiv PDF GitHub

arXiv

LiveClawBench: Benchmarking LLM Agents on Complex, Real-World Assistant Tasks

现有Agent评测难以覆盖真实助手任务中的“组合式复杂度”，缺少更贴近部署场景的基准与复杂度刻画。

评作为“真实助手任务”基准备查即可：只看复杂度三轴定义和失败案例汇总，能帮你更快定位 agent 评测的盲区。

Xiang Long,Li Du,Yilong Xu,Fangcheng Liu,Haoqing Wang,Ning Ding,Ziheng Li,Jianyuan Guo,Yehui Tang

agent-benchmarkevaluationtool-use2026年3月20日arXiv PDF

arXiv

AgentSPEX: An Agent SPecification and EXecution Language

如何用一种可维护、可复用、可控的方式来显式描述与执行 LLM Agent 的工作流（控制流、状态、并行、工具调用），避免“反应式 prompting”隐式流程带来的不可控与难维护。

评偏工程 DSL，不细读：扫一眼语义/状态/并行与可复现性设计点，能借来规范内部 agent workflow，但不改预训练 prior。

Pengcheng Wang,Jerry Huang,Jiarui Yao,Rui Pan,Peizhi Niu,Yaowenqi Liu,Ruida Wang,Renhao Lu,Yuwei Guo,Tong Zhang

agent-workflowsdsltool-use2026年4月14日arXiv PDF

arXiv

WebXSkill: Skill Learning for Autonomous Web Agents

解决 Web agent 长时程任务中“技能表示不落地/不可恢复”的问题：纯文本技能不可执行、纯代码技能不可解释，导致难以错误恢复与自适应。

评值得知道“可执行程序+逐步解释”这类技能封装：只看技能抽取与恢复机制那节，能启发你做可调试的 web 任务记忆库。

Zhaoyang Wang,Qianhui Wu,Xuchao Zhang,Chaoyun Zhang,Wenlin Yao,Fazle Elahi Faisal ... 省略 5 位作者 ... ,Dongmei Zhang,Saravan Rajmohan,Jianfeng Gao,Huaxiu Yao

web-agentskill-learningprogram-guided2026年4月14日arXiv PDF

arXivHF Daily▲ 5

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

如何用多智能体把LLM微调/训练的端到端流程（需求分析、数据与文献检索、配方设计、训练与评测、迭代试验管理）自动化，并能在多轮实验中高效探索与复用经验。

评当作自动化训练流水线的系统参考：只看树搜索式实验管理和 FT-Bench 设定，结论更像吞吐工具而非方法论增量。

Zerun Ma,Guoqiang Wang,Xinchen Xie,Yicheng Chen,He Du,Bowen Li,Yanan Sun,Wenran Liu,Kai Chen,Yining Li

Shanghai AI LaboratoryFudan Universityagentic-automationllm-finetuningexperiment-search2026年4月15日arXiv PDF

arXiv

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

端到端VLA在机器人操控微调后容易牺牲基座VLM的高层推理能力，如何在保持语义推理的同时获得稳定可控的低层动作执行。

评具身路线备查：看分层“VLM 规划 vs 扩散控制”如何隔离能力退化，能给多模态训练组织一个可复用的拆分模板。

Tianshuo Yang,Guanyu Chen,Yutian Chen,Zhixuan Liang,Yitian Liu,Zanxin Chen ... 省略 1 位作者 ... ,Haotian Liang,Jiangmiao Pang,Yao Mu,Ping Luo

embodied-aivision-language-actionhierarchical-planning2026年4月15日arXiv PDF

arXiv

Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

轻量级多模态GUI Agent在端侧部署受限（算力/容量不足）且难以在复杂真实GUI工作流中扩展技能与任务覆盖，如何在低成本下提升可扩展性与任务泛化。

评端侧 GUI agent 的编排思路而非训练突破：只看多角色分工与成本对比表，判断是否值得在产品栈里替代多专家模型。

Ziwei Wang,Junjie Zheng,Leyang Yang,Sheng Zhou,Xiaoxuan Tang,Zhouhua Fang,Zhiwei Liu,Dajun Chen,Yong Li,Jiajun Bu

gui-agentorchestrationlightweight-mlm2026年4月15日arXiv PDF

arXiv

[COMP25] The Automated Negotiating Agents Competition (ANAC) 2025 Challenges and Results

如何评测与推动自动谈判智能体在更复杂设置下的能力：多协议/多交易谈判，以及供应链场景中的并发谈判。

评竞赛报告性质：扫任务设定与排行榜就够了，更多是谈判评测生态信息，对预训练研究只提供弱外部信号。

Reyhan Aydoğan,Tim Baarslag,Tamara C. P. Florijn,Katsuhide Fujita,Catholijn M. Jonker,Yasser Mohammad

negotiationmulti-agentbenchmark2026年4月15日arXiv PDF

arXiv

Bridging Protocol and Production: Design Patterns for Deploying AI Agents with Model Context Protocol

MCP 只解决“能调用工具”，但缺少生产级“安全、可控、可恢复”运行所需的协议原语（身份传递、预算控制、错误语义），导致企业级 Agent 部署难以规模化与治理。

评生产落地 checklist 价值大于研究增量：只看身份/预算/错误语义这些协议原语，能直接指导你把 MCP demo 变成可治理系统。

Vasundra Srinivasan

MCPtool-useagent-infrastructure2026年3月12日arXiv PDF

arXiv

Modality-Native Routing in Agent-to-Agent Networks: A Multimodal A2A Protocol Extension

多 Agent 网络在跨 Agent 传递信息时常被“文本瓶颈”压扁多模态信号，导致跨模态推理与协作性能下降；需要协议层支持原生模态路由并验证其收益边界。

评结论对系统设计有用但不必细读：看“保真路由≠必然收益”的条件分析，提醒你别只改协议，还得评估下游 agent 能力。

Vasundra Srinivasan

A2Amultimodal-routingprotocol2026年4月14日arXiv PDF

HF Daily▲ 3

Mobile GUI Agents under Real-world Threats: Are We There Yet?

评估移动 GUI agent 在真实世界威胁下是否仍能稳定完成任务，尤其是面对广告、用户生成内容等不可信界面元素时的鲁棒性。

评不是方法论文，但 benchmark 设定很对：很多 GUI agent 分数是被干净环境抬出来的，只看威胁模型和性能掉点即可。

Guohong Liu,Jialei Ye,Jiacheng Liu,Yuanchun Li,Wei Liu,Pengzhi Gao,Jian Luan,Yunxin Liu

gui-agentrobustnessbenchmark2026年4月14日arXiv PDF GitHub

HF Daily▲ 59

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

现有 Agent benchmark 只覆盖少数有公共环境的领域，无法评测 Agent 在广泛专业职业场景的能力。

评用 LLM 模拟环境做 Agent benchmark 本身就有评测可信度问题——simulator 和被测模型能力相关会污染信号，作为 literature 备查，不必读正文。

huxiaomeng,Yinger Zhang,Fei Huang,Jianhong Tu,Yang Su,Lianghao Deng,Yuxuan Liu,Yantao Liu,Dayiheng Liu,Tsung-Yi Ho

Alibabaagent-benchmarkworld-modelevaluation2026年4月13日arXiv PDF GitHub

HF Daily▲ 8

SkVM: Compiling Skills for Efficient Execution Everywhere

解决不同Agent平台间技能（skills）作为原始上下文传递导致的执行不一致和脆弱性问题。

评将Agent技能视为代码并引入编译器视角的系统设计，视角新颖，适合关注跨模型Agent部署与基础设施的研究员作为literature备查。

Le Chen,Erhu Feng,Yubin Xia,Haibo Chen

Shanghai Jiao Tong UniversityAgent SystemSkill CompilationLLM Infrastructure2026年4月6日arXiv PDF GitHub

AI Research Daily

How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data

From Where Words Come: Efficient Regularization of Code Tokenizers Through Source Attribution

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention

Event Tensor: A Unified Abstraction for Compiling Dynamic Megakernel

Seedance 2.0: Advancing Video Generation for World Complexity

Synthesizing Instruction-Tuning Datasets with Contrastive Decoding

(How) Learning Rates Regulate Catastrophic Overtraining

TIP: Token Importance in On-Policy Distillation

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Target Policy Optimization

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

LLM 预训练

高效推理与架构

多模态统一

多模态生成

LLM 后训练

原理、机制和分析

Coding Agent

Agent 与系统