AI Research Daily

更新时间: 2026/4/30 00:30:30

共102篇

🌟 2 重点

🔥 行业动态 1🧠 预训练 5⚡ 高效推理 11🌐 多模态统一 14🎨 多模态生成 12🛠️ 后训练 20🔬 原理分析 20💻 Coding Agent 4🤖 Agent 15

其他 61 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读行业动态与观点

Building the compute infrastructure for the Intelligence Age

OpenAI 讨论为持续扩展 AI 能力而建设更大规模计算基础设施的问题，重点是 Stargate 和新增数据中心容量。

OpenAIOpenAI ResearchOpenAIcompute-infrastructuredata-centers

精读LLM 预训练

Marco-MoE: Open Multilingual Mixture-of-Expert Language Models with Efficient Upcycling

构建开放的多语言 sparse MoE 语言模型，并验证极高稀疏度、dense-to-MoE upcycling 和长 token 训练能否同时带来 compute efficiency 与多语言能力。

moemultilingual-llmupcycling

精读LLM 预训练

On the Trainability of Masked Diffusion Language Models via Blockwise Locality

掩码扩散语言模型（MDM）作为自回归大语言模型（AR-LLM）的替代范式存在训练不稳定、在强左向token依赖任务上表现差的问题，现有块结构混合模型未显式注入token级左向局部归纳偏置，无法同时兼顾左向依赖任务和全局约束生成任务的性能与训练稳定性。

diffusion-lmmasked-language-modelingtrainability

精读多模态与统一模态

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

解决全模态大模型的实际落地痛点：跨模态对齐效果差、训练不稳定、长多模态序列推理效率低、多模态输入吞吐能力不足。现有全模态模型普遍存在推理延迟高、模态覆盖不全、长上下文多模态任务性能弱的问题。

NVIDIAcodebase to facilitate further research and developmentmultimodal-pretrainingaudiovideo

精读LLM 后训练

When Errors Can Be Beneficial: A Categorization of Imperfect Rewards for Policy Gradient

现有RLHF等大模型强化学习流程普遍使用不完美代理奖励，传统奖励质量评估指标（如排序准确率、MSE）将所有奖励误差都视为有害，忽略了不同误差对策略梯度优化过程的差异化影响，也无法解释部分代理奖励效果优于真实奖励的现象。

Princeton Language and IntelligencePrinceton Universityrlhfpolicy-gradientreward-modeling

精读LLM 后训练

How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum

论文解决的是 reasoning model 后训练中的一个具体优化问题：只有输出级监督时，RLVR 在初始成功概率 p0 很小时会启动很慢；但直接做 latent trajectory 的边缘似然训练又更容易记住错误标注。作者用一个连续损失族刻画这两种训练信号之间的取舍，并解释模型应该多快“承诺”到监督信号上。

RLVRTsallis lossreasoning

精读LLM 原理与机制

Why Does Reinforcement Learning Generalize? A Feature-Level Mechanistic Study of Post-Training in Large Language Models

这项工作研究一个对 post-train 和 pretrain 接口都很关键的问题：为什么同样从基座模型出发、使用相同训练数据，RL 往往能带来跨任务泛化，而 SFT 更容易引入任务特化和能力遗忘。作者不只比较外部指标，而是把 base、SFT、RL 模型的内部激活对齐到同一个稀疏特征空间，观察训练范式如何改写表示。

Tianjin UniversityGerman Research Center for Artificial Intelligence (DFKI)rl-post-trainingmechanistic-interpretabilityfeature-evolution

精读LLM 原理与机制

Barriers to Universal Reasoning With Transformers (And How to Overcome Them)

论文处理的是一个很具体但关键的问题：CoT 让 Transformer 在表达能力上可以模拟图灵机，但这种能力是否能从有限长度的训练轨迹中学到，并外推到更长推理长度，并不成立。作者把问题从“存在一个 Transformer 可以表达某种计算”收紧到“标准 Transformer 在有限训练分布上能否学到可长度泛化的 CoT 计算”。在标准位置编码和有限 alphabet 条件下，结论偏负面：即使给 CoT，长度可泛化的可学习任务仍然落在 TC0 附近，不能自动获得图灵完备推理能力。

Saarland UniversityOhio State Universitylength-generalizationchain-of-thoughttransformer-theory

来源

机构

阅读分级

标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点（注意：推理加速/注意力优化等技术论文不算行业动态）

Blog精读🌟

Building the compute infrastructure for the Intelligence Age

OpenAI 讨论为持续扩展 AI 能力而建设更大规模计算基础设施的问题，重点是 Stargate 和新增数据中心容量。

评读标题和关键数字就够；这是 compute capex 信号，不会告诉你下一轮预训练该怎么改。

OpenAI Research

OpenAIOpenAI ResearchOpenAIcompute-infrastructuredata-centers2026年4月29日原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv精读

Marco-MoE: Open Multilingual Mixture-of-Expert Language Models with Efficient Upcycling

构建开放的多语言 sparse MoE 语言模型，并验证极高稀疏度、dense-to-MoE upcycling 和长 token 训练能否同时带来 compute efficiency 与多语言能力。

评应看 MoE upcycling 和语言路由分析；若 5% 激活仍稳，内部多语言 MoE ablation 该补这个稀疏度点。

Fan Jiang,Yu Zhao,Chenyang Lyu,Tianqi Shi,Yichao Du,Feihu Jiang,Longyue Wang,Weihua Luo

moemultilingual-llmupcycling2026年4月28日arXiv PDF

arXiv精读

On the Trainability of Masked Diffusion Language Models via Blockwise Locality

评这篇会直接改你对 diffusion LM 失败原因的 prior：问题不只是目标函数弱，而是随机 masking 破坏了局部依赖学习；建议立刻复现受控任务，先看 Jigsaw/Scatter 的归纳偏置设计。

Yuxiang Wang,Yu Xiang,Baojian Zhou,Qifang Zhao,Keyue Jiang,Yanghua Xiao,Xiaoxiao Xu

diffusion-lmmasked-language-modelingtrainability2026年4月27日arXiv PDF

arXiv泛读

ADE: Adaptive Dictionary Embeddings -- Scaling Multi-Anchor Representations to Large Language Models

ADE 处理的是词表嵌入层的表达瓶颈：单个 token 只有一个向量，难以同时承载多义性、句法角色和组合语义；已有 codebook / multi-anchor embedding 又多停留在静态词级组合，难以放进现代 Transformer 并高效训练。

评若有大模型级消融，ADE 值得复现 embedding ablation；先盯训练开销和 tokenizer 交互，摘要还不足以信。

Orhan Demirci,Sezer Aptourachman

Hacettepe UniversityembeddingstokenizationLLM-architecture2026年4月27日arXiv PDF

arXiv泛读

Scaling Probabilistic Transformer via Efficient Cross-Scale Hyperparameter Transfer

Probabilistic Transformer 在放大规模时对超参很敏感，难以像标准 Transformer 那样稳定扩展；这篇工作要解决其跨尺度可训练性问题。

评如果你关心 muP、参数化和非标准 LM 架构的可扩展性，这篇值得看；先盯住参数化细节和同算力对比，别急着相信“PT 全面更优”。

Penghao Kuang,Haoyi Wu,Kewei Tu

ShanghaiTech UniversityShanghai Engineering Research Center of Intelligent Vision and ImagingProbabilistic-TransformermuPscaling2026年4月28日arXiv PDF

arXiv泛读

Nautile-370M: Spectral Memory Meets Attention in a Small Reasoning Model

在小参数与严格推理预算下，如何同时获得长上下文的高效状态跟踪能力与注意力的选择性路由能力；以及小模型在低成功率阶段做 GRPO 类 RL 时，如何避免负优势梯度主导导致能力退化。

评这是那类“先看理论 claim，再查实验是否站得住”的架构文；重点读表达性证明和层间配比，若实验干净，值得在小模型 ablation 里复现。

Maixent Chenebaux

hybrid-architectureattentionstate-space2026年4月27日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv泛读

Rethinking Layer Redundancy in Large Language Models: Calibration Objectives and Search for Depth Pruning

这篇论文讨论深度剪枝中的一个基础假设：Transformer 层冗余是否是预训练模型自身的固定结构属性。作者给出的答案是否定的。层是否可删，取决于模型、校准数据和校准目标三者的组合。用语言建模 perplexity 找到的冗余层，未必适合保留下游推理能力。

评推翻层冗余是模型固有属性的认知，做剪枝实验时优先对齐评估目标而非选择复杂搜索算法

Minkyu Kim,Vincent-Daniel Yun,Youngrae Kim,Youngjin Heo,Suin Cho,Seong-hun Kim,Woosang Lim,Gaeul Kwon

MODULABSSeoul National UniversityUniversity of Southern+2depth pruninglayer redundancymodel compression2026年4月27日arXiv PDF

arXiv泛读

Doing More With Less: Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling

这篇工作要回答的是：面向 test-time scaling 的推理型 LLM，剪枝是否一定会伤害长链推理能力。已有结论主要来自结构化剪枝，也就是直接删整层或整块网络，因此观察到随着推理 token 预算增加，模型在数学和复杂推理任务上的收益明显变差。作者重新检查这个结论，问题被收紧为：如果不改网络拓扑，只做非结构化剪枝，把单个权重置零，是否仍然会破坏 TTS 带来的性能增益，以及不同层的稀疏率分配会怎样影响这种关系。

评只看剪枝率×TTS budget 的曲线；若 setup 干净，应把“剪枝必伤 reasoning scaling”的 prior 下调一档。

Ocean Monjur,Shahriar Kabir Nahin,Anshuman Chhabra

University of SouthBellini College of AIllm-pruningtest-time-scalingreasoning-efficiency2026年4月28日arXiv PDF

arXiv泛读

Pythia: Toward Predictability-Driven Agent-Native LLM Serving

论文解决的是 multi-agent LLM 应用的 serving 问题：现有 serving 系统把 agent 工作流当成普通随机流量处理，忽略了 agent 图结构、角色分工和执行模式带来的可预测性，导致 prefix cache、调度和扩缩容效率低。

评不是预训练论文；只看 trace 分析和 serving 接口，能提醒长上下文 Agent 负载会反向约束模型设计。

Shan Yu,Junyi Shu,Yuanjiang Ni,Kun Qian,Xue Li,Yang Wang ... 省略 7 位作者 ... ,Youyou Lu,Xin Jin,Xuanzhe Liu,Harry Xu

Rice UniversityTsinghua UniversityPeking UniversityLLM-servingmulti-agentprefix-cache2026年4月28日arXiv PDF

arXiv泛读

PolyKV: A Shared Asymmetrically-Compressed KV Cache Pool for Multi-Agent LLM Inference

这篇论文解决多 agent 推理中的 KV cache 内存重复问题。多个 agent 读取同一长文档上下文时，常规做法会为每个 agent 分别保存一份 KV cache；PolyKV 改为只预填充一次，保存一个压缩后的共享 KV 池，再注入到多个独立 agent 的 cache 中。

评多agent场景KV缓存优化的实用工程方案，仅看§3压缩策略和实验效果表即可

Ishan Patel,Ishan Joshi

Independent ResearcherKV cachemulti-agent inferencemodel quantization2026年4月27日arXiv PDF

arXiv

S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models

现有通用音频基座模型参数量大推理成本高，此前音频领域知识蒸馏方法依赖监督信号、模型logits或层级对齐，无法适配仅输出embedding的自监督音频模型

评音频基座压缩的增量工作，仅作为文献备查，无需读正文

Mohammed Ali El Adlouni,Aurian Quelennec,Pierre Chouteau,Geoffroy Peeters,Slim Essid

audio foundation modelknowledge distillationself-supervised learning2026年4月27日arXiv PDF

arXiv

Scalable Inference Architectures for Compound AI Systems: A Production Deployment Study

研究 compound AI systems 在生产环境中如何服务多模型、检索器和工具组成的异构推理工作流，同时控制延迟、吞吐和成本。

评预训练研究员不用细读；只看系统图和线上指标，了解 compound workflow 的真实瓶颈别再只按单模型 serving 估成本。

Srikanta Prasad S,Utkarsh Arora

Salesforce India Pvt LtdAgentforce AI Platforminference-servingcompound-ai-systemsautoscaling2026年4月28日arXiv PDF

arXiv

Cloud to Edge: Benchmarking LLM Inference On Hardware-Accelerated Single-Board Computers

评估小参数 LLM 在带硬件加速的单板计算机上本地推理时，如何同时权衡吞吐、延迟、能耗、成本和硬件利用率。

评作为边缘部署配置表备查即可；对预训练没有新信号，最多看 benchmark 维度设计。

Harri Renney,Fouad Trad,Michael Mattarock,Zena Wood

Lebanese American UniversityCarnegie Mellon UniversityUniversity of Exeteredge-inferenceLLM-servingbenchmark2026年4月24日arXiv PDF

arXiv

Salca: A Sparsity-Aware Hardware Accelerator for Efficient Long-Context Attention Decoding

解决长上下文解码阶段 attention 对 KV cache 带宽和计算的压力，尤其是现有加速器在长序列下性能明显退化的问题。

评和预训练关系不深，知道“长上下文瓶颈主要卡在 KV 访存而非算子 FLOPs”就够了；除非你在做软硬协同，不必细读正文。

Wang Fan,Wei Cao,Xi Zha,Kedi Ma,MingQian Sun,Jialin Chen,Fengzhe Zhang,Fan Zhang

Fudan Universitylong-contextkv-cachesparse-attention2026年4月27日arXiv PDF

arXiv

QFlash: Bridging Quantization and Memory Efficiency in Vision Transformer Attention

解决FlashAttention的在线softmax依赖浮点运算导致无法实现端到端整数量化的问题

评整数量化FlashAttention的实现思路可参考，但仅针对ViT，无需深读正文

Sehyeon Oh,Yongin Kwon,Jemin Lee

University of Science and TechnologyElectronics and Telecommunications Research InstitutePusan National University+1quantizationflash-attentionvision-transformer2026年4月28日arXiv PDF

arXiv

AHASD: Asynchronous Heterogeneous Architecture for LLM Adaptive Drafting Speculative Decoding on Mobile Devices

解决移动端单NPU-PIM系统上运行推测解码时，同步执行空闲开销大、异步执行无效计算多的问题

评端侧推测解码的架构设计仅作领域信息备查，不涉及预训练相关内容，无需深读

Ma zirui,Fan Zhihua,Li Wenxing,Wu Haibin,Zhang Fulin,Ye Xiaochun,Li Wenming

University of Chinese Academy of Sciencesspeculative-decodingedge-aimobile-inference2026年4月28日arXiv PDF

arXiv

Carbon-Taxed Transformers: A Green Compression Pipeline for Overgrown Language Models

针对软件工程场景中 LLM 部署成本、内存占用、延迟和碳排放过高的问题，提出一个压缩流程选择与排序框架。

评只看实验表里精度-延迟-能耗的 Pareto 曲线；若没有真实功耗测量，carbon tax 只是包装。

Ajmain Inqiad Alam,Palash Roy,Chanchal K. Roy,Banani Roy,Kevin A. Schneider

University of Saskatchewancollaborators in software developmentLLM-compressionefficient-inferencegreen-ai2026年4月28日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv精读🌟

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

评这是统一多模态主干的工业 recipe 文档，真正该看的是音频如何接进 30B-A3B 和 token reduction 怎么做；榜单可略过。

NVIDIA,:,Amala Sanjay Deshmukh,Kateryna Chumachenko,Tuomas Rintamaki,Matthieu Le ... 省略 208 位作者 ... ,Oluwatobi Olabiyi,Andrew Tao,Bryan Catanzaro,Udi Karpas

NVIDIAcodebase to facilitate further research and developmentmultimodal-pretrainingaudiovideo2026年4月27日arXiv PDF

arXiv泛读

VLM Judges Can Rank but Cannot Score: Task-Dependent Uncertainty in Multimodal Evaluation

这篇工作解决的是多模态自动评测里的可靠性问题。VLM judge 通常只给一个离散分数，但这个分数没有不确定性刻画，用户无法知道它是“有把握地打了 4 分”，还是“在 2 到 5 分之间都拿不准，最后碰巧输出了 4 分”。作者关心的不是如何让 judge 更高分，而是如何在不重训模型的前提下，把单点分数变成带覆盖保证的区间，并进一步分析这种不确定性在不同视觉任务上是否有系统差异。

评做 VLM 训练或 judge-based eval 的人该看；不是方法突破，但它把“相关系数好看”这件事拆穿了，重点看 ranking-scoring decoupling 和各任务区间宽度。

Divake Kumar,Sina Tayebati,Devashri Naik,Ranganath Krishnan,Amit Ranjan Trivedi

University ofCapital One AI LabsUniversity of Illinois at+1VLM-as-a-Judgeconformal-predictionevaluation2026年4月28日arXiv PDF

arXiv泛读

One Perturbation, Two Failure Modes: Probing VLM Safety via Embedding-Guided Typographic Perturbations

这篇工作研究的是 VLM 的一种具体安全失效机制：把恶意指令渲染成图像中的文字后，模型为什么有时会读出来并执行，有时又会失败。作者不满足于只做更高攻击成功率，而是想找到一个可解释、与具体目标模型解耦的指标，来刻画 typographic prompt injection 成功与否的原因，并进一步用这个指标做更系统的红队测试。

评通过多模态 embedding 距离来解释和预测 VLM 的排版注入攻击成功率，机制分析较为 clean，对理解 VLM 的图文对齐和安全漏洞有启发，建议扫读实证分析部分。

Ravikumar Balakrishnan,Sanket Mendapara

Vision Language ModelsSafety AlignmentPrompt Injection2026年4月28日arXiv PDF

arXiv泛读

Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models

LVLM 幻觉缓解里，为什么很多 decoding-time steering（DTI）虽然降低幻觉频率，却会让剩余幻觉更“严重”、更容易滚雪球；以及能否在不改参数的前提下，从源头阻断这种自回归误差累积。论文把关键矛盾定位在干预时机与对象：在 decoding 阶段持续加 steering，往往是在错误表征已经形成后被动补救，且对多模态对齐与细粒度视觉证据不够敏感。

评读 abstract 和方法图就够；有用信号是 hallucination 干预点应看 prefill KV，而不只看 decoding logits。

Chengsheng Zhang,Chenghao Sun,Xinyan Jiang,Wei Li,Xinmei Tian

University of Science and Technology ofChinese Academy of SciencesUniversity of Chinese Academy of SciencesLVLMhallucinationKV-cache2026年4月28日arXiv PDF

arXiv

DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams

评估 VLM 在图表、地图、信息图、线路图和科学图示等 diagram QA 中是否真正定位到支撑答案的视觉证据，而不只是答对问题。

评VLM 预训练不用细读；看任务定义和错误案例即可，它能提醒图文对齐别只盯 final answer。

Anirudh Iyengar Kaniyar Narayana Iyengar,Tampu Ravi Kumar,Gaurav Najpande,Manan Suri,Dinesh Manocha,Puneet Mathur,Vivek Gupta

Arizona State UniversityAdobe ResearchUniversity ofvlm-benchmarkdiagram-reasoningvisual-grounding2026年4月28日arXiv PDF

arXiv

OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding

开放世界视频时间定位中，现有数据集规模和语义覆盖不足，导致模型对长尾概念和复杂文本查询的定位能力差。

评数据引擎比模型本身更值得看；若做视频预训练，重点读 caption-centric 标注链路和长尾词表扩展。

Minghang Zheng,Zihao Yin,Yi Yang,Yuxin Peng,Yang Liu

Peking UniversityHuawei Technologies LtdPKU-WUHAN Institute for Artificial Intelligence+1video-temporal-groundingMLLM-trainingdata-engine2026年4月28日arXiv PDF

arXiv

Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System

解决现有VLA模型采用单块生成范式忽略机器人操作层级性，导致语义到动作映射鸿沟大、表示负担重的问题

评多模态到动作对齐的增量探索，仅作VLA领域动向了解即可，无需读正文

Yifei Wei,Linqing Zhong,Yi Liu,Yuxiang Lu,Xindong He,Maoqing Yao,Guanghui Ren

Beihang UniversityAgiBotVLArobotic manipulationmultimodal grounding2026年4月27日arXiv PDF

arXiv

Beyond Accuracy: Benchmarking Cross-Task Consistency in Unified Multimodal Models

现有的统一多模态模型（uMMs）评估协议独立测试视觉理解和生成能力，无法衡量这两种能力在语义上是否一致。

评关注多模态统一模型（如 Chameleon/Show-o）理解与生成能力一致性的 benchmark，对评估 native multimodal 预训练有一定参考价值，作为 literature 备查。

Weixing Wang,Liudvikas Zekas,Anton Hackl,Constantin Alexander Auga,Parisa Shahabinejad,Jona Otholt,Antonio Rueda-Toicen,Gerard de Melo

Hasso Plattner InstituteUniversity of PotsdamHasso Plattner Institute / University of PotsdamUnified Multimodal ModelsCross-Task ConsistencyBenchmark2026年4月27日arXiv PDF

arXiv

M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering

现有的 VQA 数据集侧重于粗粒度类别和单实体的简单推理，无法有效评估多模态大语言模型（MLLMs）在细粒度多模态实体理解和复杂多跳推理上的能力。

评一个侧重多实体、多跳推理的 VQA benchmark，主要测试 MLLM 的复杂推理和 RAG 能力，作为评测集备查即可。

Jiatong Ma,Longteng Guo,Yuchen Liu,Zijia Zhao,Dongze Hao,Xuanxu Lin,Jing Liu

Chinese Academy of SciencesUniversity of Chinese Academy of SciencesVQABenchmarkMultimodal LLMs2026年4月28日arXiv PDF

arXiv

When the Forger Is the Judge: GPT-Image-2 Cannot Recognize Its Own Faked Documents

GPT-Image-2生成的伪造文档缺乏公开评测数据集，且其自检测能力未被系统性验证

评仅作多模态生成安全性的背景参考，看摘要和实验表格即可，无需读正文

Jiaqi Wu,Yuchen Zhou,Dennis Tsang Ng,Xingyu Shen,Kidus Zewde,Ankit Raj,Tommy Duong,Simiao Ren

OpenAIGPT-Image-2multimodal safetyforgery detection2026年4月28日arXiv PDF

arXiv

Combating Visual Neglect and Semantic Drift in Large Multimodal Models for Enhanced Cross-Modal Retrieval

改进大多模态模型在跨模态检索中的细粒度对齐，缓解模型忽略视觉区域、过度依赖文本线索的问题。

评只看 saliency supervision 的构造即可；它提醒检索 embedding 的视觉忽略问题，但不是基座训练范式变化。

Guosheng Zhang,Linkai Liu,Keyao Wang,Haixiao Yue,Zhiwen Tan,Xiao Tan

Baidu Imultimodal-retrievalvisual-neglectsubject-aware-alignment2026年4月28日arXiv PDF

arXiv

Instruction-Evidence Contrastive Dual-Stream Decoding for Grounded Vision-Language Reasoning

解决 VLM 在指令跟随时语言先验过强、输出流畅但缺乏视觉证据支撑的问题。

评这是典型 decoding patch，不会改写 pretrain prior；若你做 VLM 对齐，只看双流门控和 grounding 指标定义即可。

Yashwant Pravinrao Bangde,Debaditya Roy

Indian Institute of Technology KharagpurVLMgroundingdecoding2026年4月28日arXiv PDF

arXiv

Assessing Y-Axis Influence: Bias in Multimodal Language Models on Chart-to-Table Translation

现有公开图表数据集的Y轴信息分布不平衡，导致多模态大模型在图表转表格任务上存在未被系统研究的Y轴相关偏见

评多模态图表理解的细分场景偏见分析，仅作为文献备查，无需读正文

Seok Hwan Song,Azher Ahmed Efat,Wallapak Tavanapong

Iowa State Universitymultimodal biaschart understandingVLM evaluation2026年4月27日arXiv PDF

arXiv

DualFact+: A Multimodal Fact Verification Framework for Procedural Video Understanding

评估程序性视频 caption 的事实一致性，尤其是模型是否漏掉关键动作、工具、食材、地点，以及这些角色是否和视频证据对齐。

评对预训练不直接，但做视频-文本对齐数据清洗时可借鉴事实分解；看框架定义和相关性实验即可。

Cennet Oguz,Yasser Hamidullah,Josef van Genabith,Simon Ostermann

German Research Center for Artificial Intelligence (DFKI)multimodal-evaluationvideo-understandingfactuality2026年4月28日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXiv泛读

ViPO: Visual Preference Optimization at Scale

这篇工作要解决的不是“怎么再做一个视觉偏好优化算法”，而是一个更具体的扩展性问题：当偏好数据规模变大时，为什么现有 Diffusion-DPO 一类离线偏好学习方法并没有稳定变好，甚至会很快饱和。全文给出的答案是，现有开源视觉偏好数据里存在大量冲突型偏好样本：胜者图像可能在审美上更好，但在文本对齐、结构完整性、细节保真等维度更差。DPO 把这类二元偏好当成单一、干净、可传递的监督信号来学，会把互相矛盾的梯度混在一起，结果是随着数据增加，模型并没有学到更清晰的偏好边界。作者进一步指出，问题不只在算法，也在数据：旧数据集分辨率低、prompt 覆盖窄、类别分布不平衡，而且很多样本来自较早期生成模型，偏好信号本身就不够稳定。

评重点看Poly-DPO的损失设计思路，可迁移到文本LLM的噪声偏好对齐场景，读§3损失设计即可

Ming Li,Jie Wu,Justin Cui,Xiaojie Li,Rui Wang,Chen Chen

ByteDance SeedUCLAUniversity of Centralvisual preference optimizationDPOlarge-scale dataset2026年4月27日arXiv PDF

arXiv泛读

The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents

这篇工作要解决的不是“如何把扩散模型做得更大”，而是一个更具体的问题：扩散式文生图模型在复杂文本约束下，往往缺少类似语言模型那种可递归、可分步的内部推理过程，因此对结构布局、对象关系和细粒度文本跟随的处理不稳定。作者关注的是 joint attention 这一层里视觉 token 与文本 token 对齐的关键位置，试图让模型在一次去噪步内部再做多次轻量递归更新，而不是只靠单次前向把跨模态对齐一次性做完。难点在于视觉 latent 是连续表示，不像离散文本 token 那样容易做显式 reasoning；如果直接堆更多层或更多 denoising steps，计算代价又很高，且不一定把额外算力用在真正需要推敲的局部结构上。

评值得扫方法图和 ablation；若递归步数带来真实组合泛化，而非只加算力，这是视觉 latent reasoning 的有用信号。

Yuwei Sun,Yuxuan Yao,Hui Li,Siyu Zhu

Shanghai Academy of AI for ScienceFudan Universitydiffusion-modelslatent-reasoningsparse-MoE2026年4月28日arXiv PDF

arXiv泛读

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

统一多模态模型（UMM）做 T2I 生成时，如何把“初次生成的图”进一步提升到更高的 prompt 对齐上限。论文指出主流的“先理解差异→生成编辑指令→局部编辑”(RvE) 会被两类约束卡住：编辑指令对 mismatch 的描述天然粗糙且不完备；编辑任务要求未编辑区域像素级保持，导致可修改空间过小，难以做结构性修正（多物体、关系、布局类 prompt 尤其明显）。

评只看方法和失败案例即可；它提醒 UMM 生成闭环里，过强 preservation 约束会限制纠错空间。

Jiayi Guo,Linqing Wang,Jiangshan Wang,Yang Yue,Zeyu Liu,Zhiyuan Zhao,Qinglin Lu,Gao Huang,Chunyu Wang

Tsinghua Universityunified-multimodal-modelstext-to-imageimage-refinement2026年4月28日arXiv PDF

arXiv泛读

Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

解决原生音视频联合生成的三个核心问题：跨模态联合训练优化难度高、自回归流式生成采样速度慢、训练推理不一致。现有方法要么局限于窄域数据集，要么需要多阶段蒸馏从双向模型转换为因果生成器。

评值得看的是它拒绝“先双向再蒸馏”的老路，直接在原生因果多模态 AR 里做 fast generation；先查训练-推理一致性 ablation，若成立可迁到语音/视频 token LM。

Yupeng Zhou,Lianghua Huang,Zhifan Wu,Jiabao Wang,Yupeng Shi,Biao Jiang,Daquan Zhou,Yu Liu,Ming-Ming Cheng,Qibin Hou

Nankai UniversityPeking UniversityTongyi Lab+1audio-video-generationautoregressiveself-distillation2026年4月28日arXiv PDF

arXiv

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

解决非 Indic 原生的冻结 TTS 基座在 Telugu、Tamil、Hindi 上无法直接建模脚本与口音的问题，目标是在不重训声学解码器、且不使用商业训练数据的前提下逼近商用品质。

评只建议做语音 tokenizer/跨语言 TTS 的人扫一眼；思路是“先修表示再做最小适配”，但实验像 recipe note，多看方法少信 headline。

Venkata Pushpak Teja Menta

(ElevenLabsTTSspeech-tokenizationcross-lingual-adaptation2026年4月28日arXiv PDF

arXiv

VibeToken: Scaling 1D Image Tokenizers and Autoregressive Models for Dynamic Resolution Generations

让 AR 图像生成在分辨率/长宽比上“动态可变”，并通过更短 token 序列降低高分辨率生成的计算与序列长度瓶颈。

评只看 tokenizer 设计与“64 tokens@1024²”的压缩比是否靠强先验偷容量；若想做统一多模态 tokenization，这篇可当一个激进 baseline。

Maitreya Patel,Jingtao Li,Weiming Zhuang,Yezhou Yang,Lingjuan Lv

Arizona State Universityimage-tokenizerautoregressivedynamic-resolution2026年4月27日arXiv PDF

arXiv

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

现有扩散模型DPO训练将多维度人类视觉偏好压缩为二元标签，产生严重标签噪声与冲突梯度，误导模型训练

评仅可作为DPO处理标签噪声思路的补充参考，无需读正文

Xinxin Liu,Ming Li,Zonglin Lyu,Yuzhang Shang,Chen Chen

University of CentralDPOdiffusion generationpreference optimization2026年4月27日arXiv PDF

arXiv

Golden RPG: Confidence-Adaptive Region-Aware Noise for Compositional Text-to-Image Generation

解决组合式文本到图像生成中，多区域、多实体 prompt 难以被同一个全局起始噪声充分表达的问题。

评只看方法图即可；它说明 diffusion 初始噪声可被区域化控制，但离统一预训练范式还有距离。

Hao Li

text-to-imagediffusioncompositional-generation2026年4月28日arXiv PDF

arXiv

Benchmarking Layout-Guided Diffusion Models through Unified Semantic-Spatial Evaluation in Closed and Open Settings

评估 layout-guided text-to-image diffusion 模型时，现有指标难以同时衡量文本语义对齐和空间布局一致性，且细粒度标注成本较高。

评这是生成评测工具，不会改变预训练判断；若关心图像 token 或统一生成评估，看指标定义即可。

Luca Parolari,Nicla Faccioli,Lamberto Ballan

University of Padotext-to-imagediffusion-evaluationlayout-guidance2026年4月28日arXiv PDF

arXiv

HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation

视频生成模型中人体动作质量很关键，但现有视频指标偏向全局场景统计，不能细致评估人体结构、姿态和运动稳定性。

评对基座训练只提供评测侧弱信号；看相关性实验即可，方法本身偏人物视频生成质检。

Bingzi Zhang,Kaisi Guan,Ruihua Song

Renmin University ofvideo-generationhuman-motionevaluation2026年4月28日arXiv PDF

arXiv

A Systematic Post-Train Framework for Video Generation

解决视频扩散模型从预训练能力到真实产品可用性之间的落差，重点是提示词敏感、时间不一致和推理成本高。

评作为视频生成 post-train pipeline 备查即可；重点看 RLHF/GRPO 奖励定义，别把系统拼装误读成建模突破。

Zeyue Xue,Siming Fu,Jie Huang,Shuai Lu,Haoran Li,Yijun Liu ... 省略 2 位作者 ... ,Mengzhao Chen,Haoyang Huang,Nan Duan,Ping Luo

Tsinghua UniversityPeking UniversityZhejiang University+1video-generationdiffusion-modelsRLHF2026年4月28日arXiv PDF

arXiv

DDA-Thinker: Decoupled Dual-Atomic Reinforcement Learning for Reasoning-Driven Image Editing

解决图像编辑模型在需要复杂推理和计划时，最终图像质量高但编辑步骤不可靠、难以归因的问题。

评可扫方法图和奖励定义；Thinker/Editor 解耦有用，但 checklist 奖励若不干净，结论只能当弱信号。

Hanqing Yang,Qiang Zhou,Yongchao Du,Sashuai Zhou,Zhibin Wang,Jun Song,Tiezheng Ge,Cheng Yu,Bo Zheng

Zhejiang UniversitySashuai Zhou is also with Zhejiang Universityimage-editingreinforcement-learningmultimodal-reasoning2026年4月28日arXiv PDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv精读

When Errors Can Be Beneficial: A Categorization of Imperfect Rewards for Policy Gradient

评应立刻读理论分类；它会改变 reward 评估只看 ranking accuracy 的习惯，尤其适合检查 RLVR reward 设计。

Shuning Shang,Hubert Strauss,Stanley Wei,Sanjeev Arora,Noam Razin

Princeton Language and IntelligencePrinceton Universityrlhfpolicy-gradientreward-modeling2026年4月28日arXiv PDF

arXiv精读

How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum

评这篇不是在讲更强 RL，而是在改写“冷启动为什么卡住”的目标函数视角；先看理论部分和 q=0/1 的逃逸时间，若推导站得住，内部 RLVR loss 该立刻加这条 ablation。

Chu-Cheng Lin,Eugene Ie

RLVRTsallis lossreasoning2026年4月28日arXiv PDF

arXiv泛读

Faithful Autoformalization via Roundtrip Verification and Repair

这篇工作处理的是 autoformalization 里一个长期缺位的问题：模型把自然语言翻成形式逻辑后，怎样在没有人工 gold formalization 的前提下判断“语义是否忠实”，以及一旦不忠实，错误究竟出在 formalize、back-translate 还是 re-formalize 哪一段。现有评估多看语法合法、可执行、或下游任务是否跑通，但这些都不能直接回答语义保真。作者提出的 roundtrip verification 把“原始形式化结果”和“回译再形式化结果”做语义等价检查，用可判定的 formal tool 给出一个弱监督验证信号；若不等价，再做 stage-level diagnosis 和 scoped repair，而不是整条链路重生一遍。

评把“可验证等价”做成无标注训练信号很干净；只看 roundtrip+diagnosis 流程与等价率提升，适合拿来做 autoformalization 数据过滤/自举。

Daneshvar Amrollahi,Jerry Lopez,Clark Barrett

Stanford University†Stanford Universityautoformalizationverificationroundtrip-consistency2026年4月27日arXiv PDF

arXiv泛读

Evaluating Risks in Weak-to-Strong Alignment: A Bias-Variance Perspective

这篇论文关注 weak-to-strong alignment 的失效诊断：当弱监督模型在某些样本区域不确定或有盲区时，强模型可能学到一个表面更自信、但实际错误的策略。论文试图用偏差、方差、协方差分解来解释这类风险，而不是只看整体准确率或弱强模型是否一致。

评用 bias-variance 拆解 weak-to-strong alignment 的 failure mode，理论框架比较干净，对做 scalable supervision 的同学有启发，重点看 risk bound 的推导和 blind-spot deception metric。

Hamid Osooli,Kareema Batool,Rick Gentry,Tiasa Singha Roy,Ashwin Gupta,Anirudha Ramesh

University of Illinois Urbana-ChampaignNew York Universityweak-to-strong alignmentscalable supervisionbias-variance tradeoff2026年4月28日arXiv PDF

arXiv泛读

From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models

这篇工作要解决的问题不是“如何做更好的可解释性分析”，而是更进一步：怎样把机制可解释性里识别出的内部特征，真正转成可执行的训练决策，尤其是数据选择。作者关注的是一个常见断层：SAE、feature steering、causal tracing 这类方法能告诉我们模型里“有什么机制”，但很少告诉我们“接下来该拿哪些数据去强化这些机制”。IGDS试图把这一步补上：先找出与目标任务表现存在因果关系的内部特征，再用这些特征给候选训练样本打分，挑出能强激活这些特征的‘Feature-Resonant Data’做SFT，从而在更少数据下得到更好的任务提升。

评把 SAE 找出来的 feature 用来做 SFT data selection，思路很直觉但 work 得很好（50% 数据超越 full data），是 interpretability 走向 practical utility 的好尝试，值得一看。

Ling Shi,Xinwei Wu,Xiaohu Zhao,Hao Wang,Heng Liu,Yangyang Liu,Linlong Xu,Longyue Wang,Deyi Xiong,Weihua Luo

Tianjin UniversityTencentMechanistic InterpretabilitySparse Autoencoders (SAEs)Data Selection2026年4月28日arXiv PDF

arXiv泛读

JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR

这篇工作处理的是 label-free RLVR 里的一个核心矛盾：不用人工答案标签，训练成本会低很多，但如果奖励来自多数投票或 LLM judge，就容易把‘看起来一致’误当成‘真的正确’，从而产生假阳性奖励，最后把策略往错误方向推。作者要解决的不是一般意义上的RL稳定性，而是 machine-checkable 任务中，怎样在没有 ground-truth label 的情况下，同时满足三件事：可扩展、与真实正确性对齐、训练时梯度不塌。

评奖励信号设计比算法名更值得看；只读 Lean verifier gate 和 ResZero，内部 RLVR 可做小规模复现。

Xinjie Chen,Biao Fu,Jing Wu,Guoxin Chen,Xinggao Liu,Dayiheng Liu,Minpeng Liao

RLVRlabel-free-rewardformal-verification2026年4月28日arXiv PDF

arXiv泛读

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

领域语料微调/持续补数通常是开环：评测发现模型缺陷，但无法定位到训练数据哪里缺、该补什么。论文要解决的是：让“训练数据构造”和“评测”共享同一套可追踪的知识表示，从而把数据工程变成可迭代修复的闭环流程。

评值得看的是它把“数据配方可调试”说成了工程闭环；先读失败分解和 data repair 部分，若实验只停留在小域任务，就把它当 continual pretrain 的流程灵感而非结论。

Chenkai Pan,Xinglong Xu,Yuhang Xu,Yujun Wu,Siyuan Li,Jintao Chen,Conghui He,Jingxuan Wei,Cheng Tan

Zhejiang UniversityUniversity of Chinese Academy of SciencesShanghai Artificial Intelligence Laboratory+2data-engineeringcontinual-pretrainingdomain-adaptation2026年4月27日arXiv PDF

arXiv泛读

Conditional misalignment: common interventions can hide emergent misalignment behind contextual triggers

这篇论文研究一个评测盲区：混入良性数据、事后对齐训练、inoculation prompt 这类常见干预，可以让模型在标准 emergent misalignment 评测上看起来正常，但失配行为仍会被训练上下文相似的提示触发。

评读实验设计和 prompt 变体即可；它提醒安全 eval 容易测到“去触发”而不是“去错位”。

Jan Dubiński,Jan Betley,Anna Sztyber-Betley,Daniel Tan,Owain Evans

Warsaw University of TechnologyNASK National Research InstituteUniversity College+1alignmentfinetuningemergent-misalignment2026年4月28日arXiv PDF

arXiv泛读

Evaluation without Generation: Non-Generative Assessment of Harmful Model Specialization with Applications to CSAM

论文研究一个很实际的安全评估问题：在不能生成样本、甚至法律上不允许尝试生成样本的场景下，如何判断一个上传的 LoRA 是否把生成模型专门化到了 NSFW 或 CSAM 等有害内容方向。

评这篇不改 pretrain 范式，但它在提醒一件事：LoRA 改变能力可先看表征再看输出；先读方法和消融，若跨模型稳，再考虑纳入内部审计工具链。

Vinith M. Suriyakumar,Ayush Sekhari,Lena Stempfle,Robertson Wang,Michael Simpson,Rebecca Portnoff,Marzyeh Ghassemi,Ashia C. Wilson

model-auditinglorarepresentation-probing2026年4月28日arXiv PDF

arXiv泛读

What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

这篇工作问的是：什么样的 instruction-tuning 数据才是真正“有用”的，尤其是在数据预算受限时，怎样从大量指令样本里挑出最能提升 instruction following 的子集。作者不再只看样本本身的难度、困惑度或 reward 分数，而是从 in-context learning 角度定义样本价值：一个候选样本如果作为 demonstration，能稳定降低一批语义相关、且有一定挑战性的 probe 样本的 instruction-following difficulty，那么它更可能是高质量的 instruction-tuning 数据。

评把“好SFT样本”落到可算的 in-context 影响力上，比常见困惑度/难度筛选更贴近训练目标；重点看相关性分析与预算曲线，结论偏经验但可复现。

Guangzeng Han,Xiaolei Huang

University of Memphisinstruction-tuningdata-selectionin-context-learning2026年4月28日arXiv PDF

arXiv泛读

Intrinsic Mutual Information as a Modulator for Preference Optimization

在离线偏好优化（DPO/IPO/KTO/SimPO）里，性能对超参（尤其是 margin/温度类超参）很敏感，导致需要反复调参。论文试图用一种“实例级自适应”的方式，减少或替代人工调参，同时保持训练开销接近原方法。

评DPO的轻量增量改进，无范式突破，仅看§3方法部分和实验结果表即可

Peng Liao,Peijia Zheng,Lingbo Li,Shangsong Liang,Lin Chen

Sun Yat-sen UniversityUniversity of WarwickMacao Polytechnic UniversityDPOpreference optimizationLLM alignment2026年4月27日arXiv PDF

arXiv泛读

Compute Aligned Training: Optimizing for Test Time Inference

标准预训练和后训练（SFT/RL）目标优化的是单个样本的似然，这与测试时依赖聚合或过滤输出（如 Pass@N、多数投票、Best-of-N）的推理策略不一致，导致模型在测试时扩展计算（test-time scaling）时表现次优。

评训练与测试对齐的思路可复用至预训练目标设计，重点看§3损失函数推导部分即可。

Adam Ousherovitch,Ambuj Tewari

University ofpost-trainingSFTreinforcement-learning2026年4月27日arXiv PDF

arXiv

One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement

很多 LLM 的推理能力并非不存在，而是用户原始问题与模型更易激活的结构化推理输入之间存在分布错配；这篇工作试图在推理时自动改写问题来激活能力。

评把它当成“外置 CoT 诱导器”来看就行；若实验真能跨模型复用，会影响 post-train 接口设计，但对 pretrain 的启发目前还偏间接。

Yixiao Zhou,Dongzhou Cheng,zhiliang wu,Yi Yang,Yu Cheng,Hehe Fan

Zhejiang UniversityShanghai Innovation InstituteSoutheast University+1query-refinementreinforcement-learningreasoning-elicitation2026年4月28日arXiv PDF

arXiv

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

定制化政策/合规 guardrails 需要高质量标注数据，但人工标注昂贵；如何仅用任务描述+少量无标注样本生成可信的合成训练集。

评把“合成安全数据”做成可操作流程（维度覆盖+辩论验标）是亮点，但最怕评测泄漏与自洽性幻觉；只看数据生成细节与人工抽检/对照实验是否扎实。

Arnon Mazza,Elad Levi

synthetic-dataguardrailsdebate2026年4月28日arXiv PDF

arXiv

Bye Bye Perspective API: Lessons for Measurement Infrastructure in NLP, CSS and LLM Evaluation

讨论 Perspective API 将在 2026 年关闭后，NLP、CSS 和 LLM 毒性评测长期依赖单一闭源测量工具所暴露的可复现性和概念有效性问题。

评不影响预训练配方，但会影响 safety eval 的可信度；若还在用闭源毒性分数，看问题清单即可。

David Hartmann,Manuel Tonneau,Angelie Kraft,LK Seiling,Dimitri Staufer,Pieter Delobelle,Jan Fillies,Anna Ricarda Luther,Jan Batzner,Mareike Lisker

Weizenbaum InstituteUniversity ofKU Leuven+7toxicity-evaluationmeasurement-infrastructurereproducibility2026年4月28日arXiv PDF

arXiv

LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

解决跨领域、跨长度文档摘要中，自动评测指标与人类判断不一致，以及如何用评测信号反哺摘要生成的问题。

评和预训练关系不大，但做 evaluator 或 synthetic data pipeline 的人可看 meta-eval 部分；方法本身偏套闭环，读结果表就够了。

Huyen Nguyen,Haoxuan Zhang,Yang Zhang,Junhua Ding,Haihua Chen

University of Northsummarizationllm-as-a-judgemeta-evaluation2026年4月28日arXiv PDF

arXiv

Cross-Lingual Jailbreak Detection via Semantic Codebooks

解决 LLM 安全防护过度依赖英语、导致跨语言 jailbreak 容易绕过的问题，尤其是在黑盒部署场景下如何做无需训练的外部防护。

评安全方向里少见的有点实话：模板化 benchmark 上看着能迁移，开放分布就掉；别把这类 guardrail 结果直接当 multilingual safety 已解决。

Shirin Alanova,Bogdan Minko,Sabrina Sadiekh,Evgeniy Kokuykin

AI Talent HubITMO UniversityHiveTraceLabjailbreak-detectionmultilingual-safetysemantic-similarity2026年4月28日arXiv PDF

arXiv

Three Models of RLHF Annotation: Extension, Evidence, and Authority

澄清 RLHF 标注员判断在对齐流程中的规范性角色：他们是在扩展设计者偏好、提供事实证据，还是拥有独立决定权。

评不是算法文，但做 RLHF 数据管线的人该知道这套分类；读完会更警惕 reward signal 里把偏好、事实和代表性混成一锅的老毛病。

Steve Coyne

University ofrlhfalignmentannotation2026年4月28日arXiv PDF

arXiv

Adaptive Prompt Embedding Optimization for LLM Jailbreaking

现有白盒LLM越狱攻击依赖添加离散对抗后缀，易被检测，此前认为直接优化原始prompt embedding会破坏语义

评LLM安全对齐的反常识攻击方法，仅看摘要和实验结果即可，无需复现

Miles Q. Li,Benjamin C. M. Fung,Boyang Li,Radin Hamidi Rad,Ebrahim Bagheri

Mila - Quebec AI InstituteMcGill UniversityUniversity of+1jailbreak attackprompt optimizationLLM safety2026年4月27日arXiv PDF

arXiv

Sparse Personalized Text Generation with Multi-Trajectory Reasoning

现有LLM个性化方法依赖稠密用户交互历史，冷启动场景下效果差，外部异构用户信号噪声大难以有效利用

评LLM个性化冷启动的增量方法，仅看方法部分即可，无通用预训练相关insight

Bo Ni,Haowei Fu,Qinwen Ge,Franck Dernoncourt,Samyadeep Basu,Nedim Lipka ... 省略 3 位作者 ... ,Subhojyoti Mukherjee,Puneet Mathur,Ryan A. Rossi,Tyler Derr

LLM personalizationcold startreinforcement learning2026年4月27日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv精读

Why Does Reinforcement Learning Generalize? A Feature-Level Mechanistic Study of Post-Training in Large Language Models

评这篇会改变你看 post-train 的粒度：别只盯 reward 和 benchmark，先复现它的同底模同数据对照，看 RL 是否真的比 SFT 更少写坏 base features。

Dan Shi,Zhuowen Han,Simon Ostermann,Renren Jin,Josef van Genabith,Deyi Xiong

Tianjin UniversityGerman Research Center for Artificial Intelligence (DFKI)Saarland Universityrl-post-trainingmechanistic-interpretabilityfeature-evolution2026年4月27日arXiv PDF

arXiv精读

Barriers to Universal Reasoning With Transformers (And How to Overcome Them)

评这篇会直接修正“CoT=可学算法推理”的乐观 prior；先读限制条件和两类障碍，再看 signpost token 构造，值得拿去对照你自己的 length-generalization 失败案例。

Oliver Kraus,Yash Sarrof,Yuekun Yao,Alexander Koller,Michael Hahn

Saarland UniversityOhio State Universitylength-generalizationchain-of-thoughttransformer-theory2026年4月28日arXiv PDF

arXiv泛读

Subliminal Steering: Stronger Encoding of Hidden Signals

研究“subliminal learning（潜意识学习）”里一个更强、更可控的信号注入方式：当学生模型只在看似无关的教师生成数据上做微调时，究竟能转移多复杂的偏置信号、转移的机制是什么、以及这种信号能被数据以多高精度编码与恢复。

评这篇会改变你对合成数据“表面无害即可安全”的 prior；先看方法设定和机制证据，若 setup 干净，蒸馏与数据过滤策略都该重审。

George Morgulis,John Hewitt

Columbia Universitysynthetic-databehavior-transfermechanistic-interpretability2026年4月28日arXiv PDF

arXiv泛读

Training Transformers as a Universal Computer

这篇论文问的是：Transformer 不只是理论上能用 CoT 模拟通用计算，是否真的能通过 next-token training 学会一个通用语言解释器。作者用一个简化但计算完备的语言 MicroPy，把问题转成学习小步执行轨迹。

评探讨 Transformer 作为通用计算机的潜力，通过训练其预测小步执行来实现图灵完备语言的解释，证明了某种程度的 OOD 泛化能力，对理解模型推理机制和 CoT 的本质有理论启发。

Ruize Xu,Chenxiao Yang,Yanhong Li,David McAllester

The University ofToyota Technological Institute atAllen Institute for AITransformer computational powerUniversal computationOOD generalization2026年4月28日arXiv PDF

arXiv泛读

Architecture Determines Observability in Transformers

这篇论文研究的是一个很具体但常被混淆的问题：Transformer 内部是否保留了“输出置信度之外”的错误信号，使得外部监控器可以从中间层激活读出 token 级决策质量。作者把这个性质定义为 observability，并指出很多以往 probe 结果其实主要在读 softmax confidence 的影子，而不是独立的内部可监控信号。论文真正要回答的是：这种可观测性是不是 Transformer 的普遍属性，还是由架构配置和训练过程决定的。

评读定义和 Pythia 对照实验；若结果站得住，内部 probe 评测必须加 confidence/norm 控制。

Thomas Carmichael

Independent Researcherinterpretabilityactivation-probingtransformer-architecture2026年4月27日arXiv PDF

arXiv泛读

Gradient-Direction Sensitivity Reveals Linear-Centroid Coupling Hidden by Optimizer Trajectories

在机制可解释性研究中，常用的基于优化器更新轨迹的低秩诊断方法（如对 AdamW 更新进行 SVD）能否真实反映特征形成的参数空间方向？

评对理解优化器行为和特征学习机制有启发，建议关注基于梯度的 SVD 分析方法在多任务场景下的有效性。

Yongzhong Xu

Optimizer DynamicsFeature LearningLinear Centroid Hypothesis2026年4月28日arXiv PDF

arXiv泛读

Transformer Approximations from ReLUs

现有softmax注意力Transformer的通用逼近理论仅针对宽泛函数类给出宽松资源边界，缺乏针对特定目标函数的紧凑资源开销量化结果，缺少具体目标导向的构造性逼近理论。

评别指望它告诉你怎么训更强模型，但它把“注意力能算什么”从口嗨变成可搬运的构造工具；只看乘法/倒数那几页就够。

Jerry Yao-Chieh Hu,Mingcheng Lu,Yi-Chen Lee,Han Liu

Northwestern UniversityNational Taiwan Universitytransformer-theorysoftmax-attentionfunction-approximation2026年4月27日arXiv PDF

arXiv泛读

Investigation into In-Context Learning Capabilities of Transformers

现有Transformer上下文学习（ICL）的理论研究多聚焦线性分类的实现条件，缺乏高斯混合二分类任务下ICL性能随输入维度、上下文示例数、预训练任务数的经验缩放规律刻画，且线性注意力下的结论是否适用于全结构Transformer尚不明确。

评只看实验设定和 scaling 曲线；合成任务离 LLM 较远，但能校准 ICL 需要多少任务多样性。

Rushil Chandrupatla,Leo Bangayan,Sebastian Leng,Arya Mazumdar

in-context-learningmechanistic-analysissynthetic-tasks2026年4月28日arXiv PDF

arXiv

Large Language Models Explore by Latent Distilling

标准随机采样常只带来词面变化，难以在测试时扩展中产生语义上真正不同的候选解。

评只看 novelty score 的定义和消融即可；它更像解码 heuristic，不会改变预训练目标的 prior。

Yuanhao Zeng,Ao Lu,Lufei Li,Zheng Zhang,Yexin Li,Kan Ren

decodingtest-time-scalingsemantic-diversity2026年4月27日arXiv PDF

arXiv

Independent-Component-Based Encoding Models of Brain Activity During Story Comprehension

传统 voxelwise fMRI encoding model 容易受测量噪声、被试差异和空间相关冗余影响，难以干净地分析故事理解时语言表征与脑活动的对应关系。

评可作为 LLM 表征-脑活动对齐的分析备查；IC trick 有用，但对预训练动作的牵引很弱。

Kamya Hari,Taha Binhuraib,Jin Li,Cory Shain,Anna A. Ivanova

Georgia Institute of TechnologyStanford Universityinterpretabilitybrain-encodingfMRI2026年4月27日arXiv PDF

arXiv

LongSumEval: Question-Answering Based Evaluation and Feedback-Driven Refinement for Long Document Summarization

长文档摘要的自动评测与可操作反馈长期不可靠：指标与人评相关性弱，且不给出可用于改写的缺陷定位。

评把长摘要评测做成“可回答 QA + 事实对齐”是对 reward/critic 设计的可用模板；只看评测相关性结果与反馈格式，别指望有 pretrain 结论。

Huyen Nguyen,Haoxuan Zhang,Yang Zhang,Haihua Chen,Junhua Ding

University of Northprimary bottleneck in summarization research. Existing metricsmentsummarization-evalqa-based-metricsfactuality2026年4月28日arXiv PDF

arXiv

Below-Chance Blindness: Prompted Underperformance in Small LLMs Produces Positional Bias Rather than Answer Avoidance

检验小型指令模型在被提示“故意考差”时，是否会出现低于随机水平的表现，从而可作为 sandbagging 的可检测信号。

评可作为 eval 负例备查：结论不改 pretrain 方向，但提醒 sandbagging 指标很容易测到选项位置偏置。

Jon-Paul Cacioli

Independent Researchersandbaggingevaluationpositional-bias2026年4月28日arXiv PDF

arXiv

Do LLMs Capture Embodied Cognition and Cultural Variation? Cross-Linguistic Evidence from Demonstratives

检验 LLM 是否真正从文本中学到具身认知与文化差异，具体用指示词 this/that、这/那的跨语言理解作为探针。

评不是预训练方法论文，但 probe 设计挺干净；看人类基线和模型失配那几张表就够，用来提醒自己“文本共现不等于学到指称机制”。

Yu Wang,Emmanuele Chersoni,Chu-Ren Huang

The Hong Kong Polytechnic Universityembodied-cognitioncross-lingualcultural-variation2026年4月28日arXiv PDF

arXiv

The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive

研究不同前沿 LLM 输出的 token rank-frequency 分布是否存在可复用的统计规律，并据此构造极低延迟的实时验证原语。

评像一篇有趣的输出统计学短文，不足以改训练决策；看 abstract 和分布拟合结果就够，先别把它当成模型机理结论。

Alex Bogdan,Adrian de Valois-Franklin

output-statisticsmandelbrot-lawverification2026年4月28日arXiv PDF

arXiv

Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity

解决闭源 LLM 参数规模不可见的问题，尝试用“事实知识容量”而非推理成本来反推模型参数量。

评想法有趣，但先别把它当硬结论；只看 benchmark 设计和误差分布，重点质疑“知识不可压缩”这个前提在蒸馏、MoE、RAG 时代还能站多久。

Bojie Li

black-box-probingscalingfactual-knowledge2026年4月27日arXiv PDF

arXiv

Assistants, Not Architects: The Role of LLMs in Networked Systems Design

评估 LLM 是否能可靠完成网络系统架构设计中的约束推理、配置选择和多目标权衡。

评作为复杂约束推理的负例备查即可；若有案例表格，读失败模式，不必期待通用 agent 方法。

Pratyush Sahu,Rahul Bothra,Venkat Arun,Brighten Godfrey,Akshay Narayan,Ahmed Saeed

Brown UniversityLLM-reasoningsystems-designconstraint-reasoning2026年4月28日arXiv PDF

arXiv

Verification of Neural Networks (Lecture Notes)

系统介绍如何从形式化和算法角度验证神经网络，包括前馈网络、循环网络、注意力机制和 Transformer。

评适合作为 verification 背景材料；预训练研究只需扫 Transformer 验证部分，别期待训练 insight。

Benedikt Bollig

neural-network-verificationformal-methodstransformers2026年4月28日arXiv PDF

arXiv

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

研究在多步训练中，学生模型是否会通过只蒸馏非类别 logits 仍然继承教师模型的隐藏 trait，以及这种现象是否由持续的梯度对齐驱动。

评toy setup 不足以改 LLM 蒸馏策略，但梯度对齐曲线值得扫一眼，像是隐藏 trait 泄漏的最小模型。

Chayanon Kitkana,Shivam Arora

Equivariant Labssubliminal-learningdistillationgradient-alignment2026年4月28日arXiv PDF

arXiv

Prior-Aligned Data Cleaning for Tabular Foundation Models

表格基础模型（TFM）的 in-context 机制对“近似干净输入”有隐含先验，真实脏数据（缺失/异常/重复）导致先验失配，从而同时损害准确率与校准；如何用可学习的方式把清洗过程对齐到模型先验。

评把“清洗”讲成“先验失配+序列决策”这点有意思，但实验与度量细节在摘要里不够干净；只建议看 reward 设计与校准联动的结论。

Laure Berti-Equille

IRDESPACE-DEVtabular-foundation-modelsdata-cleaningreinforcement-learning2026年4月28日arXiv PDF

arXiv

Emergent Self-Attention from Astrocyte-Gated Associative Memory Dynamics

现有Hopfield联想记忆在高记忆负载和干扰场景下检索精度低，且缺乏自注意力计算的生物动力学解释

评生物启发的自注意力动力学实现，仅作为架构创新的弱参考，不需要读正文

Arnau Vivet,Alex Arenas

Complexity Science HubUniversitat Rovira i VirgiliTarragonaself-attentionassociative memorydynamical systems2026年4月28日arXiv PDF

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

arXiv

SWE-QA: A Dataset and Benchmark for Complex Code Understanding

现有代码理解评测过于偏向局部片段，无法衡量真实软件开发中跨文件、跨实体、多跳代码理解能力。

评如果你做代码预训练或 repo-level agent，只看数据构造规则和错误类型就够了；benchmark 方向对，方法新意不多。

Laïla Elkoussy,Julien Perez

code-understandingbenchmarkrepository-level2026年4月27日arXiv PDF

arXiv

Frontier Coding Agents Can Now Implement an AlphaZero Self-Play Machine Learning Pipeline For Connect Four That Performs Comparably to an External Solver

现有AI能力基准无法提供递归自我改进的早期预警信号，缺乏衡量AI自主复现经典AI研究突破能力的评估方案。

评可了解当前编码Agent复现经典机器学习研究的能力边界，作为基座能力评估参考，无需读正文。

Joshua Sherwood,Ben Aybar,Benjamin Kaplan

University ofIndependent Researchercoding-agentbenchmarkai-research-capability2026年4月27日arXiv PDF

arXiv

SAFEdit: Does Multi-Agent Decomposition Resolve the Reliability Challenges of Instructed Code Editing?

提升 LLM 在 instructed code editing 中的可靠性，尤其是在需要通过可执行测试且避免无关代码改动的场景。

评只看失败抽象层和 EditBench 失败统计；多 Agent 分工合理，但更像推理编排，不是模型能力来源。

Noam Tarshish,Nofar Selouk,Daniel Hodisan,Bar Ezra Gafniel,Yuval Elovici,Asaf Shabtai,Eliya Nachmani

Ben-Gurion University of the NegevBen-Gurion University of the NegevBeer Shecode-editingcoding-agentmulti-agent2026年4月28日arXiv PDF

arXiv

RESTestBench: A Benchmark for Evaluating the Effectiveness of LLM-Generated REST API Test Cases from NL Requirements

评估 LLM 从自然语言需求生成 REST API 测试用例时，现有代码覆盖率和崩溃指标无法衡量测试是否验证了预期功能。

评作为代码测试 benchmark 备查即可；指标设计比模型结论有用，对预训练没有直接动作。

Leon Kogler,Stefan Hangler,Maximilian Ehrhart,Benedikt Dornauer,Roland Wuersching,Peter Schrammel

CASABLANCA hotelsoftware GmbHUniversity of InnsbruckTechnical University of+3code-agentsoftware-testingrest-api2026年4月28日arXiv PDF

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv泛读

Recursive Multi-Agent Systems

论文试图把 recursive language model 的“在 latent space 中反复计算”扩展到 multi-agent system，让多个异构 agent 通过连续隐状态递归协作，而不是依赖多轮文本交互。

评把“latent recursion”搬到多智能体并尝试端到端 credit assignment，这点值得看；但最怕实验没控住总算力/通信带宽，先只读训练算法与消融表。

Xiyuan Yang,Jiaru Zou,Rui Pan,Ruizhong Qiu,Pan Lu,Shizhe Diao ... 省略 2 位作者 ... ,Tong Zhang,Markus J. Buehler,Jingrui He,James Zou

UIUCStanford UniversityNVIDIA+1multi-agentrecursive-computationlatent-state2026年4月28日arXiv PDF

arXiv泛读

Benchmarking and Improving GUI Agents in High-Dynamic Environments

这篇工作讨论的是 GUI agent 在高动态界面中的部分可观测问题：如果 agent 每一步只看动作后的单张截图，那么很多关键状态变化会发生在两次截图之间并直接消失，导致决策依据缺失。

评值得看 benchmark 设计和失败案例；它提醒 GUI Agent 的观测建模比 RL 算法选择更容易成为瓶颈。

Enqi Liu,Liyuan Pan,Zhi Gao,Yan Yang,Chenrui Shi,Yang Liu,Jingrong Wu,Qing Li

GUI-agentbenchmarkpartial-observability2026年4月28日arXiv PDF

arXiv泛读

Toward Scalable Terminal Task Synthesis via Skill Graphs

这篇工作解决的是终端 agent 训练数据里一个比“任务数量不够”更具体的问题：已有自动合成方法虽然能扩任务数，但很难控制 agent 真正在轨迹中经历到的“场景多样性”和“技能组合多样性”。论文把终端执行过程抽象成“在一串中间场景上依次施用技能”，然后围绕这个抽象去做任务合成。目标不是再造更多表面不同的 task，而是系统地产生覆盖更广技能迁移路径、更少冗余、更适合采样训练轨迹的可执行任务实例。

评值得扫方法和数据分析；如果图采样真的提高轨迹覆盖，比常见 LLM 批量造题更接近可控 post-train 数据引擎。

Zhiyuan Fan,Tinghao Yu,Yuanjun Cai,Jiangtao Guan,Yun Yang,Dingxin Hu ... 省略 1 位作者 ... ,Xing Wu,Zhuo Han,Feng Zhang,Lilin Wang

terminal-agentssynthetic-dataskill-graph2026年4月28日arXiv PDF

arXiv

GAIA-v2-LILT: Multilingual Adaptation of Agent Benchmark beyond Translation

多语言 Agent benchmark 如果只是机器翻译英文题目，容易引入 query-answer 错配、文化语境偏移和难度失衡，导致评测结果不再测模型能力。

评值得知道它量化了翻译版 GAIA 的测量噪声；读审计流程和 32.7% gap，别当模型能力结论。

Yunsu Kim,Kaden Uhlig,Joern Wuebker

agent-benchmarkGAIAmultilingual-evaluation2026年4月27日arXiv PDF

arXiv

BenchGuard: Who Guards the Benchmarks? Automated Auditing of LLM Agent Benchmarks

解决复杂执行型 LLM agent benchmark 中，任务失败究竟来自模型能力不足还是 benchmark 规范、脚本与评测基础设施本身缺陷的问题。

评不是基座方法论文，但如果你常拿 agent benchmark 做结论，这篇会提醒你先审 benchmark 再审模型；正文只看错误类型和人工一致性结果即可。

Xinming Tu,Tianze Wang,Yingzhou,Lu,Kexin Huang,Yuanhao Qu,Sara Mostafavi

University of Washington Allen SchoolUniversity ofbenchmark-auditingllm-agentsevaluation2026年4月27日arXiv PDF

arXiv

Cooperate to Compete: Strategic Coordination in Multi-Agent Conquest

评估语言模型 Agent 在混合动机多智能体环境中的协作与竞争能力，尤其是短期结盟和长期对抗同时存在时的谈判行为。

评Agent 评测读摘要和实验表即可；对 pretrain 没直接动作，但混合动机数据可能暴露 RL 对齐里的合作偏置。

Abigail O'Neill,Alan Zhu,Mihran Miroyan,Narges Norouzi,Joseph E. Gonzalez

University ofmulti-agentnegotiationagent-benchmark2026年4月28日arXiv PDF

arXiv

Why Search When You Can Transfer? Amortized Agentic Workflow Design from Structural Priors

解决 agent workflow 设计过度依赖逐任务搜索、无法复用跨任务结构知识的问题。

评不是 pretrain 论文，但“把搜索轨迹蒸馏成结构先验”这个想法有味道；只看方法图和实验主表，别被 agent benchmark 的任务细节拖住。

Shiyi Du,Jiayuan Liu,Weihua Du,Yue Huang,Jiayi Li,Yingtao Luo,Xiangliang Zhang,Vincent Conitzer,Carl Kingsford

Carnegie Mellon UniversityFoundations of Cooperative AI Lab (FOCAL)University of Notre Dameagent-workflowamortized-searchstructural-priors2026年4月27日arXiv PDF