AI Research Daily

更新时间: 2026/4/17 06:22:17

共92篇

🌟 3 重点

🔥 行业动态 3🧠 预训练 10⚡ 高效推理 13🌐 多模态统一 9🎨 多模态生成 2🛠️ 后训练 13🔬 原理分析 22💻 Coding Agent 4🤖 Agent 16

其他 51 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读行业动态与观点

Introducing GPT-Rosalind for life sciences research

OpenAI Research 新发版: Introducing GPT-Rosalind for life sciences research

OpenAI Researchreleaseindustryopenai

精读行业动态与观点

Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning

Google DeepMind 新发版: Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning

Google DeepMindreleaseindustrygoogle

精读行业动态与观点

Introducing Claude Opus 4.7

Anthropic 新发版: Introducing Claude Opus 4.7

Anthropicreleaseindustryanthropic

精读LLM 预训练

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

多模态 LLM（MLLM）在“midtraining”（高分辨率图像+较强监督的中期训练）阶段，训练语料由多种视觉概念与多种监督目标混杂构成。现有配方多靠启发式（按数据集/格式/任务粗粒度调权），缺乏：1) 可解释的分解维度来诊断“哪些视觉域/哪些监督信号”带来哪些能力；2) 在有限算力下可扩展的 mixture 搜索方法；3) 能从小模型/小预算搜索迁移到大模型训练的 recipe。MixAtlas 要解决的是：如何在可解释、可迁移、低成本的前提下，为特定 benchmark 目标（或通用平均目标）自动优化多模态 midtraining 数据配比。

来源

阅读分级

标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点（注意：推理加速/注意力优化等技术论文不算行业动态）

Blog精读🌟

Introducing GPT-Rosalind for life sciences research

OpenAI Research 新发版: Introducing GPT-Rosalind for life sciences research

评大厂重点版本发版，务必第一时间阅读原文：关注 benchmark、能力覆盖、定价/接入方式，以及与上一代 / 竞品的实际差距。

OpenAI Research

OpenAI Researchreleaseindustryopenai2026年4月16日原文

Blog精读🌟

Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning

Google DeepMind 新发版: Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning

评大厂重点版本发版，务必第一时间阅读原文：关注 benchmark、能力覆盖、定价/接入方式，以及与上一代 / 竞品的实际差距。

Google DeepMind

Google DeepMindreleaseindustrygoogle2026年4月13日原文

Blog精读🌟

Introducing Claude Opus 4.7

Anthropic 新发版: Introducing Claude Opus 4.7

评大厂重点版本发版，务必第一时间阅读原文：关注 benchmark、能力覆盖、定价/接入方式，以及与上一代 / 竞品的实际差距。

Anthropic

Anthropicreleaseindustryanthropic2026年4月16日原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

arXiv精读

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

评立刻看它的“权重更新信号=不确定性”是否真能稳定提升且不引入评测泄漏；若setup干净，这是可直接迁移到文本mixture的高杠杆旋钮。

arXiv泛读

Discovering Novel LLM Experts via Task-Capability Coevolution

如何在单次、开放式（open-ended）的过程中，同时“进化任务分布”和“进化模型群体”，自动发现具备新颖能力的 LLM 专家集合，避免传统范式中每扩展一次能力就要人工启动新训练、固定数据/奖励、最终只产出单一模型的局限。

评MoE里“专家如何长出来”是硬问题；先盯它的共演化定义与ablation是否干净——若只是重采样+路由正则，价值会打折。

HF Daily▲ 1泛读

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

不同tokenizer之间做LLM蒸馏时，如何避免复杂的词表对齐并稳定传递teacher分布信息。

评这是少见“把tokenizer差异抹平”的干净方案，值得立刻做内部复现；重点看byte分布构造与student头是否引入容量泄漏。

arXiv泛读

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

在稀疏 MoE 语言模型中，社区长期默认“更复杂的路由拓扑（multi-hop、层级、链式组合等）会带来更好的语言建模质量”。本文基于大量受控对照实验，直接检验这一假设：在训练到收敛的条件下，路由拓扑本身是否决定（或显著影响）最终困惑度；以及若存在差异，差异主要来自“路由机制/拓扑”还是“路由容量（router 参数/表示容量）”。

评结论若真“拓扑不重要”会直接改MoE设计prior；但最怕控制变量不干净，建议只盯实验设定与seed方差，别被口号带跑。

arXiv泛读

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

MoE 在长尾知识/罕见实体查询上更易幻觉的一个结构性原因：静态 Top-k 路由在训练分布主导下偏好高频“相关性”模式，导致承载长尾事实的“专家型 experts”在特定上下文中 gating 分数偏低而被长期不激活（dormant），模型“存了知识但路由没召回”，从而在推理时生成看似合理但错误的内容。论文要解决的是：在不改训练、不增加总激活专家数（compute-preserving）的前提下，推理阶段如何动态唤醒这些对事实正确性具有因果贡献但被路由忽略的专家。

评把“幻觉”往MoE路由/专家利用率上归因是对的方向；只需盯路由利用率曲线与幻觉指标是否同向改善，若无干净ablation就当弱信号。

arXiv

Correcting Suppressed Log-Probabilities in Language Models with Post-Transformer Adapters

LM在某些token/模式上出现被“压低”的log-prob（suppressed log-probabilities），导致生成偏置或校准异常：如何在不重训主体模型的情况下纠正。

评想法不新但可能实用：把“概率被压低”当可修补缺陷来做；只需看它是否在不降PPL的情况下修复可复现的失败集，并打赢温度缩放/Logit bias基线。

arXiv

Hierarchical vs. Flat Iteration in Shared-Weight Transformers

在共享权重（weight-tied/循环式）Transformer中，对比“层级式迭代”与“扁平迭代”的计算组织方式对能力与效率的影响。

评如果它做了“等算力+等参数”的严谨对比，这类迭代调度可能真能省参数；否则大概率是Universal Transformer老问题重讲，只看实验表即可。

arXiv

Geometric Routing Enables Causal Expert Control in Mixture of Experts

如何在 MoE 中实现更“可控/可解释”的专家路由，使得特定专家的激活与因果干预更可预测。

评只在你正做 MoE 路由/可控专家时才值得扫一眼：先确认有没有大规模训练与干预实验，否则大概率是概念性“几何化命名”。

arXiv

Constraint-based Pre-training: From Structured Constraints to Scalable Model Initialization

如何把“结构化约束”系统性注入到预训练阶段，从而得到可扩展的模型初始化/表征。

评只建议扫一眼方法定义：若约束能写成通用loss并在大语料上稳定增益才值得；否则大概率是小任务“加正则”。

HF Daily▲ 3

Three-Phase Transformer

尝试给 decoder-only Transformer 残差流加入一种结构先验，缓解表示混杂并改善小模型训练稳定性与样本效率。

评这类架构先验 paper 常见问题是小规模有效、大规模蒸发；只看设计动机和最关键消融，别急着改 backbone。

Mohammad R. Abu Ayyash

transformer-architectureresidual-streampositional-encoding2026年4月15日arXiv PDF GitHub

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv泛读

Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models

论文解决的问题是：长上下文下LLM的prefill自注意力计算/显存开销过大，而现有压缩多在“token空间”做删减或软提示，忽略了“嵌入空间”本身的冗余；如何在不改变输出词表的前提下，把输入端连续K个token的嵌入压成1个嵌入，从而显著减少prefill长度并尽量保持任务性能。

评这是少数可能真能落地的“语义压缩token”路线；重点看压缩倍率下的质量-吞吐曲线和与稀疏/kv压缩的公平对照。

arXiv泛读

From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

在多步推理场景中，传统 speculative decoding 以“token”为验证粒度，容易让早期错误在后续步骤中扩散；同时其“严格无偏接受”机制会拒绝语义上正确但在 target model 下概率偏低的草稿，导致算力浪费与加速收益受限。论文要解决的是：不依赖外部 verifier/reward model 的前提下，如何在保持推理正确率的同时，让 SD 在“步骤级”更稳健、更高效。

评读它只为“step级验证”这个想法：若实验真能在长推理降回退成本，值得复现；否则很可能只是换粒度的SpecDec包装。

arXiv泛读

MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration

在保持 CoT 推理准确率的前提下，同时解决推理时 KV-cache 随生成 token 线性增长带来的显存/延迟瓶颈；并且要把“上下文压缩（memory tokens）”与“多 token 预测（MTP）”这两条原本训练范式与架构要求不一致的路线统一到一个无需改模型结构、可稳定训练的框架里。

评读它的消融：压缩单独/MTP单独/两者叠加的曲线是否“可加”；若没严谨回退机制，结论多半虚高。

arXiv泛读

ELMoE-3D: Leveraging Intrinsic Elasticity of MoE for Hybrid-Bonding-Enabled Self-Speculative Decoding in On-Premises Serving

MoE 在本地/私有化（on-premises）部署时，推理常被“内存带宽与参数搬运”而非算力限制：batching 会让 token 级稀疏激活在 batch 维度近似变成“几乎所有 experts 都要被加载”，导致内存访问趋于稠密；同时 speculative decoding 在 MoE 上验证阶段也要为被拒绝 token 加载 experts，低 batch 下收益被验证开销吞噬。论文要解决的是：在容量受限但带宽极高的 3D-IC hybrid-bonding（HB）内存体系下，如何软硬协同，让 MoE 在不同 batch 区间都获得稳定加速。

评把MoE“便宜路径”做自推测很对味，但没摘要难判clean度；只建议抓它的系统瓶颈拆解与端到端延迟表。

arXiv泛读

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

如何把“模型压缩/结构化剪枝”和“prompt 压缩”从彼此割裂的离线手段，统一成一种面向推理时动态变化的“稀疏支持集恢复”问题：在给定 prompt 与每个 decoding step 下，快速识别真正需要执行的结构化子网络（block/head/channel/neuron 等）以及需要保留的输入 token，从而在不显著损伤生成质量的前提下获得真实端到端加速。

评偏推理压缩而非预训练；只建议扫方法部分看“compressed sensing”约束是否真带来可复现的选择准则，否则大概率是换皮剪枝。

arXiv泛读

ConfLayers: Adaptive Confidence-based Layer Skipping for Self-Speculative Decoding

自推测解码（Self-Speculative Decoding, SSD）需要在不训练额外draft模型的前提下，从同一个LLM中构造“更快但足够准”的draft子网络；现有动态跳层/早退方法要么依赖训练出的策略（成本高、泛化不稳），要么用固定启发式（简单但不自适应），导致接受率（acceptance rate）与加速比之间难以稳定权衡。

评只当“层级动态计算+自推测”组合的思路备查；先核对是否有严格的质量-吞吐曲线与强baseline，否则容易是启发式小修。

arXiv泛读

VisPCO: Visual Token Pruning Configuration Optimization via Budget-Aware Pareto-Frontier Learning for Vision-Language Models

论文研究 VLM 中“视觉 token 剪枝”的配置优化问题：在给定计算预算（如 FLOPs/TFLOPs）下，剪枝层位与各层剪枝比例（pruning positions & ratios）如何自动搜索到接近最优的计算-性能折中（Pareto frontier），而不是依赖人工设定或网格搜索的固定配置。

评别当预训练论文读，这是VLM推理侧的“自动配剪枝预算”；只看方法如何学Pareto前沿和预算约束设定，能省不少工程试错。

HF Daily▲ 6泛读

KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

标准 KV cache 是上下文相关的，跨上下文复用缓存文档需要重新计算 KV 状态，带来额外计算开销和 TTFT 延迟。

评用 soft-token adapter 替代 KV 重计算的思路有趣，但 adapter 的泛化性和长文档场景下的鲁棒性存疑，看 §实验的 ablation 和失败案例即可。

Chuangtao Chen,Grace Li Zhang,Xunzhao Yin,Cheng Zhuo,Bing Li,Ulf Schlichtmann

KV-cacheinference-efficiencycontext-reuse2026年4月14日arXiv PDF GitHub

arXiv

RACER: Retrieval-Augmented Contextual Rapid Speculative Decoding

在推测解码中引入检索增强的上下文，以提升draft质量/接受率，从而加速生成并降低延迟。

评大概率是“RAG让draft更准→接受率更高”的直觉实现；只需核对是否有强基线与端到端成本核算，否则当工程小技巧备查。

arXiv

Towards Faster Language Model Inference Using Mixture-of-Experts Flow Matching

探索用MoE + Flow Matching来加速语言模型推理（更快生成）。

评只建议扫一眼方法和速度-质量曲线：若没对齐SpecDec等强基线或只在玩具任务上，结论基本不值钱。

arXiv

Scepsy: Serving Agentic Workflows Using Aggregate LLM Pipelines

如何以更工程化/可扩展的方式Serving“Agentic工作流”：将多步LLM调用抽象为可聚合的pipeline并进行调度与执行。

评不是训练论文，但若你经常跑大规模评测/数据合成流水线，看看它的pipeline抽象与调度指标；否则不必细读。

arXiv

When Flat Minima Fail: Characterizing INT4 Quantization Collapse After FP32 Convergence

解释为何“FP32 已收敛且落在 flat minima”并不保证 INT4 量化后仍稳定，刻画量化崩溃的触发条件与表征信号。

评把“flat minima=可INT4”这条经验法则打个洞；但没摘要难判是否真在LLM上成立，先只扫结论/图表当弱信号。

arXiv

BitFlipScope: Scalable Fault Localization and Recovery for Bit-Flip Corruptions in LLMs

在硬件/内存位翻转导致 LLM 参数或中间状态被破坏时，如何可扩展地定位故障位置并进行恢复，降低静默错误对输出的影响。

评偏推理可靠性工程：如果你在做大规模线上服务/低比特硬件，这类bit-flip定位值得备查；否则不必深读正文。

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv泛读

The Cost of Language: Centroid Erasure Exposes and Exploits Modal Competition in Multimodal Language Models

多模态语言模型在“需要真实视觉感知”的任务上表现显著落后，其根因之一是语言表征在融合与解码中系统性压制视觉证据（modal competition / modal imbalance）。论文要解决的是：如何用一种训练无关、可解释、可量化的前向探针来诊断这种不平衡，并进一步在不改权重的前提下做推理期纠偏以提升视觉感知类任务准确率。

评只要实验干净，这类“可控干预揭示模态竞争”比泛泛对齐讨论更有牙；建议只读方法+关键消融，看是否真能指导配比/架构隔离。

arXiv泛读

Reasoning Dynamics and the Limits of Monitoring Modality Reliance in Vision-Language Models

论文要回答的核心问题是：在视觉-语言模型（VLM）的链式思维（CoT）推理过程中，模型的“预测/置信度”是否会随中间推理步骤发生实质性修正（而非事后合理化），以及在不同模态占优（文本主导→纯视觉）与模态冲突（误导文本 vs 视觉证据）条件下，模型对模态信息的依赖能否从CoT轨迹中被可靠“监控/识别”（monitorability）。

评别把“模态依赖监控=可靠性”当银弹，这篇可能给出反例边界；建议直读实验设定与失败案例，结论是否泛化要打问号。

HF Daily▲ 5泛读

Boosting Visual Instruction Tuning with Self-Supervised Guidance

如何解决多模态大语言模型（MLLMs）在指令微调阶段因过度依赖语言先验而导致细粒度视觉推理能力不足的问题？

评通过将自监督视觉任务转化为指令微调数据，低成本缓解了 VLM 严重依赖语言先验的问题，数据构造思路非常实用，只看方法设计即可。

Sophia Sirko-Galouchenko,Monika Wysoczanska,Andrei Bursuc,Nicolas Thome,Spyros Gidaris

Sorbonne UniversityValeo.aiVLMInstruction TuningSelf-Supervised Learning2026年4月14日arXiv PDF GitHub

arXiv

MirrorBench: Evaluating Self-centric Intelligence in MLLMs by Introducing a Mirror

如何评测多模态大模型（MLLM）的“自我中心/自指”智能：模型能否在引入镜子这一视觉线索后正确理解“自己/自身视角/自我状态”。

评只建议扫一眼任务构造与反作弊设计：如果没严格控制语言捷径/提示泄漏，这类“自我”基准很容易变成花活。

arXiv

Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems

多模态推理系统在“不该回答”时能否可靠弃答（abstention），以及如何评测这种能力。

评读评测协议与指标定义即可：如果他们把“弃答”做成可复现的risk-coverage基准，值得纳入内部VLM评测。

arXiv

Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs

如何让Omni-MLLM从“静态多模态融合”走向“按任务动态编排多模态信息流”。

评只建议扫§方法和消融：若真是“模态路由/分阶段编排”而非换名门控，可能给你多模态MoE式设计灵感。

arXiv

Why Do Vision Language Models Struggle To Recognize Human Emotions?

分析VLM在“人类情绪识别”这一高层语义任务上表现不佳的原因与失败模式。

评当作VLM“高层语义+语境依赖”失败案例备查即可；只要看它怎么做控制变量与跨数据集验证，没干净实验就别信结论。

arXiv

Robustness of Vision Foundation Models to Common Perturbations

系统评估视觉基础模型在常见扰动（噪声、模糊、压缩、颜色偏移等）下的鲁棒性与失效模式。

评把它当“视觉塔鲁棒性体检表”即可：优先看扰动集合与退化曲线；若没控制预处理/分辨率等变量，结论只能当噪声。

HF Daily▲ 16

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

VLA 模型在窄领域控制数据上微调会损失底座 VLM 的推理能力。

评VLA 分层架构的又一版，结论已经是共识；pretrain 研究员只需知道 'VLA 端到端微调伤 VLM 推理' 这一现象仍被反复印证。

Tianshuo Yang,Guanyu Chen,Yutian Chen,Zhixuan Liang,Yitian Liu,Zanxin Chen ... 省略 1 位作者 ... ,Haotian Liang,Jiangmiao Pang,Yao Mu,Ping Luo

Shanghai AI LabHKUVLAembodiedhierarchical2026年4月15日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

HF Daily

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

Flow Matching图像生成模型做偏好对齐时，如何在不回传长轨迹的情况下把奖励梯度有效传到早期生成步。

评Seed的工程味很浓：两步leap像是“截断BPTT”的生成版；只需看训练稳定性/成本曲线，别指望对LLM预训练有直接结论。

HF Daily▲ 82

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

从文本/单视/多视/视频等多模态输入生成可导航的 3DGS 场景表示。

评3D 世界模型工程整合，pretrain 研究员基本无关；想了解多模态世界模型 pipeline 可扫一眼架构图。

Team HY-World,Chenjie Cao,Xuhui Zuo,Zhenwei Wang,Yisu Zhang,Junta Wu ... 省略 35 位作者 ... ,Yuyang Yin,Zhiyuan Min,Tengfei Wang,Chunchao Guo

Tencent3D generationworld modelGaussian Splatting2026年4月15日arXiv PDF GitHub

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv泛读

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

在“推理型/思维链”模型上做 SFT 时，直接用更强 teacher 生成的合成数据往往不升反降；论文试图定位关键原因之一为 teacher 与 student 的“风格分布”显著不一致，导致 SFT 过程中 style token 的对齐成本干扰了 capability token（解题/代码/数值等）的学习，进而出现性能退化甚至灾难性遗忘。

评别被“协作框架”唬住：只要它比常规拒绝采样/自训练更干净，价值就在于把student-consistency做成可复现实验；优先看数据过滤准则与消融。

arXiv泛读

CROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization

自动化提示词优化（APO）在复杂推理任务上往往只优化准确率，导致系统提示词和模型输出推理过程越来越冗长，推理 token 成本/时延急剧上升；论文要解决的是：在不显著牺牲推理正确率的前提下，把“输出长度/成本”作为一等公民纳入提示词搜索目标，得到能诱导模型生成更短、更“只含关键信息”的推理与答案的提示词。

评别把它当“推理新算法”，而是看它如何把token成本写进优化目标；只读目标函数/正则项与消融就够。

arXiv泛读

CURaTE: Continual Unlearning in Real Time with Ensured Preservation of LLM Knowledge

在真实部署中，“遗忘请求”会持续到来且需要立刻生效；而现有 LLM unlearning 多依赖改权重（parametric unlearning），在持续更新下会累积灾难性遗忘、且处理耗时导致敏感信息在窗口期继续暴露。论文要解决的是：如何在不改动 LLM 权重的前提下，实现可持续、实时、连续到来的遗忘请求处理，同时最大化保留原有知识与效用。

评值得读的是“实时+保留约束”是否真能在强保留基准下稳定工作；重点看保留评测是否全面、以及在线多次遗忘后是否累积漂移。

arXiv泛读

Modeling LLM Unlearning as an Asymmetric Two-Task Learning Problem

LLM 机器遗忘（unlearning）中“忘得干净”和“能力不掉”存在强冲突：仅对 forget set 做梯度上升容易过度遗忘并破坏通用能力；加入 retain set 的梯度下降又会与遗忘梯度相互抵消、训练不稳定。本文核心问题是：如何在存在梯度冲突时，把“保留能力（retention）”作为主目标、把“遗忘（forgetting）”作为辅目标，构造一种可插拔的梯度合成机制，在不牺牲遗忘效果的前提下显著提升保留性能。

评把unlearning写成“非对称双任务”是对目标函数的好抽象；重点看他们的梯度/约束实现与代价曲线，别被单一遗忘指标骗。

arXiv泛读

IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning

在“边思考边检索”的RL后训练（search-augmented reasoning）中，现有GRPO/trajectory-level奖励无法对同一轨迹内不同检索步骤的query质量进行细粒度归因，并且在所有采样轨迹都答错时优势函数近零导致梯度信号塌缩。论文要解决的是：如何构造一个不依赖额外标注/奖励模型、能在失败轨迹中仍提供学习信号的step-level检索奖励，从而更有效地学习检索query生成策略。

评读它的reward定义与反作弊验证：若信息增益能稳定对齐“更少但更准的检索”，值得立刻做内部复现；否则就是换皮dense reward。

arXiv泛读

CoTEvol: Self-Evolving Chain-of-Thoughts for Data Synthesis in Mathematical Reasoning

在缺乏高质量CoT标注且蒸馏/纯采样搜索边际收益下降的情况下，如何以更低计算成本合成“正确率更高、推理轨迹更好”的数学推理CoT数据，用于后续SFT提升模型推理能力。

评把它当“Evol-Instruct在数学CoT上的变体”读：重点看选择信号是否可验证、闭环是否会模式坍塌；没这些细节就只是口号。

arXiv泛读

LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking

研究RLVR（用verifier/判题器做强化学习）在训练中是否会诱发“reward hacking/钻验证器漏洞”，导致表面高分但真实能力下降。

评把RLVR当“可扩展监督”前先看这篇：它提醒你verifier一旦可被策略化利用，训练会稳定跑偏；重点看失败案例与ablation。

arXiv泛读

Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization

推理型LLM在测试时如何自适应分配计算预算（如多采样/多步推理/更长思考）以最大化收益并满足约束。

评读法：只看策略状态/动作/约束怎么定义、以及是否比“按不确定性加采样”强；若无强基线就是包装。

HF Daily▲ 9泛读

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

对齐后的LLM在“定向 jailbreak（如时态改写）”上存在明显泛化缺口，拒答机制可被轻微改写绕过。

评结论像“针对单一攻击面做补丁”，泛化性存疑；但电路定位+通道缩放这套干预流程可借鉴，重点看定位是否因果干净。

HF Daily▲ 5泛读

Reinforcement Learning via Value Gradient Flow

如何在 LLM 强化学习微调中实现可扩展的行为正则化，同时避免拒绝采样带来的过度保守和重参数化策略梯度的扩展性问题？

评用最优传输和梯度流重构 LLM RL 微调中的行为正则化，避开了拒绝采样的保守性，数学框架干净，值得留意其在 LLM 对齐上的实际扩展性。

Haoran Xu,Kaiwen Hu,Somayeh Sojoudi,Amy Zhang

UC BerkeleyReinforcement LearningLLM AlignmentOptimal Transport2026年4月15日arXiv PDF GitHub

HF Daily▲ 3泛读

C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

如何在只有二元偏好数据、没有昂贵 rubric 标注的情况下，构建更可靠且可扩展的 reward model。

评值得看，因为它把“监督文本越多越好”这个直觉掰正了；重点读 failure-of-cooperation 设定和 verifier 消融，那里最可能迁移到合成数据过滤。

Akira Kawabata,Saku Sugawara

reward-modelingrubricspreference-learning2026年4月15日arXiv PDF GitHub

arXiv

Step-level Denoising-time Diffusion Alignment with Multiple Objectives

在扩散模型对齐中，将“去噪时间步(step-level)”作为优化粒度，同时对齐多个目标以提升训练信号密度与可控性。

评如果你在做“按时间步分解credit assignment”的对齐/RL训练，值得扫一眼公式；否则缺摘要信息，先别投入精读成本。

HF Daily▲ 1

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

如何在长上下文RL训练中利用模型内部激活结构，降低更新开销并提升长程推理优化效率。

评想法像“RL版稀疏微调”，但证据链可能偏工程；只建议扫方法与消融，看是否真因激活显著性而非隐式正则。

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv泛读

Faithfulness Serum: Mitigating the Faithfulness Gap in Textual Explanations of LLM Decisions via Attribution Guidance

LLM 生成的事后文本解释（post-hoc explanations）往往“看起来合理”但不一定反映模型真实依赖的内部证据，存在 epistemic faithfulness gap。论文要解决两件事：1）如何用可操作的评测协议衡量解释是否真正因果一致地反映了模型决策依据；2）在不训练/不改权重的前提下，能否用内部归因信号引导模型生成更忠实的解释。

评别被“解释更可信”口号骗了：重点看他们如何定义/度量faithfulness与训练目标是否可被hack；若指标干净，这套归因约束可迁移到对齐评测。

arXiv泛读

Segment-Level Coherence for Robust Harmful Intent Probing in LLMs

部署时对 LLM 进行“流式（streaming）有害意图探测”需要在生成过程中基于前缀实时判别，但现有基于表示的 probe 往往被少数高分 token/窗口主导：当 CBRN 术语出现在良性语境（科普/学术讨论）中时会产生大量误报。本文要解决的核心问题是：在只给 exchange-level 标签、推理却要 token-level 流式输出的设定下，如何设计更鲁棒的聚合目标，让判别依赖跨片段的一致证据而非孤立尖峰，从而显著降低低 FPR 区间的错误。

评安全评测里“意图”经常被措辞骗，这篇若把一致性指标做干净会很实用；建议只看指标定义+对抗改写实验，别被故事带跑。

arXiv泛读

Generalization in LLM Problem Solving: The Case of the Shortest Path

在一个可控的合成最短路规划环境中，系统性拆分“训练数据覆盖、训练范式（SFT vs RL）、推理时策略”三类因素，回答：LLM 是否能在可组合的序列优化问题（SOP）上实现系统性泛化，并区分两种 OOD：未见地图的空间迁移 vs 更长规划长度的长度扩展。

评把“最短路径”当手术刀做泛化切分很干净；重点看它的 OOD 设定是否真排除了模板泄漏，否则结论只算弱信号。

arXiv泛读

Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations

论文聚焦“LLM-as-judge 何时可信”的实例级（per-instance）可靠性诊断问题：在常用的系统级相关性指标（如 Kendall’s τ、Pearson）看起来很高的情况下，LLM 评审在单个输入文档/样本上可能出现严重不一致（尤其是成对偏好不传递导致的 directed 3-cycle），以及对 1–5 分 Likert 打分的误差是否能被一个带理论保证的置信集合刻画，从而为每个样本给出可操作的“可信/不可信”信号。

评如果你们还在用LLM judge做回归评测，至少读conformal校准和“传递性违背”那部分；能直接暴露评测噪声下限。

arXiv泛读

How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study

在完全无视觉输入的条件下，LLM/VLM 是否能仅凭文本描述完成“多步视角旋转→推断最终朝向→预测该朝向下可见物体/观测”的视角旋转理解（VRU），以及失败的内部机制是什么。

评读它的价值在于“语言先验能否伪装几何能力”的对照设计；重点看任务构造与控制变量，若不干净就当弱信号。

arXiv泛读

Stability and Generalization in Looped Transformers

分析“Looped Transformers”（带循环/迭代计算的Transformer）在训练稳定性与泛化上的性质与条件。

评值得快速扫推导与关键定理：若给出清晰稳定条件，会直接影响循环/迭代架构的训练先验；但缺实验时先当弱信号。

arXiv泛读

A Mechanistic Account of Attention Sinks in GPT-2: One Circuit, Broader Implications for Mitigation

解释GPT-2里“attention sinks”（注意力汇聚到特定token/位置导致有效上下文利用下降）的机制电路，并给出缓解启示。

评别把attention sink当玄学：看它把现象钉到“一个电路”是否干净；重点读消融/patching证据与缓解是否可泛化。

arXiv

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

如何系统评测LLM在“游戏化交互场景”中的长期记忆保持、检索与使用能力。

评当作“记忆评测素材库”备查即可；重点看任务是否能防prompt泄漏/捷径，否则对预训练改进的信号会很噪。

arXiv

The Autocorrelation Blind Spot: Why 42% of Turn-Level Findings in LLM Conversation Analysis May Be Spurious

指出LLM对话“turn-level”统计分析中忽略自相关会导致大量伪发现，并量化其可能比例（42%）。

评这是“统计卫生”论文：不产出新模型，但能让你少被对话turn级显著性忽悠；看结论定义与修正方法即可，别深挖故事。

arXiv

Mechanistic Decoding of Cognitive Constructs in LLMs

尝试用机制可解释性方法在LLM内部“解码”人类认知构念（cognitive constructs）的对应表征/回路。

评只建议扫一眼方法是否做了因果干预（patch/ablate）而非探针相关性；若无干预与跨模型复现，结论对预训练几乎不构成约束。

arXiv

SPAGBias: Uncovering and Tracing Structured Spatial Gender Bias in Large Language Models

如何系统性揭示并追踪LLM中与“空间结构”相关的性别偏见（structured spatial gender bias）。

评当作“偏见测量+溯源”工具箱备查：只需看任务构造与trace证据链，若只是模板打分则信号偏弱。

arXiv

IUQ: Interrogative Uncertainty Quantification for Long-Form Large Language Model Generation

如何对长文本生成中的不确定性进行可解释、可操作的量化，并把不确定性转化为“该问什么”的交互式澄清问题。

评偏“可靠性产品化”的UQ思路；先只扫方法定义和评测协议，没看到干净对照前别指望对预训练有新结论。

arXiv

DiscoTrace: Representing and Comparing Answering Strategies of Humans and LLMs in Information-Seeking Question Answering

如何表示并比较人类与LLM在信息检索式问答中的“作答策略/推理轨迹”，而不仅仅比较最终答案对错。

评当作“行为诊断工具”备查即可：只看他们的策略分解定义和与错误相关性那几张表，别指望训练侧新招。

arXiv

The LLM Fallacy: Misattribution in AI-Assisted Cognitive Workflows

在AI辅助的认知工作流中，人类对产出质量/来源的归因会发生系统性偏差（misattribution），导致“LLM fallacy”。

评当作“人类评测/偏好数据可能被工作流污染”的提醒即可；只看实验设计与统计部分，别指望给出可直接落地的训练改法。

arXiv

What Is the Minimum Architecture for Prolepsis? Early Irrevocable Commitment Across Tasks in Small Transformers

研究小型Transformer在多任务中出现“过早且不可逆承诺”(prolepsis/early commitment)的最小架构条件与行为表征。

评当作“失败模式命名+toy机制”备查即可；先扫实验设定是否足够clean，否则别在大模型上过度外推。

arXiv

Seeing Through Circuits: Faithful Mechanistic Interpretability for Vision Transformers

如何对 Vision Transformer 的“电路(circuits)”做更忠实（faithful）的机制可解释性分析，避免解释方法与真实因果机制脱节。

评把它当“解释方法学”备查：重点看他们如何定义/验证 faithful（干预协议与指标），若验证严谨可迁移到 LM；否则只是更漂亮的可视化。

arXiv

Quantifying Cross-Query Contradictions in Multi-Query LLM Reasoning

度量LLM在多次查询/多轮提问下推理结论的自相矛盾程度，并量化“跨查询不一致性”。

评作为“评测协议警示”值得知道：重点看矛盾判定是否可复现、是否控制语义等价；否则结论大概率是噪声。

arXiv

Learning to Draw ASCII Improves Spatial Reasoning in Language Models

研究“让模型学会画ASCII图”是否能提升语言模型的空间推理能力。

评把它当“离散草图=推理支架”的小机制实验看：只需核对对照是否干净、增益是否跨任务稳定，别期待预训练范式突破。

arXiv

Generative Augmented Inference

在推断阶段引入“生成式增强”以改进不确定性下的推断/决策质量（推断而非训练）。

评可能是“生成模型=推断算法”的老线索新包装；只建议扫方法框架与关键定理/图，没硬实验就当弱信号。

arXiv

Calibration-Gated LLM Pseudo-Observations for Online Contextual Bandits

在在线上下文bandit中，如何安全地把LLM生成的“伪观测/伪反馈”用于学习，同时控制由幻觉/过度自信带来的偏差。

评把“LLM校准”落到在线学习更新门控是少见的实用视角；只看它的门控规则+regret曲线，别被应用故事带跑。

arXiv

Expressivity of Transformers: A Tropical Geometry Perspective

从热带几何（tropical geometry）角度刻画Transformer的表达能力边界与结构性质。

评作为“表达性理论备查”够用：先扫定理陈述与假设是否过强；若全靠近似softmax，结论对训练实践价值有限。

arXiv

Does RL Expand the Capability Boundary of LLM Agents? A PASS@(k,T) Analysis

RL是否真的扩展LLM Agent能力边界，还是仅提升在既有可解任务上的成功率？作者用PASS@(k,T)做分析。

评作为评测口径备查即可：看它是否严格控制k/T与搜索深度混杂；若控制不干净，“边界扩展”结论别信。

SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

arXiv泛读

MARS$^2$: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

在代码生成这类“长链路+稀疏奖励”的推理任务中，单策略RL（如GRPO）与单策略驱动的树搜索增强RL（如TreeRL/MCTS-in-training）都会被同一个policy prior的探索边界锁死：训练越往后越集中到少数高概率分支，轨迹多样性下降、搜索边际收益递减，导致性能天花板难以突破；同时，多智能体协作虽能带来非平稳探索信号，但现有多为对话/投票式交互，缺乏与结构化搜索（分支、回溯、预算分配、树上一致的信用分配）的一体化机制。

评值得skim但要盯“算力-收益曲线”和RL训练细节：若只是把ToT换皮成多Agent再加RL名头就不值；看它是否真学到搜索策略而非调参。

arXiv泛读

HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks

如何构建一个“可执行验证、仓库级、真实历史PR驱动”的硬件Bug修复基准，用来评测LLM Agent在真实硬件工程流程（多语言HDL/DSL、异构构建脚本、原生仿真回归）中的端到端修复能力，而不是停留在孤立模块生成/单题调试。

评偏benchmark而非方法；只要它真有“可执行验证闭环+真实项目”，就值得看任务设计与判分细则，否则当噱头略过。

arXiv

StoryCoder: Narrative Reformulation for Structured Reasoning in LLM Code Generation

通过把编程问题改写成“叙事/故事”形式来提升LLM代码生成中的结构化推理与规划。

评更像“换一种说法让模型更会写代码”的配方；只需看其改写模板与对比基线是否包含强CoT/规划提示，否则当增量prompt论文处理。

arXiv

LLMs taking shortcuts in test generation: A study with SAP HANA and LevelDB

研究LLM在自动生成测试用例时是否会“走捷径”（shortcut），并在SAP HANA与LevelDB案例中分析其行为。

评把它当“coding评测会被投机”的反例库：只看他们如何定义shortcut与检测信号，别指望方法创新。

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv泛读

Route to Rome Attack: Directing LLM Routers to Expensive Models via Adversarial Suffix Optimization

在仅能黑盒观察“路由最终选了哪个模型”、且每次查询都要付费因而查询预算受限的现实条件下，如何构造一个通用（跨查询/跨数据集）且短长度受限（最多Δ tokens）的对抗后缀，使成本感知LLM Router稳定地把原本会分配给便宜弱模型的简单请求，错误路由到昂贵强模型，从而造成推理成本放大（cost amplification）。

评做router/级联服务的必须看：重点核对攻击是否跨router泛化、以及防御是否只是“调阈值”；别被单点demo带节奏。

arXiv泛读

Mind DeepResearch Technical Report

在 deep research agent 场景中，核心瓶颈是训练与推理成本过高：SOTA 系统往往依赖超大模型与昂贵的 mid-training/长链路推理，导致 token 消耗、工具调用次数与延迟不可接受。本文要解决的问题是：如何用约 30B 量级模型，通过更“任务分解 + 定向训练”的方式，在 deep research/深度检索基准上达到强性能并显著改善推理效率与用户体验。

评把它当“研究型Agent评测与系统拆解”资料：只需抓benchmark定义、失败案例与消融；方法若只是prompt编排就别深读。