2026年4月13日周一

周三65月周二55月周一45月周五15月周四304月周三294月周二284月周一274月周五244月周四234月周三224月周二214月周一204月周五174月周四164月周三154月周二144月周一134月

AI Research Daily

更新时间: 2026/4/13 15:42:00

共139篇

🌟 1 重点

🔥 行业动态 3🧠 预训练 12🌐 多模态统一 24🎨 多模态生成 19🛠️ 后训练 36🔬 原理分析 19🤖 Agent 25⚡ 高效推理 1

其他 71 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读行业动态与观点

CSAttention: Centroid-Scoring Attention for Accelerating LLM Inference

论文关注长上下文 LLM 在线解码阶段的核心瓶颈：注意力计算与 KV-cache 访问/搬运成本（尤其在离线 prefill、在线 decode 的“Write-Once, Read-Many”复用场景）。问题是：在极高稀疏率下，如何在不训练/不改模型的前提下做稀疏注意力，同时避免 Query-Key 分布漂移导致的召回下降与质量劣化，并保持 GPU 友好的高吞吐实现？

llm-inferencesparse-attentionkv-cache

精读LLM 预训练

Dynamic sparsity in tree-structured feed-forward layers at scale

Transformer 中 FFN/MLP 块占据主要参数与算力，成为长上下文与大模型训练/推理的瓶颈。现有 MoE 通过动态稀疏降低每 token 计算，但依赖额外路由器、负载均衡损失与复杂系统栈。本文要解决的问题是：能否用“无独立路由器、硬路由、结构化可跳过”的树结构 FF 层（FFF）在 GPT 式自回归语言建模中实现高动态稀疏，并在 1B+ 规模保持与稠密 FFN 相当的效果与可扩展性。

dynamic-sparsityconditional-computationffn

精读LLM 预训练

HiFloat4 Format for Language Model Pre-training on Ascend NPUs

大模型预训练受限于算力与显存带宽，低精度训练是关键路径。FP4（4-bit 浮点）可显著提升吞吐与降低带宽，但极低精度带来数值不稳定，尤其是梯度量化在存在 outlier 时会因 block scaling 由最大值主导而产生系统性偏置与大量下溢为 0，破坏反传与优化。本文要解决的问题是：在华为 Ascend NPU 上，HiFloat4（HiF4）这种分层缩放 FP4 格式能否实现端到端大规模 LLM 预训练，并相对 MXFP4 以更少的稳定化“辅助手段”获得更小的 loss gap 与更低的性能开销。

Huaweifp4low-precision-trainingascend-npu

精读LLM 预训练

Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima

论文研究一个“同样预训练损失但下游泛化不同”的几何本质问题：在多数据源预训练（K个source的加权平均loss）中，优化最终收敛到的参数，是仅仅最小化了总和损失（Sum-of-Minima 型：对每个source各自的最优点可能很远），还是落在各source最优解的“共同区域/交集附近”（Intersection-of-Minima 型：对每个source的最优点都几何接近）。作者提出：这种“任务最小值之间的几何接近度（closeness）”与下游泛化强相关，即使预训练loss完全相同，closeness更高的解也会显著更好地下游表现。

pretrainingoptimizationgeneralization

精读LLM 预训练

OASIS: Online Activation Subspace Learning for Memory-Efficient Training

论文解决LLM训练的“内存而非算力”瓶颈，尤其是激活（activations）在大batch/长序列下占据峰值显存的大头。现有低秩方法多压缩权重/梯度/优化器状态，但对激活要么需要改架构，要么用固定投影导致随训练分布漂移而失效。核心问题是：能否在不改变前向计算的前提下，在线追踪并更新一个低维激活子空间，把反向所需的激活以低秩形式存储，从而同时压缩激活、梯度与优化器状态，并保持训练效果？

memory-efficient-trainingactivation-compressionlow-rank-subspace

精读多模态与统一模态

Do Vision Language Models Need to Process Image Tokens?

VLM 在解码器深层持续处理大量 image tokens 代价高，但“是否真的需要在深层持续处理图像 token、视觉表征是否在深层仍显著演化”并不清楚。本文从表征结构演化角度回答：视觉 token 在解码器中何时变得稳定/冗余、能否被截断/替换、这种冗余是否任务相关，以及截断后能否通过微调或推理链补偿。

vlmrepresentation-dynamicsimage-tokens

精读LLM 后训练

Decomposing the Delta: What Do Models Actually Learn from Preference Pairs?

偏好优化（DPO/KTO）在推理模型对齐中广泛使用，但“偏好对（chosen/rejected）到底通过什么信号带来推理能力提升”缺乏机制性理解。本文聚焦 delta learning：不是绝对质量而是 chosen 与 rejected 的质量差（delta）驱动学习，并进一步追问：delta 的来源（生成器层面 vs 样本层面）分别起什么作用？样本层面的哪些推理维度差异最关键？结果是否依赖最终答案正确性？

preference-optimizationDPOalignment-data

精读LLM 后训练

SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

RLVR（可验证奖励强化学习）在数学/代码等“形式化领域”显著提升推理，但对因果、时间、常识、语用等“通用推理（general reasoning）”提升有限；根因在于缺少覆盖多种推理技能、且可自动验证的高质量训练数据。现有把 RLVR 扩展到更多“知识领域”的做法（如从网页抽取 QA）并不等价于提升通用推理技能，且验证困难、噪声大。

rlvrreinforcement-learningreasoning

精读LLM 后训练

Skip-Connected Policy Optimization for Implicit Advantage

在 RLVR 中，GRPO 这类“仅看最终结果(outcome-only)”的方法稳定有效，但理论上更强的“细粒度 dense reward/advantage（按推理步骤/token）”在实际采样预算下反而更差。论文指出关键原因：用 Monte Carlo（从中间前缀采样多条续写并用最终对错回传）估计早期 token 的 advantage 时方差极高且符号经常出错（sign-inconsistent），导致训练方向不稳定，最终不如直接把 outcome reward 广播给所有 token 的 GRPO。

rlvrgrpopolicy-optimization

精读LLM 后训练

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

长链路（长 CoT）推理的 RLVR 场景中，标准 token-level PPO 依赖 token-level critic + GAE 做时序信用分配，但在“超长时域 + 稀疏终局奖励”下会出现结构性不稳定：优势估计高偏差、critic 在序列尾部语义线索上过拟合导致 advantage 在关键位置塌缩（tail effect），训练易震荡/崩溃。与此同时，critic-free 的 GRPO 虽更稳，但需要每个 prompt 多采样 N>1 来构造组内基线，吞吐受限、计算开销大。

pporlvrlong-horizon-reasoning

精读LLM 后训练

Efficient RL Training for LLMs with Experience Replay

LLM 的 RL 后训练（PPO/GRPO 等）普遍采用“尽量 on-policy”的 generate-then-discard：rollout 生成一次只用一次就丢弃。但在实际系统中生成（推理）成本极高，常占总 GPU 小时的 80%+，导致整体训练计算效率极差。社区普遍认为 replay 会因 off-policy（staleness）带来性能下降，因此很少系统研究在 LLM RL 中如何安全复用轨迹。

rlhfexperience-replayoff-policy

精读LLM 原理与机制

A Little Rank Goes a Long Way: Random Scaffolds with LoRA Adapters Are All You Need

论文要回答：一个神经网络里到底有多少参数真正承载“任务特定信息”？进一步地，如果把骨干网络权重完全随机初始化并冻结（不预训练、不更新），仅训练每层的低秩 LoRA 适配器，是否仍能逼近“全参数训练”的性能上限？

loraparameter-efficiencyrandom-features

来源

机构

阅读分级

标签筛选

重大发布/开源/推理优化/部署/核心研究员观点

arXiv精读

CSAttention: Centroid-Scoring Attention for Accelerating LLM Inference

评改变我对“无训练稀疏注意力必掉点”的prior：把重计算前置到prefill并用centroid打分稳住高稀疏召回，建议立刻在你们长上下文服务复现吞吐/掉点曲线。

Chuxu Song,Zhencan Peng,Jiuqi Wei,Chuanhui Yang

llm-inferencesparse-attentionkv-cache2026年3月30日arXiv PDF

Blog泛读

Introducing the OpenAI Safety Fellowship

评来自策展的 alignment/safety 研究源，值得扫读；重点看动机、实验设置与对训练/推理的启示。

OpenAI Alignment

OpenAI Alignmentalignmentsafety2026年4月6日原文

arXiv泛读

Demystifying the Silence of Correctness Bugs in PyTorch Compiler

论文聚焦于 PyTorch 编译器 torch.compile 中“正确性静默错误（correctness bugs）”：编译后的深度学习模型产生错误输出，但不抛异常、不崩溃、无告警，因而难以及时发现与定位。作者指出该类问题在 PyTorch 社区高优先级 issue 中占比高（约 19.2%），且会直接破坏下游 LLM 训练/推理的可靠性（例如导致训练不收敛）。

评对训练infra很实用但别通读：只看他们对静默正确性bug的分类、触发模式与检测建议，能直接转成你们torch.compile回归测试与监控清单。

Meiziniu Li,Dongze Li,Jianmeng Liu,Shing-Chi Cheung

Carnegie Mellon Universitypytorchtorch-compilecompiler-bugs2026年4月9日arXiv PDF

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、高效训练、MoE、重磅技术报告

arXiv精读

Dynamic sparsity in tree-structured feed-forward layers at scale

评树状硬路由 FFN 在不引入 MoE 路由器的前提下做到高稀疏还不掉点，直接改变我对“条件计算必需路由器+均衡损失”的 prior，建议立刻做内部 ablation 复现。

Reza Sedghi,Robin Schiewer,Anand Subramoney,David Kappel

dynamic-sparsityconditional-computationffn2026年3月18日arXiv PDF

arXiv精读

HiFloat4 Format for Language Model Pre-training on Ascend NPUs

评真正有用的是它把 FP4 训练稳定性拆成“需要多少高精度护栏”这条账，能直接指导你评估端到端加速是否兑现；建议对照 MXFP4 的消融表逐项抄作业。

Mehran Taghian,Yunke Peng,Xing Huang,Yao Wang,Yaoyuan Wang,Wei Guo ... 省略 15 位作者 ... ,Hoang Le,Hei Yi Mak,Tanzila Rahman,Shadan Golestan

Huaweifp4low-precision-trainingascend-npu2026年4月9日arXiv PDF

arXiv精读

Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima

评它把“同 loss 不同下游”归因到多源最小值的几何 closeness，给了可操作动作：用优化/采样策略去追 common minima 而非继续压 loss；建议重点看定义、度量与控制实验可信度。

Huanran Chen,Huaqing Zhang,Xiao Li,Yinpeng Dong,Ke Shen,Jun Zhu

pretrainingoptimizationgeneralization2026年4月10日arXiv PDF

arXiv精读

OASIS: Online Activation Subspace Learning for Memory-Efficient Training

评在线学习激活子空间来省显存这条路很对味，关键看它在分布漂移下是否稳定且实现复杂度可控；建议先读 Fig.1(b) 漂移证据和显存/吞吐-精度权衡表。

Sakshi Choudhary,Utkarsh Saxena,Kaushik Roy

memory-efficient-trainingactivation-compressionlow-rank-subspace2026年4月10日arXiv PDF

arXiv泛读

Attention-Based Sampler for Diffusion Language Models

扩散式语言模型（dLLM）在推理时需要决定“先解哪些 token/按什么顺序解码（permutation / order）”。现有解码顺序多用基于 token 置信度/熵/边际的局部贪心规则，只利用输出分布的局部信息，忽略全局序列结构，且缺乏与“最大化目标序列对数似然”之间的明确理论对应，因此常产生次优解码轨迹与质量损失。

评把 dLLM 解码顺序从“看熵贪心”推向可学习全局策略，但训练/推理耦合与收益边界不够硬；只看方法段和主表对比即可。

Yuyan Zhou,Kai Syun Hou,Weiyu Chen,James Kwok

diffusion-lmdecoding-orderattention-guided2026年3月18日arXiv PDF

arXiv泛读

Breaking Block Boundaries: Anchor-based History-stable Decoding for Diffusion Large Language Models

半自回归（Semi-AR）解码是 dLLM 中常用推理框架：把序列分成若干 block，按 block 依次完成解码。但该机制存在“block 边界约束”：必须先完成当前 block 才能开始下一个 block，导致大量其实早已稳定（与最终输出一致且后续保持不变）的跨 block token 被无谓延迟解码（Block-Boundary Delay），浪费迭代步数并抑制局部区域的收敛传播（radiative effects）。关键难点变成：如何可靠识别这些跨 block 稳定 token 并提前解锁？

评这是个干净的推理期小补丁：用 anchor 识别跨 block 已稳定 token 来打破半自回归边界；只需看稳定判据与速度/质量曲线，别深究叙述。

Shun Zou,Yong Wang,Zehui Chen,Lin Chen,Chongyang Tao,Feng Zhao,Xiangxiang Chu

diffusion-llmdecodingsemi-autoregressive2026年4月10日arXiv PDF

HF Daily▲ 1泛读

Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

论文聚焦于极低比特（尤其 2-bit / 2 bpp）下的自由形式（free-form）加性量化（additive quantization, AQLM 系列）为何经常“灾难性失败”。作者指出关键瓶颈并非搜索预算（beam width、校准集大小、层内迭代次数）或后续微调（PV-tuning），而是更早阶段的码本（codebook）初始化：常用的贪心/残差 k-means 顺序初始化会把优化带入糟糕的 basin，后续再多搜索与微调也难以完全逃逸。

评把 2-bit AQLM 的“玄学失败”钉到初始化进错 basin 上很有工程价值，但结论依赖量化实现细节；只看初始化方案对成功率/误差的对照和少量复现实验建议。

Ian Kennedy,Nafise Sadat Moosavi

quantizationadditive-quantizationcodebook-initialization2026年4月9日arXiv PDF GitHub

arXiv泛读

Is More Data Worth the Cost? Dataset Scaling Laws in a Tiny Attention-Only Decoder

论文研究“更多训练数据是否值得其成本”，但刻意把问题缩小到一个可控的微型设置：使用强约束的 attention-only decoder（移除 MLP、冻结 embedding 与输出层）来隔离 dataset size 对性能的影响。核心问题是：在这种 tiny、组件隔离的 Transformer 中，数据规模是否仍呈现类似 Kaplan 等提出的 scaling-law 式平滑提升与边际收益递减？以及达到接近满数据性能需要多少数据？

评又一次 data scaling 验证，但用 attention-only 的极简 setup 做归因还算干净；只看数据量-性能曲线和“多少数据接近满配”的拐点结论即可。

Götz-Henrik Wiegand,Lorena Raichle,Rico Städeli,Tomas Hrycej,Bernhard Bermeitinger,Siegfried Handschuh

scaling-lawsdata-scalingcompute-efficiency2026年4月10日arXiv PDF

arXiv泛读

Generalization and Scaling Laws for Mixture-of-Experts Transformers

MoE Transformer 的“条件计算”带来一个核心理论缺口：误差/泛化/缩放到底应当由“每个输入实际激活的参数量（active capacity）”主导，还是由“总参数量 + 路由组合复杂度”主导？现有 dense scaling law 直接用总参数刻画会误配 MoE；而仅看 active 参数又忽略了路由模式数量带来的统计开销。

评偏理论的 MoE 泛化界把 active capacity 和路由组合复杂度拆开，能帮你写 proposal/解释现象，但离可用的 compute-optimal 配方还有距离；读定理假设和结论式子就够。

Mansour Zoubeirou a Mayaki

mixture-of-expertsscaling-lawsgeneralization-bound2026年4月10日arXiv PDF

arXiv泛读

Hierarchical Kernel Transformer: Multi-Scale Attention with an Information-Theoretic Approximation Analysis

标准自注意力对任意距离的 token 对一视同仁（scale-blind），既缺乏多尺度结构先验，又在长序列上带来二次复杂度与性能瓶颈。问题是：能否在不只是“稀疏化/近似注意力矩阵”的前提下，引入结构化的多尺度注意力，并给出可解释的近似误差保证？

评只看近似误差/信息论分析那几节：若界限真能解释多尺度收益，可指导你在长上下文里别只做稀疏化；其余当结构先验备选。

Giansalvo Cirrincione

efficient-attentionmulti-scale-attentionkernel-transformer2026年4月10日arXiv PDF

arXiv

Watt Counts: Energy-Aware Benchmark for Sustainable LLM Inference on Heterogeneous GPU Architectures

缺少可复现、可对比的能耗评测与数据，导致LLM推理部署难以在异构GPU上做能效最优决策。

评作为能耗数据与基准备查很够用，但对预训练研究增量有限；需要时只翻数据集覆盖范围、测量方法和几张能效对比图。

Mauricio Fadel Argerich,Jonathan Fürst,Marta Patiño-Martínez

energy-benchmarkllm-inferenceheterogeneous-gpus2026年4月10日arXiv PDF

arXiv

Integrated electro-optic attention nonlinearities for transformers

降低Transformer注意力中Softmax/Sigmoid等非线性算子的推理延迟瓶颈，探索模拟光电器件实现替代非线性。

评作为光电硬件路线备查即可：对训练/预训练范式几乎不改 prior，知道“非线性也能上芯片”这条可能路径就够了。

Luis Mickeler,Kai Lion,Alfonso Nardi,Jost Kellner,Pierre Didier,Bhavin J. Shastri,Niao He,Rachel Grange

Optical Nanomaterial Grouphardware-accelerationsoftmaxelectro-optic2026年4月10日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv精读

Do Vision Language Models Need to Process Image Tokens?

评会改变我对“深层必须全量图像token”的prior：按文中表征稳定性指标立刻做自家模型层间ablation，指导早停/剪枝/分层融合。

Sambit Ghosh,R. Venkatesh Babu,Chirag Agarwal

vlmrepresentation-dynamicsimage-tokens2026年4月10日arXiv PDF

arXivHF Daily▲ 30泛读🌟

EXAONE 4.5 Technical Report

在工业级真实场景中，LLM 需要同时具备强语言能力、强推理能力与视觉理解能力；但 VLM 面临“高分辨率带来海量视觉 token → 计算/吞吐瓶颈”和“压缩视觉 token 又会显著掉点”的矛盾。论文要解决的是：在不牺牲视觉信息密度的前提下，把视觉能力高效、稳定地接入一个已具备双模式（非推理/推理）的 32B 语言底座，并保持可部署的推理效率与多语种能力。

评重点翻训练配方与视觉token吞吐优化细节：能直接对照你们的VLM工程取舍；但作为tech report，结论更像系统集成经验，别当因果证据。

Eunbi Choi,Kibong Choi,Sehyun Chun,Seokhee Hong,Junwon Hwang,Hyojin Jeon ... 省略 48 位作者 ... ,Yongwoo Song,Sihyuk Yi,Kyungjae Yoo,Sangyeon Yoon

LG AI Researchvision-language-modeltechnical-reportdocument-understanding2026年4月9日arXiv PDF GitHub

arXiv泛读

UIPress: Bringing Optical Token Compression to UI-to-Code Generation

UI-to-Code生成中视觉token极长导致prefill延迟高，现有压缩要么不真正缩短序列、要么与UI信息密度不匹配，难以在保持生成质量的同时显著降token与延迟。

评只看压缩模块接口与延迟/质量曲线：若真能在冻结编码器+LLM下显著降prefill，这是可立刻复现的推理侧动作；其余叙述可略。

Dasen Dai,Shuoqi Li,Ronghao Chen,Huacan Wang,Biao Wu,Qizhen Lan

vlmtoken-compressionui-to-code2026年4月10日arXiv PDF

arXiv泛读

Dictionary-Aligned Concept Control for Safeguarding Multimodal LLMs

多模态大模型（MLLM）在面对文本 jailbreak 与图像对抗（如排版触发、反事实语义、不可感知扰动）时容易输出有害/违规内容。现有安全方案（提示词、响应过滤、微调）分别存在脆弱、需要重复调用、或成本高的问题。激活（表示）steering 虽然灵活，但现有方法要么概念集合太小、要么强度难校准、要么 SAE 特征缺乏语义落地导致难以精确控制某个安全概念而不伤及其他能力。论文要解决的是：在冻结模型参数的前提下，实现“可扩展、可标注、可精细解耦”的多概念安全控制。

评值得看其“词典对齐SAE”是否真能稳控强度且不伤通用：若成立，动作是把安全概念库做成可迁移的激活开关；但注意setup易被评测泄漏污染。

Jinqi Luo,Jinyu Yang,Tal Neiman,Lei Fan,Bing Yin,Son Tran,Mubarak Shah,René Vidal

mllm-safetyactivation-steeringsparse-autoencoder2026年4月10日arXiv PDF

arXiv泛读

Visually-Guided Policy Optimization for Multimodal Reasoning

RLVR/GRPO 等后训练虽提升了 VLM 的链式推理与可验证正确率，但模型推理过程仍呈“文本主导”：对图像 token 的注意力激活稀疏，且随推理步数增加出现 temporal visual forgetting（视觉证据在后续步骤被逐步遗忘），导致依赖语言先验、视觉不忠实与幻觉/推理错误。

评看可视化注意力与“视觉遗忘”诊断那部分就够：若现象扎实，它改变我对RLVR后训练的prior——必须加视觉约束/奖励，否则越推理越不看图。

Zengbin Wang,Feng Xiong,Liang Lin,Xuecai Hu,Yong Wang,Yanlin Wang,Man Zhang,Xiangxiang Chu

VLMRLVRvisual-grounding2026年4月10日arXiv PDF

arXivHF Daily▲ 5泛读

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

解决VLM在空间理解、视角识别等基础视觉感知技能上的短板，探索“仅给任务关键词”能否自动生成有针对性的合成监督来补齐能力。

评当数据工程配方读：合成闭环是否真能自动筛掉坏图/坏题决定可信度；若你缺“基础感知补课”数据，可直接照其流程搭一条内部生成管线。

Guanyu Zhou,Yida Yin,Wenhao Chai,Shengbang Tong,Xingyu Fu,Zhuang Liu

synthetic-dataVLMdata-generation2026年4月10日arXiv PDF

HF Daily▲ 5泛读

Structured Causal Video Reasoning via Multi-Objective Alignment

现有 Video-LLM 往往把视频理解当作“非结构化 CoT 文本生成”：关键视觉证据被冗长描述淹没，时间维度被退化为零散帧检索，因果关系建模薄弱，导致 reasoning drift、因果推断脆弱；同时在 RL 对齐阶段，结构化事实密度与推理深度/长度预算存在冲突，多目标奖励直接标量化会造成优势估计方向不清、训练不稳定。

评skim就够：只看多目标对齐怎么避免奖励打架、以及结构化事件表示长什么样；其余生成式叙事批判偏观点，未必可复现。

Zinuo Li,Yongxin Guo,Jun Liu,Jiawei Zhan,Xi Jiang,Chengjie Wang,Mohammed Bennamoun,Farid Boussaid,Feng Zheng,Qiuhong Ke

video-llmcausal-reasoningstructured-representation2026年4月6日arXiv PDF

arXiv泛读

InstrAct: Towards Action-Centric Understanding in Instructional Videos

现有视频-语言基础模型在教学视频（长、非裁剪、包含多步程序）中对“动作/动词语义”的理解不足：训练时容易被 ASR 文本噪声与弱对齐误导；表征上存在“静态偏置”（更依赖物体/背景等静态线索而非运动线索）；同时缺乏对多动作时序结构（步骤顺序、跨步对齐）的建模能力。

评只读§数据/任务与“静态偏置”诊断：能直接指导你把动作表征从名词捷径里拉出来，但预训练配方是否通用需内部复现实测。

Zhuoyi Yang,Jiapeng Yu,Reuben Tan,Boyang Li,Huijuan Xu

Pennsylvania State UniversityMicrosoft ResearchNanyang Technological Universityvideo-language-pretrainingaction-centriccontrastive-learning2026年4月9日arXiv PDF

arXiv泛读

How Should Video LLMs Output Time? An Analysis of Efficient Temporal Grounding Paradigms

视频时序定位（VTG）中，Video LLM/MLLM 需要输出时间边界，但现有方法的“时间输出范式”与骨干网络、数据、训练协议强耦合，导致无法判断性能差异究竟来自输出设计还是其他因素；同时面向边缘/端侧部署时，不同输出范式在参数开销、训练稳定性、推理确定性与算力成本上的系统级权衡缺乏受控分析。

评受控对比把“时间输出头”从骨干/数据里剥离，能直接指导端侧VTG选型；只看成本-稳定性-确定性权衡表和关键消融即可。

Shengji Jin,Yuanhao Zou,Victor Zhu,Zhengping Ji,Chen Chen

video-temporal-groundingoutput-formatefficient-inference2026年4月10日arXiv PDF

arXiv泛读

StreamMeCo: Long-Term Agent Memory Compression for Efficient Streaming Video Understanding

流式视频理解中的“Agent记忆图”(以文本节点为主)会随时间快速膨胀，导致存储成本与检索延迟显著上升；在实时问答场景下，检索变慢会直接破坏可用性。同时，直接压缩记忆又容易丢失长期一致性与关键细节，造成准确率下降。

评把瓶颈放在文本化记忆图的膨胀与检索延迟上而非KV cache，工程味浓但可复用；建议只看压缩策略与延迟/准确率曲线。

Junxi Wang,Te Sun,Jiayi Zhu,Junxian Li,Haowen Xu,Zichen Wen,Xuming Hu,Zhiyu Li,Linfeng Zhang

streaming-videomemory-compressionefficient-retrieval2026年4月10日arXiv PDF

arXiv泛读

Tango: Taming Visual Signals for Efficient Video Large Language Models

视频LLM的计算瓶颈主要在LLM侧的长序列自注意力与FFN，视觉token数量直接决定推理成本。现有训练free token pruning两大范式存在关键缺陷：注意力Top-k选择无法覆盖多模态、长尾的注意力分布(且易受attention sink影响)；直接基于相似度的聚类会产生空间碎片化簇，池化后对象几何结构被破坏，导致表征失真。

评对attention top-k与相似度聚类两派剪枝的失败模式讲得够具体，给出可插拔修补件；只读失败案例+极低保留率下的消融就能判断值不值。

Shukang Yin,Sirui Zhao,Hanchao Wang,Baozhi Jia,Xianquan Wang,Chaoyou Fu,Enhong Chen

video-llmtoken-pruningefficient-inference2026年4月10日arXiv PDF

arXiv泛读

On the Spectral Geometry of Cross-Modal Representations: A Functional Map Diagnostic for Multimodal Alignment

论文研究“独立预训练”的视觉编码器（DINOv2）与文本编码器（MiniLM）在不联合训练、仅靠少量配对锚点（anchors）的情况下，能否通过一种具有几何可解释性的方式实现跨模态对齐；并进一步诊断两种模态表征流形在“内在复杂度”和“谱基方向/取向”上是否一致。

评改变我对“独立预训表征可轻量后对齐”的乐观prior：复杂度相近但谱取向不一致是硬鸿沟；建议精读诊断方法与负结果分析。

Krisanu Sarkar

Indian Institute of Technology BombayMumbaimultimodal-alignmentrepresentation-geometryspectral-analysis2026年3月28日arXiv PDF

arXiv

Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition

传统ASR以WER为主难以衡量句子级语义正确性，且缺少对“交互式纠错”这一类人机对话式ASR能力的系统研究与评测。

评不必细读方法，主要看评测定义与LLM-judge标注协议：它把ASR从WER拉到语义一致性/交互纠错，适合你做语音-LLM闭环时借指标。

Peng Wang,Yanqiao Zhu,Zixuan Jiang,Qinyuan Chen,Xingjian Zhao,Xipeng Qiu ... 省略 1 位作者 ... ,Zhifu Gao,Xiangang Li,Kai Yu,Xie Chen

asrllm-as-a-judgeinteractive-evaluation2026年4月10日arXiv PDF

arXiv

3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

3D环境中的具身多模态代理使用3D-LLM推理时易产生与物体存在/空间布局/几何不一致的幻觉，导致不安全与不落地决策。

评知道“对比解码”能搬到3D场景图就行：对预训练帮助有限，但作为推理时安全补丁很实用；只需看扰动构造与失败案例。

Makanjuola Ogunleye,Eman Abdelrahman,Ismini Lourentzou

hallucination-mitigationcontrastive-decodingembodied-agent2026年4月9日arXiv PDF

arXiv

Unified Multimodal Uncertain Inference

如何在跨文本/音频/视频的“蕴含/假设检验”式推断中输出可校准的概率（而非二分类标签），并评估模型的不确定性质量。

评主要看benchmark标注与校准评估：它把多模态推断从硬标签拉到可校准概率，适合你做可靠性/对齐时当统一量尺；方法部分可快读。

Dengjia Zhang,Alexander Martin,William Jurayj,Kenton Murray,Benjamin Van Durme,Reno Kriz

multimodaluncertainty-estimationcalibration2026年4月9日arXiv PDF

arXiv

SenBen: Sensitive Scene Graphs for Explainable Content Moderation

解决图像内容审核模型缺乏空间定位与可解释性的问题，构建可用于“敏感行为-参与者-位置关系”解释的场景图基准与训练方案。

评作为审核可解释性数据点备查即可：看标注schema和蒸馏配方，结论更像工程整合，别指望带来新预训练规律。

Fatih Cagatay Akyon,Alptekin Temizel

benchmarkcontent-moderationscene-graph-generation2026年4月9日arXiv PDF

arXiv

PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos

现有视频多模态模型缺乏对“室内视频中小物体的精确定位与可用空间表达”的直接评测，导致模型空间理解能力难以被诊断与推动。

评知道有这个小物体空间诊断集就够了：只看任务分层与评测指标，能快速补你内部eval里“可执行定位表达”的空白。

Zhiyu Zhou,Peilin Liu,Ruoxuan Zhang,Luyang Zhang,Cheng Zhang,Hongxia Xie,Wen-Huang Cheng

Jilin UniversityNational Taiwan Universitybenchmarkvideo-understandingspatial-reasoning2026年4月10日arXiv PDF

arXiv

MAG-3D: Multi-Agent Grounded Reasoning for 3D Understanding

在复杂3D场景中实现面向开放式问题的“先精确grounding再推理”的零样本/免训练3D grounded reasoning。

评当作3D落地的prompt编排案例扫一眼：重点看多agent分工与失败模式，training-free结果受工具链影响大，信号偏弱。

Henry Zheng,Chenyue Fang,Rui Huang,Siyuan Wei,Xiao Liu,Gao Huang

vlm3d-groundingmulti-agent2026年4月10日arXiv PDF

arXiv

FashionStylist: An Expert Knowledge-enhanced Multimodal Dataset for Fashion Understanding

缺少支持“专家级、整体穿搭理解”的多模态数据与评测，限制VLM在风格/场合/兼容性等高层语义推理能力上的进展。

评偏应用但可做偏好/审美类对齐的外部基准：只看标注一致性与任务定义，别花时间读模型细节。

Kaidong Feng,Zhuoxuan Huang,Huizhong Guo,Yuting Jin,Xinyu Chen,Yue Liang,Yifei Gai,Li Zhou,Yunshan Ma,Zhu Sun

Yanshan UniversityCentral South UniversityZhejiang University+3vlm-benchmarkmultimodal-datasetfashion-understanding2026年4月10日arXiv PDF

arXiv

EgoTL: Egocentric Think-Aloud Chains for Long-Horizon Tasks

面向长时域具身任务的VLM/世界模型训练中，如何获得高质量、低幻觉的长链条“可对齐的思考-行动-空间”标注数据，以减少长视野指令跟随中的跳步、幻觉与物理不一致。

评作为具身长链数据采集范式备查：看think-aloud对齐与空间校准流程，能直接迁移到你们的标注管线，论文结果本身别过度解读。

Lulin Liu,Dayou Li,Yiqing Liang,Sicong Jiang,Hitesh Vijay,Hezhen Hu ... 省略 1 位作者 ... ,Zirui Liu,Srinivas Shakkottai,Manling Li,Zhiwen Fan

egocentricembodied-aithink-aloud2026年4月10日arXiv PDF

arXiv

Hidden in Plain Sight: Visual-to-Symbolic Analytical Solution Inference from Field Visualizations

从物理场的可视化图像(及一阶导数等元信息)中恢复可执行的解析符号解(SymPy表达式)，实现“视觉到符号”的科学推理。

评值得知道有“视觉到符号解”这个可验证评测：只看数据合成与自验证流程，模型部分更像baseline堆叠，适合做鲁棒性回归测试。

Pengze Li,Jiaquan Zhang,Yunbo Long,Xinping Liu,Zhou wenjie,Encheng Su ... 省略 5 位作者 ... ,Philip Torr,Shixiang Tang,Aoran Wang,Xi Chen

vlmsymbolic-regressionscientific-reasoning2026年4月10日arXiv PDF

arXiv

Noise-Aware In-Context Learning for Hallucination Mitigation in ALLMs

缓解听觉大模型(ALLMs)在音频理解/音频描述生成中的幻觉，并提供更细粒度的评测而非二分类。

评部署向的小技巧合集：只看in-context噪声建模提示法和benchmark定义，方法增量不大但能当ALLM幻觉评测的起点。

Qixuan Huang,Khalid Zaman,Masashi Unoki

audio-llmhallucinationin-context-learning2026年4月10日arXiv PDF

arXiv

Through Their Eyes: Fixation-aligned Tuning for Personalized User Emulation

如何让用于推荐系统评测的“用户模拟”型VLM/LLM agent不再只看文本/结构化特征，而是对齐真实用户在UI布局上的个性化注视（gaze）模式，从而提升点击行为模拟的真实性。

评作为“用户仿真评测”文献备查即可：gaze对齐很直观但数据与场景强绑定，难迁移到通用预训练；看方法图和主要指标表就够。

Lingfeng Huang,Huizhong Guo,Tianjun Wei,Yingpeng Du,Zhu Sun

Singapore University of Technology and DesignZhejiang UniversityNanyang Technological Universitygaze-alignmentvlm-attentionuser-simulation2026年4月10日arXiv PDF

arXiv

Modality-Aware Zero-Shot Pruning and Sparse Attention for Efficient Multimodal Edge Inference

在多模态边缘推理中，面对功耗波动与传感器缺失，实现无需部署后微调的模态感知剪枝与更高效注意力。

评端侧零样本剪枝+稀疏注意力更像部署技巧包，研究增量有限但可抄作业；只看模态条件化重要性评分和缺失模态鲁棒性表。

Yueyuan Sui,Payal Mohapatra,Doğaç Eldenk,Haodong Yang,Yiting Zhang,Haoyan Zhang,Qi Zhu,Stephen Xia

Northwestern Universitymultimodaledge-inferencepruning2026年4月10日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXivHF Daily▲ 11泛读

ELT: Elastic Looped Transformers for Visual Generation

论文关注视觉生成模型在“高质量”与“参数/内存效率”之间的矛盾：传统做法通过堆叠大量不共享参数的 Transformer 层来提升容量，导致参数量与显存占用线性增长、吞吐受“memory wall”限制。作者提出能否用循环/权重共享的 Transformer，在保持生成质量的同时显著减少参数，并且让模型在推理时可按算力预算随时提前退出（Any-Time/Elastic inference）。

评循环共享参数+可提前退出若训练得稳，会直接影响我对“堆深=容量”的prior；建议重点看训练稳定技巧与any-time质量曲线。

Sahil Goyal,Swayam Agrawal,Gautham Govind Anil,Prateek Jain,Sujoy Paul,Aditya Kusupati

efficient-transformerweight-sharingimage-generation2026年4月10日arXiv PDF

arXiv泛读

BlendFusion -- Scalable Synthetic Data Generation for Diffusion Model Training

扩散模型训练高度依赖大规模图文对数据，但纯扩散生成的合成数据常出现几何/语义不一致，并可能在“用生成数据再训练生成模型”的闭环中触发模型自噬（MAD）导致性能退化。论文要解决的是：如何可扩展地产生高一致性、高可用的合成图文对，用于扩散模型训练/补充真实数据，同时降低MAD风险。

评skim：把3D渲染做成可规模化“合成图文对”管线，能直接指导你搭内部数据工厂；重点看过滤/去重与相机采样ablation。

Thejas Venkatesh,Suguna Varshini Velury

synthetic-datadiffusion-trainingpath-tracing2026年4月10日arXiv PDF

arXiv泛读

MixFlow: Mixed Source Distributions Improve Rectified Flows

Rectified Flow/Flow Matching虽理论上能“拉直”生成轨迹以减少采样步数，但实践中仍需要较多函数评估。论文指出高曲率的重要原因之一是源分布（通常标准高斯）与数据分布独立、耦合不对齐，导致前向耦合产生大量轨迹交叉，模型学习到的向量场趋向平均方向而变弯。要解决的是：如何通过更好的源-目标耦合/源分布设计，进一步降低轨迹曲率，从而在更少步数下保持或提升生成质量。

评skim：把RF的弯曲归因到源分布不对齐是个会改变直觉的点；建议复现混合源分布对步数-质量曲线的影响，重点看不同κ下是否稳。

Nazir Nayal,Christopher Wewer,Jan Eric Lenssen

rectified-flowdiffusionsource-distribution2026年4月10日arXiv PDF

arXiv泛读

Post-Hoc Guidance for Consistency Models by Joint Flow Distribution Learning

一致性模型（Consistency Models, CMs）采样快（1~few steps），但主流“指导（guidance）”能力（如扩散模型中的CFG）通常依赖从扩散模型教师蒸馏而来，导致：1）指导与Consistency Distillation（CD）强绑定，Consistency Training（CT）类预训练CM难以获得后验（post-hoc）指导；2）难以像DM那样在同一模型上仅通过推理时调参评估“指导本身”的收益。本文要解决的问题是：在不依赖DM教师的前提下，如何对一个已预训练的、原本无指导能力的CM进行轻量后处理，使其具备类似CFG的可调指导效果。

评想把 CFG 式可调 guidance 从 CD 解耦出来这点很实用；只看方法段和主表对比，判断是否值得在自家 CM 权重上复现。

Chia-Hong Hsu,Randall Balestriero

consistency-modelsguidanceflow-matching2026年4月10日arXiv PDF

arXiv泛读

Adjoint Matching through the Lens of the Stochastic Maximum Principle in Optimal Control

扩散/流模型的“奖励微调（reward fine-tuning）”与从Boltzmann/tilted分布采样可统一表述为随机最优控制（Stochastic Optimal Control, SOC）问题：在SDE约束下学习最优控制以最小化代价/最大化回报。近期Adjoint Matching（AM）方法把该问题转成回归式损失并在实践中有效，但原工作主要是启发式、局限于控制仿射+二次代价等特殊设定，缺乏从控制理论一阶条件出发的严格推导，也难以推广到更一般的控制依赖漂移/扩散与更一般代价。本文要解决：为AM建立严格的SMP（随机最大值原理）理论基础，给出可推广的Hamiltonian形式目标，并解释其为何对应有效的“控制改进”步骤。

评把 AM 用 SMP 严格化能提升我对“reward fine-tune=控制改进”的信心；重点读推导假设与一阶条件，实验当弱信号。

Carles Domingo-Enrich,Jiequn Han

diffusion-modelsoptimal-controlstochastic-maximum-principle2026年3月28日arXiv PDF

arXiv

InsEdit: Towards Instruction-based Visual Editing via Data-Efficient Video Diffusion Models Adaptation

指令式视频编辑通常需要大量高质量编辑数据，但现实中编辑数据稀缺，如何用更少数据把视频生成模型适配成强视频编辑器。

评数据管线驱动的“少样本把生成模型拧成编辑器”思路可借鉴，但收益高度依赖构造对质量；不必细读，重点看数据构造与对齐损失。

Zhefan Rao,Bin Zou,Haoxuan Che,Xuanhua He,Chong Hou Choi,Yanheng Li,Rui Liu,Qifeng Chen

The Hong Kong University of Science and TechnologyCelia Research HKCity University ofvideo-diffusioninstruction-editingdata-efficient-adaptation2026年4月9日arXiv PDF

arXivHF Daily▲ 24

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

交互式视频生成作为world model时，难以同时实现长时一致性（带记忆）与高分辨率实时生成，限制真实交互场景落地。

评更偏系统demo：实时720p交互+长程记忆很吸睛，但可复现门槛和数据/工程耦合高；作为world-model工程标杆知道结论即可。

Zile Wang,Zexiang Liu,Jaixing Li,Kaichen Huang,Baixin Xu,Fei Kang ... 省略 13 位作者 ... ,Xianglong He,Yang Liu,Yangguang Li,Yahui Zhou

interactive-video-generationworld-modeldiffusion2026年4月10日arXiv PDF

arXivHF Daily

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

在视频生成中实现可控且物理合理的相机运动：解决文本控制不精确与手工轨迹参数成本高的问题。

评把相机轨迹显式成中间表征再蒸到扩散模型，工程上很实用但对预训练启发有限；看CT-200数据定义和可控性对比图即可。

Haoyu Zhao,Zihao Zhang,Jiaxi Gu,Haoran Chen,Qingping Zheng,Pin Tang ... 省略 3 位作者 ... ,Zenghui Lu,Peng Shu,Zuxuan Wu,Yu-Gang Jiang

video-generationcamera-controldiffusion-transformer2026年4月10日arXiv PDF GitHub

arXiv

GeRM: A Generative Rendering Model From Physically Realistic to Photorealistic

弥合物理真实的PBR与视觉“照片真实感”(PRR)之间的差距，在可控性/几何一致性与生成逼真度之间取得统一。

评glance：问题提法新但更像渲染/视觉论文；只需看他们如何定义PBR→PRR gap与评测，作为“可控+逼真”融合的备查。

Jiayuan Lu,Rengan Xie,Xuancheng Jin,Zhizhen Wu,Qi Ye,Tian Xie,Hujun Bao,Rui Wang. Yuchi Huo

Zhejiang University and Zhejiang LabZhejiang Universitygenerative-renderingpbrphotorealism2026年4月10日arXiv PDF

arXiv

PhysInOne: Visual Physics Learning and Reasoning in One Suite

缓解物理世界视频/动态场景的“物理一致性”训练数据稀缺问题，并系统评估/提升基础模型在物理现象上的学习与推理能力。

评glance：把“物理一致性”做成大套件数据很实用，但结论高度依赖合成分布；只看任务划分与leaderboard缺口，别深信绝对分数。

Siyuan Zhou,Hejun Wang,Hu Cheng,Jinxi Li,Dongsheng Wang,Junwei Jiang ... 省略 29 位作者 ... ,Bing Wang,Zhihua Wang,Chuhang Zou,Bo Yang

physicssynthetic-datasetvideo-generation2026年4月10日arXiv PDF

arXiv

VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis

为具身学习合成可用于策略学习的数据：在语言/视觉条件下联合生成“视频+动作轨迹”，避免仅生成世界视频却缺少配对动作的问题。

评glance：值得知道“视频+动作”联合生成这条数据合成路线，但训练信号/对齐约束可能很脆；只看动作-视频一致性指标与失败案例。

Xiaolei Lang,Yang Wang,Yukun Zhou,Chaojun Ni,Kerui Li,Jiagang Zhu ... 省略 3 位作者 ... ,Yun Ye,Guan Huang,Xiaofeng Wang,Zheng Zhu

embodied-aivideo-generationaction-generation2026年4月10日arXiv PDF

HF Daily▲ 1

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

现有Text-to-Audio-Video(T2AV)生成评测割裂且粗粒度，难以衡量真实提示词下音视频联合语义正确性与可控性，亟需任务驱动、细粒度的统一评测基准。

评glance：作为评测基准备查即可；重点看他们把语义正确性拆成哪些可测任务，能直接迁移到你自己的多模态对齐评估。

ZHOU,Zeyuan Lai,Rui Wang,Yifan Yang,Zhen Xing,Yuqing Yang,Qi Dai,Lili Qiu,Chong Luo

benchmarktext-to-audio-videomultimodal-generation2026年4月9日arXiv PDF GitHub

arXiv

Neural networks for Text-to-Speech evaluation

如何用神经网络自动化近似人类主观听感评价（MOS/SBS），以低成本、可扩展地评测TTS系统质量。

评glance：偏工程但能省人评成本；只看模型对MOS的校准/跨说话人泛化是否稳，若不稳就别拿来做训练回路指标。

Ilya Trofimenko,David Kocharyan,Aleksandr Zaitsev,Pavel Repnikov,Mark Levin,Nikita Shevtsov

tts-evaluationmos-predictionpreference-modeling2026年3月17日arXiv PDF

arXiv

SIC3D: Style Image Conditioned Text-to-3D Gaussian Splatting Generation

在文本到3D生成中缓解“仅文本条件”带来的可控性不足与纹理歧义，并实现参考图像风格对3D结果的可控迁移。

评glance：两阶段把几何与风格拆开是个干净的控制思路；只看风格损失如何避免几何被带偏，作为3D条件控制的技巧库。

Ming He,Zhixiang Chen,Steve Maddock

text-to-3d3d-gaussian-splattingstyle-conditioning2026年4月9日arXiv PDF

arXiv

TouchAnything: Diffusion-Guided 3D Reconstruction from Sparse Robot Touches

仅依赖稀疏机器人触觉接触点时，如何在强欠约束条件下重建物体全局3D几何。

评glance：跨模态用2D扩散当几何先验这点值得记住，但更像机器人重建应用；只看先验注入方式与在极稀疏触觉下的退化曲线。

Langzhe Gu,Hung-Jui Huang,Mohamad Qadri,Michael Kaess,Wenzhen Yuan

diffusion-priortactile-sensing3d-reconstruction2026年4月10日arXiv PDF

arXiv

Strips as Tokens: Artist Mesh Generation with Native UV Segmentation

解决自回归Transformer生成高质量3D网格时的token序列组织问题：现有坐标排序序列过长、patch启发式破坏边流与结构规律，难以达到艺术家级建模标准。

评glance：tokenization/序列化确实影响3D自回归上限，但离LLM预训较远；只看“strips”表示为何更短且保边流，作表示设计参考。

Rui Xu,Dafei Qin,Kaichun Qiao,Qiujie Dong,Huaijin Pi,Qixuan Zhang ... 省略 1 位作者 ... ,Lan Xu,Jingyi Yu,Wenping Wang,Taku Komura

LtdShandong UniversityThe University of+23d-generationautoregressive-transformertokenization2026年4月10日arXiv PDF

arXiv

SHIFT: Steering Hidden Intermediates in Flow Transformers

在不重训扩散模型的情况下，实现对DiT图像生成的概念移除/风格迁移/对象偏置等可控编辑，并尽量保持其余提示词内容与画质。

评activation steering 搬到 DiT 的工程小招，更多是可控生成工具箱补丁；知道思路即可，不必细读实现细节。

Nina Konovalova,Andrey Kuznetsov,Aibek Alanov

activation-steeringdiffusion-transformerconcept-erasure2026年4月10日arXiv PDF

arXiv

EGLOCE: Training-Free Energy-Guided Latent Optimization for Concept Erasure

在不重新训练扩散模型的前提下，于推理阶段实现对指定概念（显式内容/版权角色/风格等）的有效“擦除”且尽量保持提示词语义一致。

评training-free 概念擦除偏工程启发，效果很吃能量/优化超参且易有语义漂移；当作安全合规备选方案备查即可。

Junyeong Ahn,Seojin Yoon,Sungyong Baik

diffusion-modelsconcept-erasuretraining-free2026年4月10日arXiv PDF

HF Daily▲ 31

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

在用户指定局部区域的前提下进行图像细节修复/增强，同时严格保持非编辑区域像素不变，解决局部细节塌陷问题。

评局部细节保真更像编辑管线技巧堆叠，和预训练研究关联弱；扫一眼定性图与区域约束实现就够了。

Dewei Zhou,You Li,Zongxin Yang,Yi Yang

diffusionimage-editinglocal-refinement2026年4月8日arXiv PDF GitHub

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv精读

Decomposing the Delta: What Do Models Actually Learn from Preference Pairs?

评改变我对偏好对“学到什么”的 prior：增益更像来自 delta 的过程质量而非答案对错；应按文中分解维度重做内部数据筛选/采样策略。

Chia-Hsuan Lee,Mingyang Zhou,Renkun Ni,Zelei Cheng,Sihui Dai,Supriyo Chakraborty,Shixiong Zhang,Sambit Sahu,William Campbell

preference-optimizationDPOalignment-data2026年4月9日arXiv PDF

arXiv精读

SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

评改变我对“RLVR=只适合 STEM”的 prior：用自然指令做可验证训练来拉通用推理；建议立刻复现其数据生成/验证管线，看负迁移是否真被压住。

Ashima Suvarna,Kendrick Phan,Mehrab Beikzadeh,Hritik Bansal,Saadia Gabriel

rlvrreinforcement-learningreasoning2026年4月9日arXiv PDF

arXiv精读

Skip-Connected Policy Optimization for Implicit Advantage

评把 dense advantage 在预算内“符号经常估错”这点讲透了，解释为何 GRPO 反而稳；应按文中方差/符号一致性诊断先做 internal ablation 再谈细粒度 CA。

Fengwei Teng,Jinyi Bai,Xinhao Yao,Demi Ruohan Wang,Jiahao Zhao,Zhijiang Guo

rlvrgrpopolicy-optimization2026年4月9日arXiv PDF

arXiv精读

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

评把“长时域+稀疏终奖”下 PPO 崩溃归因到 tail effect 并给出序列级替代，足以改变我对 RLVR 信用分配的 prior；建议立刻按其 ablation 复现稳定性/吞吐曲线。

Tianyi Wang,Yixia Li,Long Li,Yibiao Chen,Shaohan Huang,Yun Chen,Peng Li,Yang Liu,Guanhua Chen

pporlvrlong-horizon-reasoning2026年4月10日arXiv PDF

arXiv精读

Efficient RL Training for LLMs with Experience Replay

评把“LLM RL 必须近 on-policy”这个教条打破得比较实：给了可落地的 replay buffer/staleness 权衡，能直接指导你把生成成本从 80%+ 拉下来；建议按其 staleness×性能曲线做内部 sweep。

Charles Arnal,Vivien Cabannes,Taco Cohen,Julia Kempe,Remi Munos

rlhfexperience-replayoff-policy2026年4月9日arXiv PDF

arXiv泛读

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

论文研究扩散语言模型（dLLM）安全对齐的一个“承重假设”：一旦在去噪过程中提交（commit）的 token（尤其是拒答 token）就不可逆、永久固定。作者证明该假设在推理时可被“轨迹级”操控绕过：在模型早期已经提交拒答词后，攻击者将这些已提交位置重新置为 [MASK]（re-mask），再注入极短的肯定/服从前缀（prefix），即可把后续去噪轨迹从拒答重定向到合规输出。

评直接打破 dLLM“提交不可逆”的默认 prior，属于必须纳入 threat model 的系统洞；建议立刻检查自家推理栈是否允许中间态重写。

Arth Singh

diffusion-lmjailbreakalignment2026年3月17日arXiv PDF

arXiv泛读

Lessons Without Borders? Evaluating Cultural Alignment of LLMs Using Multilingual Story Moral Generation

论文关注“大模型文化对齐”评估的缺口：现有评测往往默认存在单一正确答案，难以刻画不同语言/文化群体对同一叙事的价值解读差异。作者提出“多语言故事寓意（moral）生成”作为文化扎根的评估任务：给定故事摘要，让模型生成该故事的道德寓意/教训，并与来自对应语言–文化群体的人类寓意分布进行比较，从而衡量模型是否能再现人类的跨文化解释变异。

评文化对齐评测有意思但噪声与标注分布依赖很重；只看任务设定与“cultural flattening”指标/图，别陷入结果细节。

Sophie Wu,Andrew Piper

cultural-alignmentevaluationmultilingual2026年4月9日arXiv PDF

arXiv泛读

PerMix-RLVR: Preserving Persona Expressivity under Verifiable-Reward Alignment

论文研究“persona prompting（角色/人设提示）”带来的性能波动：同一模型在不同persona下任务表现差异巨大，最佳persona难以预测，导致需要昂贵的推理时prompt试错/搜索。作者进一步追问：这种persona敏感性是否与后训练（post-training）目标有关，能否在训练阶段让模型对persona变化更鲁棒，同时在需要时仍能保持角色表达力（fidelity/expressivity）。

评把 persona 稳定性当成对齐副作用来处理很贴产品，但结论可能强依赖 reward/任务集；重点看消融与稳定性度量定义再决定跟进。

Jihwan Oh,Soowon Oh,Murad Aghazada,Minchan Jeong,Sungnyun Kim,Se-Young Yun

rlvralignmentpersona2026年4月10日arXiv PDF

arXiv泛读

Hierarchical Alignment: Enforcing Hierarchical Instruction-Following in LLMs through Logical Consistency

论文聚焦多源异构指令共存时的“层级指令遵循（instruction hierarchy）”：系统指令、用户指令、工具输出/检索内容、历史对话等往往部分冲突且多为“良性冲突”（非对抗注入）。现有工作多强调安全攻击场景，较少系统解决日常应用中“既要遵循高优先级约束、又要尽量保持任务效用与行为一致性”的层级冲突解析问题。

评把“层级指令冲突”做成可检验的一致性约束，适合补齐 agent/RAG 真实脏场景；只看冲突构造与评测协议，训练细节先别深信。

Shu Yang,Zihao Zhou,Di Wang,Wenda Li

alignmentinstruction-hierarchyconstraint-solving2026年4月10日arXiv PDF

arXiv泛读

Do LLMs Follow Their Own Rules? A Reflexive Audit of Self-Stated Safety Policies

论文研究一个“反身性(reflexive)”安全一致性问题：同一个LLM在被要求“精确描述自己的安全边界/规则”时所陈述的政策（self-stated policy），是否与它在真实有害请求基准上的实际行为一致。现有评测多用外部标准衡量“是否安全”，但不衡量“是否遵守自己声称的规则”，因此无法发现“模型自我承诺—行为执行”之间的系统性断裂。

评把“模型自述规则”当内生基准做审计，能直接指导你写更可测的 policy prompt；只看指标定义和最典型的自我违约案例即可。

Avni Mittal

safetyalignmentRLHF2026年4月10日arXiv PDF

arXiv泛读

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

论文聚焦LLM强化学习中的核心瓶颈——信用分配（Credit Assignment, CA）：当奖励是稀疏的、结果级的（例如“最终答案是否正确”“任务是否完成”），如何把功劳/责任分摊到长轨迹中的具体动作（token、推理步骤、工具调用、对话轮次）。该问题在两类场景中显著恶化：reasoning RL（单次超长CoT生成，500到30K+ token）与agentic RL（多轮与环境交互、随机转移、部分可观测、100+轮、100K–1M token）。

评更像一份 CA 方法地图：帮你在长轨迹 reasoning/agent RL 里选算法与报告口径；挑你关心的场景小节看，别指望新 SOTA 结论。

Chenchen Zhang

credit-assignmentrl-for-llmsagentic-rl2026年4月10日arXiv PDF

arXiv泛读

$p1$: Better Prompt Optimization with Fewer Prompts

论文研究“为什么系统提示词（system prompt）的自动优化在不同任务上效果极不稳定”。作者将提示词优化视为RL问题：策略生成候选system prompt，用冻结LLM在数据集上的准确率作奖励；核心问题是：何时存在足够清晰的优化信号、何时信号会被生成随机性与数据异质性淹没，从而导致“算力堆不出更好prompt”。

评把 prompt 优化失败归因到奖励信号强弱而非“玄学”，并给出“样本更少更好”的可操作过滤；只看信号分解推导和 p1 过滤策略。

Zhaolin Gao,Yu,Wang,Bo Liu,Thorsten Joachims,Kianté Brantley,Wen Sun

prompt-optimizationvariance-decompositioninstruction-selection2026年4月9日arXiv PDF

arXiv泛读

VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning

论文解决LVLM（大视觉语言模型）在多模态推理中“答错但很自信”的校准问题，尤其是幻觉（hallucination）导致的高置信错误。作者指出：沿用文本LLM的“单一整体置信度+答案对错二值监督”的口径不适配LVLM，因为错误可能来自两类不同源头——视觉感知失败（没看对图/没grounding）或在感知正确前提下的推理错误；单一置信度会混淆两者，并且视觉不确定性常被语言先验掩盖。

评把 LVLM 置信度拆成“视觉感知 vs 推理”两头，工程上能直接降高置信幻觉；重点看解耦训练目标与无视觉真值时的奖励构造，别纠结花哨指标。

Wenyi Xiao,Xinchi Xu,Leilei Gan

calibrationRLHFVLM2026年4月10日arXiv PDF

arXiv泛读

Precise Shield: Explaining and Aligning VLLM Safety via Neuron-Level Guidance

论文聚焦于真实部署中 VLLM 的“多语言 + 多模态复合攻击”安全失效：有害图像与低资源语言文本组合可绕过主要针对英语/单模态设计的防护。核心机制问题是：安全能力在模型内部“落在哪些神经元/层”，以及它在不同语言与模态间如何共享或分化，从而导致 HRL（高资源语言）与 NHRL（非高资源语言）安全差异。

评神经元级定位“安全子空间”听起来酷但容易过拟合解释；当作低成本跨语/跨模态加固的候选方案看，主要读定位方法与少参更新效果表。

Enyi Shi,Fei Shen,Shuyi Miao,Linxia Zhu,Pengyang Shao,Jinhui Tang,Tat-Seng Chua

Nanjing University of Science and TechnologyNational University ofBeihang University+1vlm-safetyalignmentneuron-level2026年4月10日arXiv PDF

arXiv泛读

E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning

论文研究 Tool-Integrated Reasoning (TIR) 代理的早期训练困境：Zero-RL 缺乏先验引导导致探索低效、易退化到过度调用工具的“react mode”；SFT-then-RL 虽有起步优势但依赖昂贵合成数据，且后期易出现能力僵化与低熵坍塌（多样性下降、性能平台期）。核心问题是如何在不大量依赖 SFT 数据的前提下，提高早期探索效率与多样性，并保持后续 RL 的可持续提升。

评作为“少 SFT 的 warm-up”路线图可参考，但收益很可能强依赖工具/任务分布；只看方法段的探索约束设计和主表里早期学习曲线即可。

Weiyang Guo,Zesheng Shi,Liye Zhao,Jiayuan Ma,Zeen Zhu,Junxian He,Min Zhang,Jing Li

tool-usereinforcement-learningexploration2026年4月10日arXiv PDF

arXiv泛读

DeepGuard: Secure Code Generation via Multi-Layer Semantic Aggregation

代码大模型会从训练语料中继承不安全编码模式，现有安全加固微调/对齐方法往往只利用最后一层（final layer）的表示来提供监督信号，导致“final-layer bottleneck”：与漏洞判别相关的线索分布在多层，靠近输出层时反而变得不易分离，从而限制安全能力提升。

评“final-layer 做安全监督”这个默认做法被点名不干净，值得看其多层聚合带来的可分性提升是否真不伤功能；重点读表示分析图和与常规对齐的对照实验。

Li Huang,Zhongxin Liu,Yifan Wu,Tao Yin,Dong Li,Jichao Bi,Nankun Mu,Hongyu Zhang,Meng Yan

code-securityllm-alignmentrepresentation-probing2026年4月10日arXiv PDF

arXiv泛读

TensorHub: Scalable and Elastic Weight Transfer for LLM RL Training

LLM 强化学习（RL）训练中，trainer 高频产出新权重、海量 rollout worker 频繁拉取权重，权重传输成为系统瓶颈。现有方案要么依赖静态通信组（如 NCCL）难以应对弹性/故障；要么点对点扇出导致拥塞（如 UCX）；要么通过分布式存储实现解耦但引入“push 到存储 + pull 到 worker”的双倍数据搬运与巨大存储开销，尤其在 TB 级权重下不可承受。

评如果你们 RL 吞吐被权重分发卡住，这篇是可直接抄的系统抽象；只需看架构图+带宽/延迟随 worker 数扩展曲线，判断是否能替换现有 push/pull 存储方案。

Chenhao Ye,Huaizheng Zhang,Mingcong Han,Baoquan Zhong,Xiang Li,Qixiang Chen ... 省略 4 位作者 ... ,He Sun,Wencong Xiao,Andrea C. Arpaci-Dusseau,Remzi H. Arpaci-Dusseau

rlhf-systemsweight-transferdistributed-training2026年4月10日arXiv PDF

arXiv泛读

BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning

论文研究一种区别于提示注入/工具误用的新型智能体供应链风险：第三方“技能（skill）”在发布时可捆绑一个小模型（model-in-skill），该模型在表面正常完成任务的同时，被后门微调为仅在“结构化技能参数”满足攻击者设定的语义组合触发条件时，执行隐藏恶意载荷（payload）。核心问题是：当恶意逻辑被编码进技能内置模型权重而非显式代码分支时，传统代码审计与输入净化难以发现。

评把 agent 供应链风险从“提示/工具”推进到“skill 内置小模型权重”，这个威胁面需要你更新审计动作：安装时做 artifact 扫描而非只做运行时防护；主要看触发器构造与检测失败案例。

Guiyao Tie,Jiawen Shi,Pan Zhou,Lichao Sun

agent-securitybackdoor-attacksupply-chain2026年4月10日arXiv PDF

arXiv泛读

Spectral Geometry of LoRA Adapters Encodes Training Objective and Predicts Harmful Compliance

论文探讨一个“无需跑推理、只看权重”的问题：LoRA 微调产生的权重增量（ΔW）在谱几何（spectral geometry）上是否能识别微调目标（objective fingerprinting），并且这种几何信号是否能预测下游有害行为（harmful compliance）。更具体地：能否区分同一训练方法（DPO）下不同的目标（如反转 harmlessness vs 反转 helpfulness），以及这种区分是否与攻击成功率相关。

评“只看 LoRA 权重就能指纹化目标/预测有害服从”很诱人但易过拟合数据集；当作部署前审计的弱信号即可，重点看跨任务/跨训练配方的泛化表。

Roi Paul

loradpoalignment-safety2026年4月10日arXiv PDF

arXiv泛读

Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning

统一后训练中如何同时利用 SFT 的稳定低方差与 RL 的探索低偏差，但避免两者梯度信号在统计上“高偏差 vs 高方差”的结构性冲突；以及如何处理不同难度样本在统一目标下学习信号可靠性差异巨大（易样本饱和、难样本奖励稀疏、中等样本最有效）。

评想解决 SFT 偏差锁死 vs RL 方差爆炸的统一训练，这篇值得对照你们现有 schedule；只看其动态权重/样本难度分桶策略与 OOD 曲线，别被大一统叙事带跑。

Taojie Zhu,Dongyang Xu,Ding Zou,Sen Zhao,Qiaobo Hao,Zhiguo Yang,Yonghong He

post-trainingrlhfdistillation2026年4月10日arXiv PDF

arXiv泛读

StaRPO: Stability-Augmented Reinforcement Policy Optimization

现有推理 RL 多以“最终答案正确性”作为主要反馈，难以约束推理过程的逻辑稳定性，导致输出虽流畅相关但出现逻辑跳步、结构紊乱、冗余循环等过程性错误；需要一种无需昂贵 LLM-as-a-judge 的可计算信号来奖励稳定推理轨迹。

评想做推理RL但不想上 LLM-judge 的，可把“稳定性”做成可计算奖励当工程补丁；只需看他们的稳定性指标定义与关键消融，别纠结故事线。

Jinghan Zhang,Fengran Mo,Tharindu Cyril Weerasooriya,Ruimin Dai,Xiaoyan Han,Yanjie Fu,Dakuo Wang,Kunpeng Liu

reinforcement-learningprocess-rewardreasoning-stability2026年4月10日arXiv PDF

arXiv泛读

Distributionally Robust Token Optimization in RLHF

现有 RLHF（PPO/DPO 及其变体）在训练分布与部署分布存在轻微偏移（措辞、格式、符号、语言等）时，容易出现性能大幅波动，尤其在多步数学推理中表现为不稳定与鲁棒性不足。即便是 token-level 的对齐方法（如 RTO）改善了 credit assignment，也仍会受 reward 噪声与 minibatch 组成影响，导致更新不稳、对分布移位敏感。

评把 DRO 的最坏情形塞进 token-level RLHF 更新里，属于能直接落地的稳健性改动；建议只读目标函数/优化细节与分布移位实验，其他略。

Yeping Jin,Jiaming Hu,Ioannis Ch. Paschalidis

rlhfdistributionally-robust-optimizationrobustness2026年3月27日arXiv PDF

HF Daily▲ 5泛读

Backdoor Attacks on Decentralised Post-Training

去中心化（分布式）后训练在结合数据并行（DP）与流水线并行（PP）时，存在被恶意参与方注入后门/误对齐的风险。现有针对 PP 的研究多为非定向的 poisoning（易被训练损失/性能监控发现），缺少“定向且隐蔽”的 backdoor 攻击：攻击者仅控制中间流水线 stage、看不到明文 token，也不掌控全模型或全数据，仍希望在不显著破坏 SFT 性能的情况下植入触发式不安全行为。

评只看威胁模型与攻击实现细节：在仅控中间PP stage且不可见token的约束下仍能稳定种后门，逼你把“训练完整性审计/冗余验证”当必配而非可选。

Oğuzhan Ersoy,Nikolay Blagoev,Jona te Lintelo,Stefanos Koffas,Marina Krček,Stjepan Picek

University of NeuchâtelRadboud UniversityDelft University of Technology+2backdoor-attackpipeline-parallelismdecentralized-training2026年3月31日arXiv PDF

arXiv

Cards Against LLMs: Benchmarking Humor Alignment in Large Language Models

如何评测并量化LLM在“幽默偏好”上的对齐程度，以及模型偏好与人类偏好不一致时的系统性原因（如位置偏置）。

评幽默基准本身不关键，但它把 position bias 等评测污染暴露得很直观；看偏置分析那节即可，用来校准自家偏好评测。

Yousra Fettach,Guillaume Bied,Hannu Toivonen,Tijl De Bie

alignmentpreference-modelinghumor2026年4月9日arXiv PDF

arXiv

Leave My Images Alone: Preventing Multi-Modal Large Language Models from Analyzing Images via Visual Prompt Injection

如何在用户侧主动防护个人图片，防止开源/开放权重多模态大模型对图片进行隐私敏感分析与信息提取。

评用户侧用视觉注入让模型拒看图，作为隐私防护思路值得知道；但更偏攻防工程与威胁模型，扫一眼攻击/防御假设与泛化结果就够。

Zedian Shao,Hongbin Liu,Yuepeng Hu,Neil Zhenqiang Gong

multimodal-safetyprompt-injectionadversarial-perturbation2026年4月10日arXiv PDF

arXiv

Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization

多模态越狱攻击在“开源替身模型→闭源商业VLM目标”的异构迁移场景下效果显著下降（surrogate dependency），缺少有效的黑盒/闭源可迁移攻击方法与评估。

评把“替身依赖”讲清并给了黑盒迁移增强套路，适合做红队基线备查；不必细读推导，直接看迁移设置、成功率曲线和对闭源模型的覆盖面。

Yuqin Lan,Gen Li,Yuanze Hu,Weihao Shen,Zhaoxin Fan,Faguo Wu,Xiao Zhang,Laurence T. Yang,Zhiming Zheng

Beihang UniversityHuazhong University of Science and Technologyvlm-safetymultimodal-jailbreaktransfer-attack2026年4月10日arXiv PDF

arXiv

AudioGuard: Toward Comprehensive Audio Safety Protection Across Diverse Threat Models

面向语音/音频作为主要交互入口的基础模型，缺乏覆盖多威胁模型的系统化风险分类与可操作的安全评测基准，导致音频安全防护难以全面落地。

评更像可检索的 taxonomy+benchmark 工程件：知道它怎么切威胁模型、题目覆盖面即可，不必细读正文；后续做音频对齐/红队时拿来当清单用。

Mintong Kang,Chen Fang,Bo Li

audio-safetyred-teamingbenchmark2026年4月10日arXiv PDF

arXiv

Confident in a Confidence Score: Investigating the Sensitivity of Confidence Scores to Supervised Fine-Tuning

SFT 后常用不确定性/置信度分数与输出质量的相关性会退化，导致置信度无法可靠指示幻觉或错误。

评结论不复杂但很实用：SFT 会把置信度分数的语义搞乱，别再把 logprob/entropy 当现成质量指示器；扫一眼敏感性实验和失败模式分类就够了。

Lorenzo Jaime Yu Flores,Cesare Spinoso di-Piano,Jackie Chi Kit Cheung

uncertainty-quantificationconfidence-calibrationsupervised-finetuning2026年4月10日arXiv PDF

arXiv

Testing the Assumptions of Active Learning for Translation Tasks with Few Samples

在仅有 100-500 标注样本的翻译生成任务中，主动学习（informativeness/diversity）为何常常不优于随机采样？

评作为“主动学习在小样本生成里常失灵”的证据集可备查；结论偏经验且依赖任务细节，不必细读，扫实验对照与失败归因即可。

Lorenzo Jaime Yu Flores,Cesare Spinoso di-Piano,Ori Ernst,David Ifeoluwa Adelani,Jackie Chi Kit Cheung

Mila - Quebec AI InstituteMcGill Universityactive-learningdata-selectionfew-shot2026年4月10日arXiv PDF

arXiv

Automated Instruction Revision (AIR): A Structured Comparison of Task Adaptation Strategies for LLM

在少量样本条件下，系统比较多种LLM任务适配策略（规则归纳式指令修订、提示优化、检索、微调等）在不同任务类型上的适用性与边界。

评更像适配策略选型手册：没有统一赢家但能帮你少走弯路；不值得逐页读，只看任务分组下各法的胜负矩阵/结论表。

Solomiia Bilyk,Volodymyr Getmanskyi,Taras Firman

instruction-tuningpromptingretrieval2026年4月10日arXiv PDF

arXiv

Optimal Multi-bit Generative Watermarking Schemes Under Worst-Case False-Alarm Constraints

在最坏情况误报（false-alarm）约束下，如何实现LLM生成式多比特水印的最优编码-解码方案并刻画其可达性能边界。

评如果你在做水印/溯源，这篇把“自称最优”的旧构造打穿并给出可达边界，可信度高；否则属于理论备查，不影响预训练主线。

Yu-Shin Huang,Chao Tian,Krishna Narayanan

watermarkinginformation-theorylinear-programming2026年4月9日arXiv PDF

arXiv

Revisiting the Capacity Gap in Chain-of-Thought Distillation from a Practical Perspective

在Chain-of-Thought（CoT）蒸馏中，重新审视“教师-学生能力差距（capacity gap）”是否真的是失败主因，并指出常见评测设置会掩盖蒸馏后相对学生原始能力的退化问题。

评改变我对“capacity gap 是 CoT 蒸馏主因”的默认归因：强制用学生蒸馏前基线做对照；建议立刻把他们的评测协议搬进内部蒸馏实验。

Tokio Kajitsuka,Ukyo Honda,Sho Takase

cot-distillationknowledge-distillationevaluation-protocol2026年4月10日arXiv PDF

arXiv

Act or Escalate? Evaluating Escalation Behavior in Automation with Language Models

在自动化决策中，LLM如何在不确定性下权衡“直接行动”与“升级/交由人工处理（escalate）”，以及如何让模型学到目标升级策略并具备跨域泛化。

评作为 agent 可靠性评测很实用：把“该不该升级给人”变成可检验的阈值行为；但更偏评测与校准，预训练研究员知道结论即可不必深挖。

Matthew DosSantos DiSorbo,Harang Ju

escalationuncertaintycalibration2026年3月31日arXiv PDF

arXiv

GRM: Utility-Aware Jailbreak Attacks on Audio LLMs via Gradient-Ratio Masking

在音频LLM(语音-文本交互)中实现“兼顾效用”的越狱攻击：在提高jailbreak成功率的同时尽量保持转写与问答等正常能力不被破坏。

评偏语音多模态攻防：强调越狱成功率与效用保持的权衡，能提醒你做 ALLM 评测别只看 ASR/WER；但不太指导基座训练，扫方法与结果图即可。

Yunqiang Wang,Hengyuan Na,Di Wu,Miao Hu,Guocong Quan

Sun Yat-Sen Universityaudio-llmjailbreakadversarial-attack2026年4月10日arXiv PDF

arXiv

Adaptive Simulation Experiment for LLM Policy Optimization

在有限预算下，如何通过自适应采样的成对偏好比较（pairwise comparisons）高概率识别一组候选LLM策略/政策中的最优者，并刻画所需数据量与最优采样分配。

评把偏好对比当自适应实验设计来算样本量与分配比例，适合做离散候选策略 A/B；对训练算法没新招，但可直接指导你怎么省标注预算。

Mingjie Hu,Siyang Gao,Jian-qiang Hu,Enlu Zhou

preference-learningpolicy-selectionadaptive-sampling2026年4月9日arXiv PDF

arXiv

The nextAI Solution to the NeurIPS 2023 LLM Efficiency Challenge

在极端算力/时间约束下（单张A100 40GB、24小时）对70B级基础模型进行高效微调并尽量保持效果。

评竞赛工程复盘：把 QLoRA/FlashAttn 等堆到极限预算下的配方，更多是调参集成；当 checklist 备查即可，不值得当研究论文细读。

Gyuwon Park,DongIl Shin,SolGil Oh,SangGi Ryu,Byung-Hak Kim

QLoRAefficient-finetuningFlashAttention2026年4月10日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

arXiv精读

A Little Rank Goes a Long Way: Random Scaffolds with LoRA Adapters Are All You Need

评必读：它逼你重估“预训练权重承载任务信息”的prior——随机冻结骨干+小rank LoRA仍能逼近全参训练；建议立刻在内部复现实验并扫rank/宽度看拐点。

Hananel Hazan,Yanbo Zhang,Benedikt Hartl,Michael Levin

loraparameter-efficiencyrandom-features2026年4月9日arXiv PDF

arXiv泛读

Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning

大推理模型（LRM）依赖长链式思维（CoT）获得高准确率，但普遍出现“过度思考”：不论题目难度都倾向生成冗长推理，带来高延迟与高算力成本；同时长CoT会放大早期局部偏差与幻觉，错误在反思/自洽中累积。现有CoT压缩多为任务级（task-level）调节，缺少对推理链不同阶段冗余来源的逐步（step-wise）建模与自适应策略选择。

评当作推理服务优化的弱信号：重点看它如何按“推理状态”做step-wise压缩与何时引入外部知识，能直接转成你自家test-time compute的ablation旋钮。

Yi Sui,Chaozhuo Li,Dawei Song

chain-of-thoughtreasoning-compressioninference-efficiency2026年4月10日arXiv PDF

arXiv泛读

RecaLLM: Addressing the Lost-in-Thought Phenomenon with Explicit In-Context Retrieval

长上下文LLM并不等于“会用长上下文”。论文指出在推理模型中存在更尖锐的失效模式：随着链式思维变长，模型在后续从上下文中检索关键信息的能力会显著下降，即 lost-in-thought——推理步骤本应提升效果，却反过来让后续in-context retrieval更困难（推理产生的语义相关但干扰性token增多、注意力被中间推理占据等）。现有方法多假设“推理前一次性检索足够证据”，无法覆盖推理过程中动态出现的新检索需求。

评只看失效曲线与方法对照：它把“越想越找不到证据”的现象钉死为可复现问题，提醒你做长CoT/长上下文时必须把检索做成显式步骤而非指望注意力自发完成。

Kyle Whitecross,Negin Rahimi

long-contextin-context-retrievalreasoning2026年4月10日arXiv PDF

arXivHF Daily▲ 2泛读

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

对齐后的 LLM 仍可被 jailbreak、解码策略变化或窄域微调触发有害输出（含“涌现失配”EM）。核心问题是：模型内部的“有害性生成”到底是分散的表层模式拼接，还是被压缩成一个相对统一、可定位的机制？

评看它定位“有害生成”是否集中在统一机制的证据链；若成立，你该把安全干预从表层拒答迁到机制级（定点抑制/编辑），但也要警惕因果归因是否被提示/解码混淆。

Hadas Orgad,Boyi Wei,Kaden Zheng,Martin Wattenberg,Peter Henderson,Seraphina Goldfarb-Tarrant,Yonatan Belinkov

interpretabilitysafetyweight-pruning2026年4月10日arXiv PDF

arXiv泛读

Drift and selection in LLM text ecosystems

公共文本生态正在进入“人类—AI—平台管线”的递归反馈回路：模型生成草稿/建议→人类选择发布→排序/审核/验证/去重/语料清洗决定哪些文本进入公共记录→未来模型再用这些公共记录训练。核心问题是：在这种递归环境中，公共文本分布会如何随时间演化？哪些变化来自中性漂变（drift），哪些来自选择（selection），以及后续学习者究竟继承了什么？

评读理论框架与关键假设就够：它把“合成内容回流”从口水战拉到可分析的drift/selection分解，能指导你设计数据策展/去重/排序策略的长期副作用评估。

Søren Riis

data-ecosystemmodel-collapsedistribution-shift2026年3月15日arXiv PDF

arXiv泛读

Revisiting Anisotropy in Language Transformers: The Geometry of Learning Dynamics

论文聚焦 Transformer 语言模型表示空间的“各向异性”(anisotropy)：token/句向量并非均匀铺展，而是集中在少数主方向形成“窄锥”，导致无关样本余弦相似度偏高。作者进一步追问：这种现象到底是训练病态、语言/句法几何的必然结果，还是学习动力学对某些“切向方向”(tangent directions) 的系统性放大？

评重点看学习动力学如何放大主方向：若各向异性是训练必然的低秩子空间学习，你在做检索/探针/对比学习时应改用去均值/白化等处理而非简单“消除各向异性”。

Raphael Bernas,Fanny Jourdan,Antonin Poché,Céline Hudelot

anisotropyrepresentation-geometrytraining-dynamics2026年4月9日arXiv PDF

arXiv泛读

From Dispersion to Attraction: Spectral Dynamics of Hallucination Across Whisper Model Scales

论文研究大规模 ASR Transformer（Whisper）中的“幻觉”(hallucination) 机制：在静音、噪声或对抗扰动下，模型会生成与声学输入脱耦但内部置信度很高的转写（包括循环、背诵训练片段等）。核心问题是：这种失效为何随模型尺度出现系统性变化，且传统指标（WER、token logprob）难以及时预警？

评只看他们的谱分析信号与随尺度变化的曲线：作为ASR幻觉早期预警的弱线索；但因数据/扰动设定较杂，别过度相信因果解释。

Ivan Viakhirev,Kirill Borodin,Grach Mkrtchian

ITMOMTUCIhallucinationspectral-analysiswhisper2026年3月31日arXiv PDF

arXiv泛读

Evidential Transformation Network: Turning Pretrained Models into Evidential Models for Post-hoc Uncertainty Estimation

预训练模型（视觉/语言）通常只输出softmax概率，缺乏可靠的后验不确定性刻画；主流后验不确定性方法（Deep Ensembles、MC Dropout、Laplace等）在大模型上推理或适配成本过高；而EDL虽可单次前向输出Dirichlet二阶分布，但要求从训练之初就以“证据/Dirichlet参数”为目标训练，难以直接用于现成的预训练网络。

评如果你在做可部署不确定性，这篇值得复现：后接一个轻量变换把logits变Dirichlet证据，动作明确；重点看校准/OOD实验而非公式堆。

Yongchan Chun,Chanhee Park,Jeongho Yoon,Jaehyung Seo,Heuiseok Lim

uncertainty-estimationevidential-deep-learningpost-hoc-calibration2026年4月9日arXiv PDF

arXiv泛读

Loom: A Scalable Analytical Neural Computer Architecture

如何用Transformer实现一个可扩展、可编译、可执行通用程序的“解析构造（非学习）”神经计算机：既要支持多指令集（不止SUBLEQ单指令），又要保持固定步成本（每步一次前向、与程序长度/历史无关），并能在有限层数与参数规模下运行实际程序（如游戏、数独）。

评当作“可解析构造的Transformer执行器”基线看：改变我对必须训练才能跑程序的prior；直接读编译流程与可执行demo，细节证明可略。

Mehmet Kerem Turkcan

transformer-computationneural-computerprogram-execution2026年4月9日arXiv PDF

arXiv泛读

How does Chain of Thought decompose complex tasks?

论文试图回答：Chain-of-Thought（CoT）为何能提升复杂任务表现、它本质上如何“分解”任务、以及“多想/更长推理”何时有益或有害。作者将许多LLM任务抽象为“从大量候选答案中选一个”的分类问题，并研究把一个大分类拆成一串小分类（树结构决策）时，整体错误率如何变化。

评理论味较浓但能给你一个可算的“CoT步数最优”判据；只看误差分解结论与几张示意图，别纠结其把任务抽象成分类的假设。

Amrut Nadgir,Vijay Balasubramanian,Pratik Chaudhari

chain-of-thoughttask-decompositionscaling-law2026年4月10日arXiv PDF

HF Daily▲ 5泛读

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

标准LLM评测只关注assistant回复质量，忽略了模型是否编码了对后续交互的感知能力（interaction awareness）。

评交互感知与任务准确率解耦的发现有意思，暗示预训练数据中对话结构的建模可能不够——看§实验中temperature对follow-up率的影响即可。

Sarath Shekkizhar,Romain Cosentino,Adam Earle

interaction-awarenessuser-turn-generationLLM-evaluation2026年4月3日arXiv PDF

arXiv

Robust Reasoning Benchmark

现有数学推理评测对格式高度过拟合，如何系统评估LLM推理对输入扰动/格式变化的鲁棒性，并区分“解析失败”与“推理失败”。

评作为评测备查即可：只看扰动清单和“解析失败vs推理失败”的拆分设计，能快速补齐你现有math benchmark对格式过拟合的盲区。

Pavel Golikov,Evgenii Opryshko,Gennady Pekhimenko,Mark C. Jeffrey

reasoning-robustnessbenchmarkformat-sensitivity2026年3月26日arXiv PDF

arXiv

A Representation-Level Assessment of Bias Mitigation in Foundation Models

从表示空间(embedding/hidden states)层面审计与量化foundation models的去偏(bias mitigation)效果，并分析去偏如何改变内部几何结构。

评不必细读正文：记住它提供了“表示空间审计”这条去偏验证路径与WinoDec数据集，适合在你做对齐/公平性时当作内部诊断工具箱补件。

Svetoslav Nizhnichenkov,Rahul Nair,Elizabeth Daly,Brian Mac Namee

bias-mitigationrepresentation-analysisfairness2026年3月17日arXiv PDF

arXiv

Adaptive Rigor in AI System Evaluation using Temperature-Controlled Verdict Aggregation via Generalized Power Mean

LLM-as-a-Judge/自动评测的“严格程度”难以随应用场景（安全关键 vs. 日常对话）自适应，导致与人类偏好对齐不稳定。

评知道有这个“严苛度旋钮”就行：温控的power-mean聚合能在不加judge调用下调保守/宽松，但更多是评测管线工程技巧，别指望改变模型结论。

Aleksandr Meshkov

llm-evaluationllm-as-a-judgeaggregation2026年4月4日arXiv PDF

arXiv

Quantisation Reshapes the Metacognitive Geometry of Language Models

量化并非均匀降低 LLM 的“元认知/自信-正确性匹配”，而是会在不同知识域上重塑其元认知效率的几何结构。

评知道“量化不只是整体变差而是扭曲校准几何”这个结论即可；只需扫指标定义与关键图表，别指望给出可直接落地的量化配方。

Jon-Paul Cacioli

quantizationmetacognitioncalibration2026年4月10日arXiv PDF

arXiv

Facet-Level Tracing of Evidence Uncertainty and Hallucination in RAG

解释与定位RAG中“明明检索到相关证据仍产生幻觉”的原因，细化到问题的原子推理要素（facets）层面评估证据充分性与使用情况。

评作为RAG诊断工具箱备查：把“没用证据”拆到facet级很实用，但更像评测框架而非机制结论；只看方法与案例分析部分。

Passant Elchafei,Monorama Swain,Shahed Masoudian,Markus Schedl

RAGhallucinationfaithfulness2026年4月10日arXiv PDF

arXiv

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

参考答案（reference-based）的生成式LLM评测中，如何避免词面/格式匹配（lexical）导致的误判，同时又不引入LLM-as-a-Judge的高计算成本。

评想省评测算力可看：encoder当judge是个工程上干净的折中；结论主要靠大规模相关性实验，扫实验设置与主表就够。

Hippolyte Gisserot-Boukhlef,Nicolas Boizard,Emmanuel Malherbe,Céline Hudelot,Pierre Colombo

evaluationllm-as-a-judgebert2026年4月10日arXiv PDF

arXiv

Arbitration Failure, Not Perceptual Blindness: How Vision-Language Models Resolve Visual-Linguistic Conflicts

解释VLM在视觉-语言冲突（例如图像是蓝香蕉但回答“黄”）时失败的根因：是“看不见”(perceptual blindness)还是“仲裁失败”(arbitration failure)。

评值得知道“看见了但输出被语言先验压住”的诊断视角；但对训练改法指向不强，读核心分析与层级证据图即可。

Farhad Nooralahzadeh,Omid Rohanian,Yi Zhang,Jonathan Fürst,Kurt Stockinger

VLMgroundinglogit-lens2026年4月10日arXiv PDF

HF Daily

Large Language Models Align with the Human Brain during Creative Thinking

LLM在“创造性发散思维”任务中，其内部表征与人脑活动是否对齐、对齐如何随模型规模与创意质量变化。

评作为脑-模型对齐文献补丁即可：创意任务上的对齐趋势有趣但外部变量多、可复现门槛高；扫实验范式与主相关结果就收工。

Mete Ismayilzada,Simone A. Luchini,Abdulkadir Gokce,Badr AlKhamissi,Antoine Bosselut,Antonio Laverghetta Jr.,Lonneke van der Plas,Roger E. Beaty

brain-alignmentfMRIcreativity2026年4月3日arXiv PDF

通用AI Agent/Coding Agent/SWE-bench/Tool Use/Code Generation/软件工程Agent

arXiv泛读

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

论文关注编码/SQL智能体在规格不完整、含糊或自相矛盾时的关键失败模式：不会在合适时机向人类请求澄清（selective escalation），而是自信地做假设并产出看似合理但错误的结果。现有基准多提供完备指令，只评执行正确性，无法区分“应该问但没问”和“蒙对了”。

评把“该不该问人”从做题能力里剥离出来，指标可直接接到训练/评测；只看任务构造与失败归因，别纠结总体分数。

Mohamed Elfeki,Tu Trinh,Kelvin Luu,Guangze Luo,Nathan Hunt,Ernesto Montoya ... 省略 2 位作者 ... ,Charles Wang,Fernando Crabedo,Alessa Castilo,Bing Liu

benchmarkhuman-in-the-loopcoding-agents2026年4月10日arXiv PDF

arXiv

SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

如何在软件工程类LLM coding agent中，自动化地为“技能/指令模块（skills）”做组合与调参，以同时优化成功率、成本与运行时延，避免人工反复试错。

评把skill组合/参数搜索做成多目标优化，能直接指导你怎么自动化调“成功率-成本-时延”；但收益多来自工程搜索，别期待新理论。

Jingzhi Gong,Ruizhen Gu,Zhiwei Fei,Yazhuo Cao,Lukas Twist,Alina Geiger,Shuo Han,Dominik Sobania,Federica Sarro,Jie M. Zhang

coding-agentsmulti-objective-optimizationskill-bundles2026年4月10日arXiv PDF

arXiv泛读

CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation

移动端GUI自动化代理（VLM/LLM驱动）从“建议”走向“代操作”后，动作空间巨大且不可逆高风险（转账、授权、隐私外发等）。现有防护（提示词自检、启发式规则、VLM-critic）缺乏形式化保证、难以在分布漂移下校准，且无法提供用户可调的风险-自主性权衡。

评把“可调风险预算+校准保证”引入GUI代操作，比提示词自检靠谱；建议细读风险控制形式化与校准实验，便于落地成安全层。

Yushi Feng,Junye Du,Qifan Wang,Zizhan Ma,Qian Niu,Yutaka Matsuo,Long Feng,Lequan Yu

gui-agentconformal-predictionrisk-control2026年4月10日arXiv PDF

arXiv

Multi-User Large Language Model Agents

现有LLM Agent多默认“单用户/单委托人”范式，难以在多用户（多角色/多权限/多偏好）同时协作时处理冲突、信息不对称与隐私约束。

评问题定义比算法更有用：把多用户/权限/隐私冲突拉进agent主线，能直接指导你补internal eval维度；正文只需看形式化与任务设定。

Shu Yang,Shenzhe Zhu,Hao Zhu,José Ramón Enríquez,Di Wang,Alex Pentland,Michiel A. Bakker,Jiaxin Pei

multi-user-agentsmulti-principalauthorization2026年3月19日arXiv PDF

arXiv

MT-OSC: Path for LLMs that Get Lost in Multi-Turn Conversation

LLM在多轮对话中因指令/关键信息分散而“迷路”导致性能下降，同时直接拼接全历史会造成上下文窗口与成本问题；如何在不打断用户体验下压缩历史并保持任务性能。

评更像产品侧对话记忆工程，训练启发弱；只需扫方法流程和消融，看看压缩是否真不伤关键指令。

Jyotika Singh,Fang Tu,Miguel Ballesteros,Weiyi Sun,Sandip Ghoshal,Michelle Yuan,Yassine Benajiba,Sujith Ravi,Dan Roth

multi-turncontext-compressionmemory2026年4月9日arXiv PDF

arXiv

Litmus (Re)Agent: A Benchmark and Agentic System for Predictive Evaluation of Multilingual Models

在缺少目标语言/任务直接评测结果时，如何预测多语模型在目标语言任务上的表现（predictive multilingual evaluation）。

评属于评测范式扩展而非模型洞见；只看benchmark设定与强基线，判断“预测评测”是否比简单迁移指标更稳。

Avni Mittal,Shanu Kumar,Sandipan Dandapat,Monojit Choudhury

agentbenchmarkmultilingual2026年4月10日arXiv PDF

arXiv

CONDESION-BENCH: Conditional Decision-Making of Large Language Models in Compositional Action Space

评测LLM在“可组合动作空间”且存在显式可行性约束条件下的条件决策能力，弥补传统从有限候选动作中选择的基准设定不足。

评把“选项题”推到约束满足更贴近真实失败模式；但结论多依赖任务构造，浏览任务生成与错误分解表就够。

Yeonjun Hwang,Sungyong Park,Minju Kim,Dongha Lee,Jinyoung Yeo

benchmarkdecision-makingconstraint-satisfaction2026年4月10日arXiv PDF

arXiv

Task-Aware LLM Routing with Multi-Level Task-Profile-Guided Data Synthesis for Cold-Start Scenarios

在缺少目标域训练数据的冷启动场景下，实现对不同任务/查询的LLM路由（在成本-效果之间做选择）并保持泛化能力。

评冷启动路由+合成数据是常见套路，增量主要在任务画像分层；只看合成分布是否贴近测试与路由收益曲线。

Hui Liu,Bin Zou,Kecheng Chen,Jie Liu,Wenya Wang,Haoliang Li

llm-routingcold-startdata-synthesis2026年4月10日arXiv PDF

arXiv

Many-Tier Instruction Hierarchy in LLM Agents

在真实Agent环境中指令来源多且权限层级复杂，固定少数层级的Instruction Hierarchy无法覆盖多源冲突，导致安全与有效性下降；需要可扩展到任意多权限层级的冲突解析能力与评测。

评多权限层级冲突是Agent安全的真实坑，但更偏policy/评测；只看层级定义与冲突案例，别指望给出训练可直接用的配方。

Jingyu Zhang,Tianjian Li,William Jurayj,Hongyuan Zhan,Benjamin Van Durme,Daniel Khashabi

agentinstruction-hierarchybenchmark2026年4月10日arXiv PDF

arXiv

Every Response Counts: Quantifying Uncertainty of LLM-based Multi-Agent Systems through Tensor Decomposition

如何对LLM多智能体系统（MAS）在多轮交互/多路径通信下的整体推理轨迹不确定性进行可分解、可量化的评估。

评UQ用张量分解拆MAS不确定性挺新，但可复现性取决于轨迹采样与拓扑设定；只看分解项定义和验证实验。

Tiejin Chen,Huaiyuan Yao,Jia Chen,Evangelos E. Papalexakis,Hua Wei

multi-agentuncertainty-quantificationtensor-decomposition2026年4月9日arXiv PDF

arXiv

Mind the Gap Between Spatial Reasoning and Acting! Step-by-Step Evaluation of Agents With Spatial-Gym

现有空间推理/导航类评测多为一次性输出，难以反映交互式决策与回退；本文提出交互式环境评测以量化“空间推理到行动（acting）”的能力差距。

评交互式空间评测对agent有用，但对预训练指导有限；扫one-shot vs step-by-step对强弱模型反转的那组图即可。

Lars Benedikt Kaesberg,Tianyu Yang,Niklas Bauer,Terry Ruas,Jan Philip Wahle,Bela Gipp

agent-evaluationspatial-reasoninginteractive-benchmark2026年4月10日arXiv PDF

arXiv

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

如何在通用Agent执行“会改变外部世界状态”的动作（state mutation）时，从架构层面提供可验证、可约束、可审计的安全治理，而不是仅靠API调用后的被动过滤。

评是部署治理协议而非模型论文：把mutation变成可审计“执行合同”值得记作架构prior；读流程图与证据链机制即可。

Jun He,Deying Yu

agent-safetygovernanceexecution-contracts2026年4月7日arXiv PDF

arXiv

SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment

现有LLM agent多停留在“单回合/单任务”评测，难以衡量跨任务持续学习、工具/策略自我演化与长期效率稳定性。

评长期自演化评测补了episodic盲区，但容易被任务设计牵着走；只看SEA定义、泄漏控制和长期退化曲线。

Sihang Jiang,Lipeng Ma,Zhonghua Hong,Keyi Wang,Zhiyu Lu,Shisong Chen ... 省略 1 位作者 ... ,Tianjun Pan,Weijia Zhou,Jiaqing Liang,Yanghua Xiao

benchmarkself-evolving-agentlong-horizon2026年4月10日arXiv PDF

arXiv

DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?

如何系统评测“深度研究型agent”在真实链路中同时完成网页/知识检索与多步计算（entity识别→属性检索→数学/程序计算）的能力，而不是把检索与计算割裂评测。

评把检索+计算链路绑在一起更接近research agent，但主要是数据生成器贡献；只看自动验证机制与难度过滤是否干净。

Young-Suk Lee,Ramon Fernandez Astudillo,Radu Florian

agent-benchmarktool-useweb-browsing2026年4月10日arXiv PDF

arXiv

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

如何在不同量子编程框架之间统一评测LLM的量子代码生成能力，从而区分“量子推理能力”与“框架熟悉度”。

评主要价值是把量子代码评测做成可执行、跨框架可比；当作基准目录备查即可，不太改预训练侧的 prior。

Ali Slim,Haydar Hamieh,Jawad Kotaich,Yehya Ghosn,Mahdi Chehimi,Ammar Mohanna,Hasan Abed Al Kader Hammoud,Bernard Ghanem

benchmarkcode-generationquantum2026年3月25日arXiv PDF

arXiv

AlphaLab: Autonomous Multi-Agent Research Across Optimization Domains with Frontier LLMs

如何让前沿LLM以多智能体方式在计算密集型优化任务中端到端自动完成“读数据-设指标-写代码-跑大规模实验-总结报告”的完整研究闭环。

评工程秀成分偏多、结论强依赖系统细节；想抄作业就看playbook/自动验证那段，别把“自动科研”当可泛化证据。

Brendan R. Hogan,Xiwen Chen,James T. Wilson,Kashif Rasul,Adel Boyarsky,Thomas Kamei,Anderson Schneider,Yuriy Nevmyvaka

autonomous-researchmulti-agentcoding-agent2026年3月31日arXiv PDF

arXiv

Semantic Intent Fragmentation: A Single-Shot Compositional Attack on Multi-Agent AI Pipelines

如何攻击多Agent/编排式LLM系统：用一次“合法表述”的请求诱导编排器拆解出单步均合规但整体违反安全策略的子任务序列，从而绕过现有子任务级安全机制。

评提醒你step-level guardrail不够：编排拆解会把违规意图“合法分片”；值得把plan-level检查加入内部红队用例库。

Tanzim Ahad,Ismail Hossain,Md Jahangir Alam,Sai Puppala,Yoonpyo Lee,Syed Bahauddin Alam,Sajedul Talukder

agent-securityprompt-attacktask-decomposition2026年4月8日arXiv PDF

arXiv

Aligned Agents, Biased Swarm: Measuring Bias Amplification in Multi-Agent Systems

多智能体系统中，协作拓扑与反馈回路是否会放大而非削弱偏见，以及如何系统测量这种“偏见级联/放大”。

评把多Agent拓扑当成偏见放大器来测，比单体bias更贴近真实部署；但因果不干净，主要看测量协议与案例图表。

Keyu Li,Jin Gao,Dequan Wang

multi-agent-systemsbias-amplificationbenchmark2026年4月10日arXiv PDF

HF Daily▲ 4

AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents

解决长轨迹Web Agent在有限上下文窗口下的“上下文管理策略静态、随状态变化无法自适应”导致的搜索效率与最终精度下降问题。

评上下文路由/并行分支是长程agent的实用招，但评测很容易被检索与网站分布污染；只看路由策略与消融，别信绝对SOTA。

Zhaopeng Feng,Liangcai Su,Zhen Zhang,Xinyu Wang,Xiaotian Zhang,Xiaobin Wang ... 省略 9 位作者 ... ,Pengjun Xie,Bryan Hooi,Zuozhu Liu,Jingren Zhou

web-agentcontext-managementparallel-branching2026年3月29日arXiv PDF

arXiv泛读

SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation

LLM在多轮对话（辅导、客服、咨询等）中需要长期保持角色/人格/目标一致性；但LLM–LLM自对话或角色扮演式合成数据会随轮次累积身份相关失败：persona drift（人格漂移）、role confusion（角色混淆）、echoing（逐渐模仿对方）。这会污染合成语料，削弱下游训练与评测可信度。

评如果你在用合成多轮对话做预训练/对齐，这篇会逼你把persona drift当数据质量硬指标；重点看稳定性判据与过滤/生成流程。

Han Luo,Guy Laban

multi-turnpersonadialogue-simulation2026年4月10日arXiv PDF