AI Research Daily
更新时间: 2026/4/15 17:48:36
方法或结果明显独立成立的工作,建议读全文
Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
在“在线低延迟部署约束”下,把MoE的accuracy-per-FLOP优势真正转化为accuracy-per-parameter/带宽/通信友好的实际效率,并同时兼顾长上下文与agentic推理:提出并验证一种硬件-软件协同的稀疏MoE(LatentMoE)+ Mamba/Attention混合骨干 + MTP原生推测解码的端到端预训练与后训练配方,且在极低精度NVFP4下稳定完成25T token预训练。
论文要回答的核心问题是:为什么“多 token 并行预测”(Multi-Token Prediction, MTP) 这种仅改变训练目标、推理仍按单步生成的范式,会在需要全局结构的推理/规划任务上显著优于传统 next-token prediction (NTP)?更具体地,MTP 到底通过什么优化与表征机制,让 Transformer 学会“先看终点再倒推路径”的规划策略,而 NTP 往往陷入局部模式/teacher forcing 诱导的捷径学习?
解决 looped / recurrent-depth Transformer(通过在中间层循环同一组 block 来增加 FLOPs 而不增加参数)训练不稳定的问题(residual explosion、loss spikes),并进一步建立“循环次数(looping)作为独立 scaling 轴”的训练 FLOP scaling law 与测试时 compute scaling 规律,使其成为可预测、可控的算力扩展手段。
Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
论文聚焦 OPD(On-Policy Distillation,学生自采样轨迹、教师提供逐 token log-prob 作为稠密监督)在大模型后训练中“有时极其有效、有时完全失效”的核心不确定性:为什么更强的 teacher 反而可能无法提升 student?OPD 成功/失败由哪些可观测条件决定?其 token 级训练动力学与梯度信号到底来自哪里?以及如何把这些机制总结成可复现的训练配方来修复失败配置。
Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
论文要解决的核心问题是:OPD(On-Policy Distillation)在推理/后训练中效果好但强依赖“训练时实时teacher打分(log-prob)”的在线服务,导致基础设施成本高、复现困难;能否把OPD做成离线(预先算好teacher log-prob并复用)同时不掉性能?作者进一步指出:离线OPD失败的根因并不只是“离线近似”,而是一个被忽视但对任何OPD都必要的条件——SFT阶段生成轨迹的teacher与OPD阶段提供分布监督的teacher必须一致(teacher consistency),否则目标函数存在不可消除的偏差,在线/离线都会收敛到次优不动点。
在“自回归下一token生成器”PAC学习框架下,系统刻画学习由T步自回归推理过程诱导的端到端映射的样本复杂度如何随推理长度T增长,并严格比较两种监督信号:只给最终答案的端到端监督(e2e) vs 给出完整中间轨迹的Chain-of-Thought监督(CoT)。核心问题是:CoT监督在统计效率上究竟能带来多大、在什么条件下的优势?是否存在本质的指数级差距?
论文要回答的是:在一个可完全解析的 ICL(in-context learning)玩具世界里,Transformer 到底用什么“电路/子回路”在做上下文自适应?更具体地,给定训练时只见过有限集合 S 的 K 条离散马尔可夫链(每条链是 C 个离散状态的转移矩阵),两层 Transformer 在不同数据多样性 K 下,会在“泛化 vs 记忆”以及“用 1-point 统计 vs 2-point 统计(转移)”之间切换;作者希望给出这些相变/阶段背后的机制级解释:哪些层、哪些注意力/MLP 子模块在实现 1-Gen/2-Gen/1-Mem/2-Mem 四种算法策略,以及这些策略为何会随 K 与训练进程出现阶段性演化。
论文研究“稀有错误(rare-error)”条件下 AI 审计/校准验证的统计极限:当模型错误率 ε 很低、预测置信度分布又高度集中在 1−ε 附近时,任何基于有限标注样本 m 的校准误差(如 ECE)估计都会遭遇不可突破的噪声地板;并进一步刻画在被动评测、无标签自评、主动查询、以及多组件系统组合(pipeline/agent loop)下,校准可验证性如何随 ε、m、L(校准函数 Lipschitz 常数)缩放。
文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
在“在线低延迟部署约束”下,把MoE的accuracy-per-FLOP优势真正转化为accuracy-per-parameter/带宽/通信友好的实际效率,并同时兼顾长上下文与agentic推理:提出并验证一种硬件-软件协同的稀疏MoE(LatentMoE)+ Mamba/Attention混合骨干 + MTP原生推测解码的端到端预训练与后训练配方,且在极低精度NVFP4下稳定完成25T token预训练。

论文要回答的核心问题是:为什么“多 token 并行预测”(Multi-Token Prediction, MTP) 这种仅改变训练目标、推理仍按单步生成的范式,会在需要全局结构的推理/规划任务上显著优于传统 next-token prediction (NTP)?更具体地,MTP 到底通过什么优化与表征机制,让 Transformer 学会“先看终点再倒推路径”的规划策略,而 NTP 往往陷入局部模式/teacher forcing 诱导的捷径学习?

解决 looped / recurrent-depth Transformer(通过在中间层循环同一组 block 来增加 FLOPs 而不增加参数)训练不稳定的问题(residual explosion、loss spikes),并进一步建立“循环次数(looping)作为独立 scaling 轴”的训练 FLOP scaling law 与测试时 compute scaling 规律,使其成为可预测、可控的算力扩展手段。

在block-wise diffusion language model(DLM)长上下文推理中,prefix attention 反复读取超长KV cache导致显著memory-bound瓶颈;而将AR模型的稀疏注意力直接迁移到DLM会出现“KV Inflation”:同一block内不同query选择的prefix位置差异大,使得attention kernel实际需要加载的KV页是“所有query选择集合的并集”,并集规模随block size放大,从而抵消稀疏带来的带宽收益。论文要解决的是:在不显著损伤生成质量的前提下,如何让DLM在长上下文下真正获得稀疏prefix attention的带宽/延迟收益,并避免KV Inflation。

标准LLM预训练把异质语料“拍平”为同一token流来做NLL,缺少对文本在现实知识体系中“来源/表达形态/时效性”的显式上下文化,导致学习效率与可靠性受限;论文要解决的是:能否用一种覆盖web规模、可自动标注、与主题无关的“知识坐标”作为条件变量,把预训练从P(x)改为P(x|T),从而更快收敛、提升下游并降低幻觉。

长上下文推理同时受两类瓶颈限制:解码时KV cache线性增长带来显存压力,以及prefill/attention的二次计算复杂度带来吞吐压力。已有MLA能压KV但仍做dense attention;稀疏注意力能降算但难以在MLA的latent结构上原生工作。论文要解决的是:能否在MLA的latent空间内“原生地”做上下文凝聚(condensation),同时减少KV存储与注意力计算,并尽量不损伤长上下文能力。

在低带宽(如公网 1Gb/s)环境下做大模型流水线并行训练时,跨 stage 传输的激活与梯度通信成为瓶颈;现有激活压缩要么压缩率不够(量化),要么训练不稳(在残差主干上做瓶颈/自编码),要么需要复杂的约束优化(Subspace Models 需 Grassmann 流形更新)。本文要解决:能否设计一种“原生适配低带宽 PP”的模型结构,在端到端常规优化下实现极高激活压缩且不损收敛?

如何在 LLM 训练/微调过程中进行“动态 coreset(代表性子集)选择”,在显著减少训练数据处理成本的同时尽量保持最终性能,并解决现有 coreset 方法对 LLM 不可扩展、且无法适配训练动态的问题。

如何为“关系型/多表数据库”构建可预训练的基础模型,使其无需手工表展开即可在多表连接、时间一致性等约束下进行ICL与微调。

如何在“模型家族”层面加速视觉基础模型预训练,同时尽量不损失最终性能。

变分语言模型能否提供一种可度量的“基于内部证据的不确定性驱动控制”,用于训练与推理时的闭环干预?
KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

论文解决的问题是:在block diffusion drafter(如DFlash)的一次前向会给出“每个位置的边缘分布”而非路径条件分布的前提下,如何在固定验证开销(node budget)内,把这些分布转化为一个最优的draft tree,从而在一次target model验证中覆盖多条候选续写路径、提升每轮可接受token数(acceptance length),进一步降低推理时延。

如何在不额外调用昂贵 LLM/agentic judge 的情况下,预先(pre-hoc)预测“如果我回答/行动,judge 会给我打多少分”,从而在小模型上实现可靠的自我质量控制与路由(能答好就本地答,没把握就升级到大模型)?论文将其形式化为 Predict-Answer/Act (PA) 与 Reason-Predict-Reason-Answer/Act (RPRA) 两种范式,并研究小模型为何普遍校准差(过度自信/不自信)以及如何修正。

CLASP: Class-Adaptive Layer Fusion and Dual-Stage Pruning for Multimodal Large Language Models
在多模态大模型(MLLM)中,视觉token序列冗长导致推理开销(注意力二次复杂度、显存/延迟)过高;现有视觉token裁剪方法普遍依赖“固定ViT层特征 + 固定裁剪策略(attention或similarity的静态混合)”,对不同指令/问题类别的抽象层级需求(细粒度计数 vs 语义理解等)不敏感,从而在相同token预算下出现明显的类别脆弱性与性能损失。论文要解决的是:在不改动主干MLLM的前提下,如何让视觉表征提取与token裁剪随指令类别自适应,从而在大幅降token时尽量保留原性能。

论文解决的问题是:LLM 在 W4A4(权重4比特+激活4比特)PTQ 推理时,激活 outlier 导致动态范围受限而精度崩溃;现有 outlier 处理要么依赖运行时动态检测(带来额外开销与执行不确定性),要么做全局重参数化(不一定适配细粒度 group-wise 量化与硬件执行)。作者希望找到一种“硬件友好、离线静态、接近无损”的 outlier 保护方案。

在FlashAttention式online softmax已把GEMM推到接近峰值吞吐后,注意力核的瓶颈转移到非矩阵乘部分(每tile的rowmax/rowsum归约、running max更新触发的rescale链等)并呈现vector/SIMD受限;论文要解决的是:在不改变“精确注意力+online softmax累积结构”的前提下,如何显著减少这些向量归约与rescale开销,同时保持数值稳定与模型精度不退化。

PipeLive: Efficient Live In-place Pipeline Parallelism Reconfiguration for Dynamic LLM Serving
一句话:在不停止线上推理服务的前提下,实现 LLM 推理的流水线并行(PP)配置“在线、原地(in-place)”重配置,并解决重配置过程中 GPU 内存饱和、KV cache 需要动态缩放/迁移且必须保持一致性的问题。

在编码类Agent工作负载中,如何通过“本地小模型+云端大模型”的分层架构系统性降低云端LLM token消耗(成本)并量化不同策略的收益与代价。

评估多模态LLM中视觉token剪枝(推理加速)对模型校准/置信度可靠性的影响,而不仅是准确率。

视频扩散Transformer在生成阶段自注意力计算量巨大,而常见稀疏注意力会因静态稀疏模式/确定性路由导致明显时间闪烁,如何在加速的同时保持时间一致性与画面稳定。

如何在一次训练中得到可适配不同算力/延迟约束的扩散模型压缩子网,避免为不同设备重复做多轮压缩训练。

TCL: Enabling Fast and Efficient Cross-Hardware Tensor Program Optimization via Continual Learning
解决跨硬件张量程序(算子/调度)自动调优需要大量离线数据、迁移性差的问题,提出用持续学习与数据高效采样加速编译器优化。

如何把LLM推理嵌入OS内核并将“读取特定token logits”作为低开销治理/安全原语,用于在生成前判定agent动作是否危险。
VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

现有多模态检索增强(KB-VQA / LVLM-RAG)评测普遍只看“答对没”,忽略两类关键失败模式:在证据不足/冲突时应当“拒答/偏转(deflection)”而不是“编造(hallucination)”;同时静态基准会因模型参数记忆增强而快速“过时”,导致原本需要检索的问题被模型直接凭参数知识答出,从而无法持续衡量检索依赖与鲁棒性。本文要解决的是:如何构建一个可随模型能力演进而保持难度、并能显式区分 hallucination vs deflection 的多模态检索基准与评测协议。

现有 AudioLLM 在“推理强、感知弱”上出现系统性倒挂:能做复杂推理但难以稳定识别情绪/音色/口音/韵律以及非语言事件。论文认为根因不是模型容量或架构,而是训练监督长期被 ASR 转写目标主导,导致模型在优化中把副语言学线索与环境声学当作“噪声”压制,从而形成结构性失明。

统一式视觉-语言预训练模型在“全局图文对齐”与“局部/patch级语义对齐(grounding)”之间长期存在张力:即便TIPS、SigLIP2等已引入空间感知训练,模型在像素/patch与文本概念的精确对齐上仍明显不足,且出现“大模型patch-text对齐反而弱于小模型”的反常现象。论文要解决的核心问题是:如何在不牺牲全局对齐能力的前提下,系统性提升预训练阶段的patch-text alignment,并解释/修复规模增大导致的局部对齐退化。

现有VLM评测常把错误混在一起:到底是“看错了”(perception error)还是“语义/规则映射错了”(rule-mapping error)难以区分。本文提出并刻画一种更纯粹的失败模式——semantic fixation:即在视觉状态完全相同的情况下,模型仍固守预训练中更常见的语义解释(标准规则),无法按提示完成等价但相反的规则映射(逆规则/misère-style)。

构建一个能真实检验Video-LLM在“高速度、信息密集、强规则约束”的虚拟对抗环境(FPS电竞第一视角)中的感知与战术推理能力的基准,并通过严格去除文本捷径与时间锚点对齐,确保评测依赖视频理解而非语言猜测。

论文要解决的问题是:现有多模态大模型(MLLM)视觉token剪枝方法在“简单视觉理解(VQA)”上看似可靠,但在“复杂视觉推理(以视觉数学推理VMR为代表)”上出现断崖式退化;作者基于全文分析指出根因并非剪枝策略本身“找不到相关token”,而是相关视觉信息在解码过程中会随推理步骤发生迁移(Relevant Visual Information Shift, RVIS),导致“prefill阶段一次性确定并永久丢弃token”的范式在推理任务上系统性失效。

论文解决的问题是:现有RoPE类位置编码在VLM中对所有token使用统一的pos index/步长(stride),忽略了跨模态与模态内的信息密度差异,导致注意力“把位置分辨率浪费在冗余视觉patch上”,而对信息更密集的文本或关键视觉区域分配不足;作者将“位置粒度”视为一种隐式资源,提出在推理时按信息贡献动态缩放位置索引(positional index scaling)。

当 MLLM 搭配视觉工具(深度/光流/对应/检测等)时,模型往往“看不懂”工具输出:把深度图、光流场等以像素级/密集数值 token 直接序列化输入,会与 LLM 的语言推理表征不匹配,导致模型依赖语言先验、无法有效利用工具提供的真实视觉线索。论文要解决的是:在不增加工具调用、不做训练/微调的前提下,如何把视觉工具输出转换成 LLM 更可读、可推理的表示,从而显著提升视觉工具推理能力。

解决多模态指令微调(visual instruction tuning)中“语言捷径”导致的视觉信息利用不足:即便视觉编码器很强,LLM 在解码时仍倾向依赖语言先验,从而在计数、空间关系、几何等视觉中心任务上失效;论文要回答的是如何在不改架构、不加复杂损失/RL 的情况下,让训练分布本身“强迫”模型用视觉证据。

DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding
多页长文档的纯视觉 MLLM 理解会随页数增长显著退化,根因包括:关键信息被大量无关页面淹没导致低信噪比(SNR),以及数据集通常只有最终短答案、缺少证据定位与推理过程监督,导致模型学到捷径且泛化差。本文要解决的是:让模型在长文档视觉序列上形成“先找证据再推理”的结构化能力,并在训练上提供可学习的细粒度监督与可承受的长序列计算方案。

现有大型音频-语言模型(ALM)在“长音频中的事件时间定位(temporal grounding)”上不可靠:一方面训练数据以clip级弱标注为主导致模型倾向把事件“铺满全段”;另一方面评测集多为事件清晰、间隔有静音的简单场景,无法检验真实世界“短事件埋在密集背景里”的needle-in-a-haystack定位能力。论文要解决的是:在开放词表自然语言查询下,让ALM既能判断事件是否存在,又能在长音频中给出精确起止时间,并显式抑制对不存在事件的“时间戳幻觉”。

在大视觉语言模型中,如何用训练free的解码策略在尽量不增加计算与不破坏稳定预测的前提下抑制幻觉。

视频大模型生成时存在“锚帧主导”(anchor-frame dominance):解码器跨帧注意力在时间维度上高度不均衡,过度依赖少数帧(锚帧)而忽略其他帧证据,导致时序推理偏置并诱发幻觉。论文要解决的是:在不改输入、不加额外解码分支、无需训练的前提下,如何在生成过程中重平衡解码器对各帧的证据聚合,从而降低视频幻觉。

系统梳理并机制化刻画 Vid-LLMs(视频大模型)中的“幻觉”失效模式:不仅是“说错了”,而是输出在时序演化、指代一致性、以及音视模态冲突下如何偏离可观测视频证据;并回答“视频幻觉与图像幻觉本质差异是什么、该如何分类评测、以及缓解策略应如何对因下药”。

现有VLM/OCR系统在多Unicode文字体系上的泛化评测缺失,导致“看似能OCR”但实际只覆盖少数脚本的问题难以被系统性暴露与量化。

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment
解决视觉-语言-动作(VLA)模型缺乏显式动作数据的问题,评估从人类视频中提取的隐式动作表示的有效性。
图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

在扩散式文生图中同时做到“接近/达到SOTA画质”与“显著降低单次采样计算与显存”,并解决稀疏MoE扩散Transformer在timestep调制下的路由不稳定、以及文本条件在多步扩散中KV重复计算带来的推理低效问题。

主流视频tokenizer把视频表示为固定大小的时空3D网格token,并以重建为核心目标,导致下游生成模型(如text-to-video)必须“逐token/逐像素”同时学习低层细节与高层语义/运动结构:不管视频内容复杂度如何,token数恒定且偏细节,学习复杂度与计算成本过高。论文要解决的是:能否构造一种可变长度、粗到细组织的视频token表示,使下游模型可以只预测少量高层token就获得可用语义与运动信息,并在需要时再逐步补细节,从而显著降低训练/推理计算并支持更长视频。

Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling
论文要解决的是:用自回归 LLM 生成 SVG(可执行矢量图程序)时,沿用自然语言的 byte/BPE tokenizer 会把数值坐标碎片化(如“100”→“1”“0”“0”),破坏几何连续性并造成 token 冗余,进而带来坐标幻觉、长序列低效与结构不稳定。核心问题是如何设计“结构对齐 + 高压缩率 + 可执行性保证”的 SVG 专用 tokenizer/表示,以提升数据效率与生成质量。

系统审计文本到图像模型中的人口统计与文化偏见,并同时覆盖偏见、元素遗漏与“文化坍缩”三类现象的评测需求。

如何让TTS模型在保持自然度的同时,实现对表达力(情绪、语气、节奏等)的细粒度、可控生成。

解决视觉生成中扩散模型计算开销大、AR模型受离散tokenization损失与误差累积影响的问题,寻求更高效且高保真的生成范式。

在文本到图像扩散模型中,如何在触发器语义自然、难以通过显式异常检测的情况下,实现输入级(deployment-friendly)的后门触发检测。

弥合扩散模型SFT与RL后训练之间的“轨迹分布偏移/曝光偏差”与稀疏奖励信用分配问题。

长视频生成做 3D 场景漫游时,空间遗忘(revisit 时幻觉)和时间漂移(自回归误差累积)导致几何不一致

Diffusion模型的多种推导视角(VAE、score matching、flow matching)数学密集且缺乏统一直觉,初学者难以理解逆过程如何从噪声生成数据。
RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
论文聚焦 OPD(On-Policy Distillation,学生自采样轨迹、教师提供逐 token log-prob 作为稠密监督)在大模型后训练中“有时极其有效、有时完全失效”的核心不确定性:为什么更强的 teacher 反而可能无法提升 student?OPD 成功/失败由哪些可观测条件决定?其 token 级训练动力学与梯度信号到底来自哪里?以及如何把这些机制总结成可复现的训练配方来修复失败配置。

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
论文要解决的核心问题是:OPD(On-Policy Distillation)在推理/后训练中效果好但强依赖“训练时实时teacher打分(log-prob)”的在线服务,导致基础设施成本高、复现困难;能否把OPD做成离线(预先算好teacher log-prob并复用)同时不掉性能?作者进一步指出:离线OPD失败的根因并不只是“离线近似”,而是一个被忽视但对任何OPD都必要的条件——SFT阶段生成轨迹的teacher与OPD阶段提供分布监督的teacher必须一致(teacher consistency),否则目标函数存在不可消除的偏差,在线/离线都会收敛到次优不动点。

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration
长文本生成中,事实性错误往往以“多条claim级别的过度自信”形式出现;现有提升事实性的训练方法(后验修订、只优化正确性的RL)通常缺少对不确定性的建模与校准,且多把整段回答压成一个全局置信度,无法覆盖长文中不同claim不确定性差异。本文要解决的是:如何让模型在生成时显式分解为可验证的原子claim,并为每条claim给出可校准的置信度,从而减少过度自信的幻觉并支持选择性拒答。

在 CoT 等长序列推理的 RL(如 GRPO)中,奖励往往是序列级/组级给出,token 级极度稀疏,导致 credit assignment 高方差、训练不稳定;同时“无差别”的 token 级熵正则或 KL 约束在稀疏奖励下容易触发熵塌缩/模型退化,且对超参敏感。

如何将“激活层面的steering/越狱行为”稳定地编译进LLM权重中,形成更隐蔽且更可靠的供应链后门,而非只诱导表层token前缀。

LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety
论文要解决的是:为什么同一个经过安全对齐的 LLM 在高资源语言(如英语)上安全性很好,但在低资源语言上攻击成功率(ASR)显著升高;以及如何在“不额外收集/合成低资源语言安全数据、不做目标语言安全微调”的前提下,让高资源语言学到的安全能力跨语言泛化。作者将问题归因于“语义理解是跨语言的,但安全对齐信号在文本空间中是语言分布偏置的”,从而导致语义-安全之间的错配。

文本到图像(T2I)的RL能提升prompt following,但奖励信号难:CLIP类过于粗粒度,VLM奖励模型需要偏好标注与额外训练,直接让VLM打分又不稳定(采样随机/幻觉)。论文要解决的是:如何在“零标注、零奖励模型训练”的条件下,构造一个稳定、细粒度、可扩展(随VLM变强自动变强)的奖励,用于T2I的RL优化。

论文要解决的是:在VLM对齐中,DPO/在线DPO的效果高度依赖偏好对数据质量,但现有偏好对构造多依赖“结果式/粗粒度”信号(如最终对错、幻觉计数)或离策略扰动(改图/注入幻觉),导致(1)与目标策略分布不匹配、(2)无法稳定区分细粒度视觉推理差异(grounding、覆盖度、推理链条错误)。作者希望用一种可复用、低成本、无需训练新RM的方式,让开源judge在多模态偏好标注上产生更细的可解释监督,从而提升on-policy偏好学习的有效性。

Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints
LLM在完成安全对齐(如SFT/RLHF/DPO)后,进行下游微调时会发生“安全漂移”:即便用良性数据训练也可能快速遗忘拒答/安全策略。现有防护多只约束权重更新或只约束激活表征,论文要解决的是:证明单一层面的约束存在可绕过路径,并提出一种在微调阶段同时约束权重与激活的耦合方法,以更稳健地保持安全对齐同时尽量不损害任务性能。

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
在 RLVR/GRPO 等可验证强化学习训练中,难题样本普遍出现“全错 rollout→零优势→无梯度”的奖励稀疏瓶颈;现有 hint-based RL 往往通过增加提示长度/模板强度来缓解稀疏,但带来冗余、跨提示不一致与训练开销。本文要解决的是:如何把“提示设计”从堆 token 的数量问题,转化为“最小充分(minimal-sufficient)知识”选择问题,在尽量短、尽量一致的提示下仍能稳定解锁可学习的正奖励轨迹。

论文要解决的问题是:在以 GRPO/GSPO 为代表的 RLVR(可验证奖励强化学习)推理训练中,模型准确率提升的同时会系统性地产生“相对校准(relative calibration)”退化(典型表现为错误答案反而更“自信/更低困惑度”),而现有修补方法多为启发式、缺少一致性目标与理论保证,导致要么校准改善有限、要么牺牲推理准确率。

安全训练在on-policy RL下对“有害错位/投机取巧(specification gaming)”的调制方向为何会随环境设计而反转?

在小模型(0.6B–2.3B 有效参数)上,能否把“行为倾向/处置(disposition)”(如自我验证、承认不确定性、吸收反馈、坚持完成)通过蒸馏/微调真正写入权重,并在 judge-based 评测中稳定提升,而不牺牲内容能力?

在联邦学习场景下做基于可验证奖励的推理后训练(Federated RLVR)时,如何同时解决:大模型全量同步通信开销过高、异构私有数据导致多本地步训练出现 client drift、以及跨机构难以共享训练信号的问题。

在无法访问原始训练数据、也没有shortcut类型/标注的部署阶段(test-time / deployment-time),如何识别并缓解文本分类模型对“token级捷径特征”(spurious token-label correlation)的过度依赖,从而在shortcut分布发生变化时保持鲁棒泛化,同时尽量不损伤in-distribution性能。

长 CoT 推理任务上,token-level PPO 的时序信用分配不稳定且 value model 内存代价高,GRPO 虽免 critic 但多采样吞吐低

解决传统判别式奖励模型(Reward Model)需要对每个候选回复进行独立前向传播导致的计算效率低下和缺乏全局对比的问题。

在不损失推理性能的前提下,改变/控制LLM进行推理时使用的“推理语言”(例如从英语迁移到其他语言或特定受控语言)。

比较不同“从大语言模型中诱导/挖掘”低资源语言(Hausa、Fongbe)数据的策略,评估哪种 elicitation 更能产出可用训练语料。

TimeMark: A Trustworthy Time Watermarking Framework for Exact Generation-Time Recovery from AIGC
如何对AIGC文本嵌入可司法取证的“生成时间戳”水印,并实现可100%恢复、抗统计攻击与抗提供方伪造的可信水印。

提升小语言模型在多步数学推理中的稳定性与纠错能力,减少早期错误导致的级联失败。

视频多模态理解训练缺少大规模、跨任务一致标注数据;真实数据采集与标注成本高且覆盖不足。
Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

在“自回归下一token生成器”PAC学习框架下,系统刻画学习由T步自回归推理过程诱导的端到端映射的样本复杂度如何随推理长度T增长,并严格比较两种监督信号:只给最终答案的端到端监督(e2e) vs 给出完整中间轨迹的Chain-of-Thought监督(CoT)。核心问题是:CoT监督在统计效率上究竟能带来多大、在什么条件下的优势?是否存在本质的指数级差距?

论文要回答的是:在一个可完全解析的 ICL(in-context learning)玩具世界里,Transformer 到底用什么“电路/子回路”在做上下文自适应?更具体地,给定训练时只见过有限集合 S 的 K 条离散马尔可夫链(每条链是 C 个离散状态的转移矩阵),两层 Transformer 在不同数据多样性 K 下,会在“泛化 vs 记忆”以及“用 1-point 统计 vs 2-point 统计(转移)”之间切换;作者希望给出这些相变/阶段背后的机制级解释:哪些层、哪些注意力/MLP 子模块在实现 1-Gen/2-Gen/1-Mem/2-Mem 四种算法策略,以及这些策略为何会随 K 与训练进程出现阶段性演化。

论文研究“稀有错误(rare-error)”条件下 AI 审计/校准验证的统计极限:当模型错误率 ε 很低、预测置信度分布又高度集中在 1−ε 附近时,任何基于有限标注样本 m 的校准误差(如 ECE)估计都会遭遇不可突破的噪声地板;并进一步刻画在被动评测、无标签自评、主动查询、以及多组件系统组合(pipeline/agent loop)下,校准可验证性如何随 ε、m、L(校准函数 Lipschitz 常数)缩放。

如何在“推理轨迹/思维链”评测中,避免模型用低置信度或噪声轨迹掩盖真实推理质量,并更可靠地衡量模型在其最自信输出上的推理能力。

LLM评测基准与模型发布速度过快,导致“每个模型×每个数据集×全量题目”的穷举评测成本不可承受;现实中leaderboard往往对不同模型评不同子集,造成分数不可比、排名不稳定。论文要解决的是:在基准集合随时间扩展、模型只在当时可用数据集上被评测的真实场景下,如何用少量锚题把新数据集/新模型与历史评测尺度对齐,并避免反复重跑历史模型。

论文要解决的问题是:当前“前沿多语种能力”评测(以跨语言数学推理、跨语言常识/知识MCQ为主)是否真的在衡量模型的多语种理解与生成能力;作者基于全文实验给出否定结论,并提出一种更贴近真实多语种生成质量的替代评测范式——round-trip translation(源语言→目标语言序列→回译源语言),用语义保真度缺口来暴露跨语言生成失败。

核心问题:ICL示例选择在固定budget下高度敏感,但现有方法多围绕“相关性/多样性”等启发式,缺少对“示例子集到底覆盖了多少潜在概念簇(latent clusters)”的可估计度量。论文提出要估计“未见覆盖度”(unseen coverage):当前子集还遗漏了多少潜在簇,从而作为先验去改进示例选择。

现有 LLM 推理评测往往混杂了输入长度、模板变化、知识检索、实体数量等因素,难以单独刻画“高元关系绑定(higher-arity binding)”带来的推理瓶颈。论文要解决的是:给出一个任务无关、可控的难度维度来衡量关系推理,并构建能系统调节该维度的生成式基准,从而定位模型在科学推理中何时、为何随关系复杂度上升而崩溃。

现有LLM评测把跨任务表现压成单一分数,掩盖“能力组成”层面的差异,导致:1)无法定位模型到底缺哪类细粒度能力(知识点/认知过程);2)无法做“按任务需求选模型”;3)难以预测模型在未见题目/新基准上的表现。论文要解决的是:在不改变原有benchmark作答协议的前提下,仅基于模型-题目对错矩阵,构建可解释、可迁移的细粒度能力画像,并用它来诊断与预测。

针对LLM用于高风险“决策”场景时的三大信任缺口——概率不校准、解释不忠实、无法精确注入专家知识——论文试图把LLM的决策知识抽取为一个可解释、可编辑、且能输出校准概率的低维参数化模型,并解决“语言概率词→数值概率”的不确定映射与因子相关性保持两大难点。

论文聚焦一种训练动态中的“隐性优化失败”——Trajectory Deviation:模型在中期训练曾学到对某些潜在子群/数据区域高度泛化的特征,但后续优化过程中逐步偏离并遗忘这些能力;由于全局验证集指标仍可能单调上升,这种结构性退化不会被传统的过拟合信号、早停或常规正则捕捉,最终收敛到结构上次优的解。

在Transformer初始化阶段,如何用可解析的信号传播指标刻画“可训练性/梯度放大”随深度的变化,并比较pre-LayerNorm与“用tanh类逐元素非线性替代LayerNorm”的Normalization-Free Transformer(如Derf/DyT)在深层网络中的临界性差异;进一步解释为何后者在训练稳定性上对超参(深度、初始化尺度、学习率等)更敏感。

缺少能系统评估大模型“空间能力(spatial competence)”的基准:不仅要会局部空间原语(旋转/投影/VQA),还要能维持一致的内部空间表征、推断离散结构、并在全局约束下规划可执行动作序列。论文提出SCBench,用可执行结构化输出+确定性校验器/模拟器评分,构建从公理推理→构造综合→规划三层难度梯度的空间能力评测。

探究LLM是否对“自己答案是否正确”拥有外部观察者无法恢复的内部特权信息(privileged knowledge)。具体问题是:用目标模型自身隐藏状态训练的正确性探针(self-probe)是否应当显著优于用其他模型隐藏状态训练的探针(peer-probe);以及为何以往工作常观察不到这种优势。

论文要回答的是:指令微调(instruction tuning)带来的“helpfulness/有用性”到底有多稳健?作者发现只要在提示词里加入极其轻量的词法约束(例如禁用一个标点逗号,或禁用常见词“the”),指令模型会发生系统性的“响应坍塌”(constraint-induced response collapse):不是换一种写法,而是直接变短、变浅、覆盖点变少,导致可用性显著下降。进一步要解释的是:这到底是能力不足(不会写无逗号长文)还是规划失败(能写但不打算写),以及这种脆弱性是否由指令微调本身诱发。

Transformer 的“深度”是否会随任务难度自适应使用(adaptive depth use)?作者在一个可精确控制难度的多跳亲属关系组合推理任务(CLUTRR family stories)中,试图回答:当推理链条 hop 数增加时,模型是否需要更深层才能(1)形成可信答案分布、(2)完成跨 token 的信息整合;以及预训练 vs. 任务微调、不同微调约束下,这种深度使用模式是否改变。

SFT(监督微调)为何能在极少数据下显著“指令化”模型、同时又容易引发遗忘?更具体地,指令跟随能力与遗忘风险在 Transformer 的“哪一段深度/哪些层”发生、如何随层深度演化,现有 PEFT(如 LoRA)按层均匀注入更新是否在结构上不匹配。

系统刻画不同噪声类型(标签噪声、拼写/typo噪声、语法噪声)在LLM微调过程中如何影响模型性能与内部学习动态:包括层级表示的漂移、任务信息的编码变化、以及注意力模式是否发生结构性改变。

Understanding and Improving Continuous Adversarial Training for LLMs via In-context Learning Theory
解释并改进 LLM 的 Continuous Adversarial Training(CAT):为什么在“连续的 embedding 空间”里做对抗扰动训练,能提升模型对“离散 token 空间”里 jailbreak prompt(尤其是 suffix 类攻击)的鲁棒性;并给出可操作的改进准则。

论文聚焦于:在 In-Context Learning(ICL)的 grokking/延迟泛化现象中,模型为何会在长时间“记忆/过拟合”后突然跃迁到“可泛化”的行为?作者将其表述为一个贝叶斯学习动力学问题:随着训练推进,参数后验与预测分布如何演化,尤其是“认知不确定性(epistemic uncertainty)”是否能解释并诊断从记忆到泛化的相变式转折。

揭示视觉语言模型(VLMs)在需要详尽读取图像细节(如网格颜色映射)时存在的严重信息丢失问题(数字失认症)。

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation
LLM 评测依赖刚性词法匹配,会把模型真实能力和 formatting 合规度混为一谈;LLM-as-Judge 虽解决但成本高

Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding
评估内部推理轨迹(thought streams / CoT)在视觉语言模型处理视频场景理解任务中的实际收益和饱和点。

检验并量化LLM在“抽象意义理解”(abstract meaning comprehension)上的系统性困难程度,以及这种困难是否被现有评测低估。

分析 LLM 在自指(self-reference)相关推理/闭环一致性上失败的原因,并从“矩阵级(matrix-level)动力学”角度解释其内部状态演化。

多任务微调后的同源模型如何高效合并(model merging),以及在需要训练异构decoder的真实视觉场景中如何低成本选择合并超参。

Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space
检验“持久化Agent身份/核心设定文本(cognitive_core)”在LLM激活空间中是否表现出类似吸引子(attractor)的稳定几何结构,从而支持“身份持久性”的表征证据。

表格推理中常用“序列化/线性化”表示会破坏表格的几何与关系结构,导致对布局/排列变化极其脆弱;如何定义并度量“对排列不变”的表格表征与检索能力。
SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

在长轨迹的软件工程Agent中,“写在system prompt里的分阶段计划(plan)”到底在多大程度上被模型真实遵循、何时/为何被违背、以及计划遵循与任务成功之间的因果关系如何评估。论文要解决的是:缺乏可规模化、可自动化的“计划遵循度”度量与系统性证据,导致我们无法判断Agent成功是来自正确的策略推理还是来自数据污染/过拟合/偶然路径。

论文解决的问题是:在编码任务中,LLM 的“推理链/思维链”质量难以被可靠评估。现有评估多停留在输出正确性(pass@k、测试通过等),或使用为通用NLP设计的推理评估器,无法适配代码的结构语义与可执行证据;同时缺少覆盖生成/摘要/分类三类编码任务的推理质量基准,导致评估器的失效模式难以系统暴露与改进。

解决代码代理在大型、持续演化代码仓库中缺乏上下文感知,容易臆造 API 和破坏既有架构的问题。

评估并推动LLM从自然语言生成“可执行的行为规格说明(behavioral specifications)”的能力:不仅要能写出代码,还要能用前置条件/后置条件形式精确刻画意图语义,并在真实代码库(repository-level)场景下可执行、可评测。论文要解决的核心缺口是:现有规格生成/形式化评测要么依赖不稳定的演绎验证器、要么数据规模小/表达受限、要么只覆盖函数级且缺少前置条件,导致无法真实衡量模型对程序行为的理解。

LLM做漏洞/缺陷检测时输出的bug报告往往无法自动验证,缺少可执行证据,导致端到端自动化不可扩展。
通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

现有Agent基准多为“回顾性整理”的任务(需求明确、指标确定、输入单一),与真实生产环境评估严重脱节:生产需求往往欠规格、隐含约束多、输入是跨来源的多模态文档、交付物长链路且质量由领域专家主观评判并随时间演化。论文要解决的是:如何把真实公司生产需求系统化地转化为可复现、可自动化的评测任务,并用统一框架衡量不同模型+脚手架(scaffold)在生产型Agent任务上的表现差异。

在检索增强LLM(RALM)中,外部知识库规模很大但上下文窗口有限,传统“top-K原文chunk拼接”导致召回受限;而层次化/树状摘要又是“与查询无关的静态压缩”,难以适配未来多样查询。本文要解决的是:如何在不扩展上下文长度的前提下,让LLM在交互过程中把“用过的知识”沉淀为可复用、可追溯、可去冗余的记忆单元,从而在后续查询中实现近似“任意长外部数据条件化”的知识利用。

在复杂长链推理QA中,证据与问题之间存在强上下文约束且粒度跨度大(主题级→细节级),传统“固定粒度chunk + 一次性向量检索”的扁平RAG难以同时满足“匹配精度”和“上下文完整性”,导致要么检到碎片缺上下文、要么检到大段噪声;论文要解决的是:如何把检索从一次性匹配升级为可导航的、分阶段的证据获取过程,从而在不同粒度间自适应地定位并展开证据。

构建一个能真实衡量“自我进化式工程优化(generative optimization)”能力的基准:在固定交互预算内,Agent 需要在可执行验证器/工业级仿真器的连续反馈下,迭代提出—执行—评估—改进,从已有可行解出发持续提升设计质量,而不是做一次性0/1式的“生成即通过”。

长时程(long-horizon)多模态 deep search 代理在迭代浏览/检索过程中会累积大量异构证据(文本+图像等),直接把视觉内容塞进上下文会导致 token 成本爆炸与噪声累积;而简单丢弃/摘要视觉又会丢关键信号。论文要解决的是:在不牺牲可回溯视觉证据的前提下,如何让多模态搜索代理在 50-100+ turn 的长轨迹中稳定管理与调用视觉信息,并保持可扩展的推理与工具使用能力。

论文聚焦“长时程(long-horizon)任务”中LLM Agent性能随任务步数/依赖链增长而非线性崩溃的问题:现有研究缺少跨领域一致的horizon定义与诊断框架,往往只报总体成功率,无法回答两个关键问题:Where(在哪个horizon开始坏、坏得多快)与Why(失败机制是什么、随horizon如何迁移)。作者要建立一个可系统扩展任务步数并做结构化失败归因的跨域诊断基准。

在“有状态 AI Agent”成为运行时基本单元后,现有系统普遍采用“显式物化(materialization)”来创建/复制 agent 实例:加载配置、绑定工具、重建记忆与运行态等,导致实例化延迟、内存与运维成本随“继承结构”线性增长,进而抑制多 agent 分解与按需分叉(one-user/one-task/多分支)等设计。论文要解决的是:如何提供一种运行时复制/实例化原语,使得新 agent 的创建对共享/继承结构呈常数时间,并在隔离性与可治理性上不退化。

在仅能黑盒调用多智能体系统(只能看到最终回复、不能访问中间消息/日志/提示词/路由)的限制下,攻击者是否仍能推断出系统内部的通信拓扑(谁向谁传递信息的DAG),从而造成结构性隐私泄露与IP泄露;以及如何在现实可行的查询预算下实现高AUC的拓扑重建。

带持久记忆的 LLM Agent 往往以“扁平事实”存储信息,缺乏学习时上下文,导致跨会话回忆、时间推理与更新跟踪能力弱。

Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training
在缺乏“标准答案/标注奖励”的情况下,如何为搜索型 Agent(多步检索、规划、工具调用)提供可扩展、可优化且与轨迹质量强相关的训练信号,从而用 RL 训练出高质量搜索策略。

全双工语音对话模型在实时交互约束下如何提升事实性:直接扩模型会导致推理成本过高。

通用LLM Agent在长时程(数小时/数天)的ML研究工程任务中难以保持连贯进展与状态连续性:如何让Agent稳定完成环境搭建、实现、实验与调试的闭环。

现有LLM Agent的记忆系统往往是为特定任务手工设计,跨任务迁移差,缺少“按任务自适应”的记忆机制构建方法。

在超大工具库与长时序任务中,如何对tool-augmented agent进行可扩展的计划级评测,并在巨大动作空间下高效执行多步计划。

LLM agent在可见上下文缺失关键合规信息时,如何避免做出“表面合理但违反组织政策”的动作(policy-invisible violations)。

GUI Agent 缺乏统一的训练、评测和部署基础设施,在线 RL 训练不稳定、评测协议漂移、部署难以触达真实设备

LLM Agent接收来自多个来源(系统消息、用户、工具输出等)的指令,当指令冲突时需要按权限层级正确执行,现有固定少层级方案不够用。