📚Papers

AI Research Daily

更新时间: 2026/4/21 21:27:32

35
🌟 3 重点
🔥 行业动态 2🧠 预训练 5 高效推理 2🌐 多模态统一 2🎨 多模态生成 2🛠️ 后训练 5🔬 原理分析 14🤖 Agent 3
其他 18 篇看总结即可

方法或结果明显独立成立的工作,建议读全文

精读行业动态与观点

New ways to create personalized images in the Gemini app

这不是论文,也不是预训练方法研究。内容讨论的是 Gemini app 如何调用用户 Google Photos 和个人偏好做个性化图像生成,核心是产品侧的个性化检索、上下文接入和隐私声明,而不是基座模型训练、统一建模目标或 post-training 方法。

Googlegeminiimage-generationpersonalization
精读LLM 预训练

Scaling Latent Reasoning via Looped Language Models

在不增加参数量的前提下,把“推理所需的额外计算”从后训练阶段的显式 CoT 文本生成,前移到预训练阶段的隐空间迭代计算里;同时解决循环/早退式动态深度在训练中容易塌缩(总是浅层退出或总是跑满循环)的问题,并验证这种“第三条 scaling 轴(loop depth)”在多万亿 token 规模下是否仍然带来稳定收益。

looped-language-modellatent-reasoningparameter-sharing
精读LLM 预训练

Parcae: Scaling Laws For Stable Looped Language Models

这篇论文解决的是 looped language model 的两个核心障碍:一是训练不稳定,表现为 residual state 爆炸和 loss spikes;二是即便 looped 架构在参数效率上有吸引力,也缺少像参数规模、数据规模那样可预测的 scaling law,因此很难把“循环深度”当成一个可靠的计算扩展轴。作者的目标不是单纯把已有 recurrent-depth 模型训稳,而是把 looping 从一个脆弱技巧,变成可分析、可训练、可做训练与测试时计算扩展的体系。

University ofTogether AIlooped-transformertraining-stabilityscaling-laws
精读LLM 预训练

Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale

如何把“专家手写数据清洗规则”扩展到海量语料的逐样本精细处理,同时避免规则僵化、覆盖不足与人工成本不可承受。

data-curationpretraining-dataprogram-synthesis
精读LLM 原理与机制

Transformer Layers as Painters

这篇试图把前两篇的经验观察收束成一个更清楚的机制命题:为什么 RYS 只在中层有效,以及这种“可重复的中层”是否对应一个语言无关、甚至跨代码与 LaTeX 的共享语义空间。它关心的不是单次 hack,而是 Transformer 内部表示与可编辑性的关系。

mechanistic-interpretabilitymultilingualsemantic-space
精读LLM 原理与机制

Transformer Layers as Painters

文章讨论一个很具体但不寻常的问题:Transformer 的不同层是否承担了相对稳定的功能分工,以及能否利用这种分工,在不训练、不改权重的前提下直接改造模型能力。作者从 Base64 输入也能完成推理这一现象出发,提出早层负责“读入/翻译”、中层负责抽象推理、晚层负责“写出/重编码”的三段式假设,并据此做层复制实验。

transformer-interpretabilitylayer-duplicationhidden-states
精读LLM 原理与机制

Transformer Layers as Painters

这篇延续前文,核心问题变成两件事:RYS 这种中层 relayering 到底是不是 Qwen2-72B 的偶然现象;以及如果它可泛化,Transformer 中层是否真的存在跨语言、跨表面形式的共享语义空间。作者把问题从单模型技巧推进到“结构是否普适”。

multilingual-representationslayer-duplicationhidden-state-similarity
来源
机构
阅读分级
标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点(注意:推理加速/注意力优化等技术论文不算行业动态)

这不是论文,也不是预训练方法研究。内容讨论的是 Gemini app 如何调用用户 Google Photos 和个人偏好做个性化图像生成,核心是产品侧的个性化检索、上下文接入和隐私声明,而不是基座模型训练、统一建模目标或 post-training 方法。

只是图像生成功能更新;除非你在跟踪产品落地节奏,否则对统一多模态预训练没有研究价值。
Google AI Blog
Googlegeminiimage-generationpersonalization2026年4月16日原文

文章介绍 Kimi K2.6 在开源 coding 模型上的更新,重点放在长时程工程任务、工具调用稳定性,以及面向 agentic coding 的能力组织方式。

Kimi Team
Moonshot AIcoding-agentopen-sourcekimi原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

在不增加参数量的前提下,把“推理所需的额外计算”从后训练阶段的显式 CoT 文本生成,前移到预训练阶段的隐空间迭代计算里;同时解决循环/早退式动态深度在训练中容易塌缩(总是浅层退出或总是跑满循环)的问题,并验证这种“第三条 scaling 轴(loop depth)”在多万亿 token 规模下是否仍然带来稳定收益。

这是少数会直接改你 pretrain prior 的工作:如果 7.7T token 下小模型真能稳定打到大模型区间,就该立刻复查 internal shared-depth/latent-reasoning 方案,先盯控制实验是否真把“知识量”和“知识操作”分开了。
Rui-Jie Zhu,Zixuan Wang,Kai Hua,Tianyu Zhang,Ziniu Li,Haoran Que ... 省略 23 位作者 ... ,Ge Zhang,Wenhao Huang,Yoshua Bengio,Jason Eshraghian
looped-language-modellatent-reasoningparameter-sharing2025年10月29日arXivPDF原文

这篇论文解决的是 looped language model 的两个核心障碍:一是训练不稳定,表现为 residual state 爆炸和 loss spikes;二是即便 looped 架构在参数效率上有吸引力,也缺少像参数规模、数据规模那样可预测的 scaling law,因此很难把“循环深度”当成一个可靠的计算扩展轴。作者的目标不是单纯把已有 recurrent-depth 模型训稳,而是把 looping 从一个脆弱技巧,变成可分析、可训练、可做训练与测试时计算扩展的体系。

如果你认真看 looped/shared-depth,这篇该立刻进复现实验:它不是又一个“能训起来”的经验 patch,而是把不稳定性钉到谱范数上,先看稳定性分析和 ablation。
Hayden Prairie,Zachary Novack,Taylor Berg-Kirkpatrick,Daniel Y. Fu
University ofTogether AIlooped-transformertraining-stabilityscaling-laws2026年4月14日arXivPDF原文

如何把“专家手写数据清洗规则”扩展到海量语料的逐样本精细处理,同时避免规则僵化、覆盖不足与人工成本不可承受。

把“数据质量=过滤打分”推进到“逐样本可执行编辑”,这条路值得立刻做内部复现;重点盯住对照是否干净(同算力/同token预算)以及编辑是否引入分布偏移。
Fan Zhou,Zengzhi Wang,Qian Liu,Junlong Li,Pengfei Liu
data-curationpretraining-dataprogram-synthesis2024年9月25日arXivPDF原文

LLM 在训练时只见过“规范(canonical)分词”,导致对等价字符串的“非规范分词”(同一字符串、不同 token 序列)高度脆弱;核心问题是:在不改词表的前提下,引入训练期分词随机性,能否系统性提升对随机扰动与最坏情况(对抗)分词攻击的鲁棒性,并解释这种鲁棒性来自哪里。

这篇会动到 tokenizer 这个常被当常量的 prior;先看预训练阶段的 ablation,若鲁棒性收益不明显伤主任务 perplexity,值得立刻做小规模复现。
Sophie Steger,Rui Li,Sofiane Ennadir,Anya Sims,Arno Solin,Franz Pernkopf,Martin Trapp
tokenizationrobustnesspretraining2026年4月17日arXivPDF

试图缓解单一参数空间中跨领域知识相互干扰的问题,用显式结构约束替代自由 token 生成。

想法有点意思,像把 symbolic typing 硬接到 LM 生成路径里;先看方法图和 formalism,若没有像样实验,就把它当 research prompt,不要当结论。
Chao Li
language-modelingstructured-generationdomain-lattice2026年4月17日arXivPDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

解决并行推理中大量错误分支在早期就已注定失败、却仍持续消耗算力的问题。

如果你管推理预算,这篇看 taxonomy 和固定预算曲线就够了;对预训练本体帮助有限,别被“可蒸馏回模型”这句带偏。
Jiaxi Bi,Tongxu Luo,Wenyu Du,Zhengyang Tang,Benyou Wang
The Chinese University ofShenzhen Loop Area Instituteparallel-reasoningpath-pruningtest-time-scaling2026年4月17日arXivPDF

解决基于安全多方计算(MPC)的隐私保护Transformer推理中,使用单一固定模型导致效率低下的问题。

结合MPC和MoE/路由思想的安全推理框架,解决加密推理的效率瓶颈,对关注隐私计算和高效部署的研究员有一定参考价值,但不涉及预训练核心。
Yukuan Zhang,Mengxin Zheng,Qian Lou
University of CentralUniversity of Central FloridaOrlandoSecure InferenceMPCEncrypted Routing2026年4月16日arXivPDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

评估视频 MLLM 是否具备基于规则、时序和实体感知的体育裁判能力,而不只是泛化视频理解能力。

不是预训练论文,但 benchmark 设得比常见视频 QA 更刁钻;只看任务定义和错误分布,能帮助你判断现有视频 token/时序建模到底缺哪一块。
Yichen Xu,Yuanhang Liu,Chuhan Wang,Zihan Zhao,jinghan luo,Jianzhe Ma,Wenxuan Wang,Qin Jin
Renmin University ofSichuan Universityvideo-MLLMbenchmarktemporal-grounding2026年4月17日arXivPDF

解决低资源场景下长序列文档级音频-文本跨模态对齐时,模态维度不平衡导致的模态特有结构丢失问题

低资源多模态对齐的小改进,对比损失设计可作为多模态预训练消融参考,无需读全文
Habibeh Naderi,Behrouz Haji Soleimani,Stan Matwin
Dalhousie Universityiary regularizers further stabilize long-sequence fusion: a Centered Ker-modate heterogeneous label regimes. Extensive evaluation across mul-+2multimodal alignmentcontrastive learninglong-sequence representation2026年4月17日arXivPDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

在文生图模型里,很多不安全语义不是来自单一显式概念(裸露、血腥等),而是来自“两个各自无害的概念组合后触发的隐含语境”。论文要解决的是:如何把这种 Multi-Concept Compositional Unsafety (MCCU) 形式化、系统构造评测集,并用可量化指标评估模型与防御方法在“安全性—可用性”之间的权衡。

把“组合语义绕过安全”做成可复现基准,适合用来压测自家T2I/guard;只看leaderboard没用,重点读他们对16种防御失效的归因。
Chaoshuo Zhang,Yibo Liang,Mengke Tian,Chenhao Lin,Zhengyu Zhao,Le Yang,Chong Zhang,Yang Zhang,Chao Shen
text-to-imagesafety-benchmarkcompositionality2026年4月17日arXivPDF

从无声视频生成语音时,如何利用语音 codec token 的层级结构,把说话人语义与细粒度韵律更好地对齐到视觉信号。

对做语音 LM/离散 codec tokenization 的人可看:它认真利用 RVQ 层级,而不是把 token 全摊平;但这是 VTS 场景,外推到统一预训练要自己做减法。
Jiaxin Ye,Gaoxiang Cong,Chenhui Wang,Xin-Cheng Wen,Zhaoyang Li,Boyuan Cao,Hongming Shan
Fudan UniversityChinese Academy of SciencesUniversity of Chinese Academy of Sciences+1speech-codecRVQdiffusion-transformer2026年4月17日arXivPDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

解决现有 verifier 在复杂推理任务中容易被错误中间步骤误导、且缺乏外部 grounding 导致奖励信号不可靠的问题。

把 verifier 从“打分头”改成“会查证的策略体”这个方向是对的;先看方法图和 RL 训练细节,若 credit assignment 写得含糊,结论就当中等强度信号。
Jiazheng Zhang,Ziche Fu,Zhiheng Xi,Wenqing Jing,Mingxu Chai,Wei He ... 省略 6 位作者 ... ,Dingwei Zhu,Tao Gui,Qi Zhang,Xuanjing Huang
Fudan UniversityHuazhong University of Science and TechnologyByteDance Seed+2reward-modelingverifierreinforcement-learning2026年4月17日arXivPDF

这篇工作要回答的是:LLM 的 RL post-training 到底是在学习新的任务行为,还是只是在把基座模型原本就有的高概率输出进一步“压尖”。作者没有停留在概念争论,而是把两种机制放进同一个 KL-regularized RL 框架里做可控比较:一类目标只做 distribution sharpening,另一类目标直接优化 task reward,再加上两者混合。核心问题不是“RL 有没有用”,而是“task reward 这个训练信号是否提供了超出分布重加权的增益,以及这种增益在什么条件下出现”。

这篇值得看,因为它正面拆“RL 只是把 base model 采样变尖”这个偷懒解释;先看理论部分和对照表,若控制变量做得干净,会直接影响你怎么看 R1 类训练信号。
Sarthak Mittal,Leo Gagnon,Guillaume Lajoie
reinforcement-learningreward-modelingdistribution-sharpening2026年4月17日arXivPDF

这篇工作解决的是 group-wise preference optimization 的一个实际瓶颈:偏好数据常常对同一 prompt 采样出多个回答,但现有 DPO 类方法大多只取一正一负,浪费了组内监督;而一旦真的用 group/listwise 目标,loss 会把同组样本的梯度耦合在一起,训练时必须同时保留整组 activation,显存随组大小快速上升,导致方法难以扩展、也难做系统比较。

属于“把 group-wise DPO 做到能训”的工程论文:读清楚它如何在不近似梯度的情况下解耦反传;效果提升幅度若不大就当 infra 备选。
Jixuan Leng,Si Si,Hsiang-Fu Yu,Vinod Raman,Inderjit S. Dhillon
DPOpreference-optimizationgroup-wise2026年4月17日arXivPDF

评估 LLM 在小分子药物设计任务上的真实能力边界,并检验基于环境反馈的 RL 后训练能否显著提升化学任务表现。

不是基座论文,但“RL 环境化专业任务能把小模型拉近大模型”这个信号值得记;只看任务设计和 post-train 对比表,别在化学细节里耗时。
Shriram Chennakesavalu,Kirill Shmilovich,Hayley Weir,Colin Grambow,John Bradshaw,Patricia Suriana,Chen Cheng,Kangway Chuang
rl-post-trainingchemistry-benchmarkdomain-evaluation2026年4月17日arXivPDF

如何攻击并绕过大型推理模型(LRMs)在生成中间推理步骤时的安全对齐机制?

针对 CoT 推理过程的越狱攻击,提醒我们在 RLHF/安全对齐时不能只看最终输出,中间 reasoning trace 的安全性同样需要纳入 reward model 的考量。
Zehao Wang,Lanjun Wang
Shanghai UniversityUniversityShanghai Key Laboratory of Data ScienceJailbreak AttackLarge Reasoning ModelsChain-of-Thought2026年4月17日arXivPDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

这篇试图把前两篇的经验观察收束成一个更清楚的机制命题:为什么 RYS 只在中层有效,以及这种“可重复的中层”是否对应一个语言无关、甚至跨代码与 LaTeX 的共享语义空间。它关心的不是单次 hack,而是 Transformer 内部表示与可编辑性的关系。

mechanistic-interpretabilitymultilingualsemantic-space原文

文章讨论一个很具体但不寻常的问题:Transformer 的不同层是否承担了相对稳定的功能分工,以及能否利用这种分工,在不训练、不改权重的前提下直接改造模型能力。作者从 Base64 输入也能完成推理这一现象出发,提出早层负责“读入/翻译”、中层负责抽象推理、晚层负责“写出/重编码”的三段式假设,并据此做层复制实验。

transformer-interpretabilitylayer-duplicationhidden-states原文

这篇延续前文,核心问题变成两件事:RYS 这种中层 relayering 到底是不是 Qwen2-72B 的偶然现象;以及如果它可泛化,Transformer 中层是否真的存在跨语言、跨表面形式的共享语义空间。作者把问题从单模型技巧推进到“结构是否普适”。

multilingual-representationslayer-duplicationhidden-state-similarity原文
🧣 小红书Inbox泛读

逛逛这篇笔记吧~

讨论无需微调LLM权重,仅在推理阶段调整Transformer层执行顺序、折返重复部分中间层即可提升模型性能的反常现象。

layer execution orderLLM mechanisminference modification原文

定位 post-training 过程中输出多样性塌缩究竟发生在哪个阶段,并区分训练方法、训练数据组成和推理格式各自的作用。

这篇值得看,因为它把“多样性塌缩怪 DPO”这个偷懒结论拆开了;先读实验设计和 lineage 对照,若指标定义过窄,再保留一层怀疑。
Constantinos Karouzos,Xingwei Tan,Nikolaos Aletras
University of Sheffieldpost-trainingdiversity-collapsesft2026年4月17日arXivPDF

这篇工作研究的是:预训练 Transformer 的层到底是不是严格按顺序、逐层依赖地完成计算,还是说中间层在很大程度上共享表示空间,因此可以被跳过、重排,甚至并行而不立刻失效。更具体地说,作者想回答两个机制问题:第一,中间层是否形成了相对统一的表示坐标系;第二,模型性能对层顺序和层数的敏感性在不同深度区间、不同任务上是否不同。这个问题和常见的剪枝或蒸馏不同,重点不是压缩,而是借由对 frozen 模型做结构扰动,反推预训练后层功能的组织方式。

这篇不直接给训练 recipe,但它动摇了“每层都各司其职”的默认前提;只看中层同质性和乱序/并行实验,就足够影响你对 looped/shared-depth 设计的先验。
Qi Sun,Marc Pickett,Aakash Kumar Nain,Llion Jones
transformer-mechanismslayer-skippinglayer-reordering2024年7月12日arXivPDF原文

如何用 LLM 的内部表征信号更稳健地估计不确定性,从而检测幻觉/事实性错误。

把“跨层方差=不确定性”当弱信号做监督检测,思路干净但更像特征工程;只需看特征定义和跨模型泛化表,别指望改 pretrain。
Ponhvoan Srey,Xiaobao Wu,Cong-Duy Nguyen,Anh Tuan Luu
Nanyang Technological UniversityShanghai Jiao Tong UniversityCentre for AI Researchuncertainty-estimationhallucination-detectioninternal-states2026年4月17日arXivPDF

评测并刻画通用 LLM 在中文互联网亚文化“抽象语言”上的能力边界与失败模式。

作为“长尾语言变体覆盖不足会断崖式掉能力”的例子可以备查;只看任务定义、错误类型和 judge-人类一致性那一节就够了。
Dianqing Lin,Tian Lan,Jiali Zhu,Jiang Li,Wei Chen,Xu Liu,Aruukhan,Xiangdong Su,Hongxu Hou,Guanglai Gao
Inner Mongolia Universitybenchmarklanguage-variationchinese-slang2026年4月17日arXivPDF

梳理如何把可解释性直接写进大语言模型的结构与计算过程,而不是依赖训练后的外部解释工具。

做预训练的人不用通读;把它当文献地图即可,先看分类框架和 open challenges,正文细节只在你准备做 interpretable architecture 时再翻。
Yutong Gao,Qinglin Meng,Yuan Zhou,Liangming Pan
Peking UniversityNanjing University of Science and TechnologyPurdue Universityintrinsic-interpretabilitysurveymechanistic-analysis2026年4月17日arXivPDF

评估以差分隐私保护输入为条件的 LLM 模拟器,能否生成既保隐私又保分布真实性的合成数据。

不是预训练论文,但它提醒一个常被忽略的坑:拿 LLM 合成数据时,模型先验会悄悄吃掉条件分布;读失效分析就够了。
Nassima M. Bouzid,Dehao Yuan,Nam H. Nguyen,Mayana Pereira
synthetic-datadifferential-privacydistribution-shift2026年4月16日arXivPDF

研究 flow matching 生成模型对数据删减、架构变化和训练配置变化为何表现出异常稳定性,以及这种稳定性是否会保留潜在表示与样本质量。

结论有点反常识,值得当作“替代生成范式的稳定性信号”看一眼;只读实验设定和 seed-level 对齐结果,别过度外推到 LLM。
Rania Briq,Michael Kamp,Ohad Fried,Sarel Cohen,Stefan Kesselheim
Lamarr InstituteInstitute for AI in MedicineReichman University+1flow-matchingtraining-dynamicsrepresentation-stability2026年4月17日arXivPDF

人类在与LLM交互时,哪些维度会影响他们对模型的拟人化倾向和信任度?

DeepMind的HCI实证研究,揭示了模型Persona(温暖/共情)对用户信任的影响,做RLHF/Persona对齐的同学可作为literature备查,不读正文。
Akila Kadambi,Ylenia D'Elia,Tanishka Shah,Iulia Comsa,Alison Lentz,Katie Siri-Ngammuang ... 省略 1 位作者 ... ,Jonas Kaplan,Antonio Damasio,Srini Narayanan,Lisa Aziz-Zadeh
Google DeepMindGoogle ResearchAnthropomorphismTrustHuman-LLM Interaction2026年3月1日arXivPDF

这篇工作试图用谱分析解释 Transformer 在推理、事实回忆和指令跟随时的隐藏状态几何差异,并问这些差异能否作为 reasoning 的可测信号。

现象很多,但我会先把“perfect correctness prediction”当红旗看;只读主图和 instruction-tuning reversal 那部分,若控制了长度与任务难度,再考虑纳入内部 probing 工具箱。
Yi Liu
interpretabilityreasoningspectral-analysis2026年4月3日arXivPDF

探索 looped transformer 是否更适合在 in-context learning 场景中模拟迭代式学习算法,尤其是数据拟合类任务中的算法结构。

更像 looped 架构的早期概念验证,不是直接可迁移到基座训练的 recipe;读摘要和实验设定就够,主要价值是给 Ouro/Parcae 这条线补一个历史起点。
Liu Yang,Kangwook Lee,Robert Nowak,Dimitris Papailiopoulos
looped-transformerin-context-learningalgorithm-learning2023年11月21日arXivPDF原文

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

这篇工作要回答的不是“模型能不能完成一次编辑任务”,而是“当用户把一段较长、较专业、需要多轮修改的文档工作委托给 LLM 时,模型能否在长链条操作里保持文档完整性,不持续引入细小但累积的破坏”。作者把问题定义为 delegated work 下的 document fidelity:模型既要执行编辑指令,又不能在未被要求的地方删改、漂移、格式损坏或语义失真。难点在于,这类任务很难做大规模自动评测,因为多数专业文档没有标准参考答案,且真正风险来自多轮交互后的误差累积,而不是单轮成功率。

把“长程编辑会越改越坏”做成可复现实验,适合拿来做内部 agent/编辑器回归测试;重点看指标定义是否把“必要改写”误算成腐化。
Philippe Laban,Tobias Schnabel,Jennifer Neville
Microsoft ResearchPhilippe Labandelegationlong-horizon-editingbenchmark2026年4月17日arXivPDF

评测多模态基础模型在真实 3D CAD 编辑任务中的能力缺口,尤其是视频+语音+指点+绘制等自然交互指令下的编辑表现。

不是预训练论文,但 benchmark 设得很真,能提醒你现有多模态模型离“可操作世界模型”还很远;读任务定义和人工评测部分就够了。
Toby Perrett,Matthew Bouchard,William McCarthy
Autodesk ResearcherrorsCAD-editingmultimodal-benchmarkfoundation-model-evaluation2026年4月17日arXivPDF

如何利用 LLM 自动发现用于动态系统推理的简单、可解释的算法,而无需在大型数据集上训练神经网络?

利用 LLM 作为进化算法的变异算子来搜索符号回归/算法代码,思路有趣,但属于特定领域的 Program Synthesis 应用,对 LLM 基座训练启发有限,作为 literature 备查。
David Berghaus
Fraunhofer IAISLamarr InstituteLLM-guided EvolutionProgram SynthesisInterpretable Algorithms2026年4月17日arXivPDF