AI Research Daily

更新时间: 2026/4/21 21:27:32

共35篇

🌟 3 重点

🔥 行业动态 2🧠 预训练 5⚡ 高效推理 2🌐 多模态统一 2🎨 多模态生成 2🛠️ 后训练 5🔬 原理分析 14🤖 Agent 3

其他 18 篇看总结即可

方法或结果明显独立成立的工作，建议读全文

精读行业动态与观点

New ways to create personalized images in the Gemini app

这不是论文，也不是预训练方法研究。内容讨论的是 Gemini app 如何调用用户 Google Photos 和个人偏好做个性化图像生成，核心是产品侧的个性化检索、上下文接入和隐私声明，而不是基座模型训练、统一建模目标或 post-training 方法。

Googlegeminiimage-generationpersonalization

精读LLM 预训练

Scaling Latent Reasoning via Looped Language Models

在不增加参数量的前提下，把“推理所需的额外计算”从后训练阶段的显式 CoT 文本生成，前移到预训练阶段的隐空间迭代计算里；同时解决循环/早退式动态深度在训练中容易塌缩（总是浅层退出或总是跑满循环）的问题，并验证这种“第三条 scaling 轴（loop depth）”在多万亿 token 规模下是否仍然带来稳定收益。

looped-language-modellatent-reasoningparameter-sharing

精读LLM 预训练

Parcae: Scaling Laws For Stable Looped Language Models

这篇论文解决的是 looped language model 的两个核心障碍：一是训练不稳定，表现为 residual state 爆炸和 loss spikes；二是即便 looped 架构在参数效率上有吸引力，也缺少像参数规模、数据规模那样可预测的 scaling law，因此很难把“循环深度”当成一个可靠的计算扩展轴。作者的目标不是单纯把已有 recurrent-depth 模型训稳，而是把 looping 从一个脆弱技巧，变成可分析、可训练、可做训练与测试时计算扩展的体系。

University ofTogether AIlooped-transformertraining-stabilityscaling-laws

精读LLM 预训练

Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale

如何把“专家手写数据清洗规则”扩展到海量语料的逐样本精细处理，同时避免规则僵化、覆盖不足与人工成本不可承受。

data-curationpretraining-dataprogram-synthesis

精读LLM 原理与机制

Transformer Layers as Painters

这篇试图把前两篇的经验观察收束成一个更清楚的机制命题：为什么 RYS 只在中层有效，以及这种“可重复的中层”是否对应一个语言无关、甚至跨代码与 LaTeX 的共享语义空间。它关心的不是单次 hack，而是 Transformer 内部表示与可编辑性的关系。

mechanistic-interpretabilitymultilingualsemantic-space

精读LLM 原理与机制

Transformer Layers as Painters

文章讨论一个很具体但不寻常的问题：Transformer 的不同层是否承担了相对稳定的功能分工，以及能否利用这种分工，在不训练、不改权重的前提下直接改造模型能力。作者从 Base64 输入也能完成推理这一现象出发，提出早层负责“读入/翻译”、中层负责抽象推理、晚层负责“写出/重编码”的三段式假设，并据此做层复制实验。

transformer-interpretabilitylayer-duplicationhidden-states

精读LLM 原理与机制

Transformer Layers as Painters

这篇延续前文，核心问题变成两件事：RYS 这种中层 relayering 到底是不是 Qwen2-72B 的偶然现象；以及如果它可泛化，Transformer 中层是否真的存在跨语言、跨表面形式的共享语义空间。作者把问题从单模型技巧推进到“结构是否普适”。

multilingual-representationslayer-duplicationhidden-state-similarity

来源

机构

阅读分级

标签筛选

重大产品/模型发布、开源发布、行业事件、核心研究员观点（注意：推理加速/注意力优化等技术论文不算行业动态）

Blog精读🌟

New ways to create personalized images in the Gemini app

评只是图像生成功能更新；除非你在跟踪产品落地节奏，否则对统一多模态预训练没有研究价值。

Google AI Blog

Googlegeminiimage-generationpersonalization2026年4月16日原文

BlogInbox泛读

Kimi K2.6 Tech Blog: Advancing Open-Source Coding

文章介绍 Kimi K2.6 在开源 coding 模型上的更新，重点放在长时程工程任务、工具调用稳定性，以及面向 agentic coding 的能力组织方式。

Kimi Team

Moonshot AIcoding-agentopen-sourcekimi原文

文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

Inbox精读🌟

Scaling Latent Reasoning via Looped Language Models

评这是少数会直接改你 pretrain prior 的工作：如果 7.7T token 下小模型真能稳定打到大模型区间，就该立刻复查 internal shared-depth/latent-reasoning 方案，先盯控制实验是否真把“知识量”和“知识操作”分开了。

Rui-Jie Zhu,Zixuan Wang,Kai Hua,Tianyu Zhang,Ziniu Li,Haoran Que ... 省略 23 位作者 ... ,Ge Zhang,Wenhao Huang,Yoshua Bengio,Jason Eshraghian

looped-language-modellatent-reasoningparameter-sharing2025年10月29日arXiv PDF 原文

Inbox精读

Parcae: Scaling Laws For Stable Looped Language Models

评如果你认真看 looped/shared-depth，这篇该立刻进复现实验：它不是又一个“能训起来”的经验 patch，而是把不稳定性钉到谱范数上，先看稳定性分析和 ablation。

Hayden Prairie,Zachary Novack,Taylor Berg-Kirkpatrick,Daniel Y. Fu

University ofTogether AIlooped-transformertraining-stabilityscaling-laws2026年4月14日arXiv PDF 原文

Inbox精读

Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale

如何把“专家手写数据清洗规则”扩展到海量语料的逐样本精细处理，同时避免规则僵化、覆盖不足与人工成本不可承受。

评把“数据质量=过滤打分”推进到“逐样本可执行编辑”，这条路值得立刻做内部复现；重点盯住对照是否干净（同算力/同token预算）以及编辑是否引入分布偏移。

Fan Zhou,Zengzhi Wang,Qian Liu,Junlong Li,Pengfei Liu

data-curationpretraining-dataprogram-synthesis2024年9月25日arXiv PDF 原文

arXiv泛读

Stochasticity in Tokenisation Improves Robustness

LLM 在训练时只见过“规范（canonical）分词”，导致对等价字符串的“非规范分词”（同一字符串、不同 token 序列）高度脆弱；核心问题是：在不改词表的前提下，引入训练期分词随机性，能否系统性提升对随机扰动与最坏情况（对抗）分词攻击的鲁棒性，并解释这种鲁棒性来自哪里。

评这篇会动到 tokenizer 这个常被当常量的 prior；先看预训练阶段的 ablation，若鲁棒性收益不明显伤主任务 perplexity，值得立刻做小规模复现。

Sophie Steger,Rui Li,Sofiane Ennadir,Anya Sims,Arno Solin,Franz Pernkopf,Martin Trapp

tokenizationrobustnesspretraining2026年4月17日arXiv PDF

arXiv

DALM: A Domain-Algebraic Language Model via Three-Phase Structured Generation

试图缓解单一参数空间中跨领域知识相互干扰的问题，用显式结构约束替代自由 token 生成。

评想法有点意思，像把 symbolic typing 硬接到 LM 生成路径里；先看方法图和 formalism，若没有像样实验，就把它当 research prompt，不要当结论。

Chao Li

language-modelingstructured-generationdomain-lattice2026年4月17日arXiv PDF

KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

arXiv

Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

解决并行推理中大量错误分支在早期就已注定失败、却仍持续消耗算力的问题。

评如果你管推理预算，这篇看 taxonomy 和固定预算曲线就够了；对预训练本体帮助有限，别被“可蒸馏回模型”这句带偏。

Jiaxi Bi,Tongxu Luo,Wenyu Du,Zhengyang Tang,Benyou Wang

The Chinese University ofShenzhen Loop Area Instituteparallel-reasoningpath-pruningtest-time-scaling2026年4月17日arXiv PDF

arXiv

SecureRouter: Encrypted Routing for Efficient Secure Inference

解决基于安全多方计算（MPC）的隐私保护Transformer推理中，使用单一固定模型导致效率低下的问题。

评结合MPC和MoE/路由思想的安全推理框架，解决加密推理的效率瓶颈，对关注隐私计算和高效部署的研究员有一定参考价值，但不涉及预训练核心。

Yukuan Zhang,Mengxin Zheng,Qian Lou

University of CentralUniversity of Central FloridaOrlandoSecure InferenceMPCEncrypted Routing2026年4月16日arXiv PDF

VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

arXiv

RefereeBench: Are Video MLLMs Ready to be Multi-Sport Referees

评估视频 MLLM 是否具备基于规则、时序和实体感知的体育裁判能力，而不只是泛化视频理解能力。

评不是预训练论文，但 benchmark 设得比常见视频 QA 更刁钻；只看任务定义和错误分布，能帮助你判断现有视频 token/时序建模到底缺哪一块。

Yichen Xu,Yuanhang Liu,Chuhan Wang,Zihan Zhao,jinghan luo,Jianzhe Ma,Wenxuan Wang,Qin Jin

Renmin University ofSichuan Universityvideo-MLLMbenchmarktemporal-grounding2026年4月17日arXiv PDF

arXiv

Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

解决低资源场景下长序列文档级音频-文本跨模态对齐时，模态维度不平衡导致的模态特有结构丢失问题

评低资源多模态对齐的小改进，对比损失设计可作为多模态预训练消融参考，无需读全文

Habibeh Naderi,Behrouz Haji Soleimani,Stan Matwin

Dalhousie Universityiary regularizers further stabilize long-sequence fusion: a Centered Ker-modate heterogeneous label regimes. Extensive evaluation across mul-+2multimodal alignmentcontrastive learninglong-sequence representation2026年4月17日arXiv PDF

图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

arXiv泛读

TwoHamsters: Benchmarking Multi-Concept Compositional Unsafety in Text-to-Image Models

在文生图模型里，很多不安全语义不是来自单一显式概念（裸露、血腥等），而是来自“两个各自无害的概念组合后触发的隐含语境”。论文要解决的是：如何把这种 Multi-Concept Compositional Unsafety (MCCU) 形式化、系统构造评测集，并用可量化指标评估模型与防御方法在“安全性—可用性”之间的权衡。

评把“组合语义绕过安全”做成可复现基准，适合用来压测自家T2I/guard；只看leaderboard没用，重点读他们对16种防御失效的归因。

Chaoshuo Zhang,Yibo Liang,Mengke Tian,Chenhao Lin,Zhengyu Zhao,Le Yang,Chong Zhang,Yang Zhang,Chao Shen

text-to-imagesafety-benchmarkcompositionality2026年4月17日arXiv PDF

arXiv

Hierarchical Codec Diffusion for Video-to-Speech Generation

从无声视频生成语音时，如何利用语音 codec token 的层级结构，把说话人语义与细粒度韵律更好地对齐到视觉信号。

评对做语音 LM/离散 codec tokenization 的人可看：它认真利用 RVQ 层级，而不是把 token 全摊平；但这是 VTS 场景，外推到统一预训练要自己做减法。

Jiaxin Ye,Gaoxiang Cong,Chenhui Wang,Xin-Cheng Wen,Zhaoyang Li,Boyuan Cao,Hongming Shan

Fudan UniversityChinese Academy of SciencesUniversity of Chinese Academy of Sciences+1speech-codecRVQdiffusion-transformer2026年4月17日arXiv PDF

RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

arXiv泛读

AgentV-RL: Scaling Reward Modeling with Agentic Verifier

解决现有 verifier 在复杂推理任务中容易被错误中间步骤误导、且缺乏外部 grounding 导致奖励信号不可靠的问题。

评把 verifier 从“打分头”改成“会查证的策略体”这个方向是对的；先看方法图和 RL 训练细节，若 credit assignment 写得含糊，结论就当中等强度信号。

Jiazheng Zhang,Ziche Fu,Zhiheng Xi,Wenqing Jing,Mingxu Chai,Wei He ... 省略 6 位作者 ... ,Dingwei Zhu,Tao Gui,Qi Zhang,Xuanjing Huang

Fudan UniversityHuazhong University of Science and TechnologyByteDance Seed+2reward-modelingverifierreinforcement-learning2026年4月17日arXiv PDF

arXiv泛读

Beyond Distribution Sharpening: The Importance of Task Rewards

这篇工作要回答的是：LLM 的 RL post-training 到底是在学习新的任务行为，还是只是在把基座模型原本就有的高概率输出进一步“压尖”。作者没有停留在概念争论，而是把两种机制放进同一个 KL-regularized RL 框架里做可控比较：一类目标只做 distribution sharpening，另一类目标直接优化 task reward，再加上两者混合。核心问题不是“RL 有没有用”，而是“task reward 这个训练信号是否提供了超出分布重加权的增益，以及这种增益在什么条件下出现”。

评这篇值得看，因为它正面拆“RL 只是把 base model 采样变尖”这个偷懒解释；先看理论部分和对照表，若控制变量做得干净，会直接影响你怎么看 R1 类训练信号。

Sarthak Mittal,Leo Gagnon,Guillaume Lajoie

reinforcement-learningreward-modelingdistribution-sharpening2026年4月17日arXiv PDF

arXiv泛读

GroupDPO: Memory efficient Group-wise Direct Preference Optimization

这篇工作解决的是 group-wise preference optimization 的一个实际瓶颈：偏好数据常常对同一 prompt 采样出多个回答，但现有 DPO 类方法大多只取一正一负，浪费了组内监督；而一旦真的用 group/listwise 目标，loss 会把同组样本的梯度耦合在一起，训练时必须同时保留整组 activation，显存随组大小快速上升，导致方法难以扩展、也难做系统比较。

评属于“把 group-wise DPO 做到能训”的工程论文：读清楚它如何在不近似梯度的情况下解耦反传；效果提升幅度若不大就当 infra 备选。

Jixuan Leng,Si Si,Hsiang-Fu Yu,Vinod Raman,Inderjit S. Dhillon

DPOpreference-optimizationgroup-wise2026年4月17日arXiv PDF

arXiv

Evaluating the Progression of Large Language Model Capabilities for Small-Molecule Drug Design

评估 LLM 在小分子药物设计任务上的真实能力边界，并检验基于环境反馈的 RL 后训练能否显著提升化学任务表现。

评不是基座论文，但“RL 环境化专业任务能把小模型拉近大模型”这个信号值得记；只看任务设计和 post-train 对比表，别在化学细节里耗时。

Shriram Chennakesavalu,Kirill Shmilovich,Hayley Weir,Colin Grambow,John Bradshaw,Patricia Suriana,Chen Cheng,Kangway Chuang

rl-post-trainingchemistry-benchmarkdomain-evaluation2026年4月17日arXiv PDF

arXiv

Reasoning-targeted Jailbreak Attacks on Large Reasoning Models via Semantic Triggers and Psychological Framing

如何攻击并绕过大型推理模型（LRMs）在生成中间推理步骤时的安全对齐机制？

评针对 CoT 推理过程的越狱攻击，提醒我们在 RLHF/安全对齐时不能只看最终输出，中间 reasoning trace 的安全性同样需要纳入 reward model 的考量。

Zehao Wang,Lanjun Wang

Shanghai UniversityUniversityShanghai Key Laboratory of Data ScienceJailbreak AttackLarge Reasoning ModelsChain-of-Thought2026年4月17日arXiv PDF

Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

BlogInbox精读🌟

Transformer Layers as Painters

mechanistic-interpretabilitymultilingualsemantic-space原文

BlogInbox精读

Transformer Layers as Painters

transformer-interpretabilitylayer-duplicationhidden-states原文

BlogInbox精读

Transformer Layers as Painters

multilingual-representationslayer-duplicationhidden-state-similarity原文

🧣 小红书Inbox泛读

逛逛这篇笔记吧~

讨论无需微调LLM权重，仅在推理阶段调整Transformer层执行顺序、折返重复部分中间层即可提升模型性能的反常现象。

layer execution orderLLM mechanisminference modification原文

arXiv泛读

Where does output diversity collapse in post-training?

定位 post-training 过程中输出多样性塌缩究竟发生在哪个阶段，并区分训练方法、训练数据组成和推理格式各自的作用。

评这篇值得看，因为它把“多样性塌缩怪 DPO”这个偷懒结论拆开了；先读实验设计和 lineage 对照，若指标定义过窄，再保留一层怀疑。

Constantinos Karouzos,Xingwei Tan,Nikolaos Aletras

University of Sheffieldpost-trainingdiversity-collapsesft2026年4月17日arXiv PDF

Inbox泛读

Transformer Layers as Painters

这篇工作研究的是：预训练 Transformer 的层到底是不是严格按顺序、逐层依赖地完成计算，还是说中间层在很大程度上共享表示空间，因此可以被跳过、重排，甚至并行而不立刻失效。更具体地说，作者想回答两个机制问题：第一，中间层是否形成了相对统一的表示坐标系；第二，模型性能对层顺序和层数的敏感性在不同深度区间、不同任务上是否不同。这个问题和常见的剪枝或蒸馏不同，重点不是压缩，而是借由对 frozen 模型做结构扰动，反推预训练后层功能的组织方式。

评这篇不直接给训练 recipe，但它动摇了“每层都各司其职”的默认前提；只看中层同质性和乱序/并行实验，就足够影响你对 looped/shared-depth 设计的先验。

Qi Sun,Marc Pickett,Aakash Kumar Nain,Llion Jones

transformer-mechanismslayer-skippinglayer-reordering2024年7月12日arXiv PDF 原文

arXiv

Learning Uncertainty from Sequential Internal Dispersion in Large Language Models

如何用 LLM 的内部表征信号更稳健地估计不确定性，从而检测幻觉/事实性错误。

评把“跨层方差=不确定性”当弱信号做监督检测，思路干净但更像特征工程；只需看特征定义和跨模型泛化表，别指望改 pretrain。

Ponhvoan Srey,Xiaobao Wu,Cong-Duy Nguyen,Anh Tuan Luu

Nanyang Technological UniversityShanghai Jiao Tong UniversityCentre for AI Researchuncertainty-estimationhallucination-detectioninternal-states2026年4月17日arXiv PDF

arXiv

Exploring the Capability Boundaries of LLMs in Mastering of Chinese Chouxiang Language

评测并刻画通用 LLM 在中文互联网亚文化“抽象语言”上的能力边界与失败模式。

评作为“长尾语言变体覆盖不足会断崖式掉能力”的例子可以备查；只看任务定义、错误类型和 judge-人类一致性那一节就够了。

Dianqing Lin,Tian Lan,Jiali Zhu,Jiang Li,Wei Chen,Xu Liu,Aruukhan,Xiangdong Su,Hongxu Hou,Guanglai Gao

Inner Mongolia Universitybenchmarklanguage-variationchinese-slang2026年4月17日arXiv PDF

arXiv

Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures

梳理如何把可解释性直接写进大语言模型的结构与计算过程，而不是依赖训练后的外部解释工具。

评做预训练的人不用通读；把它当文献地图即可，先看分类框架和 open challenges，正文细节只在你准备做 interpretable architecture 时再翻。

Yutong Gao,Qinglin Meng,Yuan Zhou,Liangming Pan

Peking UniversityNanjing University of Science and TechnologyPurdue Universityintrinsic-interpretabilitysurveymechanistic-analysis2026年4月17日arXiv PDF

arXiv

Evaluating LLM Simulators as Differentially Private Data Generators

评估以差分隐私保护输入为条件的 LLM 模拟器，能否生成既保隐私又保分布真实性的合成数据。

评不是预训练论文，但它提醒一个常被忽略的坑：拿 LLM 合成数据时，模型先验会悄悄吃掉条件分布；读失效分析就够了。

Nassima M. Bouzid,Dehao Yuan,Nam H. Nguyen,Mayana Pereira

synthetic-datadifferential-privacydistribution-shift2026年4月16日arXiv PDF

arXiv

The Amazing Stability of Flow Matching

研究 flow matching 生成模型对数据删减、架构变化和训练配置变化为何表现出异常稳定性，以及这种稳定性是否会保留潜在表示与样本质量。

评结论有点反常识，值得当作“替代生成范式的稳定性信号”看一眼；只读实验设定和 seed-level 对齐结果，别过度外推到 LLM。

Rania Briq,Michael Kamp,Ohad Fried,Sarel Cohen,Stefan Kesselheim

Lamarr InstituteInstitute for AI in MedicineReichman University+1flow-matchingtraining-dynamicsrepresentation-stability2026年4月17日arXiv PDF

arXiv

Anthropomorphism and Trust in Human-Large Language Model interactions

人类在与LLM交互时，哪些维度会影响他们对模型的拟人化倾向和信任度？

评DeepMind的HCI实证研究，揭示了模型Persona（温暖/共情）对用户信任的影响，做RLHF/Persona对齐的同学可作为literature备查，不读正文。

Akila Kadambi,Ylenia D'Elia,Tanishka Shah,Iulia Comsa,Alison Lentz,Katie Siri-Ngammuang ... 省略 1 位作者 ... ,Jonas Kaplan,Antonio Damasio,Srini Narayanan,Lisa Aziz-Zadeh

Google DeepMindGoogle ResearchAnthropomorphismTrustHuman-LLM Interaction2026年3月1日arXiv PDF

arXiv

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

这篇工作试图用谱分析解释 Transformer 在推理、事实回忆和指令跟随时的隐藏状态几何差异，并问这些差异能否作为 reasoning 的可测信号。

评现象很多，但我会先把“perfect correctness prediction”当红旗看；只读主图和 instruction-tuning reversal 那部分，若控制了长度与任务难度，再考虑纳入内部 probing 工具箱。

Yi Liu

interpretabilityreasoningspectral-analysis2026年4月3日arXiv PDF

Inbox

Looped Transformers are Better at Learning Learning Algorithms

探索 looped transformer 是否更适合在 in-context learning 场景中模拟迭代式学习算法，尤其是数据拟合类任务中的算法结构。

评更像 looped 架构的早期概念验证，不是直接可迁移到基座训练的 recipe；读摘要和实验设定就够，主要价值是给 Ouro/Parcae 这条线补一个历史起点。

Liu Yang,Kangwook Lee,Robert Nowak,Dimitris Papailiopoulos

looped-transformerin-context-learningalgorithm-learning2023年11月21日arXiv PDF 原文

通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

arXiv泛读

LLMs Corrupt Your Documents When You Delegate

这篇工作要回答的不是“模型能不能完成一次编辑任务”，而是“当用户把一段较长、较专业、需要多轮修改的文档工作委托给 LLM 时，模型能否在长链条操作里保持文档完整性，不持续引入细小但累积的破坏”。作者把问题定义为 delegated work 下的 document fidelity：模型既要执行编辑指令，又不能在未被要求的地方删改、漂移、格式损坏或语义失真。难点在于，这类任务很难做大规模自动评测，因为多数专业文档没有标准参考答案，且真正风险来自多轮交互后的误差累积，而不是单轮成功率。

评把“长程编辑会越改越坏”做成可复现实验，适合拿来做内部 agent/编辑器回归测试；重点看指标定义是否把“必要改写”误算成腐化。

Philippe Laban,Tobias Schnabel,Jennifer Neville

Microsoft ResearchPhilippe Labandelegationlong-horizon-editingbenchmark2026年4月17日arXiv PDF

arXiv

neuralCAD-Edit: An Expert Benchmark for Multimodal-Instructed 3D CAD Model Editing

评测多模态基础模型在真实 3D CAD 编辑任务中的能力缺口，尤其是视频+语音+指点+绘制等自然交互指令下的编辑表现。

评不是预训练论文，但 benchmark 设得很真，能提醒你现有多模态模型离“可操作世界模型”还很远；读任务定义和人工评测部分就够了。

Toby Perrett,Matthew Bouchard,William McCarthy

Autodesk ResearcherrorsCAD-editingmultimodal-benchmarkfoundation-model-evaluation2026年4月17日arXiv PDF

arXiv

EVIL: Evolving Interpretable Algorithms for Zero-Shot Inference on Event Sequences and Time Series with LLMs

如何利用 LLM 自动发现用于动态系统推理的简单、可解释的算法，而无需在大型数据集上训练神经网络？

评利用 LLM 作为进化算法的变异算子来搜索符号回归/算法代码，思路有趣，但属于特定领域的 Program Synthesis 应用，对 LLM 基座训练启发有限，作为 literature 备查。

David Berghaus

Fraunhofer IAISLamarr InstituteLLM-guided EvolutionProgram SynthesisInterpretable Algorithms2026年4月17日arXiv PDF

AI Research Daily

New ways to create personalized images in the Gemini app

Scaling Latent Reasoning via Looped Language Models

Parcae: Scaling Laws For Stable Looped Language Models

Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale

Transformer Layers as Painters

Transformer Layers as Painters

Transformer Layers as Painters

行业动态与观点

LLM 预训练

高效推理与架构

多模态统一

多模态生成

LLM 后训练

原理、机制和分析

Agent 与系统