ICML 2023

International Conference on Machine Learning

297/ 2934 相关论文

方向

Tier

297 / 297 篇论文

精读ICML 2023

Scaling Laws for Generative Mixed-Modal Language Models

Armen Aghajanyan,Lili Yu,Alexis Conneau,Wei-Ning Hsu,Karen Hambardzumyan,Susan Zhang,Stephen Roller,Naman Goyal,Omer Levy,Luke Zettlemoyer

scaling-lawmultimodalpretrainingPMLR DBLP

精读ICML 2023

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

Stella Biderman,Hailey Schoelkopf,Quentin Gregory Anthony,Herbie Bradley,Kyle O'Brien,Eric Hallahan ... 省略 3 位作者 ... ,Edward Raff,Aviya Skowron,Lintang Sutawika,Oskar van der Wal

scaling-lawtraining-dynamicsevaluationPMLR DBLP

精读ICML 2023

Lifelong Language Pretraining with Distribution-Specialized Experts

这篇论文要解决的是：语言模型做 lifelong pretraining 时，数据分布持续变化会导致旧知识遗忘和新领域适应相互冲突，能否用专家分化来同时兼顾。传统 continual pretrain 常用重放、采样配比或参数高效更新，但当分布漂移足够大时，共享参数会在迁移和干扰之间反复拉扯。作者的思路是让专家对不同分布专门化。

Wuyang Chen,Yanqi Zhou,Nan Du,Yanping Huang,James Laudon,Zhifeng Chen,Claire Cui

Googlelifelong-learningpretrainingmoePMLR DBLP

精读ICML 2023

Pretraining Language Models with Human Preferences

这篇工作要解决的是：人类偏好通常只在 post-train 阶段通过 RLHF 或 reward model 使用，能不能更早地进入语言模型预训练。过去做法默认先学“下一个 token 分布”，再用偏好数据做后处理；这篇论文在问，偏好信号如果前移到 pretraining，会不会学到更符合人类偏好的表示和生成分布。

Tomasz Korbak,Kejian Shi,Angelica Chen,Rasika Vinayak Bhalerao,Christopher L. Buckley,Jason Phang,Samuel R. Bowman,Ethan Perez

human-preferencespretrainingalignmentPMLR DBLP

精读ICML 2023

The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

Shayne Longpre,Le Hou,Tu Vu,Albert Webson,Hyung Won Chung,Yi Tay ... 省略 1 位作者 ... ,Quoc V. Le,Barret Zoph,Jason Wei,Adam Roberts

instruction-tuningdata-mixturesynthetic-dataPMLR DBLP

精读ICML 2023

Hyena Hierarchy: Towards Larger Convolutional Language Models

Michael Poli,Stefano Massaroli,Eric Nguyen,Daniel Y. Fu,Tri Dao,Stephen Baccus,Yoshua Bengio,Stefano Ermon,Christopher Ré

language-modelingarchitecturelong-contextPMLR DBLP

精读ICML 2023

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Junnan Li,Dongxu Li,Silvio Savarese,Steven C. H. Hoi

vlmpretrainingfrozen-encoderPMLR DBLP

精读ICML 2023

Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language

Alexei Baevski,Arun Babu,Wei-Ning Hsu,Michael Auli

self-supervisedmultimodal-pretraincontextualized-targetsPMLR DBLP

精读ICML 2023

One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

Fan Bao,Shen Nie,Kaiwen Xue,Chongxuan Li,Shi Pu,Yaole Wang,Gang Yue,Yue Cao,Hang Su,Jun Zhu

diffusiontransformermulti-modalPMLR DBLP

精读ICML 2023

BEATs: Audio Pre-Training with Acoustic Tokenizers

这篇论文的核心问题是：音频预训练到底该学连续波形上的局部声学模式，还是先建立一套足够好的离散声学 token，再像语言模型一样做序列建模。此前自监督语音/音频方法多在连续特征上做 masked prediction 或对比学习，能学到鲁棒表征，但对统一生成式建模和跨任务迁移的接口并不理想。BEATs 重新把焦点放到 acoustic tokenizer 上。

Sanyuan Chen,Yu Wu,Chengyi Wang,Shujie Liu,Daniel Tompkins,Zhuo Chen,Wanxiang Che,Xiangzhan Yu,Furu Wei

MicrosoftaudiopretrainingtokenizerPMLR DBLP

精读ICML 2023

The case for 4-bit precision: k-bit Inference Scaling Laws

这篇工作想解决的是：推理精度到底需要多高，尤其 4-bit 是否已经进入“足够好”的区间，而不是继续把带宽和显存浪费在更高位宽上。过去量化常被当成工程补丁，很多结论依赖单模型单任务，缺少类似 scaling law 的整体视角来回答‘随着模型变大，k-bit 误差会怎样变’。

Tim Dettmers,Luke Zettlemoyer

quantizationscaling-lawinference-efficiencyPMLR DBLP

精读ICML 2023

Understand and Modularize Generator Optimization in ELECTRA-style Pretraining

这篇工作针对的是 ELECTRA-style 预训练里一个长期被低估的问题：generator 的优化到底在帮什么忙，为什么 generator 训练不好会直接拖累 discriminator 学到的替换检测信号。过去很多工作把 ELECTRA 看成‘小生成器 + 判别器’的工程组合，generator 常被当附属模块处理，但它其实决定了负样本质量，也决定了预训练信号是容易还是有信息量。

Chengyu Dong,Liyuan Liu,Hao Cheng,Jingbo Shang,Jianfeng Gao,Xiaodong Liu

electramasked-lmpretrainingPMLR DBLP

精读ICML 2023

PaLM-E: An Embodied Multimodal Language Model

这篇工作的核心问题是：大语言模型能否直接作为 embodied agent 的统一中枢，同时处理视觉感知、语言理解和机器人控制，而不是把感知、规划、控制拆成多个模块串联。过去机器人系统往往在每个环节单独训练，导致跨任务泛化和任务描述灵活性都受限，也很难利用大规模语言预训练形成的世界知识。

Danny Driess,Fei Xia,Mehdi S. M. Sajjadi,Corey Lynch,Aakanksha Chowdhery,Brian Ichter ... 省略 12 位作者 ... ,Klaus Greff,Andy Zeng,Igor Mordatch,Pete Florence

Google ResearchDeepMindmultimodalvlmembodiedPMLR DBLP

精读ICML 2023

SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot

Elias Frantar,Dan Alistarh

compressionpruningllmPMLR DBLP

精读ICML 2023

Scaling Laws for Reward Model Overoptimization

这篇论文研究的核心问题是：reward model 被过度优化时，性能会何时、以多快速度偏离真实目标。RLHF 流程里大家早就知道“把奖励刷太高会 reward hack”，但此前多是经验现象，缺少可量化的尺度规律。作者试图给出一个 scaling law 视角，回答 overoptimization 与模型大小、优化强度、奖励模型误差之间的关系。

Leo Gao,John Schulman,Jacob Hilton

reward-modelscaling-lawrlhfPMLR DBLP

精读ICML 2023

Cramming: Training a Language Model on a single GPU in one day

这篇论文想回答一个很实用的问题：在极其受限的硬件条件下，能否把语言模型训练压缩到“单卡一天”这个量级，并且仍然保持可研究的质量。过去大多数 LLM 研究默认依赖多卡、大 batch 和成熟分布式栈，导致很多训练配方难以复现，也难以做快速方法迭代。作者试图证明，经过系统级与配方级重构，小规模资源也能完成有意义的 LM 预训练。

Jonas Geiping,Tom Goldstein

language-modeltraining-efficiencyscalingPMLR DBLP

精读ICML 2023

Exploring the Benefits of Training Expert Language Models over Instruction Tuning

Joel Jang,Seungone Kim,Seonghyeon Ye,Doyoung Kim,Lajanugen Logeswaran,Moontae Lee,Kyungjae Lee,Minjoon Seo

instruction-tuningexpert-modelpost-trainingPMLR DBLP

精读ICML 2023

Large Language Models Struggle to Learn Long-Tail Knowledge

LLM 对长尾知识（训练数据中出现频次低的事实）的记忆和回答能力很差，但之前缺乏系统性的量化分析。本文要回答：模型对某个事实的掌握程度与该事实在预训练数据中的出现频次之间到底是什么关系？

Nikhil Kandpal,Haikang Deng,Adam Roberts,Eric Wallace,Colin Raffel

UNC Chapel HillGoogle Researchlong-tail-knowledgedata-distributionmemorizationPMLR DBLP

精读ICML 2023

Grounding Language Models to Images for Multimodal Inputs and Outputs

这篇工作要解决的是：如何让语言模型原生处理图像输入并生成多模态输出，而不是把视觉编码器和文本解码器松散拼接。过去很多 VLM 更像“图像特征接一个语言头”，输入输出接口不统一，难以自然扩展到图像生成、编辑和更细粒度的 grounded generation。

Jing Yu Koh,Ruslan Salakhutdinov,Daniel Fried

multimodalgroundingllmPMLR DBLP

精读ICML 2023

Fast Inference from Transformers via Speculative Decoding

这篇论文解决的是：Transformer 自回归解码严格串行，推理延迟高，而大模型的大部分时间都耗在逐 token 前向上。过去常见加速手段要么改模型、牺牲分布一致性，要么只优化内核和并行，无法改变串行瓶颈。

Yaniv Leviathan,Matan Kalman,Yossi Matias

Google Researchspeculative-decodingtransformerservingPMLR DBLP

精读ICML 2023

Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise

这篇论文解决的是：离散文本生成很难直接套用扩散模型，因为文本 token 不像图像像素那样天然连续，简单在词嵌入空间做扩散往往训练-生成不一致、生成质量也不稳定。过去很多 diffusion LM 工作停留在从零做离散扩散或 masked denoising，难以扩到预训练规模。

Zhenghao Lin,Yeyun Gong,Yelong Shen,Tong Wu,Zhihao Fan,Chen Lin,Nan Duan,Weizhu Chen

diffusion-lmtext-generationpretrainingPMLR DBLP

精读ICML 2023

Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models

Hong Liu,Sang Michael Xie,Zhiyuan Li,Tengyu Ma

language-modelspretrainingimplicit-biasPMLR DBLP

精读ICML 2023

Resurrecting Recurrent Neural Networks for Long Sequences

这篇论文的结论很明确：RNN 并没有被长序列任务彻底淘汰，关键问题不是“递归一定不行”，而是过去训练和参数化方式不对。Transformer 在长序列上效果强，但计算和缓存成本随上下文增长很重；如果能把 RNN 的稳定性和并行训练问题处理好，它在长上下文场景仍有竞争力。

Antonio Orvieto,Samuel L. Smith,Albert Gu,Anushan Fernando,Çaglar Gülçehre,Razvan Pascanu,Soham De

long-contextrnnarchitecturePMLR DBLP

精读ICML 2023

Transformers Learn In-Context by Gradient Descent

这篇论文的核心结论是：Transformer 的 in-context learning 不只是模仿表面模式，它在某些设定下学会了类似梯度下降的内部更新规则。过去大家知道 ICL 像是“隐式从 prompt 中学”，但这种学习到底对应什么机制并不清楚；作者试图把它和优化过程建立更明确的对应关系。

Johannes von Oswald,Eyvind Niklasson,Ettore Randazzo,João Sacramento,Alexander Mordvintsev,Andrey Zhmoginov,Max Vladymyrov

GoogleDeepMindin-context-learningtransformergradient-descentPMLR DBLP

精读ICML 2023

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

这篇论文的核心结论很明确：LLM 做后训练量化时，真正难的不是权重量化，而是 activation outlier 导致的量化困难；SmoothQuant 通过把激活中的极端幅值平滑迁移到权重里，解决了 W8A8 PTQ 的主要障碍。过去很多工作只能做 weight-only 量化，原因不是大家不知道低比特有价值，而是 activation 分布太尖，直接量化会让精度迅速崩掉。

Guangxuan Xiao,Ji Lin,Mickaël Seznec,Hao Wu,Julien Demouth,Song Han

MIT Han LabNVIDIAquantizationpost-training-quantizationllm-inferencePMLR DBLP

精读ICML 2023

A Study on Transformer Configuration and Training Objective

Fuzhao Xue,Jianghai Chen,Aixin Sun,Xiaozhe Ren,Zangwei Zheng,Xiaoxin He,Yongming Chen,Xin Jiang,Yang You

transformerarchitecturetraining-objectivePMLR DBLP

精读ICML 2023

Retrieval-Augmented Multimodal Language Modeling

Michihiro Yasunaga,Armen Aghajanyan,Weijia Shi,Richard James,Jure Leskovec,Percy Liang,Mike Lewis,Luke Zettlemoyer,Wen-Tau Yih

multimodalretrievallanguage-modelingPMLR DBLP

精读ICML 2023

Stabilizing Transformer Training by Preventing Attention Entropy Collapse

这篇论文的核心结论很明确：Transformer 训练中的一类不稳定现象可以归因于注意力熵塌缩，控制这个量能显著提升训练稳定性。过去大家常从学习率、归一化、初始化或梯度爆炸角度解释 loss spike，但注意力分布过早变尖锐这一机制没有被充分当成一等公民处理。

Shuangfei Zhai,Tatiana Likhomanenko,Etai Littwin,Dan Busbridge,Jason Ramapuram,Yizhe Zhang,Jiatao Gu,Joshua M. Susskind

transformertraining-stabilityattentionPMLR DBLP

精读ICML 2023

The Wisdom of Hindsight Makes Language Models Better Instruction Followers

这篇论文的核心问题是：现有指令微调让模型学会了模仿答案格式，但不一定真正理解用户意图，能否用 hindsight 信号把失败案例转成更有效的监督。传统 instruction tuning 依赖静态指令-回复对，错误答案常常只是被丢弃，没有被转化成额外学习信号。

Tianjun Zhang,Fangchen Liu,Justin Wong,Pieter Abbeel,Joseph E. Gonzalez

instruction-tuningsynthetic-dataalignmentPMLR DBLP

精读ICML 2023

Brainformers: Trading Simplicity for Efficiency

这篇工作的核心问题从题目就很明确：在大模型里，一味追求架构简洁并不总是高效，Brainformers 试图用更复杂但更省算/省内存的设计来换取实际效率。这个问题值得关注，因为很多 Transformer 变体在理论上更优，但训练和推理系统上的真实收益常被简单性假设掩盖。

Yanqi Zhou,Nan Du,Yanping Huang,Daiyi Peng,Chang Lan,Da Huang ... 省略 5 位作者 ... ,Quoc V. Le,Claire Cui,James Laudon,Jeff Dean

transformer-architecturemoeefficiencyPMLR DBLP

泛读ICML 2023

Unit Scaling: Out-of-the-Box Low-Precision Training

Charlie Blake,Douglas Orr,Carlo Luschi

low-precisiontraining-stabilityoptimizationPMLR DBLP

泛读ICML 2023

Semi-Offline Reinforcement Learning for Optimized Text Generation

这篇论文要解决的是：文本生成中的 RL 如何利用离线数据提升优化效率，同时避免纯 offline RL 常见的分布外动作偏移。传统 RLHF 或在线策略优化样本代价高、训练不稳；而纯离线方法虽然便宜，但策略一旦偏离行为分布，价值估计就容易失真。作者提出 semi-offline RL，试图在二者之间找到可训练的折中。

Changyu Chen,Xiting Wang,Yiqiao Jin,Victor Ye Dong,Li Dong,Jie Cao,Yi Liu,Rui Yan

reinforcement-learningtext-generationoffline-rlPMLR DBLP

泛读ICML 2023

Mu2SLAM: Multitask, Multilingual Speech and Language Models

这篇工作要解决的是：能不能用一个统一模型同时做多语言语音理解与文本语言任务，而不是把 ASR、ST、文本任务分别建模再靠任务特定微调去拼。过去这类系统通常在任务边界和模态边界上切得很开，导致参数复用差、跨语言迁移弱，也很难回答“语音 LM 和文本 LM 能否共享表示”这个更基础的问题。

Yong Cheng,Yu Zhang,Melvin Johnson,Wolfgang Macherey,Ankur Bapna

speechmultilingualmultitaskPMLR DBLP

精读ICML 2023

A Toy Model of Universality: Reverse Engineering how Networks Learn Group Operations

这篇工作研究的不是提升性能，而是回答机制解释里一个更基础的问题：不同网络在学同一任务时，是否真的会学到相似的特征和电路。过去“universality”常被当作解释工作可迁移的前提，但证据多来自经验类比；作者选了群运算这个可完全控制的玩具任务，试图把“网络到底学了什么”反推到足够具体。

Bilal Chughtai,Lawrence Chan,Neel Nanda

mechanistic-interpretabilityuniversalityreverse-engineeringPMLR arXiv DBLP

精读ICML 2023

Guiding Pretraining in Reinforcement Learning with Large Language Models

这篇工作研究的是：大语言模型能否在 RL 预训练阶段充当外部先验，帮助 agent 更快学到有用行为，而不是等到后期再做人类反馈或文本辅助。传统 RL 预训练尤其在稀疏奖励和开放任务里很低效，原因不是模型不会优化，而是早期探索缺少结构化引导；LLM 恰好携带常识、任务分解和语言先验，因此值得前移到 pretraining 阶段使用。

Yuqing Du,Olivia Watkins,Zihan Wang,Cédric Colas,Trevor Darrell,Pieter Abbeel,Abhishek Gupta,Jacob Andreas

reinforcement-learningpretrainingllmPMLR DBLP

精读ICML 2023

Simple Hardware-Efficient Long Convolutions for Sequence Modeling

Daniel Y. Fu,Elliot L. Epstein,Eric Nguyen,Armin W. Thomas,Michael Zhang,Tri Dao,Atri Rudra,Christopher Ré

sequence-modelinglong-contextconvolutionPMLR DBLP

精读ICML 2023

Why Is Public Pretraining Necessary for Private Model Training?

这篇论文讨论的核心问题是：为什么做差分隐私或私有数据训练时，公开预训练几乎成了必要条件。以往很多工作把“先公共数据预训练，再私有数据微调”当经验技巧使用，但缺少对其必要性的明确解释。作者想说明这不是工程习惯，而是隐私约束下样本效率和泛化能力共同决定的结果。

Arun Ganesh,Mahdi Haghifam,Milad Nasr,Sewoong Oh,Thomas Steinke,Om Thakkar,Abhradeep Guha Thakurta,Lun Wang

pretrainingprivacydata-qualityPMLR DBLP

精读ICML 2023

PAL: Program-aided Language Models

这篇论文解决的问题很明确：让语言模型在数学和符号推理任务上少靠“在 token 空间里硬算”，多把可执行计算交给程序。此前 chain-of-thought 已经证明显式中间步骤有帮助，但纯自然语言推理在算术、变量绑定和组合泛化上仍然容易出错。作者因此把焦点放在一个更工程化也更稳的方向：LM 负责把问题翻译成程序，解释器负责执行。

Luyu Gao,Aman Madaan,Shuyan Zhou,Uri Alon,Pengfei Liu,Yiming Yang,Jamie Callan,Graham Neubig

tool-usereasoningprogram-executionPMLR DBLP

精读ICML 2023

Looped Transformers as Programmable Computers

这篇论文研究的核心问题是：Transformer 在结构上能否实现类似程序执行的迭代计算，而不只是做固定深度的模式匹配。标准 Transformer 每层只过一遍，表达力强但计算轨迹长度固定，因此很多算法性任务需要靠加深网络硬塞。作者提出 looped transformer 这一设定，想验证参数共享下的循环迭代是否能让模型更像可编程计算机。

Angeliki Giannou,Shashank Rajput,Jy-yong Sohn,Kangwook Lee,Jason D. Lee,Dimitris Papailiopoulos

transformerexpressivenesslooped-transformerPMLR DBLP

精读ICML 2023

Aligning Language Models with Preferences through f-divergence Minimization

这篇论文关注的核心问题是：如何把基于偏好的语言模型对齐写成一个更统一、更可分析的优化问题，而不局限于现有 RLHF 的特定形式。过去从 preference data 学 policy，多数工作落在 Bradley-Terry + PPO / KL regularization 这套组合上，方法有效但解释分散。作者尝试用 f-divergence minimization 给出一个统一视角，说明不同对齐目标其实是同一家族的特例。

Dongyoung Go,Tomasz Korbak,Germán Kruszewski,Jos Rozen,Nahyeon Ryu,Marc Dymetman

alignmentf-divergencepreference-optimizationPMLR DBLP

泛读ICML 2023

BPipe: Memory-Balanced Pipeline Parallelism for Training Large Language Models

Pipeline parallelism 训练大模型时，各 stage 之间的内存占用严重不均衡——前面的 stage 需要缓存大量 activation 等待反向传播，后面的 stage 则相对空闲。这种不均衡导致整体内存利用率低，限制了可训练的模型规模或 batch size。

Taebum Kim,Hyoungjoo Kim,Gyeong-In Yu,Byung-Gon Chun

Seoul National Universitypipeline-parallelismllm-trainingmemoryPMLR DBLP

泛读ICML 2023

Proper Losses for Discrete Generative Models

离散生成模型（如语言模型、离散 diffusion 模型）的训练损失函数选择缺乏系统性的理论指导。交叉熵是默认选择，但它是否是最优的？本文从 proper scoring rule 的理论框架出发，系统分析适用于离散生成模型的损失函数。

Dhamma Kimpara,Rafael M. Frongillo,Bo Waggoner

University of Colorado Boulderdiscrete-generative-modelsloss-functiondiffusionPMLR DBLP

精读ICML 2023

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding

这篇工作要解决的是：很多视觉语言任务并不只是“看图说话”，而是要理解截图、界面、文档和图表里的复杂布局与文本-视觉混合结构。传统图文预训练常偏自然图像，OCR 和布局理解被拆成独立模块，导致模型对屏幕截图这类高密度信息输入适应较差。

Kenton Lee,Mandar Joshi,Iulia Raluca Turc,Hexiang Hu,Fangyu Liu,Julian Martin Eisenschlos,Urvashi Khandelwal,Peter Shaw,Ming-Wei Chang,Kristina Toutanova

Google Researchvlmpretrainingdocument-understandingPMLR DBLP

泛读ICML 2023

Transformers as Algorithms: Generalization and Stability in In-context Learning

这篇论文要解决的是：Transformer 的 in-context learning 看起来像是在 prompt 内临时学会了一个算法，但这种能力何时能泛化、何时会稳定，还缺少清晰理论。过去很多工作只做现象描述或构造性例子，没有把 ICL 明确建模成“推理时从上下文构造假设函数”的统计学习问题。

Yingcong Li,Muhammed Emrullah Ildiz,Dimitris Papailiopoulos,Samet Oymak

in-context-learningtransformergeneralizationPMLR arXiv DBLP

泛读ICML 2023

How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding

这篇论文要回答的是：Transformer 在无显式主题变量的情况下，究竟如何从语言数据中学出 topic structure，以及这种结构在参数和计算中如何体现。过去关于 Transformer 学到什么的讨论多停留在行为层或 probing 层，对“主题”这种中观统计结构缺少机制级解释。

Yuchen Li,Yuanzhi Li,Andrej Risteski

transformertopic-modelmechanistic-understandingPMLR DBLP

精读ICML 2023

Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

Zichang Liu,Jue Wang,Tri Dao,Tianyi Zhou,Binhang Yuan,Zhao Song ... 省略 1 位作者 ... ,Ce Zhang,Yuandong Tian,Christopher Ré,Beidi Chen

llminferencesparsityPMLR DBLP

精读ICML 2023

A Kernel-Based View of Language Model Fine-Tuning

这篇工作要解决的是：大语言模型微调到底在做“学新特征”，还是主要在利用预训练表示上的核回归结构做轻量适配。这个问题以前常被 LoRA、prefix tuning、full fine-tuning 的经验比较间接讨论，但缺少统一视角。现在值得重看，是因为 parameter-efficient tuning 已成为主流，大家需要知道微调的有效性到底来自模型非线性重塑，还是来自预训练表征本身已经足够强。

Sadhika Malladi,Alexander Wettig,Dingli Yu,Danqi Chen,Sanjeev Arora

fine-tuningkernel-methodsadaptationPMLR DBLP

精读ICML 2023

Quantized Distributed Training of Large Models with Convergence Guarantees

这篇工作要解决的是：大模型分布式训练中的通信瓶颈能否通过激进量化显著降低，同时还能给出严格收敛保证。过去大家知道梯度压缩和低比特通信在系统上有潜力，但一到大模型、多机异步或复杂优化器环境，理论与实践经常脱节。这个问题之所以关键，是因为当模型和并行规模继续增长时，带宽而不是算力越来越成为训练吞吐的主限制。

Ilia Markov,Adrian Vladu,Qi Guo,Dan Alistarh

distributed-trainingquantizationlarge-modelsPMLR DBLP

精读ICML 2023

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

这篇工作要解决的是：在拿不到生成模型参数和训练数据的情况下，能否零样本检测一段文本是不是由语言模型生成。过去的检测器通常依赖监督训练、特定生成器的伪造样本或水印，泛化到新模型时很脆弱。这个问题现在重要，是因为生成模型快速迭代，检测方法如果依赖已知生成器，很快就会过时。

Eric Mitchell,Yoonho Lee,Alexander Khazatsky,Christopher D. Manning,Chelsea Finn

detectgptmachine-text-detectionzero-shotPMLR DBLP

泛读ICML 2023

Measuring the Impact of Programming Language Distribution

这篇论文关注代码预训练里一个很实际但经常被忽略的问题：训练语料中的编程语言分布会怎样影响模型能力。过去很多 code LM 默认“数据越多越好”，但不同语言在语法、生态、测试可得性和重复度上差异很大，语言配比未必是中性的，因此作者系统测量这种分布效应。

Gabriel Orlanski,Kefan Xiao,Xavier Garcia,Jeffrey Hui,Joshua Howland,Jonathan Malmaud,Jacob Austin,Rishabh Singh,Michele Catasta

code-datadata-mixtureprogramming-languagesPMLR DBLP

泛读ICML 2023

Task-Specific Skill Localization in Fine-tuned Language Models

Abhishek Panigrahi,Nikunj Saunshi,Haoyu Zhao,Sanjeev Arora

fine-tuninginterpretabilityskill-localizationPMLR DBLP

精读ICML 2023

Efficient Training of Language Models using Few-Shot Learning

Sashank J. Reddi,Sobhan Miryoosefi,Stefani Karp,Shankar Krishnan,Satyen Kale,Seungyeon Kim,Sanjiv Kumar

few-shot-learningefficient-traininglanguage-modelPMLR DBLP

精读ICML 2023

SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient

这篇论文要解决的核心问题是：大模型训练并不一定要依赖高带宽、低时延互联，作者试图证明在弱网络条件下也能把训练做起来且效率没有直觉上那么差。过去主流做法默认数据并行或张量并行需要频繁全量同步，因此训练系统设计被高端集群网络强绑定；这在扩大可用算力来源、利用异构或地理分散设备时是明显约束。

Max Ryabinin,Tim Dettmers,Michael Diskin,Alexander Borzunov

distributed-trainingcommunication-efficiencylarge-modelPMLR DBLP

泛读ICML 2023

Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models

这篇论文要解决的核心问题是：高质量 Chain-of-Thought 示范稀缺且昂贵时，能否自动合成足够好的推理示范来提升大模型。过去 CoT 往往依赖人工编写 few-shot exemplars，或者依赖更强教师模型生成数据；这使方法很有效，但可扩展性和迁移性都有限。

Zhihong Shao,Yeyun Gong,Yelong Shen,Minlie Huang,Nan Duan,Weizhu Chen

chain-of-thoughtsynthetic-datapromptingPMLR DBLP

泛读ICML 2023

Large Language Models Can Be Easily Distracted by Irrelevant Context

这篇论文要解决的核心问题是：大语言模型在长上下文和检索增强场景中，为什么会被无关信息明显干扰。过去大家默认‘给更多上下文通常更好’，但实践里常见现象是只要把无关段落混进去，模型推理质量就会下降，这说明模型并没有稳健地学会相关性筛选。

Freda Shi,Xinyun Chen,Kanishka Misra,Nathan Scales,David Dohan,Ed H. Chi,Nathanael Schärli,Denny Zhou

llmcontextrobustnessPMLR DBLP

泛读ICML 2023

Repository-Level Prompt Generation for Large Language Models of Code

这篇工作要解决的是：代码大模型在仓库级任务上拿不到足够上下文，导致补全或生成结果只看局部文件而忽略跨文件依赖。过去常见做法是简单截断、检索相似片段或把更多文件硬塞进 prompt，但仓库上下文长、结构复杂，直接拼接既贵又噪声大。

Disha Shrivastava,Hugo Larochelle,Daniel Tarlow

code-llmpromptingrepository-levelPMLR DBLP

精读ICML 2023

Mimetic Initialization of Self-Attention Layers

这篇工作要解决的是：标准 Transformer 的自注意力层初始化并不匹配其早期训练动力学，导致优化前期信号利用差、训练更慢且更不稳定。以往大家主要靠更长 warmup、学习率技巧或归一化结构去缓解，但很少直接从“注意力层在初始化时应当模仿什么计算”这个角度设计初始化。

Asher Trockman,J. Zico Kolter

Carnegie Mellon Universityself-attentioninitializationtransformer-trainingPMLR DBLP

精读ICML 2023

Poisoning Language Models During Instruction Tuning

这篇工作聚焦一个很实际的问题：指令微调阶段是否会引入新的投毒攻击面，而且这种攻击是否足以显著改变语言模型行为。相比预训练投毒，instruction tuning 数据量更小、监督更集中，因此少量恶意样本可能更容易重写模型在特定指令分布下的响应模式。

Alexander Wan,Eric Wallace,Sheng Shen,Dan Klein

University of California, Berkeleyinstruction-tuningdata-poisoningalignmentPMLR DBLP

精读ICML 2023

Data Efficient Neural Scaling Law via Model Reusing

这篇工作研究的是：在数据有限时，神经网络 scaling law 是否还能成立，以及如何通过模型复用降低对新数据的需求。传统 scaling law 默认每个规模点都从头训练，这在数据和算力上都很昂贵，也不符合很多实际训练流程。

Peihao Wang,Rameswar Panda,Zhangyang Wang

scaling-lawdata-efficiencymodel-reusePMLR DBLP

精读ICML 2023

Understanding Int4 Quantization for Language Models: Latency Speedup, Composability, and Failure Cases

这篇论文要解决的问题是：LLM 的 Int4 量化已经被广泛宣传为“省显存又加速”，但真实系统里 latency 提升、算子可组合性和失效场景并不透明。过去很多工作只报离线 perplexity 或单 kernel speedup，回避了端到端 serving 的复杂性，因此作者专门分析 Int4 在语言模型中的真实收益和边界。

Xiaoxia Wu,Cheng Li,Reza Yazdani Aminabadi,Zhewei Yao,Yuxiong He

quantizationlanguage-modelsinferencePMLR DBLP

泛读ICML 2023

LookupFFN: Making Transformers Compute-lite for CPU inference

这篇论文要解决的是 Transformer 在 CPU 上推理太重，尤其 FFN 层占大量算力和延迟。过去大多数加速工作偏向 GPU 或注意力优化，但在实际部署里，CPU 侧常常是成本敏感场景，FFN 的矩阵乘法会成为更直接的瓶颈。

Zhanpeng Zeng,Michael Davies,Pranav Pulijala,Karthikeyan Sankaralingam,Vikas Singh

transformerinferenceffnPMLR DBLP

泛读ICML 2023

Tractable Control for Autoregressive Language Generation

这篇论文解决的是自回归文本生成中的可控生成难题：怎样在不把搜索空间炸掉的情况下，对生成内容施加可 tractable 的约束。过去可控生成常依赖启发式 decoding、后验重打分或拒绝采样，但约束一复杂就会变慢、失真，甚至根本不可解。

Honghua Zhang,Meihua Dang,Nanyun Peng,Guy Van den Broeck

language-generationcontrollable-generationdecodingPMLR DBLP

泛读ICML 2023

Coder Reviewer Reranking for Code Generation

这篇论文的结论很直接：仅用代码生成模型自身的 likelihood 做 reranking 会偏向退化解，而引入一个反向的 Reviewer 模型能显著改善代码生成质量。过去 sample-and-rerank 是代码生成的常用套路，但同一个模型既负责生成又负责评分时，容易偏爱表面高概率、却不满足指令或语义错误的程序。

Tianyi Zhang,Tao Yu,Tatsunori Hashimoto,Mike Lewis,Wen-Tau Yih,Daniel Fried,Sida Wang

code-generationrerankingsamplingPMLR arXiv DBLP

精读ICML 2023

Measuring and Modifying Factual Knowledge in Large Language Models

大语言模型存储了大量事实知识，但如何精确度量和定向修改这些知识仍是开放问题。本文研究 LLM 中事实知识的测量与编辑方法。

Pouya Pezeshkpour

factualitymodel-editingknowledgeDOI DBLP

泛读ICML 2023

Tighter Bounds on the Expressivity of Transformer Encoders

这篇论文的核心结论是：Transformer encoder 的表达能力并没有一些经验性印象里那么“无限制”，其可表示函数类可以被更紧的理论边界刻画。过去关于 Transformer 表达性的工作往往证明“能做很多事”，但上界偏松、不能区分哪些能力来自自注意力、哪些来自位置编码或宽度深度扩展，因此这篇工作试图把“到底强到哪里、弱在哪里”说得更精确。

David Chiang,Peter Cholak,Anand Pillay

transformerexpressivitytheoryPMLR DBLP

泛读ICML 2023

Scaling Vision Transformers to 22 Billion Parameters

这篇论文要回答的问题很直接：Vision Transformer 能不能像语言模型那样继续靠规模化获得收益，并在超大参数区间保持可训练和有效。过去 ViT 的扩展更多停留在数亿到十亿级，工程上受限于训练稳定性、算力效率和数据配比，因此 22B 级别的实证本身就是问题核心。

Mostafa Dehghani,Josip Djolonga,Basil Mustafa,Piotr Padlewski,Jonathan Heek,Justin Gilmer ... 省略 20 位作者 ... ,Jasmijn Bastings,Mark Collier,Alexey A. Gritsenko,Vighnesh Birodkar

Googlevision-transformerscaling-lawoptimizationPMLR DBLP

泛读ICML 2023

R-U-SURE? Uncertainty-Aware Code Suggestions By Maximizing Utility Across Random User Intents

这篇论文关注的核心问题是：代码补全系统不应该只追求最可能的建议，而应该在用户意图不确定时最大化实际效用。传统 code suggestion 往往把任务写成 top-1 或 top-k 准确率优化，但真实用户可能想写的代码有多种合理 continuation，因此“概率最高”不等于“对用户最有帮助”。

Daniel D. Johnson,Daniel Tarlow,Christian Walder

code-generationuncertaintyutility-modelingPMLR DBLP

泛读ICML 2023

Bi-directional Masks for Efficient N: M Sparse Training

这篇论文解决的是稀疏训练里的一个很实际问题：N:M 结构化稀疏虽然硬件友好，但训练时掩码更新受限，容易损失精度或引入高额搜索成本。过去很多 sparse training 方法要么依赖非结构化稀疏、部署不友好，要么在 N:M 约束下可训练性较差，因此需要一种兼顾训练效率和最终可部署性的掩码机制。

Yuxin Zhang,Yiting Luo,Mingbao Lin,Yunshan Zhong,Jingjing Xie,Fei Chao,Rongrong Ji

sparsitysparse-trainingtraining-efficiencyPMLR DBLP

泛读ICML 2023

FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU

Ying Sheng,Lianmin Zheng,Binhang Yuan,Zhuohan Li,Max Ryabinin,Beidi Chen,Percy Liang,Christopher Ré,Ion Stoica,Ce Zhang

llmservingmemoryPMLR DBLP

泛读ICML 2023

Beyond the Edge of Stability via Two-step Gradient Updates

Lei Chen,Joan Bruna

optimizationedge-of-stabilitytraining-dynamicsPMLR DBLP

泛读ICML 2023

SAM operates far from home: eigenvalue regularization as a dynamical phenomenon

Atish Agarwala,Yann N. Dauphin

samoptimizationsharpnessPMLR DBLP

泛读ICML 2023

Recasting Self-Attention with Holographic Reduced Representations

Mohammad Mahmudul Alam,Edward Raff,Stella Biderman,Tim Oates,James Holt

attentionarchitecturesequence-modelingPMLR DBLP

泛读ICML 2023

A Modern Look at the Relationship between Sharpness and Generalization

Maksym Andriushchenko,Francesco Croce,Maximilian Müller,Matthias Hein,Nicolas Flammarion

sharpnessgeneralizationoptimizationPMLR DBLP

泛读ICML 2023

SGD with Large Step Sizes Learns Sparse Features

Maksym Andriushchenko,Aditya Vardhan Varre,Loucas Pillaud-Vivien,Nicolas Flammarion

sgdlarge-batchsparsityPMLR DBLP

泛读ICML 2023

Data-Copying in Generative Models: A Formal Framework

Robi Bhattacharjee,Sanjoy Dasgupta,Kamalika Chaudhuri

memorizationdata-qualityprivacyPMLR DBLP

泛读ICML 2023

Emergence of Sparse Representations from Noise

Trenton Bricken,Rylan Schaeffer,Bruno A. Olshausen,Gabriel Kreiman

sparse-representationsemergenceinterpretabilityPMLR DBLP

泛读ICML 2023

Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning

Thomas Carta,Clément Romac,Thomas Wolf,Sylvain Lamprier,Olivier Sigaud,Pierre-Yves Oudeyer

llmreinforcement-learninggroundingPMLR DBLP

泛读ICML 2023

Muse: Text-To-Image Generation via Masked Generative Transformers

这篇论文要解决的是：不用自回归像素/离散 token 解码，也能把文本到图像生成做得又快又好。此前主流路线要么是扩散模型，质量高但采样步数多、延迟高；要么是自回归图像 token 模型，解码串行、吞吐受限。作者重新启用 masked generative transformer 这条路，核心动机是把图像 token 的生成从“一个一个写”改成“并行填空”。

Huiwen Chang,Han Zhang,Jarred Barber,Aaron Maschinot,José Lezama,Lu Jiang ... 省略 2 位作者 ... ,William T. Freeman,Michael Rubinstein,Yuanzhen Li,Dilip Krishnan

Google ResearchGoogle Brainmasked-modelingtext-to-imagetransformerPMLR DBLP

泛读ICML 2023

Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers

这篇论文研究的是：动量优化器能否同时更快适应训练动态、又不过度追随短期噪声。传统 EMA 动量只朝一个时间方向累积历史梯度，稳定但响应慢；而训练分布、曲率和梯度尺度在长程训练中会持续漂移，单一时间尺度的动量往往在稳定性和适应性之间两头不讨好。

Yineng Chen,Zuchao Li,Lefei Zhang,Bo Du,Hai Zhao

optimizerematraining-stabilityPMLR DBLP

泛读ICML 2023

Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks

这篇工作要回答的核心问题是：patch-level MoE 为什么能在卷积网络里显著省算力，还不明显掉精度，甚至在样本效率上更好。过去 pMoE 主要靠经验结果站得住，但缺少理论解释，所以大家知道它“能用”，却不清楚它到底减少了什么统计难度、适用于什么结构、边界在哪里。

Mohammed Nowaz Rabbani Chowdhury,Shuai Zhang,Meng Wang,Sijia Liu,Pin-Yu Chen

moepatch-routingsample-efficiencyPMLR arXiv DBLP

泛读ICML 2023

Scaling Laws for Multilingual Neural Machine Translation

Patrick Fernandes,Behrooz Ghorbani,Xavier Garcia,Markus Freitag,Orhan Firat

scaling-lawmultilingualmachine-translationPMLR DBLP

泛读ICML 2023

Specializing Smaller Language Models towards Multi-Step Reasoning

Yao Fu,Hao Peng,Litu Ou,Ashish Sabharwal,Tushar Khot

reasoningdistillationsmall-modelsPMLR DBLP

泛读ICML 2023

The Unreasonable Effectiveness of Few-shot Learning for Machine Translation

这篇论文要解决的问题是：大语言模型做机器翻译时，few-shot prompting 到底能强到什么程度，以及它为什么之前被低估。传统机器翻译长期依赖专门的双语监督和专用架构，因此 LLM 常被视为通用但不够强的替代品。作者重新评估这一判断，重点看大模型在高质量 few-shot 示例下是否已经足以逼近甚至挑战专用 MT 系统。

Xavier Garcia,Yamini Bansal,Colin Cherry,George F. Foster,Maxim Krikun,Melvin Johnson,Orhan Firat

Google Researchfew-shotmachine-translationin-context-learningPMLR DBLP

泛读ICML 2023

LongCoder: A Long-Range Pre-trained Language Model for Code Completion

这篇论文解决的是代码补全里的一个老问题：标准预训练代码模型上下文窗口太短，无法有效利用跨函数、跨文件的长程依赖。过去很多 code LM 主要在几百到几千 token 内做补全，因此在真实工程代码中，经常看不到关键定义、调用关系和项目级约束。作者提出 LongCoder，目标是让代码模型更适合长上下文补全。

Daya Guo,Canwen Xu,Nan Duan,Jian Yin,Julian J. McAuley

code-completionlong-contextpretrainPMLR DBLP

泛读ICML 2023

Decoding Layer Saliency in Language Transformers

Elizabeth Mary Hou,Gregory David Castañón

interpretabilitytransformerlayer-analysisPMLR DBLP

泛读ICML 2023

Straightening Out the Straight-Through Estimator: Overcoming Optimization Challenges in Vector Quantized Networks

Minyoung Huh,Brian Cheung,Pulkit Agrawal,Phillip Isola

vector-quantizationstraight-throughoptimizationPMLR DBLP

泛读ICML 2023

DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule

Maor Ivgi,Oliver Hinder,Yair Carmon

optimizerlearning-ratetraining-stabilityPMLR DBLP

泛读ICML 2023

Learning to Boost Training by Periodic Nowcasting Near Future Weights

Jinhyeok Jang,Woo-han Yun,Won Hwa Kim,Youngwoo Yoon,Jaehong Kim,Jaeyeon Lee,ByungOk Han

optimizationtraining-dynamicsweight-predictionPMLR DBLP

泛读ICML 2023

Pre-computed memory or on-the-fly encoding? A hybrid approach to retrieval augmentation makes the most of your compute

检索增强生成（RAG）有两种极端：预先计算并缓存所有文档的表示（省推理时计算但表示质量受限），或推理时对检索到的文档做完整编码（质量高但计算开销大）。本文要在这两个极端之间找到最优的计算分配策略。

Michiel de Jong,Yury Zemlyanskiy,Nicholas FitzGerald,Joshua Ainslie,Sumit Sanghai,Fei Sha,William W. Cohen

Google Researchretrieval-augmentationragefficiencyPMLR DBLP

泛读ICML 2023

A Watermark for Large Language Models

这篇工作要解决的是：如何在不显著伤害文本质量的前提下，为大语言模型输出加入可检测的来源标记。此前常见做法要么依赖事后分类器、对改写和截断较脆弱，要么需要修改部署链路较多；而生成式 AI 开始大规模外放后，低成本、可在线部署的水印变得现实且紧迫。

John Kirchenbauer,Jonas Geiping,Yuxin Wen,Jonathan Katz,Ian Miers,Tom Goldstein

llmwatermarkinggenerationPMLR DBLP

泛读ICML 2023

Revisiting Gradient Clipping: Stochastic bias and tight convergence guarantees

这篇工作要解决的是：梯度裁剪虽然在大模型训练里几乎是默认配置，但它引入的随机偏差究竟有多大、何时有害、理论上能否严格分析。过去工程上大家知道 clipping 能抑制 spike、稳训练，但理论结论通常较松，且常忽略随机裁剪带来的偏置。

Anastasia Koloskova,Hadrien Hendrikx,Sebastian U. Stich

gradient-clippingoptimizationtraining-stabilityPMLR DBLP

泛读ICML 2023

DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation

这篇工作要解决的是：现有代码生成 benchmark 对数据科学场景覆盖不足，且很多题目存在训练集污染、模板化过强或自动评测不可靠的问题。数据科学代码生成和普通算法题不同，它更依赖库 API 使用、数据操作链、真实报错修复和多步语义对齐，因此需要更自然也更可信的评测集。

Yuhang Lai,Chengxi Li,Yiming Wang,Tianyi Zhang,Ruiqi Zhong,Luke Zettlemoyer,Wen-Tau Yih,Daniel Fried,Sida I. Wang,Tao Yu

code-generationbenchmarkevaluationPMLR DBLP

泛读ICML 2023

LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation

这篇论文解决的是：大语言模型压缩不能只靠低秩或只靠稀疏，因为前者对局部大权重保留不够，后者又难以捕捉全局相关结构，单一路线往往在压缩率和精度之间卡住。以前很多方法在结构化部署友好性上也不足，压完不一定真快。

Yixiao Li,Yifan Yu,Qingru Zhang,Chen Liang,Pengcheng He,Weizhu Chen,Tuo Zhao

Microsoft Researchllm-compressionlow-ranksparsityPMLR DBLP

泛读ICML 2023

AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

这篇论文解决的是：text-to-audio 生成很难同时兼顾语义对齐、音质和训练成本，直接在波形或高维谱图上扩散代价很大，而且通常需要成对文本-音频数据。过去很多系统要么依赖复杂声码器管线，要么训练成本高、泛化弱。

Haohe Liu,Zehua Chen,Yi Yuan,Xinhao Mei,Xubo Liu,Danilo P. Mandic,Wenwu Wang,Mark D. Plumbley

University of SurreySurrey Institute for People-Centred AIaudio-generationdiffusionlatent-diffusionPMLR DBLP

泛读ICML 2023

STEP: Learning N: M Structured Sparsity Masks from Scratch with Precondition

Yucheng Lu,Shivani Agrawal,Suvinay Subramanian,Oleg Rybakov,Christopher De Sa,Amir Yazdanbakhsh

sparsitytrainingcompressionPMLR DBLP

泛读ICML 2023

Mechanistic Mode Connectivity

Ekdeep Singh Lubana,Eric J. Bigelow,Robert P. Dick,David Scott Krueger,Hidenori Tanaka

interpretabilityloss-landscapemode-connectivityPMLR DBLP

泛读ICML 2023

Understanding Plasticity in Neural Networks

Clare Lyle,Zeyu Zheng,Evgenii Nikishin,Bernardo Ávila Pires,Razvan Pascanu,Will Dabney

plasticitytraining-dynamicsgeneralizationPMLR DBLP

泛读ICML 2023

Can Neural Network Memorization Be Localized?

这篇工作要回答的核心问题是：神经网络的记忆到底是局部存放在少量参数里，还是以分布式方式散落在整个网络中。过去大家通常通过 membership inference、canary 插入或整体剪枝来讨论“是否记住了”，但很少能精确回答“记忆在网络里哪里”。这个问题现在重要，是因为模型越大，数据泄漏、可删性和定向遗忘都越来越依赖对记忆载体的定位能力。

Pratyush Maini,Michael Curtis Mozer,Hanie Sedghi,Zachary Chase Lipton,J. Zico Kolter,Chiyuan Zhang

memorizationinterpretabilitygeneralizationPMLR DBLP

泛读ICML 2023

Generative Pretraining for Black-Box Optimization

这篇工作关注的核心问题是：生成式预训练能否迁移到黑盒优化，让模型先从历史优化轨迹中学会结构，再在新任务上更快搜索。传统黑盒优化通常依赖手工设计的 acquisition function、局部启发式或任务特定先验，泛化能力有限。这个问题现在值得研究，是因为 foundation model 的经验表明，大规模预训练可以把“搜索经验”变成可迁移能力，而优化本身也可以被当作序列建模问题。

Satvik Mehul Mashkaria,Siddarth Krishnamoorthy,Aditya Grover

generative-pretrainingoptimizationsequence-modelingPMLR DBLP

泛读ICML 2023

Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning

这篇工作解决的是：few-shot 学习里标注太少时，能否把语言模型直接调成“训练数据生成器”，用它合成更有用的增强样本，而不只是拿来做预测。过去常见做法是 prompt LLM 生成伪样本，但样本质量、类别覆盖和任务适配性都不稳定。这个问题现在重要，是因为小样本任务越来越依赖合成数据，而真正的瓶颈往往不是模型容量，而是能否生成对监督器有增益的数据。

Yu Meng,Martin Michalski,Jiaxin Huang,Yu Zhang,Tarek F. Abdelzaher,Jiawei Han

data-augmentationfew-shotlm-as-generatorPMLR DBLP

泛读ICML 2023

Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic

这篇工作要解决的是：语言模型能否仅通过基于形式逻辑构造的合成语料，学会可泛化的演绎推理，而不是只记模板。过去很多 reasoning 研究依赖自然语言 benchmark，但这些数据经常混有语义捷径、模式泄漏和表面统计偏差，导致很难判断模型到底学会了推理还是学会了题型。这个问题现在值得做，是因为大家越来越关心推理能力是否可以在预训练阶段被系统性塑造。

Terufumi Morishita,Gaku Morio,Atsuki Yamaguchi,Yasuhiro Sogawa

deductive-reasoningsynthetic-dataformal-logicPMLR DBLP

泛读ICML 2023

LEVER: Learning to Verify Language-to-Code Generation with Execution

这篇论文的核心问题是：代码生成模型会写出“看起来像对的”程序，但真正能执行通过测试的比例并不高，能否训练一个 verifier 用执行信号来判断候选程序是否可信。过去常见做法是只靠生成模型打分或表面匹配，这对语义正确性不敏感；而代码任务天然有 execution 这个强监督信号，所以值得单独建模验证器。

Ansong Ni,Srini Iyer,Dragomir Radev,Veselin Stoyanov,Wen-Tau Yih,Sida I. Wang,Xi Victoria Lin

Microsoftcode-generationverificationexecutionPMLR DBLP

泛读ICML 2023

Continual Vision-Language Representation Learning with Off-Diagonal Information

这篇论文要解决的是持续学习场景下的视觉语言表征退化：模型在接收新任务或新数据分布后，会遗忘旧的图文对齐能力。过去常见做法多是蒸馏、回放或参数正则，但它们通常只保主对角的匹配信息，也就是正样本对齐，忽略了非匹配对之间的结构关系。

Zixuan Ni,Longhui Wei,Siliang Tang,Yueting Zhuang,Qi Tian

vision-languagecontinual-learningrepresentation-learningPMLR DBLP

泛读ICML 2023

SparseProp: Efficient Sparse Backpropagation for Faster Training of Neural Networks at the Edge

这篇论文解决的是边缘设备训练的一个现实瓶颈：前向可以稀疏化，但反向传播通常仍然是稠密的，导致时间、内存和能耗都下不来。过去很多稀疏训练方法把重点放在权重或激活稀疏上，却没有系统地让反向链路同样受益，所以端侧训练仍然昂贵。

Mahdi Nikdan,Tommaso Pegolotti,Eugenia Iofinova,Eldar Kurtic,Dan Alistarh

sparse-trainingbackproptraining-efficiencyPMLR DBLP

泛读ICML 2023

Few-bit Backward: Quantized Gradients of Activation Functions for Memory Footprint Reduction

这篇论文处理的是训练内存里一个常被忽视的部分：即使权重和激活已经量化，反向传播中激活函数的梯度或相关中间量仍可能占据不小内存。过去低比特训练更多关注权重、激活、优化器状态，而对 activation backward 的量化研究较少，作者专门补这个缺口。

Georgii Sergeevich Novikov,Daniel Bershatsky,Julia Gusak,Alex Shonenkov,Denis Valerievich Dimitrov,Ivan V. Oseledets

quantizationbackpropmemory-efficiencyPMLR DBLP

泛读ICML 2023

On the Role of Attention in Prompt-tuning

这篇论文要回答的是：prompt tuning 为什么能工作，尤其注意力在其中到底扮演了什么角色。过去 prompt tuning 常被当成一个经验有效的参数高效微调技巧，但关于它何时能逼近全量微调、何时会失败，理论上并不清楚；作者聚焦 attention 来解释这一点。

Samet Oymak,Ankit Singh Rawat,Mahdi Soltanolkotabi,Christos Thrampoulidis

prompt-tuningattentionadaptationPMLR DBLP

泛读ICML 2023

Extrapolative Controlled Sequence Generation via Iterative Refinement

Vishakh Padmakumar,Richard Yuanzhe Pang,He He,Ankur P. Parikh

sequence-generationiterative-refinementnon-autoregressivePMLR DBLP

泛读ICML 2023

TRAK: Attributing Model Behavior at Scale

Sung Min Park,Kristian Georgiev,Andrew Ilyas,Guillaume Leclerc,Aleksander Madry

data-attributioninterpretabilitytraining-dataPMLR DBLP

泛读ICML 2023

HyperTuning: Toward Adapting Large Language Models without Back-propagation

Jason Phang,Yi Mao,Pengcheng He,Weizhu Chen

llm-adaptationblack-box-optimizationprompt-tuningPMLR DBLP

泛读ICML 2023

Lowering the Pre-training Tax for Gradient-based Subset Training: A Lightweight Distributed Pre-Training Toolkit

Yeonju Ro,Zhangyang Wang,Vijay Chidambaram,Aditya Akella

distributed-trainingsubset-trainingpretraining-efficiencyPMLR DBLP

泛读ICML 2023

Differential Privacy, Linguistic Fairness, and Training Data Influence: Impossibility and Possibility Theorems for Multilingual Language Models

Phillip Rust,Anders Søgaard

differential-privacymultilingualfairnessPMLR DBLP

泛读ICML 2023

Blackout Diffusion: Generative Diffusion Models in Discrete-State Spaces

这篇论文要解决的核心问题是：扩散模型如何自然地建模离散状态空间，而不是只在连续高斯噪声空间里工作。过去离散生成常靠自回归、VQ-VAE 后接连续扩散，或者用不完全匹配离散结构的近似噪声过程，因此在文本、符号序列或分类状态上，扩散范式一直缺少足够干净的原生形式。

Javier E. Santos,Zachary R. Fox,Nicholas Lubbers,Yen Ting Lin

discrete-diffusiongenerative-modeldiscrete-state-spacePMLR DBLP

泛读ICML 2023

Whose Opinions Do Language Models Reflect?

这篇论文要解决的核心问题是：语言模型在价值判断、意见表达和社会立场上到底反映了谁的观点，而不是笼统地说“模型有偏见”。以前很多工作只测有害性或政治倾向，但没有把模型输出系统地映射到可解释的人群、平台或人口统计分布，因此很难判断偏差来自训练数据、对齐过程还是评测方式本身。

Shibani Santurkar,Esin Durmus,Faisal Ladhak,Cinoo Lee,Percy Liang,Tatsunori Hashimoto

Stanford Universitylanguage-modelopinion-biasalignmentPMLR DBLP

泛读ICML 2023

Dissecting the Effects of SGD Noise in Distinct Regimes of Deep Learning

这篇论文要解决的核心问题是：SGD 噪声在深度学习不同训练阶段和不同 regime 下到底起什么作用，而不是把所有现象都归结为‘噪声有正则化效果’。过去关于 SGD 噪声的讨论常把优化、泛化和逃离尖锐极小值混在一起，但这些机制未必在小数据、过参数化、插值附近和后期收敛阶段都一样。

Antonio Sclocchi,Mario Geiger,Matthieu Wyart

sgdoptimizationtraining-dynamicsPMLR DBLP

泛读ICML 2023

Cold Analysis of Rao-Blackwellized Straight-Through Gumbel-Softmax Gradient Estimator

这篇论文要解决的核心问题是：Rao-Blackwellized Straight-Through Gumbel-Softmax 这个常用离散梯度估计器到底在什么条件下有效、偏差来自哪里。过去离散 latent、token 选择和神经架构搜索里大量使用 straight-through 技巧，但大家常把它当工程黑箱，缺少足够冷静的偏差—方差分析。

Alexander Shekhovtsov

gumbel-softmaxdiscrete-latentgradient-estimationPMLR DBLP

泛读ICML 2023

Towards Understanding and Improving GFlowNet Training

这篇论文要解决的核心问题是：GFlowNet 为什么难训，以及有哪些训练目标或优化细节是真正影响稳定性和样本质量的。过去 GFlowNet 因为能按奖励比例采样组合对象而受到关注，但实际训练常不稳定、目标选择很多、理论与工程实现之间有落差。

Max W. Shen,Emmanuel Bengio,Ehsan Hajiramezanali,Andreas Loukas,Kyunghyun Cho,Tommaso Biancalani

gflownettraining-dynamicsoptimizationPMLR DBLP

泛读ICML 2023

UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers

这篇工作要解决的是：如何把视觉-语言 Transformer 压缩到更小而不明显破坏跨模态能力。以往做法通常只剪某一部分，例如只剪视觉编码器、只做结构化通道剪枝，或一次性静态剪枝；这会忽略图像端、文本端和跨模态融合层之间的耦合，结果往往是参数省了，但对齐能力和下游迁移掉得很快。

Dachuan Shi,Chaofan Tao,Ying Jin,Zhendong Yang,Chun Yuan,Jiaqi Wang

pruningvision-languagecompressionPMLR DBLP

泛读ICML 2023

Sequence Modeling with Multiresolution Convolutional Memory

这篇工作要解决的是：怎样在长序列建模里同时保住局部细节和远程依赖，而不承担标准注意力的二次复杂度。传统 RNN 容量不够、长依赖难保；纯卷积能并行但感受野扩展慢；全注意力表达强但成本高，所以需要一种能在不同时间尺度上读写记忆的替代路径。

Jiaxin Shi,Ke Alexander Wang,Emily B. Fox

sequence-modelinglong-contextarchitecturePMLR DBLP

泛读ICML 2023

The Value of Out-of-Distribution Data

这篇工作要解决的是：分布外数据到底有没有价值，以及在什么条件下会帮助而不是伤害模型。很多训练流程默认只追求与测试分布匹配的数据，但大规模预训练现实中不可避免会混入大量 OOD 数据；问题不是能不能完全去掉，而是如何理解它何时提供额外信号、何时引入偏差。

Ashwin De Silva,Rahul Ramesh,Carey E. Priebe,Pratik Chaudhari,Joshua T. Vogelstein

ood-datadata-qualitygeneralizationPMLR DBLP

泛读ICML 2023

On the Stepwise Nature of Self-Supervised Learning

这篇工作要解决的是：自监督学习的表征形成是否是连续平滑的，还是会呈现明显的阶段性跃迁。过去大家常看最终线性探针分数或收敛曲线，把 SSL 当成缓慢积累表示质量的过程，但这可能掩盖了内部特征在训练中按步骤重组的现象。

James B. Simon,Maksis Knutins,Liu Ziyin,Daniel Geisz,Abraham J. Fetterman,Joshua Albrecht

self-supervisedtraining-dynamicsrepresentation-learningPMLR DBLP

泛读ICML 2023

On the Effectiveness of Offline RL for Dialogue Response Generation

这篇工作要解决的是：离线强化学习是否真的适合对话回复生成，以及它比标准监督微调多带来什么。很多对话生成系统想借 RL 优化长期质量或人类偏好，但在线交互成本高、奖励噪声大，于是离线 RL 看起来很诱人；问题是语言生成的动作空间极大，离线分布偏移又特别严重，未必像连续控制那样好用。

Paloma Sodhi,Felix Wu,Ethan R. Elenberg,Kilian Q. Weinberger,Ryan McDonald

offline-rldialoguepost-trainingPMLR DBLP

泛读ICML 2023

Consistency Models

Yang Song,Prafulla Dhariwal,Mark Chen,Ilya Sutskever

diffusionconsistency-modelssamplingPMLR DBLP

泛读ICML 2023

MODeL: Memory Optimizations for Deep Learning

Benoit Steiner,Mostafa Elhoushi,Jacob Kahn,James Hegarty

memorytraining-efficiencysystemsPMLR DBLP

泛读ICML 2023

Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input

Shokichi Takakura,Taiji Suzuki

transformer-theoryapproximationsequence-to-sequencePMLR DBLP

泛读ICML 2023

Data Feedback Loops: Model-driven Amplification of Dataset Biases

Rohan Taori,Tatsunori Hashimoto

data-feedback-loopdataset-biasdata-qualityPMLR DBLP

泛读ICML 2023

Multi-Environment Pretraining Enables Transfer to Action Limited Datasets

这篇工作解决的是：目标环境里大量序列数据没有动作标注时，如何仍然做出可迁移的决策预训练。过去强化学习很难像 NLP 或 CV 那样直接吃大规模弱标注数据，因为缺少动作会让行为建模断掉；这篇文章试图用跨环境的已标注数据补上这个缺口。

David Venuto,Sherry Yang,Pieter Abbeel,Doina Precup,Igor Mordatch,Ofir Nachum

reinforcement-learningpretrainingtransferPMLR arXiv DBLP

泛读ICML 2023

On Provable Copyright Protection for Generative Models

这篇工作要解决的是：生成模型训练中包含受版权保护样本后，怎样从形式上约束模型不要生成与这些样本过于相似的内容。过去关于 memorization 和版权风险的讨论多停留在经验观察或成员推断层面，缺少一个能直接约束“即使训练看过，也近似等价于没看过”的生成定义。

Nikhil Vyas,Sham M. Kakade,Boaz Barak

Harvard UniversityUniversity of Washingtongenerative-modelscopyrightmemorizationPMLR arXiv DBLP

泛读ICML 2023

DIVISION: Memory Efficient Training via Dual Activation Precision

这篇工作解决的是训练显存开销过高的问题，尤其是激活缓存占用大、限制大模型和长序列训练。已有激活压缩方法往往需要边训练边搜索量化 bit-width，流程复杂且不透明，工程上也不够稳。

Guanchu Wang,Zirui Liu,Zhimeng Jiang,Ninghao Liu,Na Zou,Xia Ben Hu

training-efficiencymemoryactivation-quantizationPMLR arXiv DBLP

泛读ICML 2023

CocktailSGD: Fine-tuning Foundation Models over 500Mbps Networks

这篇工作解决的是：在只有约 500 Mbps 这类相对低带宽网络条件下，如何仍然高效微调 foundation models。大模型分布式训练通常默认高速互联，但很多真实部署环境只有普通数据中心或跨地域网络，通信会迅速成为瓶颈。

Jue Wang,Yucheng Lu,Binhang Yuan,Beidi Chen,Percy Liang,Christopher De Sa,Christopher Ré,Ce Zhang

Stanford Universityfine-tuningdistributed-trainingbandwidthPMLR DBLP

泛读ICML 2023

NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning

这篇论文要解决的问题是：参数高效微调虽然便宜，但常见方法如 LoRA、Adapter 往往在表达能力和训练稳定性上受限，尤其当下游任务与预训练分布偏差较大时。过去大家通常接受“便宜就要损一点效果”，作者则试图用一个能逼近 NTK 行为的 MLP fusion 模块，在不全量更新的前提下拿到更强的函数调整能力。

Tianxin Wei,Zeming Guo,Yifan Chen,Jingrui He

fine-tuningparameter-efficientntkPMLR DBLP

泛读ICML 2023

Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization

这篇论文要解决的问题是：CLIP 在开放词汇图像识别上很强，但直接迁到视频时往往缺少时序建模，导致 open-vocabulary video understanding 效果不稳定。过去常见路线要么重训视频-文本大模型，要么在 CLIP 上简单加时序模块，这两种都不理想：前者成本高，后者容易破坏原有对齐能力。因此作者尝试把图像 CLIP 变成视频模型，同时尽量保住其开放词汇泛化。

Zejia Weng,Xitong Yang,Ang Li,Zuxuan Wu,Yu-Gang Jiang

clipvideoopen-vocabularyPMLR DBLP

泛读ICML 2023

Masked Trajectory Models for Prediction, Representation, and Control

这篇论文要解决的问题是：强化学习和控制里的 trajectory modeling 往往分成三摊——预测未来、学表示、做控制，各自训练目标不同，数据利用率也不统一。过去常见做法是行为克隆、动力学模型、value/policy 学习分开做，或者用 Decision Transformer 一类 AR 建模，但这些方法对局部缺失、双向上下文利用和泛化表示学习都有限，因此作者提出 masked trajectory models。

Philipp Wu,Arjun Majumdar,Kevin Stone,Yixin Lin,Igor Mordatch,Pieter Abbeel,Aravind Rajeswaran

masked-modelingtrajectory-modelingreinforcement-learningPMLR DBLP

泛读ICML 2023

π-Tuning: Transferring Multimodal Foundation Models with Optimal Multi-task Interpolation

这篇论文要解决的问题是：多模态基础模型迁移到下游任务时，通常面临两个冲突目标——既要保留原始跨模态对齐和通用知识，又要适配具体任务。过去做法要么单任务微调导致遗忘，要么简单 multi-task 训练但任务权重难设，所以作者提出 π-Tuning，用最优多任务插值来迁移 multimodal foundation model。

Chengyue Wu,Teng Wang,Yixiao Ge,Zeyu Lu,Ruisong Zhou,Ying Shan,Ping Luo

multimodalfine-tuningtransfer-learningPMLR DBLP

泛读ICML 2023

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

Haiyang Xu,Qinghao Ye,Ming Yan,Yaya Shi,Jiabo Ye,Yuanhong Xu ... 省略 5 位作者 ... ,Ji Zhang,Songfang Huang,Fei Huang,Jingren Zhou

multimodal-foundation-modeltext-image-videomodular-architecturePMLR DBLP

泛读ICML 2023

SLAMB: Accelerated Large Batch Training with Sparse Communication

Hang Xu,Wenxuan Zhang,Jiawei Fei,Yuzhe Wu,Tingwen Xie,Jun Huang,Yuchen Xie,Mohamed Elhoseiny,Panos Kalnis

distributed-traininglarge-batchsparse-communicationPMLR DBLP

泛读ICML 2023

Adaptive Computation with Elastic Input Sequence

Fuzhao Xue,Valerii Likhosherstov,Anurag Arnab,Neil Houlsby,Mostafa Dehghani,Yang You

adaptive-computationelastic-inputefficiencyPMLR DBLP

泛读ICML 2023

Compositional Exemplars for In-context Learning

Jiacheng Ye,Zhiyong Wu,Jiangtao Feng,Tao Yu,Lingpeng Kong

in-context-learningpromptingcompositionalityPMLR DBLP

泛读ICML 2023

Bag of Tricks for Training Data Extraction from Language Models

Weichen Yu,Tianyu Pang,Qian Liu,Chao Du,Bingyi Kang,Yan Huang,Min Lin,Shuicheng Yan

language-modelmemorizationdata-extractionPMLR DBLP

泛读ICML 2023

On the Power of Foundation Models

这篇论文要回答的是：foundation model 到底强在哪里，哪些能力来自规模、预训练和通用表示，哪些只是任务设定下的表面优势。这个问题过去常被经验结论替代，缺少统一而可检验的分析框架，因此值得单独拿出来澄清。

Yang Yuan

foundation-modelsscalinggeneralizationPMLR DBLP

泛读ICML 2023

KDEformer: Accelerating Transformers via Kernel Density Estimation

这篇论文解决的是 Transformer 推理和训练中的注意力开销过大问题，目标是在不彻底改写模型结构的前提下加速注意力。长序列建模里，标准 softmax attention 的二次复杂度一直是瓶颈，已有线性化方法要么近似误差大，要么工程实现并不友好。

Amir Zandieh,Insu Han,Majid Daliri,Amin Karbasi

transformeraccelerationkernel-methodPMLR DBLP

泛读ICML 2023

CAB: Comprehensive Attention Benchmarking on Long Sequence Modeling

这篇论文要解决的是长序列建模领域缺少统一、公平、细粒度的 attention benchmark，导致不同方法的优劣很难真实比较。过去很多长序列工作各自选数据集、实现和硬件设定，结果常常是论文之间不能横向对齐，速度和精度结论都不稳。

Jun Zhang,Shuyang Jiang,Jiangtao Feng,Lin Zheng,Lingpeng Kong

long-contextattentionbenchmarkPMLR DBLP

泛读ICML 2023

On the Generalization of Multi-modal Contrastive Learning

这篇论文要回答的是多模态对比学习的泛化问题：图文对比预训练为什么能泛化，什么时候会失效。CLIP 类方法已经很成功，但其泛化来源长期更多靠经验归纳，缺少能指导数据和目标函数设计的系统解释。

Qi Zhang,Yifei Wang,Yisen Wang

contrastive-learningmultimodalgeneralizationPMLR DBLP

泛读ICML 2023

Patch-level Contrastive Learning via Positional Query for Visual Pre-training

这篇工作要解决的是：视觉预训练里的对比学习通常只在全局图像级别对齐，难以稳定学到可迁移的局部 patch 表示，而直接做 patch-to-patch 对比又容易受错位、裁剪和语义不一致影响。这个问题之所以值得重做，是因为 ViT 时代很多下游能力依赖局部 token 质量，但现有自监督目标往往默认全局 pooling 足够。

Shaofeng Zhang,Qiang Zhou,Zhibin Wang,Fan Wang,Junchi Yan

vision-pretrainingcontrastive-learningpatch-levelPMLR DBLP

泛读ICML 2023

RLEG: Vision-Language Representation Learning with Diffusion-based Embedding Generation

这篇工作要解决的是：视觉-语言表示学习通常依赖判别式对齐或对比学习，但这类方法对一对多语义、细粒度多样性和跨模态不确定性的建模偏弱。作者尝试用 diffusion-based embedding generation 来学习图文表示，说明他们关心的不是简单匹配，而是生成一个更有分布感的共享嵌入。

Liming Zhao,Kecheng Zheng,Yun Zheng,Deli Zhao,Jingren Zhou

vision-languagediffusionrepresentation-learningPMLR DBLP

泛读ICML 2023

Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs

这篇工作直指一个很具体的短板：diffusion ODE 虽然具备确定性采样和精确似然评估能力，但其最大似然估计结果长期落后于最强 likelihood-based 生成模型。过去很多 diffusion 工作更关心采样质量而非 likelihood，因此训练目标、参数化方式和数值评估细节都没有被为 MLE 充分打磨。

Kaiwen Zheng,Cheng Lu,Jianfei Chen,Jun Zhu

diffusion-odelikelihood-estimationcontinuous-normalizing-flowsPMLR arXiv DBLP

泛读ICML 2023

Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons

这篇工作要解决的是：RLHF 常把人类偏好数据简化成成对比较再训练 reward model，但从 pairwise 或更一般的 k-wise comparisons 到策略优化，现有流程往往缺少统一且严格的原理刻画。这个问题重要，因为 RLHF 的效果和稳定性高度依赖偏好建模是否正确，错误的统计假设会直接传导到 reward hacking 和策略偏置。

Banghua Zhu,Michael I. Jordan,Jiantao Jiao

rlhfreward-modelpreference-learningPMLR DBLP

泛读ICML 2023

MoEAtt: A Deep Mixture of Experts Model using Attention-based Routing Gate

传统 MoE 的路由门控通常基于简单线性层或 top-k 选择，缺乏对输入 token 间关系的建模能力，导致专家分配不够精细。本文探索用注意力机制替代传统路由门控来改进 MoE 的专家选择。

Gal Blecher,Shai Fine

moeattentionroutingDOI DBLP

泛读ICML 2023

Controlled Randomness Improves the Performance of Transformer Models

Transformer 模型在推理时是完全确定性的（给定输入和参数），这可能限制了模型的鲁棒性和泛化能力。本文研究在 Transformer 中引入受控随机性（controlled randomness）能否提升性能。

Tobias Deußer,Cong Zhao,Wolfgang Krämer,David Leonhard,Christian Bauckhage,Rafet Sifa

transformerrandomnesstraining-dynamicsDOI DBLP

泛读ICML 2023

GPT-DETOX: An In-Context Learning-Based Paraphraser for Text Detoxification

文本去毒化（detoxification）通常需要专门训练的模型或大量标注数据。本文探索利用 GPT 的 in-context learning 能力，通过精心设计的 prompt 实现零/少样本文本去毒化改写。

Ali Pesaranghader,Nikhil Verma,Manasa Bharadwaj

in-context-learningdetoxificationalignmentDOI DBLP

泛读ICML 2023

Quantized Transformer Language Model Implementations on Edge Devices

将量化后的 Transformer 语言模型部署到边缘设备上面临精度损失和硬件适配的双重挑战。本文研究量化 Transformer LM 在边缘设备上的实际部署实现。

Mohammad Wali Ur Rahman,Murad Mehrab Abrar,Hunter Gibbons Copening,Salim Hariri,Sicong Shao,Pratik Satam,Soheil Salehi

quantizationtransformeredge-deviceDOI DBLP

泛读ICML 2023

Word class representations spontaneously emerge in a deep neural network trained on next word prediction

语言学中的词类（如名词、动词）是否会在以 next-word prediction 为目标训练的深度网络中自发涌现？这是一个关于语言模型内部表示与语言学结构对齐程度的机制分析问题。

Kishore Surendra,Achim Schilling,Paul Stoewer,Andreas Maier,Patrick Krauss

next-token-predictionemergencerepresentation-learningDOI DBLP

泛读ICML 2023

Large Neural Networks Learning from Scratch with Very Few Data and without Explicit Regularization

这篇论文要回答的是：大规模神经网络是否真的必须依赖大数据和显式正则化，才能从随机初始化稳定学到可泛化的解。过去这类问题通常被经验性地回避——实践里默认用更大数据、数据增强、权重衰减、dropout 等手段兜底，而不是直接研究“少数据、无显式正则”条件下网络为何还能学会。

Christoph Linse,Thomas Martinetz

generalizationoptimizationdata-scalingDOI DBLP

泛读ICML 2023

Knowledge Base Enhanced ChatGLM for RPA Robot Code Generation

这篇论文要解决的是 RPA 机器人代码生成里的知识缺口问题：通用 ChatGLM 有语言能力，但对企业自动化流程、平台 API 和业务规则的覆盖不够，直接生成代码容易语法对、语义错。过去这类任务通常靠模板、规则库或人工补充上下文，泛化和维护都比较差。

Bo Zhang,Yang Xiang

code-generationchatglmknowledge-baseDOI DBLP

泛读ICML 2023

A Statistical Perspective on Retrieval-Based Models

这篇论文的核心问题是：retrieval-based model 到底在统计上学到了什么，以及检索为何有时显著提升、有时却几乎无效。以往很多工作把检索视为工程插件，主要报告经验增益，但缺少统一统计视角来解释其偏差-方差权衡、样本复杂度变化和对分布外输入的影响。

Soumya Basu,Ankit Singh Rawat,Manzil Zaheer

retrievalmemoryretrieval-augmentedPMLR DBLP

泛读ICML 2023

On Pre-Training for Visuo-Motor Control: Revisiting a Learning-from-Scratch Baseline

这篇论文的核心结论是：在 visuo-motor control 里，预训练不一定天然胜过从零学习，很多已有结论可能被偏弱的 scratch baseline 放大了。过去机器人和视觉控制领域常把预训练视为默认更优，但训练预算、数据增强、网络结构和评测协议不统一，导致“预训练收益”里混入了大量 baseline 不公平因素。

Nicklas Hansen,Zhecheng Yuan,Yanjie Ze,Tongzhou Mu,Aravind Rajeswaran,Hao Su,Huazhe Xu,Xiaolong Wang

pretrainingroboticsvisuo-motorPMLR DBLP

泛读ICML 2023

Data Poisoning Attacks Against Multimodal Encoders

这篇论文要解决的问题是：多模态 encoder，尤其图文对比学习模型，会如何受到数据投毒攻击，以及攻击者能否在不显著破坏整体性能的情况下植入后门或定向偏差。过去数据投毒研究更多集中在单模态分类器，而 CLIP 一类多模态 encoder 的训练高度依赖大规模弱清洗网络数据，使这一问题在预训练阶段尤其现实。

Ziqing Yang,Xinlei He,Zheng Li,Michael Backes,Mathias Humbert,Pascal Berrang,Yang Zhang

multimodal-encoderdata-poisoningrobustnessPMLR DBLP

泛读ICML 2023

Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced Data

这篇论文的核心问题是：神经塌缩（neural collapse）在深线性网络中如何从平衡数据推广到类别不平衡数据。已有 neural collapse 理论大多建立在类别均衡、训练趋近零误差的理想设定上，但真实预训练和微调数据很少完全平衡，因此需要知道这一现象在更现实分布下是否还成立、形态如何变化。

Hien Dang,Tho Tran Huu,Stanley J. Osher,Hung Tran-The,Nhat Ho,Tan Minh Nguyen

neural-collapsegeneralizationrepresentation-learningPMLR DBLP

泛读ICML 2023

Dropout Reduces Underfitting

这篇论文的核心结论是：dropout 的一个被低估作用，不是防止过拟合，而是减少欠拟合。传统叙事里 dropout 被视为正则化手段，主要在大模型小数据场景中抑制记忆；但随着数据增强、归一化和大规模训练普及，很多现代网络更常见的问题反而是优化受限或表示不足导致的 underfitting，因此作者重新审视 dropout 的实际作用。

Zhuang Liu,Zhiqiu Xu,Joseph Jin,Zhiqiang Shen,Trevor Darrell

optimizationregularizationtraining-dynamicsPMLR DBLP

泛读ICML 2023

Image generation with shortest path diffusion

这篇论文试图解决 diffusion 图像生成中的一个关键低效点：标准扩散过程使用预设噪声链，采样路径长、很多步骤对最终生成贡献不均衡，因此可能不是从数据分布到噪声分布之间最有效的路径。随着 diffusion 成为生成建模主流，如何缩短路径、减少冗余步数并保持质量，已经是方法层面的核心问题。

Ayan Das,Stathi Fotiadis,Anil Batra,Farhang Nabiei,Fengting Liao,Sattar Vakili,Da-Shan Shiu,Alberto Bernacchia

diffusionsamplingimage-generationPMLR DBLP

泛读ICML 2023

PFNs4BO: In-Context Learning for Bayesian Optimization

这篇论文要解决的问题是：贝叶斯优化能否像大型语言模型做 in-context learning 那样，把“从历史试验点推断下一步决策”直接交给一个预训练序列模型，而不在每个新任务上重新拟合代理模型。传统 BO 通常在线拟合 GP 或 surrogate，数据效率高但计算和建模假设受限，因此作者尝试用 prior-data fitted networks 把 BO 的推断前移到预训练阶段。

Samuel Müller,Matthias Feurer,Noah Hollmann,Frank Hutter

in-context-learningbayesian-optimizationtransformerPMLR DBLP

泛读ICML 2023

Mitigating Spurious Correlations in Multi-modal Models during Fine-tuning

这篇论文解决的是多模态模型在微调阶段容易放大伪相关的问题。预训练得到的图文或多模态表征常带有数据集偏差，微调时如果目标数据较小或标签相关性单一，模型会进一步依赖虚假线索而不是真正的跨模态语义，这在部署中会直接损害鲁棒性。

Yu Yang,Besmira Nushi,Hamid Palangi,Baharan Mirzasoleiman

multimodalfine-tuningspurious-correlationPMLR DBLP

泛读ICML 2023

Generalization on the Unseen, Logic Reasoning and Degree Curriculum

Emmanuel Abbe,Samy Bengio,Aryo Lotfi,Kevin Rizk

generalizationreasoningcurriculumPMLR DBLP

泛读ICML 2023

Second-order regression models exhibit progressive sharpening to the edge of stability

Atish Agarwala,Fabian Pedregosa,Jeffrey Pennington

optimizationedge-of-stabilitysharpnessPMLR DBLP

泛读ICML 2023

Explaining the effects of non-convergent MCMC in the training of Energy-Based Models

Elisabeth Agoritsas,Giovanni Catania,Aurélien Decelle,Beatriz Seoane

energy-basedmcmctraining-dynamicsPMLR DBLP

泛读ICML 2023

Dirichlet Diffusion Score Model for Biological Sequence Generation

Pavel Avdeyev,Chenlai Shi,Yuhao Tan,Kseniia Dudnyk,Jian Zhou

diffusiondirichletsequence-generationPMLR DBLP

泛读ICML 2023

Fast as CHITA: Neural Network Pruning with Combinatorial Optimization

Riade Benbaki,Wenyu Chen,Xiang Meng,Hussein Hazimeh,Natalia Ponomareva,Zhe Zhao,Rahul Mazumder

pruningcombinatorial-optimizationmodel-compressionPMLR DBLP

泛读ICML 2023

Settling the Reward Hypothesis

Michael Bowling,John D. Martin,David Abel,Will Dabney

reinforcement-learningreward-modelingalignmentPMLR DBLP

泛读ICML 2023

ILLUME: Rationalizing Vision-Language Models through Human Interactions

Manuel Brack,Patrick Schramowski,Björn Deiseroth,Kristian Kersting

vlminterpretabilityhuman-feedbackPMLR DBLP

泛读ICML 2023

Synthetic Data, Real Errors: How (Not) to Publish and Use Synthetic Data

Boris van Breugel,Zhaozhi Qian,Mihaela van der Schaar

synthetic-datadata-qualityevaluationPMLR DBLP

泛读ICML 2023

On the Robustness of Text Vectorizers

Rémi Catellier,Samuel Vaiter,Damien Garreau

text-representationrobustnesstokenizerPMLR DBLP

泛读ICML 2023

On Investigating the Conservative Property of Score-Based Generative Models

这篇论文研究的是：score-based generative model 学到的向量场到底有多“保守”，也就是它是否真对应某个标量势函数的梯度。这个问题以前常被默认成立，因为理想 score 就是 log density 的梯度；但实际模型是有限容量、有限数据、有限噪声层级下拟合出来的，未必满足 curl-free 结构，而这会直接影响采样轨迹和理论解释。

Chen-Hao Chao,Wei-Fang Sun,Bo-Wun Cheng,Chun-Yi Lee

diffusionscore-modeltheoryPMLR DBLP

泛读ICML 2023

Restoration-Degradation Beyond Linear Diffusions: A Non-Asymptotic Analysis For DDIM-type Samplers

这篇论文要解决的是：DDIM 一类确定性采样器为什么能在实践中快很多，以及这种快是否有可证明的误差边界。此前不少分析主要围绕线性高斯扩散和渐近结论展开，但真实采样器常工作在有限步数、非渐近区间，而且 restoration-degradation 过程未必适合用过于理想化的线性扩散解释。

Sitan Chen,Giannis Daras,Alex Dimakis

diffusionddimsamplingPMLR DBLP

泛读ICML 2023

Efficient and Degree-Guided Graph Generation via Discrete Diffusion Modeling

这篇论文要解决的是：如何把离散扩散模型有效用到图生成上，同时减少图结构空间过大带来的采样低效。此前图生成常用自回归或 VAE/GAN 路线，但图的节点排列不唯一、边组合爆炸，导致建模和采样都不轻松；直接照搬离散 diffusion 又容易在大图上代价过高。

Xiaohui Chen,Jiaxing He,Xu Han,Liping Liu

discrete-diffusiongraph-generationefficientPMLR DBLP

泛读ICML 2023

Score Approximation, Estimation and Distribution Recovery of Diffusion Models on Low-Dimensional Data

这篇论文关注的是：当数据实际上落在低维流形附近时，扩散模型的 score 估计、密度恢复和理论误差该怎么理解。传统扩散理论多默认数据分布有良好的满维密度，但真实高维数据往往内在维度远低于观测维度；这会让 score 定义、估计难度和采样行为都发生变化。

Minshuo Chen,Kaixuan Huang,Tuo Zhao,Mengdi Wang

diffusionscore-modelestimationPMLR DBLP

泛读ICML 2023

Improved Analysis of Score-based Generative Modeling: User-Friendly Bounds under Minimal Smoothness Assumptions

这篇论文要解决的是：score-based generative modeling 的现有理论界往往条件太强、符号太重，和实践脱节，能否在更弱平滑性假设下给出更好用的误差边界。过去很多结果依赖高阶光滑、强尾部条件或不太自然的技术假设，导致理论上可证但难以指导真实模型设计。

Hongrui Chen,Holden Lee,Jianfeng Lu

diffusionscore-modeltheoryPMLR DBLP

泛读ICML 2023

HarsanyiNet: Computing Accurate Shapley Values in a Single Forward Propagation

这篇论文要解决的是：Shapley value 很有解释力，但计算代价通常指数级，能否在一次前向传播内得到足够准确的近似。以往要么靠采样估计，代价高且方差大；要么靠结构化近似，速度快但精度有限。作者试图把“可解释性”从事后昂贵分析，改成模型结构内生的可计算对象。

Lu Chen,Siyu Lou,Keyan Zhang,Jin Huang,Quanshi Zhang

interpretabilityshapleyattributionPMLR DBLP

泛读ICML 2023

Learning to Jump: Thinning and Thickening Latent Counts for Generative Modeling

这篇论文研究的是：如何为计数型潜变量构造更灵活的生成过程，使模型既能做局部细粒度调整，也能跨尺度跳跃。很多离散/计数生成模型一次只做小步变化，表达上稳但混合慢；而直接做大跨度跳跃又容易失去可控性。作者试图用 thinning 和 thickening 操作建立一种可学习的 latent count dynamics。

Tianqi Chen,Mingyuan Zhou

generative-modelinglatent-variablecount-modelingPMLR DBLP

泛读ICML 2023

Unifying Molecular and Textual Representations via Multi-task Language Modelling

这篇工作要解决的是：分子表示和自然语言表示长期割裂，导致化学领域每个任务都要单独做模型或微调，任务之间也难共享知识。过去虽然已经有分子生成、性质预测、合成规划等神经方法，但分子字符串和文本描述没有被当作一个统一语言空间来建模，人机交互和跨任务迁移因此受限。

Dimitrios Christofidellis,Giorgio Giannone,Jannis Born,Ole Winther,Teodoro Laino,Matteo Manica

multi-task-lmmolecularunified-representationPMLR arXiv DBLP

泛读ICML 2023

An SDE for Modeling SAM: Theory and Insights

这篇工作要解释的是：SAM 为什么经常比普通 SGD 泛化更好，以及它到底通过什么动力学偏向平坦极小值。过去大家知道 SAM 在经验上有效，也常用“flat minima”做口头解释，但离散优化步骤和随机噪声共同作用下的机制并不清楚，尤其缺少能分析 full-batch 与 mini-batch 情况的连续时间模型。

Enea Monzio Compagnoni,Luca Biggio,Antonio Orvieto,Frank Norbert Proske,Hans Kersting,Aurélien Lucchi

samoptimizersdePMLR arXiv DBLP

泛读ICML 2023

Bayesian Reparameterization of Reward-Conditioned Reinforcement Learning with Energy-based Models

这篇工作要解决的是：reward-conditioned RL 在生成高回报行为时，如何同时处理多模态行为分布、不确定性和可组合性。传统 reward-conditioned policy 往往用回归式或条件生成式策略直接拟合动作分布，但当高回报轨迹本身是多峰的，或者奖励条件带来分布偏移时，这类方法容易塌缩到单一模式，泛化也差。

Wenhao Ding,Tong Che,Ding Zhao,Marco Pavone

reinforcement-learningenergy-basedreward-modelingPMLR DBLP

泛读ICML 2023

PixelAsParam: A Gradient View on Diffusion Sampling with Guidance

这篇工作研究的是：带 guidance 的 diffusion sampling 到底在优化什么，以及像 classifier guidance、classifier-free guidance 这类技巧为什么有效、又为什么会失真。过去很多 guidance 方法在经验上能显著提升样本质量，但机制解释常停留在 score 修正的公式层面，缺少一个更直接的优化视角来看采样轨迹。

AnhDung Dinh,Daochang Liu,Chang Xu

diffusionsamplingguidancePMLR DBLP

泛读ICML 2023

Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC

这篇工作要解决的是：扩散模型虽然生成质量高，但对组合式生成不友好——你很难把多个已有生成器或约束直接拼起来，生成同时满足多条件的新样本。过去常见做法是重新训练条件模型，或者用启发式 guidance 临时叠加约束，但前者代价大，后者常不稳定、也不保证采样正确。

Yilun Du,Conor Durkan,Robin Strudel,Joshua B. Tenenbaum,Sander Dieleman,Rob Fergus,Jascha Sohl-Dickstein,Arnaud Doucet,Will Sussman Grathwohl

diffusionenergy-basedmcmcPMLR DBLP

泛读ICML 2023

A Flexible Diffusion Model

Weitao Du,He Zhang,Tao Yang,Yuanqi Du

diffusiongenerative-modelingobjectivePMLR DBLP

泛读ICML 2023

Are Diffusion Models Vulnerable to Membership Inference Attacks?

Jinhao Duan,Fei Kong,Shiqi Wang,Xiaoshuang Shi,Kaidi Xu

diffusionprivacymembership-inferencePMLR DBLP

泛读ICML 2023

Evaluating Self-Supervised Learning via Risk Decomposition

Yann Dubois,Tatsunori Hashimoto,Percy Liang

self-supervised-learningevaluationgeneralizationPMLR DBLP

泛读ICML 2023

Hyperparameters in Reinforcement Learning and How To Tune Them

Theresa Eimer,Marius Lindauer,Roberta Raileanu

reinforcement-learninghyperparameter-tuningtraining-stabilityPMLR DBLP

泛读ICML 2023

A Connection between One-Step RL and Critic Regularization in Reinforcement Learning

Benjamin Eysenbach,Matthieu Geist,Sergey Levine,Ruslan Salakhutdinov

reinforcement-learningcriticregularizationPMLR DBLP

泛读ICML 2023

Learning Rate Schedules in the Presence of Distribution Shift

Matthew Fahrbach,Adel Javanmard,Vahab Mirrokni,Pratik Worah

optimizationlearning-ratedistribution-shiftPMLR DBLP

泛读ICML 2023

Optimizing DDPM Sampling with Shortcut Fine-Tuning

Ying Fan,Kangwook Lee

diffusionsamplingfine-tuningPMLR DBLP

泛读ICML 2023

Can Forward Gradient Match Backpropagation?

Louis Fournier,Stéphane Rivaud,Eugene Belilovsky,Michael Eickenberg,Edouard Oyallon

optimizationforward-gradientbackpropPMLR DBLP

泛读ICML 2023

Why Random Pruning Is All We Need to Start Sparse

这篇论文要回答的核心问题是：稀疏网络训练到底需不需要精心设计的初始化剪枝，还是随机剪枝就足够作为起点。过去主流做法通常依赖 magnitude pruning、SNIP、GraSP 这类带分数的剪枝准则，因为大家默认稀疏训练成败高度依赖“保留哪些连接”。作者重新检验这个假设，关注的是 sparse-from-the-start 训练里最早的结构选择是否真的重要。

Advait Harshal Gadhikar,Sohom Mukherjee,Rebekka Burkholz

sparsitypruninginitializationPMLR DBLP

泛读ICML 2023

Leveraging Demonstrations to Improve Online Learning: Quality Matters

这篇论文关注的问题是：在线学习中引入 demonstrations 是否总能带来收益，还是示例质量才是决定因素。过去“用 demonstrations 加速学习”常被当作默认正向信号，但现实中演示数据质量参差不齐，甚至可能误导策略。作者要回答的不是 demonstrations 有没有用，而是什么样的 demonstrations 才值得用。

Botao Hao,Rahul Jain,Tor Lattimore,Benjamin Van Roy,Zheng Wen

reinforcement-learningdemonstrationsdata-qualityPMLR DBLP

泛读ICML 2023

Distance Weighted Supervised Learning for Offline Interaction Data

这篇论文要解决的问题是：面对离线交互数据时，监督学习为什么常常学不好，以及怎样利用“离目标动作有多远”这个信息改进学习。纯行为克隆把所有示例一视同仁，但离线数据往往混有好坏参差的行为，尤其在机器人和交互任务里，不同状态下动作偏差对结果影响很不一样。作者提出 distance weighted supervised learning，试图把动作距离纳入监督目标。

Joey Hejna,Jensen Gao,Dorsa Sadigh

Stanford Universityoffline-rlsupervised-learninginteraction-dataPMLR DBLP

泛读ICML 2023

simple diffusion: End-to-end diffusion for high resolution images

这篇论文要解决的问题是：高分辨率图像生成能否用更简单、真正端到端的 diffusion pipeline 来做，而不依赖级联超分、多阶段 latent 设计或复杂采样堆叠。过去高分辨率扩散模型往往通过多阶段系统把问题拆开，效果好但训练和部署都复杂。作者提出 simple diffusion，目标是证明在足够合适的设计下，单一端到端扩散模型也能直接生成高分辨率图像。

Emiel Hoogeboom,Jonathan Heek,Tim Salimans

diffusionimage-generationend-to-endPMLR DBLP

泛读ICML 2023

Thompson Sampling with Diffusion Generative Prior

Yu-Guan Hsieh,Shiva Prasad Kasiviswanathan,Branislav Kveton,Patrick Blöbaum

diffusiongenerative-priorbanditsPMLR DBLP

泛读ICML 2023

GFlowNet-EM for Learning Compositional Latent Variable Models

Edward J. Hu,Nikolay Malkin,Moksh Jain,Katie E. Everett,Alexandros Graikos,Yoshua Bengio

gflownetlatent-variablecompositionalityPMLR DBLP

泛读ICML 2023

Language Instructed Reinforcement Learning for Human-AI Coordination

Hengyuan Hu,Dorsa Sadigh

language-conditionedreinforcement-learningcoordinationPMLR DBLP

泛读ICML 2023

Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

Rongjie Huang,Jiawei Huang,Dongchao Yang,Yi Ren,Luping Liu,Mingze Li,Zhenhui Ye,Jinglin Liu,Xiang Yin,Zhou Zhao

audio-generationdiffusiontext-to-audioPMLR DBLP

泛读ICML 2023

Cut your Losses with Squentropy

Like Hui,Mikhail Belkin,Stephen Wright

loss-functionoptimizationclassificationPMLR DBLP

泛读ICML 2023

Maximal Initial Learning Rates in Deep ReLU Networks

Gaurav Iyer,Boris Hanin,David Rolnick

learning-rateinitializationtraining-stabilityPMLR DBLP

泛读ICML 2023

Scalable Adaptive Computation for Iterative Generation

Allan Jabri,David J. Fleet,Ting Chen

adaptive-computationiterative-generationsampling-efficiencyPMLR DBLP

泛读ICML 2023

VIMA: Robot Manipulation with Multimodal Prompts

机器人操作任务的指令通常只用纯文本描述，但实际场景中任务规范往往包含图像、视频、物体示例等多模态信息。本文要解决的是如何让机器人策略模型接受多模态 prompt（文本+图像交错）来指定操作任务，而不是局限于单一模态。

Yunfan Jiang,Agrim Gupta,Zichen Zhang,Guanzhi Wang,Yongqiang Dou,Yanjun Chen,Li Fei-Fei,Anima Anandkumar,Yuke Zhu,Linxi Fan

Stanford UniversitymultimodalroboticspromptingPMLR DBLP

泛读ICML 2023

Learning Unnormalized Statistical Models via Compositional Optimization

非归一化统计模型（如 energy-based models）的训练需要估计配分函数的梯度，传统方法如 score matching 或 contrastive divergence 各有局限（计算开销大或方差高）。本文提出用 compositional optimization 框架来统一和改进这类模型的学习。

Wei Jiang,Jiayu Qin,Lingyu Wu,Changyou Chen,Tianbao Yang,Lijun Zhang

energy-based-modelunnormalized-modeloptimizationPMLR DBLP

泛读ICML 2023

Automatically Auditing Large Language Models via Discrete Optimization

LLM 可能在特定输入下产生有害、不准确或违反策略的输出，但人工审计成本极高且覆盖不全。本文要解决的是如何自动化地发现能触发 LLM 不良行为的输入（即 adversarial auditing），而且要求发现的输入是自然语言可读的，不是乱码。

Erik Jones,Anca D. Dragan,Aditi Raghunathan,Jacob Steinhardt

UC Berkeleyllm-auditingred-teamingdiscrete-optimizationPMLR DBLP

泛读ICML 2023

How Does Information Bottleneck Help Deep Learning?

信息瓶颈（Information Bottleneck, IB）理论被广泛用来解释深度学习的泛化能力，但其理论基础存在争议——IB 到底是通过什么机制帮助泛化的？之前的分析要么依赖不现实的假设，要么无法给出严格的泛化界。本文试图给出一个更严谨的理论框架来回答 IB 如何帮助深度学习。

Kenji Kawaguchi,Zhun Deng,Xu Ji,Jiaoyang Huang

National University of Singaporeinformation-bottleneckgeneralizationdeep-learning-theoryPMLR DBLP

泛读ICML 2023

PAC Prediction Sets for Large Language Models of Code

代码生成 LLM 的输出不可靠——可能生成语法正确但语义错误的代码。如何为 LLM 的代码生成提供统计意义上的正确性保证？本文用 PAC（Probably Approximately Correct）预测集的框架来构造代码 LLM 的可信输出集合。

Adam Khakhar,Stephen Mell,Osbert Bastani

University of Pennsylvaniacode-llmprediction-setspac-learningPMLR DBLP

泛读ICML 2023

Refining Generative Process with Discriminator Guidance in Score-based Diffusion Models

Score-based diffusion 模型的采样质量受限于 score 估计的误差，尤其在低密度区域。本文提出用一个判别器（discriminator）来引导 diffusion 模型的采样过程，修正 score 估计的偏差，从而提升生成质量。

Dongjun Kim,Yeongmin Kim,Se Jung Kwon,Wanmo Kang,Il-Chul Moon

KAISTdiffusiondiscriminator-guidancescore-basedPMLR DBLP

泛读ICML 2023

Denoising MCMC for Accelerating Diffusion-Based Generative Models

Diffusion 模型的采样速度慢，因为需要大量去噪步骤。本文提出将 MCMC 采样与 diffusion 去噪过程结合，用 MCMC 的校正步骤来减少所需的去噪步数，从而加速采样。

Beomsu Kim,Jong Chul Ye

KAISTdiffusionsamplingmcmcPMLR DBLP

泛读ICML 2023

Controlling Posterior Collapse by an Inverse Lipschitz Constraint on the Decoder Network

VAE 的 posterior collapse 问题——decoder 过于强大时会忽略 latent variable，导致 latent space 退化为无信息的先验分布。之前的缓解方法（如 KL annealing、free bits）都是启发式的，缺乏理论保证。本文提出通过约束 decoder 网络的 inverse Lipschitz 常数来从根本上防止 posterior collapse。

Yuri Kinoshita,Kenta Oono,Kenji Fukumizu,Yuichi Yoshida,Shin-ichi Maeda

Preferred NetworksInstitute of Statistical MathematicsNational Institute of Informaticsvaeposterior-collapserepresentation-learningPMLR DBLP

泛读ICML 2023

Autoregressive Diffusion Model for Graph Generation

这篇工作要解决的是：图生成既有离散结构约束，又有复杂高阶依赖，单纯自回归或单纯扩散都各有短板。传统自回归容易受节点排序影响，扩散在图这种组合对象上又不容易兼顾全局一致性和采样效率，因此作者尝试把两者结合起来。

Lingkai Kong,Jiaming Cui,Haotian Sun,Yuchen Zhuang,B. Aditya Prakash,Chao Zhang

autoregressivediffusiongraph-generationPMLR DBLP

泛读ICML 2023

Diffusion Models for Black-Box Optimization

这篇工作要解决的是：黑盒优化常见于材料、分子、程序配置等场景，目标函数昂贵且不可导，传统贝叶斯优化在高维或复杂约束下常变得吃力。作者想探索扩散模型能否直接学习高价值解的分布，从而把优化问题转成生成问题。

Siddarth Krishnamoorthy,Satvik Mehul Mashkaria,Aditya Grover

diffusionblack-box-optimizationsamplingPMLR DBLP

泛读ICML 2023

Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value

这篇工作要解决的是：如何低成本评估单个训练样本的价值。以往 data valuation 往往依赖 Shapley value、influence function 或重复重训，计算代价高，很难用于真实规模的数据清洗和配比。

Yongchan Kwon,James Zou

data-qualitydata-selectiontraining-dataPMLR DBLP

泛读ICML 2023

A theory of continuous generative flow networks

这篇工作要解决的是：连续空间上的 GFlowNet 缺少足够完整的理论基础，导致方法设计和训练目标常停留在离散情形的直觉推广。随着生成模型开始面向连续对象和高维设计空间，必须回答连续 GFlowNet 到底在优化什么、流守恒如何定义、与已有生成框架是什么关系。

Salem Lahlou,Tristan Deleu,Pablo Lemos,Dinghuai Zhang,Alexandra Volokhova,Alex Hernández-García,Léna Néhale Ezzine,Yoshua Bengio,Nikolay Malkin

gflownetsgenerative-modelingtheoryPMLR DBLP

泛读ICML 2023

FP-Diffusion: Improving Score-based Diffusion Models by Enforcing the Underlying Score Fokker-Planck Equation

这篇工作要解决的是：score-based diffusion 虽然训练时拟合 score function，但学到的 score 未必满足其对应概率演化方程的一致性约束。过去常见训练只最小化 denoising/score matching 误差，却不显式约束这个 score 是否真的对应一个物理上自洽的 Fokker-Planck 演化，因此可能损害采样质量和稳定性。

Chieh-Hsin Lai,Yuhta Takida,Naoki Murata,Toshimitsu Uesaka,Yuki Mitsufuji,Stefano Ermon

diffusionscore-matchingtraining-objectivePMLR DBLP

泛读ICML 2023

FlexRound: Learnable Rounding based on Element-wise Division for Post-Training Quantization

这篇工作要解决的是：后训练量化里，rounding 决策往往决定最终误差上限，但传统做法对舍入方向的控制能力有限。很多 PTQ 方法主要优化 scale 或做简单启发式 rounding，遇到激活分布尖锐、权重异常值多或低比特场景时，量化误差会明显放大。

Jung Hyun Lee,Jeonghoon Kim,Se Jung Kwon,Dongsoo Lee

quantizationpost-training-quantizationinferencePMLR DBLP

泛读ICML 2023

Minimizing Trajectory Curvature of ODE-based Generative Models

这篇论文要解决的是：ODE 型生成模型在采样时轨迹弯曲过大，导致需要很多函数评估步数，推理慢且数值误差容易累积。以往工作主要靠设计更高阶求解器或更好的时间离散来补救，但如果生成轨迹本身不平直，求解器再强也只能缓解、不能从源头消除误差来源。

Sangyun Lee,Beomsu Kim,Jong Chul Ye

KAISTdiffusionodesamplingPMLR DBLP

泛读ICML 2023

Internet Explorer: Targeted Representation Learning on the Open Web

这篇论文要解决的是：静态大规模预训练数据集更新慢、覆盖有限，导致通用视觉模型对新任务常常缺少最新且足够贴近目标分布的视觉知识。以往做法通常是在固定预训练后再 fine-tune，但如果目标任务分布在互联网里能被快速检索到，先做一次面向任务的数据发现可能更高效。

Alexander Cong Li,Ellis Langham Brown,Alexei A. Efros,Deepak Pathak

Carnegie Mellon Universityweb-datacontinual-learningrepresentation-learningPMLR arXiv DBLP

泛读ICML 2023

Less is More: Task-aware Layer-wise Distillation for Language Model Compression

这篇论文要解决的是：语言模型蒸馏通常把所有层一视同仁，但不同任务真正依赖的教师层信息并不相同，平均蒸馏会把预算浪费在对当前任务不重要的层上。过去层对齐蒸馏常用固定映射或均匀约束，简单但不够高效。

Chen Liang,Simiao Zuo,Qingru Zhang,Pengcheng He,Weizhu Chen,Tuo Zhao

Microsoft Researchdistillationllm-compressionlayer-wisePMLR DBLP

泛读ICML 2023

Emergent Agentic Transformer from Chain of Hindsight Experience

这篇论文要解决的是：通用 Transformer 通常缺少持续交互环境中的 agentic 行为，不会自然形成“试错—总结—改进”的闭环。过去常见做法是靠 RL 或人工演示来教 agent，但这两条路要么训练不稳定、信用分配难，要么人力成本高且覆盖有限。

Hao Liu,Pieter Abbeel

UC BerkeleyagenttransformerrlPMLR DBLP

泛读ICML 2023

Cones: Concept Neurons in Diffusion Models for Customized Generation

这篇论文解决的是：定制化扩散生成通常依赖 DreamBooth、Textual Inversion 或 LoRA 这类微调，但它们要么改动整模型、成本高，要么学到的概念表示不够可解释、可组合。过去缺少一种足够轻量、又能直接定位模型内部“概念单元”的方法。

Zhiheng Liu,Ruili Feng,Kai Zhu,Yifei Zhang,Kecheng Zheng,Yu Liu,Deli Zhao,Jingren Zhou,Yang Cao

diffusioninterpretabilityconceptsPMLR DBLP

泛读ICML 2023

OMS-DPM: Optimizing the Model Schedule for Diffusion Probabilistic Models

这篇论文要解决的是：扩散模型通常默认使用固定噪声/模型时间表，但不同时间步的学习难度和对最终采样质量的贡献并不均匀，固定 schedule 往往训练效率不高。以往工作更多优化采样时间表，较少直接优化训练时模型该如何分配时间步学习资源。

Enshu Liu,Xuefei Ning,Zinan Lin,Huazhong Yang,Yu Wang

diffusionsamplingschedulePMLR DBLP

泛读ICML 2023

I2SB: Image-to-Image Schrödinger Bridge

Guan-Horng Liu,Arash Vahdat,De-An Huang,Evangelos A. Theodorou,Weili Nie,Anima Anandkumar

diffusionschrodinger-bridgeimage-to-imagePMLR DBLP

泛读ICML 2023

Reflected Diffusion Models

Aaron Lou,Stefano Ermon

diffusionsamplingboundary-conditionPMLR DBLP

泛读ICML 2023

Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning Attacks

Yiwei Lu,Gautam Kamath,Yaoliang Yu

data-poisoningrobustnessdata-qualityPMLR DBLP

泛读ICML 2023

OCD: Learning to Overfit with Conditional Diffusion Models

Shahar Lutati,Lior Wolf

diffusionoverfittinggeneralizationPMLR DBLP

泛读ICML 2023

Calibrating Multimodal Learning

Huan Ma,Qingyang Zhang,Changqing Zhang,Bingzhe Wu,Huazhu Fu,Joey Tianyi Zhou,Qinghua Hu

multimodalcalibrationuncertaintyPMLR DBLP

泛读ICML 2023

Learning GFlowNets From Partial Episodes For Improved Convergence And Stability

Kanika Madan,Jarrid Rector-Brooks,Maksym Korablyov,Emmanuel Bengio,Moksh Jain,Andrei Cristian Nica,Tom Bosc,Yoshua Bengio,Nikolay Malkin

gflownettraining-stabilitypartial-trajectoryPMLR DBLP

泛读ICML 2023

Analyzing Diffusion as Serial Reproduction

这篇工作研究的核心问题是：扩散过程是否可以被理解为一种“串行复制”机制，以及这种视角能否解释扩散模型的统计行为。过去对 diffusion 的分析多从 score matching、去噪和逆过程采样出发，较少把它与文化传播或迭代重述这类 serial reproduction 框架联系起来。现在重看这个问题有意义，因为扩散式生成已经扩展到文本、图像和多模态，理解它在多步变换中保留与扭曲信息的规律，对新型语言建模范式也有启发。

Raja Marjieh,Ilia Sucholutsky,Thomas A. Langlois,Nori Jacoby,Thomas L. Griffiths

diffusionanalysissamplingPMLR DBLP

泛读ICML 2023

Robustness in Multimodal Learning under Train-Test Modality Mismatch

这篇工作要解决的是：多模态模型在训练和测试时可用模态不一致时，鲁棒性为什么会明显下降，以及怎样更稳地处理这种 modality mismatch。过去很多多模态方法默认训练和部署时都能拿到同样的图像、文本、音频等输入，但真实系统里经常会缺模态、模态质量退化或只有单模态可用。这个问题现在重要，是因为统一多模态预训练越来越常见，部署条件却往往比训练条件更脏、更不完整。

Brandon McKinzie,Vaishaal Shankar,Joseph Yitan Cheng,Yinfei Yang,Jonathon Shlens,Alexander T. Toshev

multimodal-robustnessmodality-mismatchtrain-test-gapPMLR DBLP

泛读ICML 2023

Diffusion Based Representation Learning

这篇工作关注的核心问题是：扩散模型除了做生成，能否直接学到高质量表示用于下游任务。过去 diffusion 主要被视为强生成器，而表示学习通常由对比学习、掩码建模或自编码器承担。现在重新研究这个问题很有意义，因为如果 diffusion 的逐步去噪过程天然蕴含层次化语义，那么它可能提供一种不同于 AR 或 contrastive 的表示学习路径。

Sarthak Mittal,Korbinian Abstreiter,Stefan Bauer,Bernhard Schölkopf,Arash Mehrjou

diffusionrepresentation-learningself-supervisedPMLR DBLP

泛读ICML 2023

Text-To-Concept (and Back) via Cross-Model Alignment

这篇工作要解决的是：能否在不同模型之间对齐“文本”和“概念”空间，从而实现从文本到概念、再从概念回到文本的双向映射。过去跨模型对齐常停留在 embedding 相似度或零样本分类层面，很少真正讨论可逆的概念级接口。这个问题现在值得做，是因为 foundation model 生态越来越异构，解释性、可控编辑和跨模型知识迁移都需要更稳定的中间语义表示。

Mazda Moayeri,Keivan Rezaei,Maziar Sanjabi,Soheil Feizi

text-concept-alignmentcross-modelclipPMLR DBLP

泛读ICML 2023

Special Properties of Gradient Descent with Large Learning Rates

这篇工作研究的核心问题是：大步长梯度下降为什么有时不仅不发散，反而会表现出特殊甚至更好的优化性质。传统优化分析通常强调小学习率保证稳定，而实践里大模型训练常依赖 warmup 之后的相对激进步长，且很多现象难用经典局部光滑假设解释。这个问题现在重要，是因为训练稳定性、sharpness、implicit bias 都和学习率直接相关。

Amirkeivan Mohtashami,Martin Jaggi,Sebastian U. Stich

large-learning-rategradient-descenttraining-dynamicsPMLR DBLP

泛读ICML 2023

ClimaX: A foundation model for weather and climate

这篇论文要解决的问题是：能否像做通用基础模型那样，把来源异构、变量不齐、分辨率不同的气象与气候数据统一建模，而不是继续为天气预报、气候下采样、变量重建等任务分别训练专用模型。过去这类问题通常靠任务定制架构或物理模拟器处理，泛化范围窄，换变量、换区域、换分辨率都要重来，因此作者尝试做一个面向地球系统数据的 foundation model。

Tung Nguyen,Johannes Brandstetter,Ashish Kapoor,Jayesh K. Gupta,Aditya Grover

Microsoft Researchfoundation-modeltransformerdomain-pretrainingPMLR DBLP

泛读ICML 2023

Input Perturbation Reduces Exposure Bias in Diffusion Models

这篇论文关注 diffusion model 训练中的 exposure bias：训练时模型总是在干净数据加噪后的标准轨迹上学习，但采样时输入来自模型自己前一步的预测分布，二者不一致会造成误差累积。这个问题过去在自回归模型里讨论很多，在 diffusion 里常被弱化处理，因此作者重新把它拿出来系统分析。

Mang Ning,Enver Sangineto,Angelo Porrello,Simone Calderara,Rita Cucchiara

diffusionexposure-biastraining-objectivePMLR DBLP

泛读ICML 2023

Gradient-Free Structured Pruning with Unlabeled Data

这篇论文解决的是结构化剪枝在缺少标注和梯度信息时怎么做：很多剪枝方法依赖训练数据标签、反向梯度或完整微调，这在部署后压缩、隐私受限场景和低成本模型适配里都不方便。作者想证明，只用无标签数据，甚至避免标准梯度，也能做有效的 structured pruning。

Azade Nova,Hanjun Dai,Dale Schuurmans

pruningcompressionunlabeled-dataPMLR DBLP

泛读ICML 2023

Diffusion Models are Minimax Optimal Distribution Estimators

这篇论文的核心问题是理论上的：diffusion model 作为分布估计器到底有多好，是否只是经验上强，还是在统计最优性上也站得住。过去 diffusion 的成功主要来自生成质量与优化稳定性，但关于其统计收敛率和 minimax optimality 的严格结果较少，作者试图补上这一理论基础。

Kazusato Oko,Shunta Akiyama,Taiji Suzuki

diffusiontheorydistribution-estimationPMLR DBLP

泛读ICML 2023

Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the Machiavelli Benchmark

Alexander Pan,Jun Shern Chan,Andy Zou,Nathaniel Li,Steven Basart,Thomas Woodside,Hanlin Zhang,Scott Emmons,Dan Hendrycks

agent-evaluationreward-hackingethicsPMLR DBLP

泛读ICML 2023

Can Large Language Models Reason about Program Invariants?

Kexin Pei,David Bieber,Kensen Shi,Charles Sutton,Pengcheng Yin

code-llmreasoningevaluationPMLR DBLP

泛读ICML 2023

Multisample Flow Matching: Straightening Flows with Minibatch Couplings

Aram-Alexandre Pooladian,Heli Ben-Hamu,Carles Domingo-Enrich,Brandon Amos,Yaron Lipman,Ricky T. Q. Chen

flow-matchingdiffusiongenerative-modelingPMLR DBLP

泛读ICML 2023

Neural networks trained with SGD learn distributions of increasing complexity

Maria Refinetti,Alessandro Ingrosso,Sebastian Goldt

sgdtraining-dynamicslearning-theoryPMLR DBLP

泛读ICML 2023

TAN Without a Burn: Scaling Laws of DP-SGD

这篇论文要解决的核心问题是：差分隐私训练 DP-SGD 的缩放规律到底是什么，尤其是隐私噪声、模型规模、数据规模和性能之间是否存在可预测关系。过去 DP 训练常被视为“加噪后性能必然大幅掉队”，因此更多停留在小模型或经验调参层面，缺少像常规预训练那样可操作的 scaling law。

Tom Sander,Pierre Stock,Alexandre Sablayrolles

dp-sgdscaling-lawdifferential-privacyPMLR DBLP

泛读ICML 2023

Multi-View Masked World Models for Visual Robotic Manipulation

这篇论文要解决的核心问题是：机器人操作中的世界模型如何更有效地利用多视角视觉输入，并在遮挡和部分可观测条件下学到对控制有用的状态表示。传统单视角建模容易在操作任务里丢失关键信息，而直接把多相机帧全部喂给策略又样本低效、泛化差。

Younggyo Seo,Junsu Kim,Stephen James,Kimin Lee,Jinwoo Shin,Pieter Abbeel

masked-modelingworld-modelmultiviewPMLR DBLP

泛读ICML 2023

On Kinetic Optimal Probability Paths for Generative Models

这篇论文要解决的核心问题是：生成模型中的概率路径应该如何选择，尤其是在带有动力学或运动学约束时，什么样的最优概率路径更合理。以往很多生成建模把从噪声到数据的路径当成算法设定，但路径本身会决定训练难度、采样稳定性和几何性质，因此并不是一个无关紧要的实现细节。

Neta Shaul,Ricky T. Q. Chen,Maximilian Nickel,Matthew Le,Yaron Lipman

generative-modeldiffusionoptimal-transportPMLR DBLP

泛读ICML 2023

Cross-Modal Fine-Tuning: Align then Refine

这篇论文要解决的核心问题是：跨模态微调时，直接 end-to-end 调整个模型往往既不稳也不高效，如何先把模态对齐，再在任务上细化。过去很多 VLM 或多模态模型在下游任务上直接联合微调，但如果视觉和语言表征空间还没对齐好，后续优化很容易把容量浪费在纠正接口错位上。

Junhong Shen,Liam Li,Lucio M. Dery,Corey Staten,Mikhail Khodak,Graham Neubig,Ameet Talwalkar

cross-modalfine-tuningalignmentPMLR DBLP

泛读ICML 2023

Understanding and Generalizing Contrastive Learning from the Inverse Optimal Transport Perspective

这篇工作要解决的是：对比学习为什么有效，以及怎样把现有对比目标统一到更一般的理论框架下。过去很多方法把 InfoNCE 一类损失当经验配方来调，负样本、温度、batch 大小各有经验规则，但缺少一个能解释这些设计如何共同决定表示结构的统一视角。

Liangliang Shi,Gu Zhang,Haoyu Zhen,Jintao Fan,Junchi Yan

contrastive-learningrepresentation-learningoptimal-transportPMLR DBLP

泛读ICML 2023

CLIPood: Generalizing CLIP to Out-of-Distributions

这篇工作要解决的是：CLIP 在分布外场景下泛化不稳，零样本分类往往对风格变化、背景偏移和新域干扰很敏感。CLIP 通过大规模图文对学到了强语义对齐，但它的判别边界仍受训练分布偏置影响，导致一旦视觉统计特征变了，文本对齐优势不能完全转化成 OOD 鲁棒性。

Yang Shu,Xingzhuo Guo,Jialong Wu,Ximei Wang,Jianmin Wang,Mingsheng Long

clipoodvlmPMLR DBLP

泛读ICML 2023

Semi-Autoregressive Energy Flows: Exploring Likelihood-Free Training of Normalizing Flows

这篇工作要解决的是：正则化流通常依赖精确似然训练，但精确计算或优化 log-likelihood 会限制架构设计，尤其在自回归结构和高维建模里很不灵活。作者想探索一种不依赖显式似然的训练方式，同时保留流模型可采样、可逆或可控密度变换的优点。

Phillip Si,Zeyi Chen,Subham Sekhar Sahoo,Yair Schiff,Volodymyr Kuleshov

energy-basednon-autoregressivenormalizing-flowPMLR DBLP

泛读ICML 2023

The Hessian perspective into the Nature of Convolutional Neural Networks

这篇工作要解决的是：从 Hessian，也就是损失曲率的角度，重新理解 CNN 为什么会表现出某些独特性质。以往关于 CNN 的讨论常集中在结构归纳偏置、平移等变性和频谱特性，但这些解释和实际优化行为之间的联系不总是清楚；Hessian 视角试图把架构性质和训练景观联系起来。

Sidak Pal Singh,Thomas Hofmann,Bernhard Schölkopf

hessianoptimizationcnnPMLR DBLP

泛读ICML 2023

Invariance in Policy Optimisation and Partial Identifiability in Reward Learning

这篇工作要解决的是：策略优化里的不变性会让 reward learning 出现部分不可辨识，也就是不同 reward 可能诱导同样策略，从而让“学到的奖励”并不唯一。过去很多 RLHF/IRL 讨论默认只要行为匹配就能反推出偏好，但策略层面的等价类会让这个逆问题天然不适定。

Joar Max Viktor Skalse,Matthew Farrugia-Roberts,Stuart Russell,Alessandro Abate,Adam Gleave

reward-learningrlhfidentifiabilityPMLR DBLP

泛读ICML 2023

The Dormant Neuron Phenomenon in Deep Reinforcement Learning

这篇工作要解决的是：深度强化学习里存在大量 dormant neurons，即长期几乎不激活、也不更新的神经元，而这会浪费容量并伤害学习。过去大家更常把 RL 不稳定归因于探索、bootstrap 误差或非平稳目标，但网络内部表示利用不足同样可能是重要原因，只是被系统性低估了。

Ghada Sokar,Rishabh Agarwal,Pablo Samuel Castro,Utku Evci

rloptimizationneuronsPMLR DBLP

泛读ICML 2023

Differentiable Tree Operations Promote Compositional Generalization

Paul Soulos,Edward J. Hu,Kate McCurdy,Yunmo Chen,Roland Fernandez,Paul Smolensky,Jianfeng Gao

compositionalitydifferentiable-structuresgeneralizationPMLR DBLP

泛读ICML 2023

Lookahead When It Matters: Adaptive Non-causal Transformers for Streaming Neural Transducers

Grant P. Strimel,Yi Xie,Brian John King,Martin Radfar,Ariya Rastrow,Athanasios Mouchtaris

streamingtransformerspeechPMLR DBLP

泛读ICML 2023

Adversarial Learning of Distributional Reinforcement Learning

Yang Sui,Yukun Huang,Hongtu Zhu,Fan Zhou

distributional-rladversarialoptimizationPMLR DBLP

泛读ICML 2023

Distilling Internet-Scale Vision-Language Models into Embodied Agents

Theodore R. Sumers,Kenneth Marino,Arun Ahuja,Rob Fergus,Ishita Dasgupta

vision-languagedistillationembodiedPMLR DBLP

泛读ICML 2023

POUF: Prompt-Oriented Unsupervised Fine-tuning for Large Pre-trained Models

Korawat Tanwisuth,Shujian Zhang,Huangjie Zheng,Pengcheng He,Mingyuan Zhou

prompt-tuningunsupervised-finetuningpretrained-modelsPMLR DBLP

泛读ICML 2023

Finding Generalization Measures by Contrasting Signal and Noise

Jiaye Teng,Bohang Zhang,Ruichen Li,Haowei He,Yequan Wang,Yan Tian,Yang Yuan

generalization-measuressignal-noisedeep-learning-theoryPMLR DBLP

泛读ICML 2023

Perturbation Analysis of Neural Collapse

Tom Tirer,Haoxiang Huang,Jonathan Niles-Weed

neural-collapseperturbation-analysisrepresentation-learningPMLR DBLP

泛读ICML 2023

Discrete Key-Value Bottleneck

Frederik Träuble,Anirudh Goyal,Nasim Rahaman,Michael Curtis Mozer,Kenji Kawaguchi,Yoshua Bengio,Bernhard Schölkopf

discrete-bottleneckkey-value-memoryrepresentation-learningPMLR DBLP

泛读ICML 2023

Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models

这篇工作解决的是：大语言模型解码里，多样性和并行性通常二选一。beam search 一类方法能保证候选不同，但难并行且偏向高概率模式；独立采样很容易并行，但经常抽到重复样本，浪费算力和候选位。

Luke Vilnis,Yury Zemlyanskiy,Patrick Murray,Alexandre Tachard Passos,Sumit Sanghai

decodingsamplingparallelismPMLR arXiv DBLP

泛读ICML 2023

Leveraging Offline Data in Online Reinforcement Learning

这篇工作研究的是：在既有离线数据、又允许少量在线交互的中间设定下，怎样系统地利用离线数据减少在线探索成本。过去在线 RL 和离线 RL 常被分开研究，但真实场景往往两者兼有，核心难点是离线数据既可能加速学习，也可能因分布偏差误导探索。

Andrew Wagenmaker,Aldo Pacchiano

offline-rlonline-rldata-mixturePMLR arXiv DBLP

泛读ICML 2023

Adversarial Policies Beat Superhuman Go AIs

这篇工作要回答的是：超人围棋 AI 是否真的稳健，还是只是在标准对局分布上强，而在对抗性策略面前存在系统性漏洞。过去围棋 AI 的评估主要看 Elo 和人机对弈成绩，但这些指标不揭示策略空间中的脆弱区域。

Tony Tong Wang,Adam Gleave,Tom Tseng,Kellin Pelrine,Nora Belrose,Joseph Miller ... 省略 1 位作者 ... ,Yawen Duan,Viktor Pogrebniak,Sergey Levine,Stuart Russell

adversarialrobustnessevaluationPMLR DBLP

泛读ICML 2023

Magneto: A Foundation Transformer

这篇工作想解决的是：标准 Transformer 作为 foundation model 主干时，层归一化、残差路径和训练稳定性之间仍存在一系列未完全理顺的设计取舍。过去很多变体各自改善一部分问题，但缺少一个足够通用、可作为基础骨干的统一 Transformer 配方。

Hongyu Wang,Shuming Ma,Shaohan Huang,Li Dong,Wenhui Wang,Zhiliang Peng ... 省略 5 位作者 ... ,Zhun Liu,Vishrav Chaudhary,Xia Song,Furu Wei

Microsoft Researchfoundation-modeltransformermultimodalPMLR DBLP

泛读ICML 2023

InfoDiffusion: Representation Learning Using Information Maximizing Diffusion Models

这篇工作解决的是：扩散模型虽然生成质量强，但通常不擅长直接学到适合下游任务的表示，因此“生成好”和“表征好”经常分离。过去做法往往把扩散模型用于生成，把对比学习或掩码建模用于表征学习，这篇文章尝试把两者合到同一训练框架里。

Yingheng Wang,Yair Schiff,Aaron Gokaslan,Weishen Pan,Fei Wang,Christopher De Sa,Volodymyr Kuleshov

diffusionrepresentation-learningself-supervisedPMLR DBLP

泛读ICML 2023

GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models

这篇论文要解决的核心问题是：大规模强化学习训练里的 experience replay 已经成为系统瓶颈，而传统设计默认 replay 放在 CPU 侧，导致 GPU 计算快、数据流转慢。过去这类问题通常靠工程性缓存、压缩或分布式队列缓解，但当模型和环境吞吐继续上升时，PCIe/NVLink 传输、样本组织和随机采样都会把训练效率拖住，所以作者把 replay 本身重构成 GPU-centric 系统。

Hanjing Wang,Man-Kit Sit,Congjie He,Ying Wen,Weinan Zhang,Jun Wang,Yaodong Yang,Luo Mai

reinforcement-learningsystemsexperience-replayPMLR DBLP

泛读ICML 2023

Graphically Structured Diffusion Models

这篇论文要解决的问题是：标准 diffusion model 很擅长在欧式空间上生成高维数据，但很难直接表达变量之间带有图结构约束的联合分布。过去常见做法是要么把结构信息塞进条件输入里，要么单独做图模型推断，两者都没有把 diffusion 的生成过程和图依赖真正统一起来，所以作者提出 graphically structured diffusion models。

Christian Dietrich Weilbach,William Harvey,Frank Wood

diffusionstructured-generationgraphical-modelsPMLR DBLP

泛读ICML 2023

Two Losses Are Better Than One: Faster Optimization Using a Cheaper Proxy

这篇论文要解决的问题很直接：很多训练目标很贵，但又存在一个更便宜、相关但不完全等价的 proxy loss；问题是怎样同时利用两者来加速优化而不牺牲最终目标。过去常见做法是只优化真目标，或者先 pretrain 在 proxy 上再切换，这两种都没有系统回答“如何在同一优化过程中联合利用便宜信号和昂贵信号”。

Blake E. Woodworth,Konstantin Mishchenko,Francis R. Bach

optimizationmulti-losstraining-efficiencyPMLR DBLP

泛读ICML 2023

The Implicit Regularization of Dynamical Stability in Stochastic Gradient Descent

这篇论文要解决的问题是：SGD 为什么会偏向更稳定、泛化更好的解，尤其是在深度网络这种强非凸系统里，这种“隐式正则化”一直缺乏动力系统层面的解释。过去很多分析聚焦平坦极小值、噪声注入或局部几何，但作者更具体地讨论 dynamical stability，也就是训练轨迹对扰动的敏感性。

Lei Wu,Weijie J. Su

sgdimplicit-regularizationtraining-dynamicsPMLR DBLP

泛读ICML 2023

On the Training Instability of Shuffling SGD with Batch Normalization

这篇论文要解决的问题是：带 Batch Normalization 的网络在使用 shuffling SGD 时会出现训练不稳定，而这种现象在经典优化理论里解释得不充分。过去大家通常把不稳定归因于学习率过大或 BN 的统计噪声，但作者更具体地研究“shuffle + BN”这个组合为什么会触发异常行为。

David Xing Wu,Chulhee Yun,Suvrit Sra

sgdbatch-normalizationtraining-instabilityPMLR DBLP

泛读ICML 2023

Efficient Sequence Transduction by Jointly Predicting Tokens and Durations

这篇论文要解决的问题是：序列转导通常逐 token 自回归生成，导致推理延迟高；非自回归方法虽然快，但容易因为长度和对齐建模不足而掉精度。作者的核心思路是同时预测 token 和 duration，用更结构化的方式处理“输出什么”和“每个输出持续多久”，从而在效率和质量之间找到更好的平衡。

Hainan Xu,Fei Jia,Somshubra Majumdar,He Huang,Shinji Watanabe,Boris Ginsburg

sequence-transductionnon-autoregressivetoken-durationPMLR DBLP

泛读ICML 2023

PFGM++: Unlocking the Potential of Physics-Inspired Generative Models

Yilun Xu,Ziming Liu,Yonglong Tian,Shangyuan Tong,Max Tegmark,Tommi S. Jaakkola

diffusiongenerative-modelphysics-inspiredPMLR DBLP

泛读ICML 2023

Are Neurons Actually Collapsed? On the Fine-Grained Structure in Neural Representations

Yongyi Yang,Jacob Steinhardt,Wei Hu

neural-collapserepresentation-structurefine-grained-analysisPMLR DBLP

泛读ICML 2023

On the Power of Pre-training for Generalization in RL: Provable Benefits and Hardness

Haotian Ye,Xiaoyu Chen,Liwei Wang,Simon Shaolei Du

pretrainingreinforcement-learninggeneralizationPMLR DBLP

泛读ICML 2023

Continual Learners are Incremental Model Generalizers

Jaehong Yoon,Sung Ju Hwang,Yue Cao

continual-learninggeneralizationrepresentation-learningPMLR DBLP

泛读ICML 2023

An Investigation into Pre-Training Object-Centric Representations for Reinforcement Learning

Jaesik Yoon,Yi-Fu Wu,Heechul Bae,Sungjin Ahn

pretrainingobject-centricreinforcement-learningPMLR DBLP

泛读ICML 2023

CodeIPPrompt: Intellectual Property Infringement Assessment of Code Language Models

这篇论文要解决的是：如何系统评估代码大模型在知识产权侵权上的风险，而不是只看功能相似或训练集记忆。代码模型过去更常被从准确率、pass@k、泄露率角度评估，但真实法律风险取决于生成代码是否在受保护表达层面与已有代码过度接近，这个问题一直缺少成体系的评测设定。

Zhiyuan Yu,Yuhao Wu,Ning Zhang,Chenguang Wang,Yevgeniy Vorobeychik,Chaowei Xiao

code-llmevaluationdata-contaminationPMLR DBLP

泛读ICML 2023

"Why did the Model Fail?": Attributing Model Performance Changes to Distribution Shifts

这篇论文关注的是：当模型性能变化时，如何把下降或提升归因到具体的数据分布偏移，而不是笼统地说‘domain shift 了’。过去 distribution shift 研究更常检测是否发生偏移，但对‘哪个因素导致性能变化、贡献多大’这个更可操作的问题回答不足。

Haoran Zhang,Harvineet Singh,Marzyeh Ghassemi,Shalmali Joshi

distribution-shiftevaluationgeneralizationPMLR DBLP

泛读ICML 2023

ReDi: Efficient Learning-Free Diffusion Inference via Trajectory Retrieval

这篇论文解决的是 diffusion 模型采样太慢的问题，核心思路不是重新训练加速器，而是利用已有轨迹做 learning-free 的推理加速。传统 diffusion 需要很多步迭代，已有加速方法常常要额外蒸馏或改训练目标，成本高且对基础模型有侵入性。

Kexun Zhang,Xianjun Yang,William Yang Wang,Lei Li

diffusionsamplinginferencePMLR arXiv DBLP

泛读ICML 2023

Does Continual Learning Equally Forget All Parameters?

这篇工作要回答的是：持续学习中的遗忘并不是均匀发生在所有参数上，哪些参数更容易忘、哪些参数更稳定，现有方法大多没有直接刻画。过去很多 continual learning 方法把参数重要性当成静态或全局量处理，但如果遗忘在参数层面高度异质，这种处理会天然粗糙。

Haiyan Zhao,Tianyi Zhou,Guodong Long,Jing Jiang,Chengqi Zhang

continual-learningforgettingparametersPMLR DBLP

泛读ICML 2023

Rockmate: an Efficient, Fast, Automatic and Generic Tool for Re-materialization in PyTorch

这篇工作解决的是：PyTorch 中重计算（re-materialization，也常叫 activation checkpointing）虽然能省显存，但现有方案往往需要手工切图、工程侵入强，而且不够通用。这个问题对大模型训练很实际，因为很多训练瓶颈不是算力而是显存和带宽，重计算策略做不好就会直接影响可训练模型规模。

Xunyi Zhao,Théotime Le Hellard,Lionel Eyraud-Dubois,Julia Gusak,Olivier Beaumont

training-systemsmemorypytorchPMLR DBLP

泛读ICML 2023

Protecting Language Generation Models via Invisible Watermarking

这篇工作要解决的是：语言生成模型输出的文本很容易被复制和再分发，但现有水印方案要么可见、要么鲁棒性差、要么显著伤害生成质量，因此难以真正用于模型保护。这个问题在大模型时代变得紧迫，因为文本生成服务的归属证明、滥用追踪和平台治理都需要低感知、高可检的标记机制。

Xuandong Zhao,Yu-Xiang Wang,Lei Li

language-generationwatermarkingsafetyPMLR DBLP

泛读ICML 2023

Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation

这篇工作要解决的是：代码生成模型通常单次从左到右直接产出完整程序，但复杂程序更适合先搭控制流和语法骨架，再逐步补细节；现有 LLM 缺的不是局部补全能力，而是把程序结构显式分阶段生成的机制。这个问题重要，是因为代码比自然语言更受语法层级和变量作用域约束，单次生成很容易在全局规划上出错。

Wenqing Zheng,S. P. Sharan,Ajay Kumar Jaiswal,Kevin Wang,Yihan Xi,Dejia Xu,Zhangyang Wang

code-generationcoarse-to-finesyntax-guidedPMLR arXiv DBLP

泛读ICML 2023

Controlled Text Generation with Natural Language Instructions

这篇工作要解决的是：受控文本生成过去通常依赖属性标签、模板或专门训练的控制 token，但这些接口不自然、泛化差，也不利于真实用户表达复杂约束。作者尝试用 natural language instructions 来做控制，核心是在生成模型里把‘控制条件’从结构化标签换成开放文本指令。

Wangchunshu Zhou,Yuchen Eleanor Jiang,Ethan Wilcox,Ryan Cotterell,Mrinmaya Sachan

controlled-generationinstruction-followingtext-generationPMLR DBLP

泛读ICML 2023

Robust Learning Under Label Noise by Optimizing the Tails of the Loss Distribution

这篇工作要解决的是：标签噪声下的鲁棒学习常通过重加权、样本筛选或噪声转移矩阵来处理，但这些方法对噪声模式假设较强，且容易在高损失样本上做出不稳定决策。作者选择直接优化 loss distribution 的 tails，说明他们认为关键不在平均损失，而在损失分布尾部如何被异常样本主导。

Valeriu Balaban,Jayson Sia,Paul Bogdan

label-noiseloss-functionrobust-trainingDOI DBLP

泛读ICML 2023

Preferential Proximal Policy Optimization

这篇工作要解决的是：标准 PPO 针对的是标量 reward 的策略优化，但当反馈来自偏好或排序信息时，直接套 PPO 往往不自然，信息利用也不充分。题目中的 Preferential PPO 表明作者想把 preference-based feedback 更直接地并入 PPO 框架。

Tamilselvan Balasuntharam,Heidar Davoudi,Mehran Ebrahimi

reinforcement-learningppopreference-optimizationDOI DBLP

泛读ICML 2023

Sequentia12D: Organizing Center of Skip Connections for Transformers

Transformer 中的残差连接（skip connections）虽然有效缓解了梯度消失，但其组织方式一直沿用最简单的逐层加法。本文提出一种新的 skip connection 组织方式，试图改善 Transformer 的信息流动。

Harsh Nilesh Pathak,Randy C. Paffenroth,Quincy Hershey

transformerarchitectureskip-connectionDOI DBLP

泛读ICML 2023

Accelerated Text Data Augmentation Using a Paraphrase Generation Model with Round-Trip Translation as a Supervisor

文本数据增强速度慢且质量不稳定。本文提出用回译（round-trip translation）作为监督信号来加速改写模型的数据增强过程。

Shintaro Tanaka,Hitoshi Iima

data-augmentationparaphrasesynthetic-dataDOI DBLP

泛读ICML 2023

StitchNet: Composing Neural Networks from Pre-Trained Fragments

从头训练大模型成本高昂，而现有的预训练模型碎片（fragments）能否像拼积木一样组合成新模型？本文提出 StitchNet，研究如何将不同预训练模型的片段拼接组合。

Surat Teerapittayanon,Marcus Z. Comiter,Bradley McDanel,H. T. Kung

Harvard Universitymodel-compositiontransfer-learningmodularityDOI DBLP

泛读ICML 2023

Contrastive Pretraining of Regression Tasks in Reliability Forecasting of Automotive Electronics

汽车电子可靠性预测是一个回归任务，传统方法缺乏有效的预训练策略。本文将对比预训练引入回归任务，用于汽车电子的可靠性预测。

Emilio Zarbali,Alwin Hoffmann,Jonas Hepp

contrastive-learningpretrainingregressionDOI DBLP

泛读ICML 2023

Hypernym Information and Sentiment Bias Probing in Distributed Data Representation

分布式词/句表示中编码了哪些语义信息（如上下位关系、情感偏见）？本文通过 probing 方法分析预训练表示中的上位词信息和情感偏见。

Frank Lawrence Nii Adoquaye Acquaye,Insan-Aleksandr Latipov,Attila Kertész-Farkas

probingrepresentation-learningsentiment-biasDOI DBLP

泛读ICML 2023

Generative and contrastive based self-supervised learning model for histopathology image analysis

病理图像分析中标注数据稀缺，需要有效的自监督预训练方法。本文结合生成式和对比式自监督学习来改进病理图像的表示学习。

Hongbo Chu,Fang Li,Yonghong He,Tian Guan

self-supervisedcontrastive-learninggenerativeDOI DBLP

泛读ICML 2023

Unexpectedly Useful: Convergence Bounds And Real-World Distributed Learning

这篇论文关注的是：分布式学习里的收敛界到底能不能对真实系统设计有用，而不只是停留在理论上。过去很多收敛分析依赖过强假设，结论对真实网络异构、通信抖动和系统约束指导有限，因此理论和工程之间长期脱节。

Francesco Malandrino,Carla-Fabiana Chiasserini

distributed-trainingconvergencesystemsDOI DBLP

泛读ICML 2023

Baileys: An Efficient Distributed Machine Learning Framework by Dynamic Grouping

这篇论文解决的是分布式机器学习中的一个老问题：节点异构和通信代价会让统一同步策略很低效。传统框架往往把所有工作节点一视同仁，结果是快节点等慢节点、通信被最差链路拖住，训练效率和资源利用率都偏低。

Chengdong Ni,Haizhou Du

distributed-trainingefficiencysystemsDOI DBLP

泛读ICML 2023

Injecting Commonsense Knowledge into Prompt Learning for Zero-Shot Text Classification

这篇论文要解决的是零样本文本分类里的 prompt learning 过于依赖表面词匹配，缺少常识支撑，所以在类别语义不显式、标签描述不充分时容易失效。过去很多方法把标签词或模板写好就直接做匹配，但这种做法默认模型会自动补齐常识关联，现实里并不稳。

Jing Qian,Qi Chen,Yong Yue,Katie Atkinson,Gangmin Li

prompt-learningcommonsensezero-shotDOI DBLP

泛读ICML 2023

A Binary Function Name Prediction Method Based on Variable Alignment and Translation Model

这篇论文解决的是二进制函数命名准确率低、且伪代码 AST 难以稳定提取的问题。现有方法常依赖反编译后的结构化表示，但二进制代码噪声大、编译优化强，导致 AST 质量不稳，进一步拖累名称预测。

Bing Xia,Jiabin Yin,Yunxiang Ge,Ruinan Yang

codebinary-analysistranslation-modelDOI DBLP

泛读ICML 2023

A Dive into Lexical Simplification with Pre-trained Model

这篇论文研究的是 lexical simplification 在预训练模型时代该怎么做得更稳。传统词汇简化往往把候选生成、复杂词识别和上下文适配拆开做，流程长且误差会逐步传递；预训练模型看起来能统一处理，但是否真的改善可控性和语境匹配，是这个方向的核心问题。

Chengxue Yang,Zhijuan Wang,Yu Zhang,Xiaobing Zhao

pretrained-modellexical-simplificationtext-generationDOI DBLP

泛读ICML 2023

M-TBQA: Multimodal Table-Based Question Answering

这篇论文关注的是多模态表格问答：当问题需要同时理解表格结构、文本内容，甚至可能还包含视觉线索时，传统 text-only table QA 很容易丢掉布局和跨模态对齐信息。过去不少方法要么把表格线性化成纯文本，要么只做结构编码，结果在复杂表格和真实场景里表现受限。

Jingwen Zeng,Zhidong Wu,Rongrong Zheng,Wenting Xue,Chenhui Wang,Xiaoyang Yu,Tao Zhang,Shaozu Yuan,Tiangang Zhu

multimodal-qatable-understandingvision-languageDOI DBLP

泛读ICML 2023

Evaluating the Impact of Text Data Augmentation on Text Classification Tasks using DistilBERT

这篇论文研究的是文本数据增强对 DistilBERT 文本分类到底有多大帮助，以及哪些增强可能只是制造表面多样性。这个问题一直存在争议：传统小模型时代数据增强常常有效，但到了预训练编码器时代，模型已经带有较强语言先验，额外增强不一定继续带来净收益，甚至可能破坏标签语义。

Aarathi Rajagopalan Nair,Rimjhim Padam Singh,Deepa Gupta,Priyanka Kumar

data-augmentationtext-classificationbertDOI DBLP