ICLR 2023

International Conference on Learning Representations

294/ 1794 相关论文

方向

Tier

294 / 294 篇论文

精读ICLR 2023

Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints

Aran Komatsuzaki,Joan Puigcerver,James Lee-Thorp,Carlos Riquelme Ruiz,Basil Mustafa,Joshua Ainslie,Yi Tay,Mostafa Dehghani,Neil Houlsby

moeupcyclingpretrainProceedings DBLP

精读ICLR 2023

UL2: Unifying Language Learning Paradigms

这篇论文要解决的问题是：预训练目标和模型架构长期被绑在一起，导致 encoder、decoder、prefix LM 各自擅长一类任务，却缺少一个在不同任务形态下都稳健的统一方案。以前的做法通常是在“选哪种目标”上二选一，结果是某类能力强，另一类能力吃亏。

Yi Tay,Mostafa Dehghani,Vinh Q. Tran,Xavier Garcia,Jason Wei,Xuezhi Wang ... 省略 3 位作者 ... ,Huaixiu Steven Zheng,Denny Zhou,Neil Houlsby,Donald Metzler

Google Researchpretrain-objectiveunifieddenoisingProceedings arXiv DBLP

精读ICLR 2023

GLM-130B: An Open Bilingual Pre-trained Model

这篇论文的核心目标是提供一个可公开使用的 130B 级中英双语预训练模型，并证明在资源受限条件下也能把超大模型稳定训起来。此前 100B+ 级模型大多闭源，中文能力强的开放模型更少，训练细节和稳定性经验也不透明。

Aohan Zeng,Xiao Liu,Zhengxiao Du,Zihan Wang,Hanyu Lai,Ming Ding ... 省略 9 位作者 ... ,Zhiyuan Liu,Peng Zhang,Yuxiao Dong,Jie Tang

Tsinghua UniversityZhipu AIlarge-language-modelbilingualpre-trainingProceedings DBLP

精读ICLR 2023

Least-to-Most Prompting Enables Complex Reasoning in Large Language Models

这篇论文要解决的是：LLM在复杂推理任务上常因“直接解题”跨度太大而失败，即使模型具备局部能力也难以一次性组织出完整推理链。以往CoT能缓解但仍常卡在长程依赖与子问题分解上。

Denny Zhou,Nathanael Schärli,Le Hou,Jason Wei,Nathan Scales,Xuezhi Wang ... 省略 1 位作者 ... ,Claire Cui,Olivier Bousquet,Quoc V. Le,Ed H. Chi

chain-of-thoughtpromptingreasoningProceedings DBLP

精读ICLR 2023

Unified Discrete Diffusion for Simultaneous Vision-Language Generation

此前多模态生成模型通常为每个方向（T2I、I2T、图文联合）分别训专门的模型或用非对称架构；怎么用一个统一的 discrete diffusion 模型同时干 modality translation 和 simultaneous vision-language generation？

Minghui Hu,Chuanxia Zheng,Zuopeng Yang,Tat-Jen Cham,Heliang Zheng,Chaoyue Wang,Dacheng Tao,Ponnuthurai N. Suganthan

Nanyang Technological UniversityMonash UniversityZhejiang Universitydiscrete-diffusionmultimodalunified-modelingProceedings arXiv DBLP

精读ICLR 2023

Self-Consistency Improves Chain of Thought Reasoning in Language Models

CoT 默认用 greedy decoding 取单条推理链，但 reasoning 问题常有多条合理路径到同一答案；单条 greedy 既容易采到错误链，也丢掉了多数投票式的鲁棒性。怎么把 reasoning 的 diversity 当成信号用起来？

Xuezhi Wang,Jason Wei,Dale Schuurmans,Quoc V. Le,Ed H. Chi,Sharan Narang,Aakanksha Chowdhery,Denny Zhou

Google ResearchGoogle Braincotself-consistencyreasoningProceedings DBLP

精读ICLR 2023

Discovering Latent Knowledge in Language Models Without Supervision

经过人类反馈或模仿学习训练的 LLM 会产生“迎合人类（sycophancy）”或重复人类错误的现象，导致标准监督微调无法提取模型内部真正的知识。

Collin Burns,Haotian Ye,Dan Klein,Jacob Steinhardt

UC BerkeleyinterpretabilityprobingtruthfulnessProceedings arXiv DBLP

精读ICLR 2023

Broken Neural Scaling Laws

传统的神经缩放定律（Scaling Law）假设性能随计算量呈单一幂律变化，但实际预训练中经常出现性能停滞、突然涌现或双重下降等非单调/非平滑现象。

Ethan Caballero,Kshitij Gupta,Irina Rish,David Krueger

MilaUniversité de MontréalUniversity of Cambridgescaling-lawextrapolationProceedings arXiv DBLP

精读ICLR 2023

Quantifying Memorization Across Neural Language Models

LLM 会记忆训练数据并原样输出，这引发了隐私和质量问题，但记忆化程度与模型规模、数据重复次数及上下文长度之间的定量关系一直缺乏系统性测量。

Nicholas Carlini,Daphne Ippolito,Matthew Jagielski,Katherine Lee,Florian Tramèr,Chiyuan Zhang

GoogleDeepMindUC Berkeley+1memorizationscalingprivacyProceedings arXiv DBLP

精读ICLR 2023

CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code

这篇论文要解决的是：源码预训练里该如何做 subtokenization，远没有自然语言里那么“默认”。过去很多代码 LM 直接沿用 BPE/byte-level 方案，但代码有标识符、命名风格和长尾词表等特殊性，不同切分方式会直接改变序列长度、拷贝能力和跨语言共享程度。

Nadezhda Chirkova,Sergey Troshin

tokenizerbpecode-pretrainingProceedings arXiv DBLP

精读ICLR 2023

UniMax: Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining

这篇论文要解决的是：多语种预训练里的语言采样分布该怎么定，现有温度采样虽然常用，但在不同模型规模下并不稳定地公平或有效。过去的做法通常在 head 语言与 tail 语言之间手调温度，结果要么 head 覆盖不够，要么 tail 被重复采样过度、出现过拟合。

Hyung Won Chung,Xavier Garcia,Adam Roberts,Yi Tay,Orhan Firat,Sharan Narang,Noah Constant

Google Researchdata-mixturemultilingualdata-samplingProceedings arXiv DBLP

精读ICLR 2023

Write and Paint: Generative Vision-Language Models are Unified Modal Learners

这篇论文要解决的是：图像到文本生成和文本到图像生成能否用一个统一的生成式预训练目标同时学好，而不是分别训练再拼接。此前视觉-语言预训练大多偏理解任务，或把写作与绘画分成两套系统；作者认为这两种能力共享跨模态条件生成结构，值得在一个模型里联合学习。

Shizhe Diao,Wangchunshu Zhou,Xinsong Zhang,Jiawei Wang

unified-modelingvision-languagemultimodal-pretrainingProceedings arXiv DBLP

精读ICLR 2023

InCoder: A Generative Model for Code Infilling and Synthesis

传统的自回归语言模型只能从左到右生成代码，无法处理代码补全（infilling）任务，即在给定上下文（前后文）的情况下插入缺失的代码。

Daniel Fried,Armen Aghajanyan,Jessy Lin,Sida Wang,Eric Wallace,Freda Shi,Ruiqi Zhong,Scott Yih,Luke Zettlemoyer,Mike Lewis

Meta AIUniversity of WashingtonUC Berkeleycode-lminfillingpretrainingProceedings DBLP

精读ICLR 2023

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

状态空间模型（SSM，如 S4）在处理长序列任务时表现优异，但在标准的语言建模（Language Modeling, LM）任务上，其性能一直落后于 Transformer 中的注意力机制。

Daniel Y. Fu,Tri Dao,Khaled Kamal Saab,Armin W. Thomas,Atri Rudra,Christopher Ré

Stanford Universityssmlanguage-modelingarchitectureProceedings DBLP

精读ICLR 2023

DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models

这篇论文要解决的是：能不能不用标准自回归 next-token 生成，也把序列到序列文本生成做对。过去文本生成几乎被 AR 范式垄断，因为离散文本上的 diffusion 难训练、解码慢、条件控制也不自然，所以 diffusion 在 NLP 多停留在补全或非主流设定；这篇工作试图把它推进到更标准的 seq2seq 生成场景。

Shansan Gong,Mukai Li,Jiangtao Feng,Zhiyong Wu,Lingpeng Kong

The University of Hong Kongdiffusion-lmtext-generationnon-arProceedings DBLP

精读ICLR 2023

How to Train your HIPPO: State Space Models with Generalized Orthogonal Basis Projections

这篇论文要解决的是：HIPPO/SSM 这类长序列模型虽然理论上强，但其状态投影基底过于固定，限制了表达能力和训练适配性。过去 S4 一类方法依赖特定正交多项式结构来获得稳定长程记忆，但这也把模型设计绑死在少数解析基底上。

Albert Gu,Isys Johnson,Aman Timalsina,Atri Rudra,Christopher Ré

Stanford UniversityssmhippoarchitectureProceedings arXiv DBLP

精读ICLR 2023

Liquid Structural State-Space Models

这篇论文要解决的是：结构化状态空间模型（SSM，如 S4）在长序列建模已很强，但其状态转移通常是输入无关的线性动力学，难以在推理时对输入分布变化做自适应。

Ramin M. Hasani,Mathias Lechner,Tsun-Hsuan Wang,Makram Chahine,Alexander Amini,Daniela Rus

state-space-modelslong-range-sequence-modelingliquid-ssmProceedings arXiv DBLP

精读ICLR 2023

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing

这篇论文要解决的是：ELECTRA 式 RTD（replaced token detection）预训练更省样本，但在强模型（如 DeBERTa）上直接套用会因生成器/判别器共享 embedding 带来训练动力学冲突，导致效率与效果都受损。

Pengcheng He,Jianfeng Gao,Weizhu Chen

replaced-token-detectionelectraembedding-sharingProceedings arXiv DBLP

精读ICLR 2023

Continual Pre-training of Language Models

现有领域自适应预训练（DAP）仅支持单一领域适配，连续多领域DAP训练会触发严重的通用知识灾难性遗忘。 prior 工作要么限制为单次领域迁移，要么采用数据重放/正则化方案，通用知识保留效果差且存储成本高。

Zixuan Ke,Yijia Shao,Haowei Lin,Tatsuya Konishi,Gyuhak Kim,Bing Liu

continual-pretraindomain-adaptationcatastrophic-forgettingProceedings arXiv DBLP

精读ICLR 2023

Noise Is Not the Main Factor Behind the Gap Between Sgd and Adam on Transformers, But Sign Descent Might Be

在 Transformer 预训练中，Adam 优化器远胜于 SGD。学界普遍认为这是因为 Adam 的自适应学习率能更好地处理 Transformer 梯度中的重尾噪声（Heavy-tailed Noise）。

Frederik Kunstner,Jacques Chen,Jonathan Wilder Lavington,Mark Schmidt

UBCoptimizeradamsgdProceedings DBLP

精读ICLR 2023

Copy is All You Need

标准的自回归（AR）语言模型逐 Token 生成文本，在生成长文本、高度事实性内容或重复性短语时效率低下且容易产生幻觉。

Tian Lan,Deng Cai,Yan Wang,Heyan Huang,Xian-Ling Mao

TencentTsinghua Universityretrievalcopy-mechanismlmProceedings DBLP

精读ICLR 2023

Flow Matching for Generative Modeling

这篇论文的核心结论是：生成建模可以不走离散扩散时间链，也不必直接做神经 ODE 最大似然，而是通过学习一条连续概率流来统一两者。此前扩散模型训练稳定但采样慢，连续归一化流可逆但训练和建模灵活性受限，作者试图在训练目标层面把这两类方法接起来。

Yaron Lipman,Ricky T. Q. Chen,Heli Ben-Hamu,Maximilian Nickel,Matthew Le

flow-matchinggenerative-modelingdiffusion-modelsProceedings arXiv DBLP

精读ICLR 2023

Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow

这篇论文的核心结论是：如果把生成轨迹学得更“直”，就能同时提升采样速度和传输稳定性。传统扩散或流模型常需要弯曲、长路径的数值积分，导致步数多、误差累积大，作者试图直接优化这条路径的几何形状。

Xingchao Liu,Chengyue Gong,Qiang Liu

rectified-flowgenerative-modelingdiffusion-modelsProceedings DBLP

精读ICLR 2023

UNIFIED-IO: A Unified Model for Vision, Language, and Multi-modal Tasks

解决视觉、语言和多模态任务通常需要不同架构和目标函数的问题。以往的模型（如ViT、BERT）往往针对特定模态或任务设计，缺乏一个真正统一的架构来处理所有类型的输入和输出。

Jiasen Lu,Christopher Clark,Rowan Zellers,Roozbeh Mottaghi,Aniruddha Kembhavi

Allen Institute for AIunified-modelvision-languagemultitaskProceedings arXiv DBLP

精读ICLR 2023

Mega: Moving Average Equipped Gated Attention

解决Transformer在处理长序列时注意力机制的二次复杂度问题，以及现有线性注意力或状态空间模型（SSM）在表达能力或训练稳定性上的不足。

Xuezhe Ma,Chunting Zhou,Xiang Kong,Junxian He,Liangke Gui,Graham Neubig,Jonathan May,Luke Zettlemoyer

University of Southern CaliforniaMeta AICarnegie Mellon University+1attentionlong-contextarchitectureProceedings DBLP

精读ICLR 2023

Long Range Language Modeling via Gated State Spaces

这篇论文要解决的是长程自回归语言建模里，Transformer 计算贵、而已有状态空间模型虽然擅长长依赖却在生成建模上不够成熟的问题。过去 S4 一类模型更多在分类任务上表现突出，但在真实语言建模上，训练效率、实现复杂度和局部依赖建模都还是短板。

Harsh Mehta,Ankit Gupta,Ashok Cutkosky,Behnam Neyshabur

state-space-modellong-contextlanguage-modelingProceedings arXiv DBLP

精读ICLR 2023

DocPrompting: Generating Code by Retrieving the Docs

这篇论文要解决的是：代码生成模型经常“会写但不懂库”，因为训练语料里API文档覆盖不足且更新快，导致模型在调用真实库函数时容易幻觉或用错参数。以往做法要么只检索代码片段（不解释API语义），要么把文档塞进prompt但缺少结构化检索与融合。

Shuyan Zhou,Uri Alon,Frank F. Xu,Zhengbao Jiang,Graham Neubig

code-generationretrievaltool-useProceedings DBLP

泛读ICLR 2023

Automatic Chain of Thought Prompting in Large Language Models

CoT 两种主流用法各有短板：Zero-shot CoT（'Let's think step by step'）便宜但弱；Manual-CoT（人写 few-shot 示例）强但每个任务都要手工构造示例。能否自动构造 few-shot 示例，既不人工又拿到 Manual-CoT 的效果？

Zhuosheng Zhang,Aston Zhang,Mu Li,Alex Smola

Shanghai Jiao Tong UniversityAmazoncotpromptingreasoningProceedings arXiv DBLP

泛读ICLR 2023

Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task

序列模型到底是记了一堆表面统计，还是真学到了生成序列的底层过程？语言模型的'能力从哪来'一直没法 clean 地回答，因为自然语言太复杂、ground-truth world state 不可得。

Kenneth Li,Aspen K. Hopkins,David Bau,Fernanda B. Viégas,Hanspeter Pfister,Martin Wattenberg

Harvard UniversityMITNortheastern Universityworld-modelsequence-modelemergenceProceedings arXiv DBLP

精读ICLR 2023

What learning algorithm is in-context learning? Investigations with linear models

Transformer上下文学习（ICL）的内在机制不明确， prior 研究要么将ICL归为隐式模式匹配，要么无法量化验证ICL对应的具体学习算法，无法解释ICL的泛化边界。

Ekin Akyürek,Dale Schuurmans,Jacob Andreas,Tengyu Ma,Denny Zhou

MITStanford UniversityGoogle DeepMindin-context-learningtransformerimplicit-learningProceedings arXiv DBLP

精读ICLR 2023

PaLI: A Jointly-Scaled Multilingual Language-Image Model

以往的图文多模态预训练往往侧重于扩大语言模型（LLM）的参数量，而视觉编码器（ViT）的规模相对较小，导致视觉表征能力成为多模态任务的瓶颈。

Xi Chen,Xiao Wang,Soravit Changpinyo,A. J. Piergiovanni,Piotr Padlewski,Daniel Salz ... 省略 10 位作者 ... ,Linting Xue,Ashish V. Thapliyal,James Bradbury,Weicheng Kuo

Google Researchvlm-pretrainingscalingmultilingualProceedings arXiv DBLP

精读ICLR 2023

Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning

扩散模型原生针对连续数据设计，处理文本等离散数据时通常需要引入复杂的离散状态空间或分类转移矩阵，优化困难且难以扩展。

Ting Chen,Ruixiang Zhang,Geoffrey E. Hinton

Google Braindiffusiondiscrete-dataself-conditioningProceedings DBLP

精读ICLR 2023

Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers

这篇论文要解决的是：如何在不按传统方式直接扩宽或加深 Transformer 的前提下，同时拿到更好的容量-计算折中和可按预算弹性推理的能力。过去 dense scaling 主要靠更大网络和常规 dropout 来稳训练，但这两条路分别受算力和部署约束限制，作者尝试把 sparse MoE 从“增大容量的结构”重新解释成“比 dropout 更强的结构化随机化与自适应容量机制”。

Tianlong Chen,Zhenyu Zhang,Ajay Kumar Jaiswal,Shiwei Liu,Zhangyang Wang

moesparsitytransformerProceedings DBLP

泛读ICLR 2023

A Non-monotonic Self-terminating Language Model

这篇论文要解决的是：标准自终止语言模型通常假设生成概率随步数单调逼近终止，但这种单调设计会限制模型在不同长度上的表达能力，并导致过早或过晚结束。作者要做的是一种 non-monotonic self-terminating LM，让模型能更灵活地决定何时结束，同时保持可控的终止行为。

Eugene Choi,Kyunghyun Cho,Cheolhyoung Lee

non-autoregressivelanguage-modelingself-terminatingProceedings DBLP

精读ICLR 2023

OPTQ: Accurate Quantization for Generative Pre-trained Transformers

如何高效且准确地将百亿/千亿参数规模的生成式预训练 Transformer (GPT) 模型量化到 3-4 bit，以降低推理成本，同时保持模型性能？

Elias Frantar,Saleh Ashkboos,Torsten Hoefler,Dan Alistarh

IST AustriaETH ZurichquantizationgptinferenceProceedings DBLP

精读ICLR 2023

Jointly Learning Visual and Auditory Speech Representations from Raw Data

这篇论文要解决的是：能否直接从原始音频和视频中联合学习语音表示，而不依赖预先抽取的唇形、梅尔谱或文本标签。过去视听语音学习常把模态预处理得很重，虽然有效，但也把表示上限锁在手工前端上。

Alexandros Haliassos,Pingchuan Ma,Rodrigo Mira,Stavros Petridis,Maja Pantic

Imperial College Londonaudio-visual-representationjoint-learningraw-dataProceedings arXiv DBLP

精读ICLR 2023

Language Models Can Teach Themselves to Program Better

这篇论文要解决的是：语言模型能否在没有外部人工标注程序数据的情况下，通过自生成和自筛选来提升编程能力。过去代码能力提升主要依赖更大代码语料或人工构造训练集，而这两者都昂贵且扩展慢。

Patrick Haluptzok,Matthew Bowers,Adam Tauman Kalai

OpenAIcode-generationself-improvementsynthetic-dataProceedings DBLP

精读ICLR 2023

Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models

这篇论文要解决的是：语言模型微调后在域外（OOD）场景常出现过度自信（miscalibration），而现有校准方法往往把问题当作“分类头/温度”层面的后处理，忽略了微调对预训练表征的破坏。

Guande He,Jianfei Chen,Jun Zhu

fine-tuningcalibrationpre-trained-featuresProceedings arXiv DBLP

泛读ICLR 2023

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

文本到视频生成预训练面临两大核心障碍：从零训练大模型计算成本极高，公开文本视频数据集规模小、语义相关性弱，无法支撑复杂运动语义学习。 prior 工作要么用小参数模型生成低分辨率短视频，要么没有复用预训练文本到图像模型的能力。

Wenyi Hong,Ming Ding,Wendi Zheng,Xinghan Liu,Jie Tang

Tsinghua Universityvideo-generationpretrainingtransformerProceedings arXiv DBLP

精读ICLR 2023

Dataless Knowledge Fusion by Merging Weights of Language Models

Xisen Jin,Xiang Ren,Daniel Preotiuc-Pietro,Pengxiang Cheng

model-mergingweight-spaceknowledge-fusionProceedings DBLP

ICLR 2023

Decomposed Prompting: A Modular Approach for Solving Complex Tasks

少样本提示的性能随任务复杂度上升急剧下降，单一提示无法同时优化复杂任务的多个推理步骤。 prior 工作要么依赖手动设计更复杂的提示，要么仅支持固定逻辑的任务拆分，灵活性差。

Tushar Khot,Harsh Trivedi,Matthew Finlayson,Yao Fu,Kyle Richardson,Peter Clark,Ashish Sabharwal

University of EdinburghAllen Institute for AIpromptingdecompositiontool-useProceedings arXiv DBLP

泛读ICLR 2023

AudioGen: Textually Guided Audio Generation

真实世界音频（环境音、声效）包含复杂的重叠声源和高采样率，传统的连续波形建模难以直接通过文本条件生成高保真音频。

Felix Kreuk,Gabriel Synnaeve,Adam Polyak,Uriel Singer,Alexandre Défossez,Jade Copet,Devi Parikh,Yaniv Taigman,Yossi Adi

Meta AIHebrew University of Jerusalemaudio-lmdiscrete-tokensautoregressiveProceedings arXiv DBLP

泛读ICLR 2023

Masked Vision and Language Modeling for Multi-modal Representation Learning

早期的多模态预训练通常独立进行掩码语言建模（MLM）和掩码图像建模（MIM），或者仅依赖全局对比损失（CLIP），缺乏在细粒度 Token 级别利用跨模态信息进行重建的机制。

Gukyeong Kwon,Zhaowei Cai,Avinash Ravichandran,Erhan Bas,Rahul Bhotika,Stefano Soatto

AWS AI Labsmasked-modelingvlm-pretrainmlmProceedings arXiv DBLP

泛读ICLR 2023

Reward Design with Language Models

强化学习中的奖励函数设计（Reward Design）极其困难，依赖大量人工调试，且容易引发奖励作弊（Reward Hacking）。

Minae Kwon,Sang Michael Xie,Kalesha Bullard,Dorsa Sadigh

Stanford Universityreward-designllmrlProceedings DBLP

精读ICLR 2023

In-context Reinforcement Learning with Algorithm Distillation

传统的强化学习智能体在面对新任务时需要进行梯度更新才能学习，缺乏像 LLM 那样通过上下文（In-context）快速适应新任务的能力。

Michael Laskin,Luyu Wang,Junhyuk Oh,Emilio Parisotto,Stephen Spencer,Richie Steigerwald ... 省略 4 位作者 ... ,Maxime Gazeau,Himanshu Sahni,Satinder Singh,Volodymyr Mnih

DeepMindin-context-learningrldistillationProceedings arXiv DBLP

泛读ICLR 2023

Self-Distillation for Further Pre-training of Transformers

在对预训练 Transformer 进行持续预训练（Continual Pre-training，如适配代码或医疗领域）时，模型极易发生灾难性遗忘，丢失通用的基础能力。

Seanie Lee,Minki Kang,Juho Lee,Sung Ju Hwang,Kenji Kawaguchi

KAISTNUSself-distillationcontinual-pretraintransformerProceedings DBLP

精读ICLR 2023

Contrastive Corpus Attribution for Explaining Representations

这篇论文要解决的是：如何把一个表示向量追溯到训练语料中真正支持它的文本证据，而不是只做样本级相似检索。以往解释表示的方法常停留在特征归因或最近邻示例，难以回答“这个表示为什么长成这样、是被哪类语料塑造的”。

Chris Lin,Hugh Chen,Chanwoo Kim,Su-In Lee

data-attributioninterpretabilityrepresentation-learningProceedings DBLP

精读ICLR 2023

Maximizing Communication Efficiency for Large-scale Training via 0/1 Adam

解决大规模分布式训练中，Adam优化器由于需要同步一阶和二阶矩估计而导致的巨大通信开销问题。传统的梯度压缩方法（如1-bit SGD）难以直接应用于Adam，因为Adam的非线性更新规则会破坏压缩误差的补偿机制。

Yucheng Lu,Conglong Li,Minjia Zhang,Christopher De Sa,Yuxiong He

Cornell UniversityMicrosoftdistributed-trainingadamcommunication-efficiencyProceedings DBLP

泛读ICLR 2023

Treeformer: Dense Gradient Trees for Efficient Attention Computation

这篇论文要解决的是注意力计算在长序列下的二次复杂度瓶颈，但不想走稀疏注意力那条容易牺牲精度、且梯度传播不稳定的路。作者试图用树结构把全局交互压缩成可并行、可微的 dense gradient tree，从而在保留较强表达能力的同时降低计算和内存成本。

Lovish Madaan,Srinadh Bhojanapalli,Himanshu Jain,Prateek Jain

attentionefficient-attentionlong-contextProceedings DBLP

泛读ICLR 2023

Mass-Editing Memory in a Transformer

这篇论文要解决的是如何一次性给大语言模型批量改写大量事实记忆，而不是像以往那样一次只改一条关联。已有模型编辑方法在单点编辑上很有希望，但规模一上去就容易互相干扰、泛化失控，因而难以成为真正可用的知识更新工具。

Kevin Meng,Arnab Sen Sharma,Alex J. Andonian,Yonatan Belinkov,David Bau

model-editingtransformersmemoryProceedings arXiv DBLP

精读ICLR 2023

Learning Math Reasoning from Self-Sampled Correct and Partially-Correct Solutions

作者要解决的是：数学推理微调数据通常每题只有一条参考解，导致模型被单一路径监督而泛化差，尤其在多步推理时更明显。过去常用做法是直接用参考解做 SFT，但这会把“解题路径多样性”当作噪声丢掉。

Ansong Ni,Jeevana Priya Inala,Chenglong Wang,Alex Polozov,Christopher Meek,Dragomir Radev,Jianfeng Gao

math-reasoningself-samplingdata-augmentationProceedings arXiv DBLP

精读ICLR 2023

CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis

缺少论文摘要与正文信息，无法可靠概括 CodeGen 在“多轮程序合成”的核心问题设定与相对 prior 的差异点。

Erik Nijkamp,Bo Pang,Hiroaki Hayashi,Lifu Tu,Huan Wang,Yingbo Zhou,Silvio Savarese,Caiming Xiong

code-llmprogram-synthesisopen-sourceProceedings DBLP

泛读ICLR 2023

Toeplitz Neural Network for Sequence Modeling

想要在 sub-quadratic 复杂度下做序列建模同时保留全局感受野，attention 是 O(n²) 太贵，线性 attention 和 SSM 又各有表达力或稳定性问题。本文提出 Toeplitz 结构化矩阵作为统一框架。

Zhen Qin,Xiaodong Han,Weixuan Sun,Bowen He,Dong Li,Dongxu Li,Yuchao Dai,Lingpeng Kong,Yiran Zhong

SenseTimesequence-modelingarchitecturetoeplitzProceedings DBLP

泛读ICLR 2023

Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization

RL 到底适不适合 NLP？社区此前对 RLHF/PPO 应用在 LM 上存在两极看法——有效的人觉得它是 alignment 的关键，怀疑的人觉得信号噪声大、容易崩。本文给出统一的 benchmark 和库 (RL4LMs) 系统评估。

Rajkumar Ramamurthy,Prithviraj Ammanabrolu,Kianté Brantley,Jack Hessel,Rafet Sifa,Christian Bauckhage,Hannaneh Hajishirzi,Yejin Choi

Allen Institute for AICarnegie Mellon Universityreinforcement-learningnlpbenchmarkProceedings DBLP

泛读ICLR 2023

Progressive Prompts: Continual Learning for Language Models

LM 的持续学习（continual learning）：在一串任务上依次 finetune 时怎么不忘旧任务、还能正向迁移。传统做法是 replay、EWC 或单独加 adapter，都各有不足。

Anastasia Razdaibiedina,Yuning Mao,Rui Hou,Madian Khabsa,Mike Lewis,Amjad Almahairi

University of TorontoMeta AIcontinual-learningpromptinglanguage-modelsProceedings DBLP

泛读ICLR 2023

Language Modelling with Pixels

Phillip Rust,Jonas F. Lotz,Emanuele Bugliarello,Elizabeth Salesky,Miryam de Lhoneux,Desmond Elliott

tokenizationimage-tokensautoregressiveProceedings DBLP

精读ICLR 2023

Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought

现有的推理基准（如数学 QA）仅通过最终答案的准确率来间接评估 LLM，导致无法确认模型是真正遵循了思维链（CoT）的逻辑步骤，还是仅仅依赖了捷径或启发式规则。

Abulhair Saparov,He He

New York University (NYU)chain-of-thoughtreasoningformal-analysisProceedings arXiv DBLP

泛读ICLR 2023

Offline RL for Natural Language Generation with Implicit Language Q Learning

标准的在线 RL（如 PPO）在对齐大语言模型时，由于动作空间巨大且需要频繁采样分布外（OOD）的生成结果，导致训练极不稳定且效率低下；而纯 SFT 又无法有效最大化长期奖励。

Charlie Snell,Ilya Kostrikov,Yi Su,Sherry Yang,Sergey Levine

UC Berkeleyoffline-rlq-learningnlgProceedings arXiv DBLP

泛读ICLR 2023

Selective Annotation Makes Language Models Better Few-Shot Learners

这篇论文要解决的问题是：在 few-shot in-context learning 已经能用少量示例驱动大模型完成新任务的前提下，如何用尽可能少的标注预算构造一个“够用”的示例池。以往工作多把重点放在测试时怎么检索示例，默认训练集已完整标注；这篇工作反过来问，既然最终只会用到少量 demonstrations，那是不是可以先从未标注池里挑一小部分去标，再配合检索使用。

Hongjin Su,Jungo Kasai,Chen Henry Wu,Weijia Shi,Tianlu Wang,Jiayi Xin ... 省略 1 位作者 ... ,Mari Ostendorf,Luke Zettlemoyer,Noah A. Smith,Tao Yu

in-context-learningdata-selectionfew-shotProceedings arXiv DBLP

泛读ICLR 2023

Score-based Continuous-time Discrete Diffusion Models

这篇论文要解决的问题是：score-based diffusion 在连续空间已经很成熟，但离散变量上缺少自然的 score 定义，导致这一路线很难直接用于文本等 categorical 数据。此前离散 diffusion 多依赖离散时间马尔可夫链和特定噪声形式，缺少像连续数据 SDE 那样统一、可分析的连续时间视角。

Haoran Sun,Lijun Yu,Bo Dai,Dale Schuurmans,Hanjun Dai

diffusion-lmdiscrete-diffusionscore-basedProceedings arXiv DBLP

泛读ICLR 2023

Prune and Tune: Improving Efficient Pruning Techniques for Massive Language Models

这篇论文聚焦的问题大概率是：对超大语言模型做剪枝时，现有高效剪枝方法虽然便宜，但精度掉得多；如何在不承担完整重训练成本的前提下，把效率和恢复性能做得更平衡。题面没有摘要，因此这里只能按标题给出保守概括。

Aaquib Syed,Phillip Guo,Vijaykaarti Sundarapandiyan

pruningcompressionllmProceedings DBLP

精读ICLR 2023

Visually-Augmented Language Modeling

按标题判断，这篇论文要解决的问题是：纯文本语言模型在很多场景里其实暴露于视觉上下文，但标准 LM 预训练完全忽略这一点；如果把视觉信号直接并入语言建模，是否能学到更好的文本预测与多模态表征。它关心的不是传统 VQA 下游，而是把视觉作为 LM 预训练的一部分。题面无摘要，因此需保守表述。

Weizhi Wang,Li Dong,Hao Cheng,Haoyu Song,Xiaodong Liu,Xifeng Yan,Jianfeng Gao,Furu Wei

language-modelingvisual-augmentationmultimodal-pretrainingProceedings DBLP

精读ICLR 2023

ReAct: Synergizing Reasoning and Acting in Language Models

大语言模型（LLM）的推理能力（如 Chain-of-Thought）和行动能力（如生成动作计划）通常被分开研究。纯推理模型缺乏与外部世界的交互，容易产生幻觉或错误累积；纯行动模型缺乏深度思考，难以处理复杂任务。

Shunyu Yao,Jeffrey Zhao,Dian Yu,Nan Du,Izhak Shafran,Karthik R. Narasimhan,Yuan Cao

Princeton UniversityGoogle Brainreasoningtool-usepromptingProceedings arXiv DBLP

精读ICLR 2023

Guess the Instruction! Flipped Learning Makes Language Models Stronger Zero-Shot Learners

指令微调（Instruction Tuning）通常是给定指令（Instruction）和输入（Input），让模型预测输出（Output）。这种前向学习方式虽然有效，但模型有时并未真正理解指令的意图，而是依赖输入输出的表面模式。

Seonghyeon Ye,Doyoung Kim,Joel Jang,Joongbo Shin,Minjoon Seo

KAISTinstruction-tuningzero-shotdata-synthesisProceedings DBLP

精读ICLR 2023

SCoMoE: Efficient Mixtures of Experts with Structured Communication

这篇论文解决的是 MoE 模型里专家之间几乎不通信导致的信息割裂问题。标准 sparse MoE 通过路由提升参数容量和计算效率，但每个 token 只看少数专家，专家间缺少结构化交互，容易限制表示协同和训练效率。

Zhiyuan Zeng,Deyi Xiong

moeefficient-trainingstructured-communicationProceedings DBLP

精读ICLR 2023

Planning with Large Language Models for Code Generation

这篇论文要解决的是代码生成中“直接采样答案”容易局部正确但整体结构错误的问题。大语言模型会写出语法像样的代码，但在需要多步分解、全局约束和中间变量设计时，缺少显式规划常导致一次性生成失败。

Shun Zhang,Zhenfang Chen,Yikang Shen,Mingyu Ding,Joshua B. Tenenbaum,Chuang Gan

code-generationplanninglarge-language-modelsProceedings DBLP

泛读ICLR 2023

Calibrating Sequence likelihood Improves Conditional Language Generation

这篇论文要解决的是：条件生成（摘要、翻译、对话等）里，模型的序列对数似然常与人类偏好/任务指标不一致，导致解码时“高似然但低质量”或长度偏置等问题。过去多靠启发式长度惩罚、温度、coverage等补丁，缺少更系统的校准视角。

Yao Zhao,Misha Khalman,Rishabh Joshi,Shashi Narayan,Mohammad Saleh,Peter J. Liu

language-generationcalibrationdecodingProceedings DBLP

泛读ICLR 2023

Efficient Attention via Control Variates

这篇论文要解决的是：高效注意力近似常在速度、无偏性与方差之间难以兼得，很多方法要么引入偏差（影响质量），要么方差大（训练不稳），要么实现复杂。以往常见路线是kernelized attention或稀疏注意力，但它们对分布与长度敏感。

Lin Zheng,Jianbo Yuan,Chong Wang,Lingpeng Kong

attentionefficiencylong-contextProceedings DBLP

泛读ICLR 2023

Large Language Models are Human-Level Prompt Engineers

这篇论文要解决的是：提示工程对LLM效果影响很大，但人工写prompt成本高且不可复现，导致“会不会写prompt”成为隐性门槛。以往自动prompt方法要么搜索成本高，要么依赖额外标注/模型。

Yongchao Zhou,Andrei Ioan Muresanu,Ziwen Han,Keiran Paster,Silviu Pitis,Harris Chan,Jimmy Ba

promptingllminstruction-followingProceedings DBLP

泛读ICLR 2023

Behavior Proximal Policy Optimization

Zifeng Zhuang,Kun Lei,Jinxin Liu,Donglin Wang,Yilang Guo

rlppopolicy-optimizationProceedings DBLP

泛读ICLR 2023

Contrastive Alignment of Vision to Language Through Parameter-Efficient Transfer Learning

能否不重训一个 CLIP，而是在已训好的视觉和语言模型之上只动很少参数就拿到一个 contrastive VLM。过去 parameter-efficient 的视觉-语言融合（如 Frozen、Flamingo 那一脉）基本都是 non-contrastive 的生成式接法，不适合 retrieval/neural search 这种对 latency 和 dual-encoder 形态敏感的场景。

Zaid Khan,Yun Fu

Northeastern Universityvlmcontrastive-learningparameter-efficientProceedings arXiv DBLP

泛读ICLR 2023

Generate rather than Retrieve: Large Language Models are Strong Context Generators

知识密集型 QA 的默认管线是 retrieve-then-read：从 Wikipedia 之类外部语料检索相关文档再读答案。但 retriever 召回天花板明显，且 dense retriever 很难命中需要多跳、隐含或组合的事实。能否把 retriever 换成 LLM 本身？

Wenhao Yu,Dan Iter,Shuohang Wang,Yichong Xu,Mingxuan Ju,Soumya Sanyal,Chenguang Zhu,Michael Zeng,Meng Jiang

University of Notre DameMicrosoftllmretrievalknowledgeProceedings arXiv DBLP

泛读ICLR 2023

Out-of-Distribution Detection and Selective Generation for Conditional Language Models

条件生成模型（翻译、摘要等）在 OOD 输入上会胡编，但现有 OOD detection 研究主要在分类上，生成场景下没有干净的 detector，也没有把 OOD 检测和 selective generation（见到就弃权）连起来。

Jie Ren,Jiaming Luo,Yao Zhao,Kundan Krishna,Mohammad Saleh,Balaji Lakshminarayanan,Peter J. Liu

Googleoodlanguage-modelselective-generationProceedings arXiv DBLP

泛读ICLR 2023

Dataset Pruning: Reducing Training Data by Examining Generalization Influence

训练集里不是每条样本都有用，但怎么**有理论保障地**识别并丢弃冗余/有害样本、又把保留子集规模压到最小？此前 coreset / influence function 类方法要么贵、要么没 generalization guarantee。

Shuo Yang,Zeke Xie,Hanyu Peng,Min Xu,Mingming Sun,Ping Li

data-qualitydataset-pruningtraining-efficiencyProceedings arXiv DBLP

泛读ICLR 2023

Git Re-Basin: Merging Models modulo Permutation Symmetries

神经网络的非凸优化导致不同训练轮次得到的模型参数位于不同损失盆地，无法直接在权重空间合并。 prior 工作认为损失盆地相互独立，未考虑隐藏单元的排列对称性。

Samuel K. Ainsworth,Jonathan Hayase,Siddhartha S. Srinivasa

University of Washingtonmode-connectivityweight-permutationmodel-mergingProceedings arXiv DBLP

ICLR 2023

Ask Me Anything: A simple strategy for prompting language models

提示设计非常脆弱，微小的提示修改会导致预测结果大幅波动。 prior 工作依赖手动设计完美提示，人力成本极高，无法规模化落地。

Simran Arora,Avanika Narayan,Mayee F. Chen,Laurel J. Orr,Neel Guha,Kush Bhatia,Ines Chami,Christopher Ré

Stanford Universitypromptingprompt-robustnessevaluationProceedings arXiv DBLP

泛读ICLR 2023

Multi-lingual Evaluation of Code Generation Models

Ben Athiwaratkun,Sanjay Krishna Gouda,Zijian Wang,Xiaopeng Li,Yuchen Tian,Ming Tan ... 省略 10 位作者 ... ,Robert Giaquinto,Haifeng Qian,Murali Krishna Ramanathan,Ramesh Nallapati

code-generationmultilingualevaluationProceedings arXiv DBLP

泛读ICLR 2023

Language Models Inversely Scale on Piecewise Function Evaluation with Biased Examples

扩大语言模型规模通常会提升性能，但在某些包含误导性或偏见示例的上下文中，大模型反而表现更差（逆向缩放），这种现象缺乏在受控环境下的机制级分析。

Bradley C. A. Brown,Jordan Juravsky,Atif Mahmud,Wais Shahbaz,Ryan Ehrlich

University of Waterlooinverse-scalingiclevaluationProceedings DBLP

泛读ICLR 2023

Systematic Rectification of Language Models via Dead-end Analysis

防止 LLM 生成有害文本通常依赖于计算成本高昂的重训练/RLHF，或者目光短浅的解码期干预（如屏蔽特定 token），后者忽略了生成序列的长期轨迹，容易导致延迟的毒性爆发。

Meng Cao,Mehdi Fatemi,Jackie C. K. Cheung,Samira Shabanian

MilaMcGill UniversityMicrosoft ResearchdetoxificationdecodingalignmentProceedings arXiv DBLP

泛读ICLR 2023

Accurate Neural Training with 4-bit Matrix Multiplications at Standard Formats

这篇论文要解决的是：能否在保持标准数值格式和常规训练流程兼容的前提下，用 4-bit 矩阵乘法训练神经网络而不明显掉精度。以往低比特训练常常依赖特制格式、复杂补偿或只在推理有效，训练端要么不稳，要么硬件落地成本高。

Brian Chmiel,Ron Banner,Elad Hoffer,Hilla Ben-Yaacov,Daniel Soudry

low-precision4bit-trainingquantizationProceedings DBLP

泛读ICLR 2023

Minimum Variance Unbiased N: M Sparsity for the Neural Gradients

这篇论文要解决的是：如何在 N:M 结构化稀疏约束下压缩神经网络梯度，同时尽量不引入偏差并把方差降到最低。此前梯度稀疏化常在 unbiased 与低方差之间取舍，结构化稀疏又会额外限制可保留的元素模式，导致训练噪声变大。

Brian Chmiel,Itay Hubara,Ron Banner,Daniel Soudry

sparsitygradient-compressionn:m-sparsityProceedings arXiv DBLP

泛读ICLR 2023

Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning

这篇论文要解决的是：LLM 在多步逻辑推理上往往明显弱于单步蕴含或局部判断，直接 few-shot prompting 很难稳定把多步链条走对。过去很多工作要么只测少数 benchmark，要么依赖不透明的 chain-of-thought 文本，作者则想要一种更可解释、更模块化的逻辑推理流程。

Antonia Creswell,Murray Shanahan,Irina Higgins

DeepMindlogical-reasoningmulti-step-reasoningllm-evaluationProceedings arXiv DBLP

泛读ICLR 2023

Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability

这篇论文要回答的是：为什么大模型训练常常在“稳定性边缘”附近仍能继续优化而不立刻发散。以往对 edge of stability 的理解多停留在经验现象：学习率超过经典局部稳定阈值后，loss 会震荡但训练还能推进；作者想给出一个更机制化的解释，说明梯度下降为何会自发进入一个可训练但非经典稳定的状态。

Alex Damian,Eshaan Nichani,Jason D. Lee

training-dynamicsedge-of-stabilitygradient-descentProceedings DBLP

泛读ICLR 2023

Neural Networks and the Chomsky Hierarchy

这篇论文要回答的是：神经网络在分布外长度或组合结构上的泛化边界，是否能用 Chomsky hierarchy 这样的计算复杂度分层来预测。过去很多工作在单个合成任务上讨论“模型会不会组合泛化”，但缺少跨任务、跨架构的统一刻画；作者试图把问题放到形式语言层级上系统比较。

Grégoire Delétang,Anian Ruoss,Jordi Grau-Moya,Tim Genewein,Li Kevin Wenliang,Elliot Catt ... 省略 1 位作者 ... ,Marcus Hutter,Shane Legg,Joel Veness,Pedro A. Ortega

DeepMindgeneralizationchomsky-hierarchyalgorithmic-reasoningProceedings arXiv DBLP

泛读ICLR 2023

Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-oriented Dialogue Systems

从标题看，这篇论文要解决的是：任务型对话系统中的 reward learning 容易学出“看起来高分、实际失真”的奖励，如何识别并抑制这种 reward hacking。过去很多对话 RL 工作默认 reward model 足够可靠，但一旦奖励偏差被策略利用，系统会快速偏离真实用户目标；作者显然在做一次案例式拆解。

Yihao Feng,Shentao Yang,Shujian Zhang,Jianguo Zhang,Caiming Xiong,Mingyuan Zhou,Huan Wang

reward-modeldialoguealignmentProceedings DBLP

泛读ICLR 2023

Complexity-Based Prompting for Multi-step Reasoning

在大型语言模型（LLM）的多步推理任务中，如何选择合适的 few-shot 提示（prompts）以最大化模型的推理性能？

Yao Fu,Hao Peng,Ashish Sabharwal,Peter Clark,Tushar Khot

University of EdinburghAllen Institute for AI (AI2)University of WashingtonpromptingreasoningcotProceedings DBLP

泛读ICLR 2023

How Much Data Are Augmentations Worth? An Investigation into Scaling Laws, Invariance, and Implicit Regularization

在计算机视觉的预训练中，数据增强（Data Augmentations）被广泛使用，但它们究竟相当于多少真实的额外数据？数据增强是通过引入不变性（invariance）还是隐式正则化（implicit regularization）来提升性能的？

Jonas Geiping,Micah Goldblum,Gowthami Somepalli,Ravid Shwartz-Ziv,Tom Goldstein,Andrew Gordon Wilson

University of MarylandNew York Universityscaling-lawdata-augmentationgeneralizationProceedings DBLP

泛读ICLR 2023

HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention

传统的 CLIP 模型在进行图文对比预训练时，将图像视为平铺的 patch 集合，忽略了图像中天然存在的层次化语义结构（如：整体场景 -> 局部物体 -> 物体细节），导致细粒度跨模态对齐能力不足。

Shijie Geng,Jianbo Yuan,Yu Tian,Yuxiao Chen,Yongfeng Zhang

Rutgers UniversityTencent AI Labclipvlmcontrastive-learningProceedings DBLP

泛读ICLR 2023

ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning

大型语言模型（LLM）在生成多步推理（如 Chain-of-Thought）时，传统的评估指标（如 BLEU, ROUGE 或仅看最终答案的准确率）无法准确衡量推理过程的逻辑正确性、连贯性和事实性。

Olga Golovneva,Moya Chen,Spencer Poff,Martin Corredor,Luke Zettlemoyer,Maryam Fazel-Zarandi,Asli Celikyilmaz

Meta AIUniversity of WashingtonreasoningevaluationcotProceedings arXiv DBLP

泛读ICLR 2023

Contrastive Audio-Visual Masked Autoencoder

这篇论文要解决的是：音频和视频的自监督预训练，如何同时学到模态内表征和跨模态对齐，而不是二选一。过去 MAE 类方法擅长重建单模态细节，CLIP 类方法擅长跨模态对齐，但两者往往分开做，导致表示要么偏局部重建、要么偏全局语义。

Yuan Gong,Andrew Rouditchenko,Alexander H. Liu,David Harwath,Leonid Karlinsky,Hilde Kuehne,James R. Glass

MITaudio-visualmasked-autoencodercontrastive-learningProceedings arXiv DBLP

泛读ICLR 2023

Relative Behavioral Attributes: Filling the Gap between Symbolic Goal Specification and Reward Learning from Human Preferences

这篇论文要解决的是：在强化学习里，符号化目标太僵硬，人类偏好学习又太弱约束，二者之间缺少一个既可表达又可交互的中间层。过去要么手工写 reward/specification，要么收集成对偏好学 reward，但前者难覆盖复杂意图，后者样本效率和可控性都有限。

Lin Guan,Karthik Valmeekam,Subbarao Kambhampati

Arizona State Universityrlhfreward-learninghuman-preferencesProceedings DBLP

泛读ICLR 2023

MaskViT: Masked Visual Pre-Training for Video Prediction

这篇论文要解决的是：视频预测通常依赖像素级自回归或重建，训练重、误差累积快，而且难学到高层时空结构。过去视频生成常在像素空间逐帧预测，或者在 latent 空间做 AR，但都容易把容量花在低层细节上。

Agrim Gupta,Stephen Tian,Yunzhi Zhang,Jiajun Wu,Roberto Martín-Martín,Li Fei-Fei

Stanford Universitymasked-visual-pretrainingvideo-predictionvision-transformerProceedings DBLP

泛读ICLR 2023

Prototypical Calibration for Few-shot Learning of Language Models

这篇论文要解决的是：大语言模型做 few-shot 分类时，输出概率常常校准很差，导致 prompt 选得差一点性能就波动很大。过去 in-context learning 的 few-shot 分类常依赖 verbalizer 和 prompt 工程，而模型概率并不可靠，尤其类别先验不平衡时更明显。

Zhixiong Han,Yaru Hao,Li Dong,Yutao Sun,Furu Wei

Microsoftfew-shot-learningcalibrationprototypical-networksProceedings DBLP

泛读ICLR 2023

Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation

这篇论文要解决的是：Transformer 训练深度很大时高度依赖残差（skip connections）和归一化（LayerNorm）来维持信号传播，否则会出现梯度/激活退化；但现有“无 shortcut 的深网”理论与方法很难直接适配自注意力（self-attention）。

Bobby He,James Martens,Guodong Zhang,Aleksandar Botev,Andrew Brock,Samuel L. Smith,Yee Whye Teh

transformer-architectureskip-connectionssignal-propagationProceedings arXiv DBLP

泛读ICLR 2023

Continual Transformers: Redundancy-Free Attention for Online Inference

这篇论文要解决的是：标准 Transformer 编码器在流式/在线推理时需要反复对重叠窗口做注意力计算，导致大量冗余计算与延迟，而很多时间序列场景需要 token-by-token 的持续输出。

Lukas Hedegaard,Arian Bakhtiarnia,Alexandros Iosifidis

online-inferencetransformerredundancy-free-attentionProceedings arXiv DBLP

泛读ICLR 2023

TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

这篇论文要解决的是：小规模表格分类通常需要大量调参和模型选择，而通用深度模型在小数据 regime 不稳定；作者希望像 LLM 的 ICL 一样，用一次离线训练得到一个“秒级、免调参”的通用表格分类器。

Noah Hollmann,Samuel Müller,Katharina Eggensperger,Frank Hutter

in-context-learningtransformermeta-learningProceedings arXiv DBLP

泛读ICLR 2023

On the Sensitivity of Reward Inference to Misspecified Human Models

奖励推理依赖人类行为模型的准确性，但完美的人类行为模型无法获得。 prior 工作假设人类模型的小误差只会导致奖励推理的小误差，没有量化模型误配的影响。

Joey Hong,Kush Bhatia,Anca D. Dragan

UC Berkeleyreward-modelingalignmenthuman-feedbackProceedings arXiv DBLP

泛读ICLR 2023

Encoding Recurrence into Transformers

Feiqing Huang,Kexin Lu,Yuxi Cai,Zhen Qin,Yanwen Fang,Guangjian Tian,Guodong Li

transformerrecurrencearchitectureProceedings DBLP

泛读ICLR 2023

Transformer-Patcher: One Mistake Worth One Neuron

预训练LM的错误修正面临连续编辑的挑战，现有模型编辑方法只能处理单次错误修正，连续多次编辑会导致之前修正的错误复发、通用知识遗忘。真实工业部署场景下需要持续修正不断出现的新错误，现有方案无法满足需求。

Zeyu Huang,Yikang Shen,Xiaofeng Zhang,Jie Zhou,Wenge Rong,Zhang Xiong

Beihang UniversityTencent AI Labmodel-editingtransformerknowledge-editingProceedings arXiv DBLP

泛读ICLR 2023

Editing models with task arithmetic

Gabriel Ilharco,Marco Túlio Ribeiro,Mitchell Wortsman,Ludwig Schmidt,Hannaneh Hajishirzi,Ali Farhadi

model-mergingtask-arithmeticeditingProceedings DBLP

泛读ICLR 2023

Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs

Albert Qiaochu Jiang,Sean Welleck,Jin Peng Zhou,Timothée Lacroix,Jiacheng Liu,Wenda Li,Mateja Jamnik,Guillaume Lample,Yuhuai Wu

formal-verificationtheorem-provingllm-guidanceProceedings arXiv DBLP

泛读ICLR 2023

LAVA: Data Valuation without Pre-Specified Learning Algorithms

Hoang Anh Just,Feiyang Kang,Tianhao Wang,Yi Zeng,Myeongseob Ko,Ming Jin,Ruoxi Jia

data-valuationdata-selectiontraining-efficiencyProceedings DBLP

泛读ICLR 2023

ChordMixer: A Scalable Neural Attention Model for Sequences with Different Length

Ruslan Khalitov,Tong Yu,Lei Cheng,Zhirong Yang

sequence-modelingefficient-attentionlong-contextProceedings DBLP

泛读ICLR 2023

Provable Memorization Capacity of Transformers

Junghwan Kim,Michelle Kim,Barzan Mozafari

transformermemorizationtheoryProceedings DBLP

泛读ICLR 2023

Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation

LLM 经常用不同的词汇表达相同的语义，导致传统的基于 Token 概率的熵（Token-level Entropy）无法真实反映模型对知识的认知不确定性（Epistemic Uncertainty）。

Lorenz Kuhn,Yarin Gal,Sebastian Farquhar

University of OxforduncertaintynlghallucinationProceedings DBLP

泛读ICLR 2023

Offline Q-learning on Diverse Multi-Task Data Both Scales And Generalizes

离线强化学习（Offline RL）在扩大模型参数时，常因价值高估（Value Overestimation）和训练不稳定而崩溃，无法像 NLP/Vision 模型那样享受 Scaling Law。

Aviral Kumar,Rishabh Agarwal,Xinyang Geng,George Tucker,Sergey Levine

UC BerkeleyGoogleoffline-rlscalingmulti-taskProceedings arXiv DBLP

泛读ICLR 2023

What Makes Convolutional Models Great on Long Sequence Modeling?

这篇论文要回答的是：卷积模型为什么在长序列建模上常常比 Transformer 或 RNN 更稳、更省算，而且长度外推不容易崩。过去很多工作把这种优势归因于实现细节或感受野设计，但缺少把性能来源拆开的系统解释。

Yuhong Li,Tianle Cai,Yi Zhang,Deming Chen,Debadeepta Dey

long-sequenceconvolutionarchitectureProceedings DBLP

泛读ICLR 2023

Sparse Mixture-of-Experts are Domain Generalizable Learners

这篇论文关心的是：稀疏 MoE 不仅能提升参数效率，是否还能天然改善 domain generalization。以往 MoE 大多从扩容和计算效率角度讨论，默认路由带来的专家分工是工程手段，而不是泛化机制；跨域泛化通常由数据增强、IRM 或 domain alignment 一类方法处理。

Bo Li,Yifei Shen,Jingkang Yang,Yezhen Wang,Jiawei Ren,Tong Che,Jun Zhang,Ziwei Liu

moedomain-generalizationsparse-mixtureProceedings DBLP

泛读ICLR 2023

The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers

这篇论文关注一个训练动态问题：Transformer 会自发出现 activation sparsity，也就是一部分神经元越来越少被激活，但这个现象此前更多被当作经验观察，没有被系统解释。过去很多稀疏化工作依赖显式正则或结构剪枝，而不是先理解模型为什么自己就会变稀。

Zonglin Li,Chong You,Srinadh Bhojanapalli,Daliang Li,Ankit Singh Rawat,Sashank J. Reddi ... 省略 1 位作者 ... ,Felix Chern,Felix X. Yu,Ruiqi Guo,Sanjiv Kumar

activation-sparsitytransformerlazy-neuronProceedings DBLP

泛读ICLR 2023

DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only Training

这篇论文解决的是一个很实际的问题：CLIP 有强图文对齐表征，但没有原生生成能力，怎样在不做大规模图文生成训练的情况下，把 CLIP 图像 latent 变成自然语言 caption。过去零样本 captioning 通常依赖检索、prompt engineering 或额外配对数据微调，质量和泛化都受限。

Wei Li,Linchao Zhu,Longyin Wen,Yi Yang

zero-shot-captioningcliptext-only-trainingProceedings DBLP

泛读ICLR 2023

Concept Understanding in Large Language Models: An Empirical Study

这篇论文要回答的核心问题是：大语言模型到底是在“理解概念”，还是主要依赖表面共现和模板线索完成概念相关任务。过去很多工作用下游准确率间接判断概念能力，但这会把记忆、提示技巧和真正的概念泛化混在一起，因此作者转向更细粒度的经验性拆解。

Jiayi Liao,Xu Chen,Lun Du

concept-understandingllmempirical-studyProceedings DBLP

泛读ICLR 2023

Transformers Learn Shortcuts to Automata

这篇论文的核心结论是：Transformer 在学习形式语言或自动机任务时，往往没有学到预期的状态机算法，而是学会了更脆弱的捷径。过去很多工作把在合成序列任务上的高准确率解读为模型具备算法泛化能力，这篇论文专门去拆这个假设。

Bingbin Liu,Jordan T. Ash,Surbhi Goel,Akshay Krishnamurthy,Cyril Zhang

transformerautomatageneralizationProceedings arXiv DBLP

泛读ICLR 2023

What shapes the loss landscape of self supervised learning?

这篇论文要回答的是：自监督学习的 loss landscape 到底由什么决定，尤其是哪些结构因素塑造了优化难度和解的几何。过去 SSL 成功很多，但对其损失面为何有时平滑、有时病态，理解并不系统，这限制了我们对稳定训练和可扩展性的把握。

Liu Ziyin,Ekdeep Singh Lubana,Masahito Ueda,Hidenori Tanaka

self-supervised-learningloss-landscapeoptimizationProceedings arXiv DBLP

泛读ICLR 2023

Omnigrok: Grokking Beyond Algorithmic Data

这篇论文的核心结论是：grokking 不是算法玩具数据上的特例，而是可以在更广泛的数据形态中出现。此前 grokking 常被视为小型算法任务上的奇异现象，因此它对大模型学习动态的外推价值一直有争议，作者试图把这个边界推开。

Ziming Liu,Eric J. Michaud,Max Tegmark

grokkinggeneralizationtraining-dynamicsProceedings DBLP

泛读ICLR 2023

Mind's Eye: Grounded Language Model Reasoning through Simulation

这篇论文要解决的是：语言模型在需要物理或环境约束的推理中，单靠文本统计往往不够，能否通过显式模拟来获得 grounded reasoning。过去 LLM 常在文字推理 benchmark 上表现不错，但一旦涉及隐含状态演化、空间关系或交互后果，纯文本链式推理容易脱离真实世界约束。

Ruibo Liu,Jason Wei,Shixiang Shane Gu,Te-Yen Wu,Soroush Vosoughi,Claire Cui,Denny Zhou,Andrew M. Dai

grounded-reasoninglanguage-modelsimulationProceedings DBLP

泛读ICLR 2023

Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning

解决大型语言模型在半结构化数学推理（如包含表格、文本的数学题）中，由于提示（prompt）选择不当导致性能不稳定的问题。静态或启发式选择的few-shot prompt难以适应多样化的题目。

Pan Lu,Liang Qiu,Kai-Wei Chang,Ying Nian Wu,Song-Chun Zhu,Tanmay Rajpurohit,Peter Clark,Ashwin Kalyan

University of California, Los AngelesPeking Universitypromptingpolicy-gradientreasoningProceedings DBLP

泛读ICLR 2023

Prompt Engineering and Calibration for Zero-Shot Commonsense Reasoning

解决大型语言模型在零样本常识推理（Zero-Shot Commonsense Reasoning）任务中，由于prompt设计和模型输出概率校准（calibration）不佳导致性能波动的问题。

Chenkai Ma

University of California, San Diegopromptingcalibrationzero-shotProceedings DBLP

泛读ICLR 2023

Fuzzy Alignments in Directed Acyclic Graph for Non-Autoregressive Machine Translation

解决非自回归机器翻译（NAT）中，由于目标端词汇的条件独立性假设导致的“多模态问题”（即模型在多个可能的正确翻译中犹豫，导致输出重复或遗漏）。以往的NAT模型通常依赖于知识蒸馏或复杂的迭代细化来缓解此问题。

Zhengrui Ma,Chenze Shao,Shangtong Gui,Min Zhang,Yang Feng

Institute of Computing Technology, Chinese Academy of SciencesUniversity of Oxfordnon-autoregressivemachine-translationalignmentProceedings DBLP

泛读ICLR 2023

VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training

解决强化学习（RL）中奖励函数设计困难和视觉表示泛化性差的问题。以往的方法通常需要为每个任务手动设计奖励，或者依赖于特定领域的预训练表示，难以实现跨任务的通用性。

Yecheng Jason Ma,Shagun Sodhani,Dinesh Jayaraman,Osbert Bastani,Vikash Kumar,Amy Zhang

University of PennsylvaniaMeta AIrepresentation-learningrlpretrainingProceedings arXiv DBLP

泛读ICLR 2023

Linearly Mapping from Image to Text Space

这篇论文要回答的是：冻结的纯文本语言模型和纯视觉模型，是否已经学到了足够相似的概念空间，以至于只用一个线性映射就能把图像表示接到语言空间里。过去常见做法需要联合调图像编码器或语言模型，默认跨模态对齐需要较强非线性适配；作者在检验一个更强、更冒险的假设。

Jack Merullo,Louis Castricato,Carsten Eickhoff,Ellie Pavlick

vision-languagerepresentation-alignmentfrozen-lmProceedings arXiv DBLP

泛读ICLR 2023

MA-BERT: Towards Matrix Arithmetic-only BERT Inference by Eliminating Complex Non-Linear Functions

这篇论文要解决的是 BERT 推理中的复杂非线性函数开销，目标是把推理尽量变成矩阵算术操作。问题背景很实际：在边缘设备或专用硬件上，GELU、Softmax、LayerNorm 这类非线性和归一化往往比矩阵乘本身更难高效部署。

Neo Wei Ming,Zhehui Wang,Cheng Liu,Rick Siow Mong Goh,Tao Luo

bertinferenceefficient-inferenceProceedings DBLP

泛读ICLR 2023

Characterizing intrinsic compositionality in transformers with Tree Projections

这篇论文要解决的是一个机制层面的核心问题：Transformer 在语言上成功，到底是靠任意全连接的信息路由，还是在训练后自发收敛到更接近树状、层次化的组合计算。过去关于组合性的大量讨论往往停留在行为层面，难以直接刻画模型内部是否真的在做近似树结构的计算。

Shikhar Murty,Pratyusha Sharma,Jacob Andreas,Christopher D. Manning

transformerscompositionalityinterpretabilityProceedings arXiv DBLP

泛读ICLR 2023

Progress measures for grokking via mechanistic interpretability

作者要解决的是：像 grokking 这种看似“突然涌现”的能力变化，能否用连续的进度量（progress measures）来解释并提前预测。以往对涌现的解释常停留在现象描述或宏观指标（loss/acc），难以指出模型内部到底“学会了什么组件”。

Neel Nanda,Lawrence Chan,Tom Lieberum,Jess Smith,Jacob Steinhardt

grokkingmechanistic-interpretabilityemergenceProceedings arXiv DBLP

泛读ICLR 2023

Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models

作者要解决的是：纯参数化 LM 需要用大量参数“存知识”，既昂贵又难以随世界知识更新，而传统检索增强又常把检索当作外接模块，难以让模型在不同知识类型间自适应选择。过去的次优方案要么继续堆参数，要么做单一来源的 RAG，导致覆盖面与可控性不足。

Xiaoman Pan,Wenlin Yao,Hongming Zhang,Dian Yu,Dong Yu,Jianshu Chen

semi-parametricknowledge-injectionlanguage-modelingProceedings arXiv DBLP

泛读ICLR 2023

Bidirectional Language Models Are Also Few-shot Learners

作者要解决的是：双向去噪预训练（如 MLM）的模型通常被认为不适合像 GPT 那样做 few-shot prompting，因为其训练目标不是左到右生成，导致“如何把任务写成 prompt 并解码”不自然。过去因此把 few-shot 能力几乎等同于自回归（AR）LM 的专属优势。

Ajay Patel,Bryan Li,Mohammad Sadegh Rasooli,Noah Constant,Colin Raffel,Chris Callison-Burch

bidirectional-lmfew-shot-learningpromptingProceedings arXiv DBLP

泛读ICLR 2023

On the Usefulness of Embeddings, Clusters and Strings for Text Generation Evaluation

文本生成自动评测到底应该在哪个空间比较：字符串（BLEU/ROUGE）、embedding（BERTScore/MAUVE）、还是 cluster？本文给一个统一的分析框架来评估这些指标的信息性和缺陷。

Tiago Pimentel,Clara Meister,Ryan Cotterell

ETH ZürichUniversity of Cambridgeevaluationtext-generationembeddingsProceedings DBLP

泛读ICLR 2023

Formal Mathematics Statement Curriculum Learning

形式化数学定理证明里最大障碍之一是训练分布与目标分布之间的巨大 gap：模型会的都是简单引理，想证明的是奥数级命题，中间没有 curriculum。本文想用'语句课程学习'把这条路打通。

Stanislas Polu,Jesse Michael Han,Kunhao Zheng,Mantas Baksys,Igor Babuschkin,Ilya Sutskever

OpenAIcurriculum-learningformal-reasoningdata-generationProceedings DBLP

泛读ICLR 2023

Data Continuity Matters: Improving Sequence Modeling with Lipschitz Regularizer

序列模型（尤其是 Transformer）在输入扰动下输出可能剧烈变化，作者认为这种'数据连续性'缺失是泛化差和鲁棒性差的共同源头，想用 Lipschitz 正则化显式约束。

Eric Qu,Xufang Luo,Dongsheng Li

Microsoft Research Asiasequence-modelinglipschitzregularizationProceedings DBLP

泛读ICLR 2023

DiffusER: Diffusion via Edit-based Reconstruction

Machel Reid,Vincent Josua Hellendoorn,Graham Neubig

diffusionreconstructioneditingProceedings DBLP

泛读ICLR 2023

Generative Modelling with Inverse Heat Dissipation

Severi Rissanen,Markus Heinonen,Arno Solin

generative-modelingdiffusioninverse-processProceedings arXiv DBLP

泛读ICLR 2023

Attention-likelihood relationship in Transformers

Valeria Ruscio,Valentino Maiorca,Fabrizio Silvestri

attentiontransformerinterpretabilityProceedings DBLP

泛读ICLR 2023

Is a Caption Worth a Thousand Images? A Study on Representation Learning

Shibani Santurkar,Yann Dubois,Rohan Taori,Percy Liang,Tatsunori Hashimoto

captioningrepresentation-learningvision-languageProceedings DBLP

泛读ICLR 2023

Compositional Task Representations for Large Language Models

大语言模型在面对复杂、未见过的组合任务时，难以有效地复用其在简单子任务上学到的能力。

Nan Shao,Zefan Cai,Hanwei Xu,Chonghua Liao,Yanan Zheng,Zhilin Yang

llmtask-compositionpromptingProceedings DBLP

泛读ICLR 2023

The Trade-off between Universality and Label Efficiency of Representations from Contrastive Learning

在对比学习预训练中，业界普遍追求一个“完美”的表征，但表征在广泛下游任务上的通用性（Universality）与在特定任务上的标签效率（Label Efficiency）之间是否存在冲突，一直缺乏理论和实证分析。

Zhenmei Shi,Jiefeng Chen,Kunyang Li,Jayaram Raghuram,Xi Wu,Yingyu Liang,Somesh Jha

University of Wisconsin-Madisoncontrastive-learningrepresentation-learningscaling-lawsProceedings arXiv DBLP

泛读ICLR 2023

Language models are multilingual chain-of-thought reasoners

LLM 的复杂推理能力（如 CoT）主要在英文语料上涌现，尚不清楚这种能力能否泛化到预训练占比极低的非英语种，尤其是资源匮乏的语言。

Freda Shi,Mirac Suzgun,Markus Freitag,Xuezhi Wang,Suraj Srivats,Soroush Vosoughi ... 省略 2 位作者 ... ,Sebastian Ruder,Denny Zhou,Dipanjan Das,Jason Wei

Google Researchmultilingualchain-of-thoughtbenchmarkProceedings arXiv DBLP

泛读ICLR 2023

Prompting GPT-3 To Be Reliable

尽管 GPT-3 等商业 API 展现了强大的少样本能力，但其在实际应用中的可靠性（如泛化性、社会偏见、校准度和事实性）往往不佳，且缺乏系统性的改进方法。

Chenglei Si,Zhe Gan,Zhengyuan Yang,Shuohang Wang,Jianfeng Wang,Jordan L. Boyd-Graber,Lijuan Wang

Microsoftpromptingreliabilitygpt-3Proceedings arXiv DBLP

泛读ICLR 2023

Metadata Archaeology: Unearthing Data Subsets by Leveraging Training Dynamics

预训练语料库规模庞大且充满噪声，传统基于静态规则或启发式的方法难以深入挖掘数据内部的潜在结构（如难度、领域分布或错误标签）。

Shoaib Ahmed Siddiqui,Nitarshan Rajkumar,Tegan Maharaj,David Krueger,Sara Hooker

Cohere For AIdata-qualitytraining-dynamicsProceedings DBLP

泛读ICLR 2023

Recitation-Augmented Language Models

这篇论文要解决的问题是：闭卷语言模型明明存了不少事实，但在直接回答知识密集型问题时经常提取失败。过去两条主路分别是直接 answer 或外部 retrieval；作者提出第三条路：不接外部语料，先让模型从自身参数记忆里“背诵”相关段落，再基于这段中间文本作答。

Zhiqing Sun,Xuezhi Wang,Yi Tay,Yiming Yang,Denny Zhou

Google ResearchragknowledgepromptingProceedings arXiv DBLP

泛读ICLR 2023

Task Ambiguity in Humans and Language Models

这篇论文要解决的问题是：真实任务经常是含糊指定的，用户意图需要从指令、上下文和少量示例共同推断，但主流 benchmark 往往把任务定义得过于清楚，掩盖了模型在“任务判别”上的短板。换句话说，大家常测的是已知任务上的执行能力，而不是面对歧义时的任务识别能力。

Alex Tamkin,Kunal Handa,Avash Shrestha,Noah D. Goodman

Stanford Universitytask-ambiguitybenchmarkinstructionProceedings arXiv DBLP

泛读ICLR 2023

Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions

按标题看，Phenaki 要解决的是开放域文本到视频生成里的一个难点：如何生成可变长度视频，而不是被固定帧数或固定时长限制。大多数早期文本视频模型要么生成很短片段，要么靠逐段拼接，难以在长时长下维持语义连贯和计算可控。题面无摘要，因此这里只做保守总结。

Ruben Villegas,Mohammad Babaeizadeh,Pieter-Jan Kindermans,Hernan Moraldo,Han Zhang,Mohammad Taghi Saffar,Santiago Castro,Julius Kunze,Dumitru Erhan

Googlevideo-generationautoregressivetext-to-videoProceedings DBLP

泛读ICLR 2023

Mole-BERT: Rethinking Pre-training Graph Neural Networks for Molecules

这篇论文要解决的是：分子图上的 GNN 预训练长期效果不稳定，很多自监督目标在分子领域并没有像 NLP/视觉那样带来稳定收益。过去方法常直接迁移图对比学习或属性掩码，但忽略了分子图离散语义细、原子/子结构词表缺失的问题，所以作者重新审视“分子图到底该预训练什么”。

Jun Xia,Chengshuai Zhao,Bozhen Hu,Zhangyang Gao,Cheng Tan,Yue Liu,Siyuan Li,Stan Z. Li

pretrainingmasked-modelingtokenizerProceedings DBLP

泛读ICLR 2023

$k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest Neighbor Inference

这篇论文要解决的是：标准 in-context learning 受上下文窗口限制，而且 few-shot prompt 的示例选择和顺序高度敏感，常常还需要额外 calibration。作者想把“示例检索”从 prompt 内部挪到 prompt 外部，用 kNN 推断补足上下文学习的覆盖范围。

Benfeng Xu,Quan Wang,Zhendong Mao,Yajuan Lyu,Qiaoqiao She,Yongdong Zhang

in-context-learningretrievalknnProceedings DBLP

泛读ICLR 2023

Stable Target Field for Reduced Variance Score Estimation in Diffusion Models

这篇论文的核心结论是：扩散模型训练里的一个重要噪声源来自中间噪声尺度下 score target 的高方差，而不是所有时间步都同样难。过去 denoising score matching 默认直接用单样本目标，但在中间噪声区间，多模态数据会让反向路径方向不稳定，导致目标方差大、训练效率低。

Yilun Xu,Shangyuan Tong,Tommi S. Jaakkola

diffusionscore-matchingvariance-reductionProceedings arXiv DBLP

泛读ICLR 2023

CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Alignment

如何有效地将预训练的图文模型（如 CLIP）迁移到视频-语言对齐任务（post-pretraining）。过去通常直接在视频数据上微调，但受限于视频描述数据的规模和图文/视频-文本之间的领域差异，性能提升有限。

Hongwei Xue,Yuchong Sun,Bei Liu,Jianlong Fu,Ruihua Song,Houqiang Li,Jiebo Luo

Microsoft Research AsiaUniversity of Science and Technology of Chinaclipvideo-languagealignmentProceedings arXiv DBLP

泛读ICLR 2023

TempCLR: Temporal Alignment Representation with Contrastive Learning

在长视频-文本预训练中，现有的对比学习方法通常只在句子-片段（sentence-clip）级别进行匹配，忽略了全局的时序上下文（temporal context），导致模型难以理解长视频的整体逻辑和时序依赖。

Yuncong Yang,Jiawei Ma,Shiyuan Huang,Long Chen,Xudong Lin,Guangxing Han,Shih-Fu Chang

Columbia UniversityTencent AI Labvideo-textcontrastive-learningrepresentation-learningProceedings arXiv DBLP

泛读ICLR 2023

Dichotomy of Control: Separating What You Can Control from What You Cannot

在离线强化学习中，基于回报条件（return-conditioned）的监督学习方法（如 Decision Transformer）在高度随机的环境中表现不佳。因为高回报可能是由环境的随机性（不可控因素）带来的，而非策略本身（可控因素），导致模型学习到不一致的策略。

Sherry Yang,Dale Schuurmans,Pieter Abbeel,Ofir Nachum

Google BrainUC Berkeleyoffline-rldecision-transformerconditioningProceedings arXiv DBLP

泛读ICLR 2023

Unified Detoxifying and Debiasing in Language Generation via Inference-time Adaptive Optimization

预训练语言模型在生成文本时容易产生有害内容（毒性）和偏见。过去的方法通常将去毒（detoxifying）和去偏（debiasing）分开处理，但作者发现这会导致“按下葫芦浮起瓢”：去偏后的模型仍有毒性，而去毒后的模型甚至会加剧社会偏见。

Zonghan Yang,Xiaoyuan Yi,Peng Li,Yang Liu,Xing Xie

Tsinghua UniversityMicrosoft Research AsiaalignmenttoxicitydebiasingProceedings arXiv DBLP

泛读ICLR 2023

StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training

文档图像预训练（Document Image Pre-training）通常需要处理视觉、文本和布局等多模态信息。现有的方法往往依赖于复杂的 OCR 引擎提取文本，或者在预训练目标上未能充分融合视觉和文本的深层交互。

Yuechen Yu,Yulin Li,Chengquan Zhang,Xiaoqiang Zhang,Zengyuan Guo,Xiameng Qin,Kun Yao,Junyu Han,Errui Ding,Jingdong Wang

Baidu Inc.document-understandingmasked-modelingvision-languageProceedings DBLP

泛读ICLR 2023

When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It?

这篇论文要回答的核心问题是：很多视觉-语言模型并没有真正建模词序和组合语义，而是在相当多场景下退化成“词袋匹配器”。过去这件事常被零样本准确率掩盖，因为常规 benchmark 更奖励对象共现而不是关系理解；作者认为随着 VLM 被用于更细粒度推理，这个缺陷已经不能再回避。

Mert Yüksekgönül,Federico Bianchi,Pratyusha Kalluri,Dan Jurafsky,James Zou

Stanford Universityvlminterpretabilitybag-of-wordsProceedings DBLP

泛读ICLR 2023

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language

这篇论文要解决的是：能否不重新训练一个统一多模态大模型，而是把现成的单模态基础模型通过语言接口组合起来，完成零样本多模态推理。过去主流路线是端到端联合训练，但成本高、数据要求重，而且每加一种模态都要重新做对齐。

Andy Zeng,Maria Attarian,Brian Ichter,Krzysztof Marcin Choromanski,Adrian Wong,Stefan Welker ... 省略 3 位作者 ... ,Vikas Sindhwani,Johnny Lee,Vincent Vanhoucke,Pete Florence

Google Researchmultimodal-reasoningzero-shotcompositionalityProceedings DBLP

泛读ICLR 2023

Simple Parameter-free Self-attention Approximation

这篇论文要解决的是自注意力的二次复杂度和实现开销问题，但不想再引入额外可学习参数或复杂近似器。已有高效注意力方法往往要么改动较大、要么依赖核技巧/低秩假设，速度和精度 trade-off 不稳定。

Yuwen Zhai,Jing Hao,Liang Gao,Xinyu Li,Yiping Gao,Shumin Han

self-attentionapproximationparameter-freeProceedings DBLP

泛读ICLR 2023

TEMPERA: Test-Time Prompt Editing via Reinforcement Learning

这篇论文解决的是大语言模型在测试时 prompt 很敏感，但人工改 prompt 成本高且不可泛化的问题。过去常见做法是离线 prompt engineering 或基于验证集搜索，难以针对单个输入动态调整。

Tianjun Zhang,Xuezhi Wang,Denny Zhou,Dale Schuurmans,Joseph E. Gonzalez

Google ResearchUniversity of California, Berkeleyprompt-editingtest-timereinforcement-learningProceedings DBLP

泛读ICLR 2023

Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

这篇论文解决的是参数高效微调里预算如何分配的问题。LoRA、adapter、prefix 等方法通常给每层分配相同 rank 或相同参数量，但不同层对任务适配的重要性并不一样，平均分配往往浪费预算。

Qingru Zhang,Minshuo Chen,Alexander Bukharin,Pengcheng He,Yu Cheng,Weizhu Chen,Tuo Zhao

Microsoft Researchparameter-efficient-fine-tuningpeftbudget-allocationProceedings DBLP

泛读ICLR 2023

Effectively Modeling Time Series with Simple Discrete State Spaces

这篇论文要解决的是：时间序列建模里，S4等连续状态空间模型（SSM）很强但实现复杂、训练不稳定且算子重，导致工程上难以像Transformer那样普及。以往常见的次优做法是退回到RNN/TCN或用简化版SSM但牺牲长程依赖能力。

Michael Zhang,Khaled Kamal Saab,Michael Poli,Tri Dao,Karan Goel,Christopher Ré

time-seriesdiscrete-state-spacessequence-modelingProceedings DBLP

泛读ICLR 2023

Not All Tasks Are Born Equal: Understanding Zero-Shot Generalization

这篇论文要解决的是：零样本泛化（zero-shot）在不同任务上差异巨大，但社区常把它当作单一能力来讨论，导致评测与训练信号设计缺乏针对性。以往的次优做法是用平均分掩盖任务间难度与可迁移性差异。

Jing Zhou,Zongyu Lin,Yanan Zheng,Jian Li,Zhilin Yang

zero-shotgeneralizationtask-distributionProceedings DBLP

泛读ICLR 2023

Win: Weight-Decay-Integrated Nesterov Acceleration for Adaptive Gradient Algorithms

这篇论文要解决的是：AdamW把权重衰减（weight decay）与自适应梯度更新解耦后更好用，但在带动量/加速（如Nesterov）与自适应算法结合时，权重衰减的实现细节仍会影响收敛与泛化。以往很多实现把weight decay当作简单的L2项或事后缩放，理论与实践不一致。

Pan Zhou,Xingyu Xie,Shuicheng Yan

optimizerweight-decaytraining-stabilityProceedings DBLP

泛读ICLR 2023

Discrete Contrastive Diffusion for Cross-Modal Music and Image Generation

Ye Zhu,Yu Wu,Kyle Olszewski,Jian Ren,Sergey Tulyakov,Yan Yan

diffusioncross-modalmusic-generationProceedings DBLP

泛读ICLR 2023

Diffusion Probabilistic Fields

Peiye Zhuang,Samira Abnar,Jiatao Gu,Alexander G. Schwing,Joshua M. Susskind,Miguel Ángel Bautista

diffusionenergy-basedscore-matchingProceedings DBLP

泛读ICLR 2023

How I Learned to Stop Worrying and Love Retraining

Max Zimmer,Christoph Spiegel,Sebastian Pokutta

continual-pretrainretrainingdata-driftProceedings DBLP

泛读ICLR 2023

Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization

Difan Zou,Yuan Cao,Yuanzhi Li,Quanquan Gu

adamoptimizationgeneralizationProceedings DBLP

泛读ICLR 2023

LexMAE: Lexicon-Bottlenecked Pretraining for Large-Scale Retrieval

把 MLM 预训练得到的 lexicon 权重直接拿去做稀疏检索（SPLADE 一脉）效果不理想，根本原因是 MLM 目标偏爱低熵的确定性词（the/a 这种），而检索需要的是高熵的 pivot 词。这个 objective mismatch 一直靠下游 fine-tune 硬拗。

Tao Shen,Xiubo Geng,Chongyang Tao,Can Xu,Xiaolong Huang,Binxing Jiao,Linjun Yang,Daxin Jiang

MicrosoftUniversity of Technology Sydneymasked-lmretrievalpretrainingProceedings arXiv DBLP

泛读ICLR 2023

Masked Frequency Modeling for Self-Supervised Visual Pre-Training

MIM（MAE/BEiT 一脉）在 pixel/patch 空间 mask-and-predict，但图像在空间域冗余极高（相邻像素几乎相同），导致 mask 任务要么太容易要么信号稀。能不能换个域做 mask-and-predict，让任务的信息结构更合理？

Jiahao Xie,Wei Li,Xiaohang Zhan,Ziwei Liu,Yew-Soon Ong,Chen Change Loy

Nanyang Technological UniversityS-LabMicrosoftvision-pretrainingmasked-modelingfrequencyProceedings arXiv DBLP

泛读ICLR 2023

Learning Locality and Isotropy in Dialogue Modeling

预训练 Transformer 产出的对话上下文表示有两个已知毛病：anisotropy（表示集中在窄锥，区分度差）和缺失 conversation 结构（同一段对话里谁先谁后、谁和谁是一轮的关系被抹掉）。已有各向同性校正方法只解决前者。

Han Wu,Haochen Tan,Mingjie Zhan,Gangming Zhao,Shaoqing Lu,Ding Liang,Linqi Song

dialoguerepresentation-learninganisotropyProceedings arXiv DBLP

泛读ICLR 2023

Learning to Decompose Visual Features with Latent Textual Prompts

CLIP 在下游用起来很尴尬：zero-shot 依赖人写 prompt，描述不准就掉点且鲁棒性差；linear probing 抛开了文本分支，破坏了 CLIP 辛苦学到的 vision-language 对齐。想要一种既用上文本分支、又不依赖人写 prompt 的下游方法。

Feng Wang,Manling Li,Xudong Lin,Hairong Lv,Alexander G. Schwing,Heng Ji

Tsinghua UniversityUIUCvlmpromptingclipProceedings arXiv DBLP

泛读ICLR 2023

Model Extraction Attacks on Arabic BERT-Based APIs

Hassan Abbelkarim,Mohammed Eltahir,Khalid N. Elmadani,Anas Showk

model-extractionsecuritybertProceedings DBLP

泛读ICLR 2023

Interpretable Debiasing of Vectorized Language Representations with Iterative Orthogonalization

Prince Osei Aboagye,Yan Zheng,Jack Shunn,Chin-Chia Michael Yeh,Junpeng Wang,Zhongfang Zhuang,Huiyuan Chen,Liang Wang,Wei Zhang,Jeff M. Phillips

debiasingrepresentation-learningembeddingProceedings DBLP

ICLR 2023

The Obscure Limitation of Modular Multilingual Language Models

现有模块化多语言大模型评估默认省略语言识别（LID）模块，掩盖了未知语言输入的真实推理场景下的性能缺陷，过往评估假设输入语言已知，不符合落地需求。

Muhammad Farid Adilazuarda,Samuel Cahyawijaya,Ayu Purwarianti

multilingualmodular-modelslanguage-identificationProceedings arXiv DBLP

泛读ICLR 2023

Compound Tokens: Channel Fusion for Vision-Language Representation Learning

现有视觉语言融合方法要么直接拼接单模态表征，要么仅使用交叉注意力，对齐效率低，无法充分捕捉跨模态细粒度对应关系。

Maxwell Mbabilla Aladago,A. J. Piergiovanni

vlmfusiontoken-mixingProceedings arXiv DBLP

泛读ICLR 2023

Building Normalizing Flows with Stochastic Interpolants

传统归一化流的最大似然训练需要通过ODE求解器反向传播，计算成本极高，限制了归一化流在大规模生成任务上的应用。

Michael S. Albergo,Eric Vanden-Eijnden

normalizing-flowsstochastic-interpolantscontinuous-timeProceedings arXiv DBLP

泛读ICLR 2023

Does Deep Learning Learn to Abstract? A Systematic Probing Framework

现有研究缺乏对预训练语言模型抽象能力的定量评估框架，无法确认大模型是否真的具备从具体实例归纳抽象概念并迁移到未知场景的能力。

Shengnan An,Zeqi Lin,Bei Chen,Qiang Fu,Nanning Zheng,Jian-Guang Lou

abstractionprobinggeneralizationProceedings arXiv DBLP

ICLR 2023

The hidden uniform cluster prior in self-supervised learning

主流基于小批量统计的自监督预训练方法（SimCLR、VICReg等）都隐含了特征均匀聚类的先验，在类别不平衡的真实数据集上会损害表征质量，过往研究默认该先验总是有益的。

Mido Assran,Randall Balestriero,Quentin Duval,Florian Bordes,Ishan Misra,Piotr Bojanowski,Pascal Vincent,Michael G. Rabbat,Nicolas Ballas

Meta AIself-supervised-learningrepresentation-learningclusteringProceedings arXiv DBLP

泛读ICLR 2023

Training language models to summarize narratives improves brain alignment

无法确认在长文本叙事任务上训练的语言模型是真的理解了文本语义，还是只学到了完成任务的启发式规则，缺乏客观评估标准。

Khai Loong Aw,Mariya Toneva

long-contextsummarizationtraining-objectiveProceedings arXiv DBLP

泛读ICLR 2023

Token Merging: Your ViT But Faster

ViT 模型由于注意力的二次复杂度和庞大的 token 数量导致计算成本极高，以往通过剪枝（损失信息）或修改架构（需重新训练）来缓解，缺乏即插即用的加速方案。

Daniel Bolya,Cheng-Yang Fu,Xiaoliang Dai,Peizhao Zhang,Christoph Feichtenhofer,Judy Hoffman

Meta AIGeorgia Techvittoken-merginginferenceProceedings arXiv DBLP

泛读ICLR 2023

Language Models are Realistic Tabular Data Generators

表格数据生成通常依赖 GAN 或 VAE，这些模型难以处理异构数据类型（分类/连续）和复杂的特征依赖，而具有强大生成能力的 LLM 却很少被用于此领域。

Vadim Borisov,Kathrin Seßler,Tobias Leemann,Martin Pawelczyk,Gjergji Kasneci

University of TübingenBosch Center for Artificial Intelligencetabularlm-applicationgenerationProceedings arXiv DBLP

泛读ICLR 2023

HypeR: Multitask Hyper-Prompted Training Enables Large-Scale Retrieval Generalization

稠密检索模型通常难以在没有域内微调的情况下泛化到未见过的任务，而标准的多任务学习往往会因为不同检索任务的异构性导致负迁移。

Zefeng Cai,Chongyang Tao,Tao Shen,Can Xu,Xiubo Geng,Xin Alex Lin,Liang He,Daxin Jiang

MicrosoftTsinghua UniversityretrievalmultitaskpromptProceedings DBLP

泛读ICLR 2023

Sampling is as easy as learning the score: theory for diffusion models with minimal data assumptions

尽管扩散模型在经验上取得了巨大成功，但其采样过程收敛的理论保证通常依赖于对数据分布的强假设（如平滑性、对数凹性或有界支持），而这些假设在真实的图像/文本数据上根本不成立。

Sitan Chen,Sinho Chewi,Jerry Li,Yuanzhi Li,Adil Salim,Anru Zhang

UC BerkeleyMITStanford University+1diffusion-theoryscore-matchingsamplingProceedings DBLP

泛读ICLR 2023

Which Layer is Learning Faster? A Systematic Exploration of Layer-wise Convergence Rate for Deep Neural Networks

深度神经网络的不同层学习速度不同是共识，但缺乏一个系统性的指标和大规模实证研究来量化不同架构和任务下的逐层收敛速度，这阻碍了对预训练动态的精细优化。

Yixiong Chen,Alan L. Yuille,Zongwei Zhou

Johns Hopkins Universityconvergence-ratelayer-wisetraining-dynamicsProceedings DBLP

泛读ICLR 2023

CodeT: Code Generation with Generated Tests

这篇论文要解决的是：代码生成模型常常会写出“看起来对”但执行不对的程序，而训练和解码阶段通常没有把可执行测试作为强约束用好。以往方法多依赖静态文本监督或 pass@k 采样碰运气，缺少一个能把测试信号系统接进生成流程的统一办法。

Bei Chen,Fengji Zhang,Anh Nguyen,Daoguang Zan,Zeqi Lin,Jian-Guang Lou,Weizhu Chen

code-generationtest-generationllmProceedings DBLP

泛读ICLR 2023

Parameter-Efficient Fine-Tuning Design Spaces

这篇论文要解决的是：参数高效微调（PEFT）方法很多，但它们的设计空间缺少统一比较框架，导致实践里常常靠经验选 LoRA、adapter、prefix 或 bias tuning，而不是基于清晰的机制判断。这个问题之所以值得重新系统化，是因为大模型时代微调成本已从“能不能训”变成“同样预算下怎样设计最值”。

Jiaao Chen,Aston Zhang,Xingjian Shi,Mu Li,Alex Smola,Diyi Yang

parameter-efficientfine-tuningdesign-spaceProceedings DBLP

泛读ICLR 2023

Binding Language Models in Symbolic Languages

这篇论文要解决的是：标准语言模型擅长在自然语言里做近似模式匹配，但在需要精确绑定变量、作用域和符号引用的符号语言中，经常因为缺少显式 binding 机制而出错。以前这类问题通常靠外部解析器、手工特征或把任务限定在浅层模式上规避，现在作者尝试让 LM 直接学习更可靠的符号绑定。

Zhoujun Cheng,Tianbao Xie,Peng Shi,Chengzu Li,Rahul Nadkarni,Yushi Hu ... 省略 2 位作者 ... ,Mari Ostendorf,Luke Zettlemoyer,Noah A. Smith,Tao Yu

llmsymbolic-languagegroundingProceedings DBLP

泛读ICLR 2023

Loss Landscapes are All You Need: Neural Network Generalization Can Be Explained Without the Implicit Bias of Gradient Descent

这篇论文要解决的是：神经网络泛化究竟主要来自梯度下降的隐式偏置，还是来自损失地形本身。过去很多工作把优化器路径看成核心解释，但这篇论文认为，只看 loss landscape 的结构就足以解释大部分泛化现象，不必把结论绑定到特定梯度下降动态上。

Ping-yeh Chiang,Renkun Ni,David Yu Miller,Arpit Bansal,Jonas Geiping,Micah Goldblum,Tom Goldstein

loss-landscapegeneralizationimplicit-biasProceedings DBLP

泛读ICLR 2023

Promptagator: Few-shot Dense Retrieval From 8 Examples

这篇论文要解决的是：稠密检索任务高度异质，指望从一个大监督检索任务迁移到所有其他任务往往不现实，但很多目标场景又只有极少标注。过去常见思路是做通用 retriever 或依赖零样本迁移，作者则把问题重定义为 few-shot dense retrieval：每个任务只给简短描述和极少样例，能否快速造出任务专属检索器。

Zhuyun Dai,Vincent Y. Zhao,Ji Ma,Yi Luan,Jianmo Ni,Jing Lu,Anton Bakalov,Kelvin Guu,Keith B. Hall,Ming-Wei Chang

Google Researchdense-retrievalfew-shotpromptingProceedings arXiv DBLP

泛读ICLR 2023

Identifiability Results for Multimodal Contrastive Learning

这篇论文要解决的是：在真正的多模态对比学习里，不同模态由不同生成机制产生时，是否还能从对比目标中可识别地恢复共享潜变量。此前可识别性结果大多建立在 multi-view 假设上，即不同视角共享同一种生成机制；这对图文、音文这类异构模态并不贴切，所以作者把问题从 multi-view 推进到 multimodal。

Imant Daunhawer,Alice Bizeul,Emanuele Palumbo,Alexander Marx,Julia E. Vogt

contrastive-learningmultimodalrepresentation-learningProceedings arXiv DBLP

泛读ICLR 2023

Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?

这篇论文要解决的是：3D 自监督表示学习数据稀缺、标签昂贵，能否直接借助在 2D 图像或语言上预训练好的 Transformer 作为跨模态教师来提升 3D 表征。过去跨模态迁移常停留在初始化或蒸馏 feature 层面，作者想把 masked modeling 重新解释成一种统一的知识蒸馏过程，让 2D/文本基础模型真正参与 3D 预训练。

Runpei Dong,Zekun Qi,Linfeng Zhang,Junbo Zhang,Jianjian Sun,Zheng Ge,Li Yi,Kaisheng Ma

cross-modalmasked-modelingrepresentation-learningProceedings arXiv DBLP

泛读ICLR 2023

Compositional Semantic Parsing with Large Language Models

这篇论文要解决的是：大语言模型在更真实的组合式语义解析任务上，如何从“会做一些人工合成任务”走向“在大词表和复杂结构下仍能组合泛化”。此前 SCAN 一类结果说明 prompt 技巧可能有用，但现实语义解析比 SCAN 更难，单纯 few-shot 或 chain-of-thought 往往不够稳定。

Andrew Drozdov,Nathanael Schärli,Ekin Akyürek,Nathan Scales,Xinying Song,Xinyun Chen,Olivier Bousquet,Denny Zhou

llmpromptingcompositionalityProceedings arXiv DBLP

泛读ICLR 2023

Using Language to Extend to Unseen Domains

这篇论文的核心问题从标题可判断为：能否利用自然语言来帮助模型泛化到未见域。传统 domain generalization 往往只在视觉特征空间里做不变性学习，但未见域的变化常常难以仅靠训练域统计覆盖；语言提供了更抽象、可组合的域描述，作者显然在探索把这种描述变成泛化信号。

Lisa Dunlap,Clara Mohri,Devin Guillory,Han Zhang,Trevor Darrell,Joseph E. Gonzalez,Aditi Raghunathan,Anna Rohrbach

language-supervisiondomain-generalizationrepresentation-learningProceedings DBLP

泛读ICLR 2023

Corrupted Image Modeling for Self-Supervised Visual Pre-Training

从标题看，这篇论文要解决的是：标准 masked image modeling 之外，是否可以通过“腐化图像建模”得到更强的自监督视觉预训练信号。传统 MIM 主要依赖遮挡重建，但遮挡是一种很单一的破坏方式；如果预训练目标只适应这种破坏，学到的表示可能不够鲁棒，也未必最贴近真实视觉退化。

Yuxin Fang,Li Dong,Hangbo Bao,Xinggang Wang,Furu Wei

self-supervisedvisual-pretrainingmasked-modelingProceedings DBLP

泛读ICLR 2023

RETHINKING POSITIONAL EMBEDDING: A CASE STUDY IN TEMPORAL EVENT SEQUENCE MODELLING

从标题看，这篇论文关注的是：在时间事件序列建模中，位置编码该如何设计，现有 positional embedding 是否并不适合这类非均匀时间结构。标准 Transformer 位置编码默认 token 间隔规则、顺序主导，但事件序列往往同时包含顺序和真实时间间隔，直接套用 NLP 位置编码可能是次优的。

Effat Farhana

positional-embeddingsequence-modelingarchitectureProceedings DBLP

泛读ICLR 2023

Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis

从标题看，这篇论文要解决的是：在文本到图像扩散模型中，如何在不额外训练的前提下加入结构化引导，以提升组合式生成。现有 compositional T2I 常依赖额外控制网络、微调或复杂 prompt engineering；作者显然想要一种 training-free 的 guidance，让已有扩散模型更好地遵守对象关系或布局约束。

Weixi Feng,Xuehai He,Tsu-Jui Fu,Varun Jampani,Arjun R. Akula,Pradyumna Narayana,Sugato Basu,Xin Eric Wang,William Yang Wang

diffusionguidancetext-to-imageProceedings DBLP

泛读ICLR 2023

Leveraging Unlabeled Data to Track Memorization

从标题看，这篇论文要解决的是：能否利用无标注数据来追踪模型记忆化，而不是只依赖训练集成员推断或带标签评估。记忆化通常通过 membership inference、训练损失异常或重复样本分析来间接观察，但这些方法要么依赖访问训练数据，要么覆盖面有限；作者想把无标注数据也变成检测记忆化的探针。

Mahsa Forouzesh,Hanie Sedghi,Patrick Thiran

memorizationdata-qualityunlabeled-dataProceedings DBLP

泛读ICLR 2023

Decepticons: Corrupted Transformers Breach Privacy in Federated Learning for Language Models

在联邦学习（FL）中，恶意服务器能否在不改变模型架构的情况下，通过修改模型权重来窃取客户端的私有训练数据（特别是文本数据）？

Liam H. Fowl,Jonas Geiping,Steven Reich,Yuxin Wen,Wojciech Czaja,Micah Goldblum,Tom Goldstein

University of MarylandNew York Universityfederated-learningprivacylanguage-modelProceedings DBLP

泛读ICLR 2023

Learning to Jointly Share and Prune Weights for Grounding Based Vision and Language Models

视觉-语言模型（VLM）通常包含庞大的参数量，如何在保持跨模态对齐（grounding）性能的同时，有效地压缩模型（剪枝），并促进不同模态间的知识共享？

Shangqian Gao,Burak Uzkent,Yilin Shen,Heng Huang,Hongxia Jin

University of PittsburghSamsung Research AmericavlmpruningcompressionProceedings DBLP

泛读ICLR 2023

Fisher-Legendre (FishLeg) optimization of deep neural networks

二阶优化算法（如自然梯度法 Natural Gradient Descent, NGD）在理论上收敛更快，但由于需要计算和求逆巨大的 Fisher 信息矩阵（FIM），在深度神经网络（特别是大规模预训练模型）中难以实际应用。

Jezabel R. Garcia,Federica Freddi,Stathi Fotiadis,Maolin Li,Sattar Vakili,Alberto Bernacchia,Guillaume Hennequin

University of CambridgeHuawei Noah's Ark Laboptimizersecond-ordertraining-stabilityProceedings DBLP

泛读ICLR 2023

On the duality between contrastive and non-contrastive self-supervised learning

自监督学习（SSL）中，对比学习（如 SimCLR，依赖负样本）和非对比学习（如 VICReg/Barlow Twins，依赖正则化防止坍缩）看似是两种截然不同的范式，它们之间是否存在内在的数学联系？

Quentin Garrido,Yubei Chen,Adrien Bardes,Laurent Najman,Yann LeCun

Meta AIUniversité Gustave Eiffelself-supervisedcontrastive-learningrepresentation-learningProceedings DBLP

泛读ICLR 2023

How gradient estimator variance and bias impact learning in neural networks

在神经网络训练中，当我们无法使用精确的反向传播（例如在强化学习、生物学启发的学习规则或某些量化/离散化模型中），必须使用梯度估计器时，估计器的方差（variance）和偏差（bias）究竟是如何影响学习动态和最终性能的？

Arna Ghosh,Yuhan Helena Liu,Guillaume Lajoie,Konrad P. Körding,Blake Aaron Richards

McGill UniversityMilaUniversity of Pennsylvaniaoptimizationgradient-noisetraining-dynamicsProceedings DBLP

泛读ICLR 2023

Why (and When) does Local SGD Generalize Better than SGD?

这篇论文要解决的是：为什么 Local SGD 在实践里常常比同步 SGD 泛化更好，以及这种优势什么时候成立。过去分布式训练里 Local SGD 主要被当成通信优化手段，但经验上它有时还能带来更低测试误差，原因并不清楚。

Xinran Gu,Kaifeng Lyu,Longbo Huang,Sanjeev Arora

Princeton Universitylocal-sgdoptimizationgeneralizationProceedings DBLP

泛读ICLR 2023

ContraNorm: A Contrastive Learning Perspective on Oversmoothing and Beyond

这篇论文要解决的是 GNN 的 oversmoothing：层数一深，节点表示会变得彼此过于相似，导致可分性下降。过去常见做法是加残差、归一化或改消息传递半径，但这些方法多是经验修补，对 oversmoothing 的机制解释不够统一。

Xiaojun Guo,Yifei Wang,Tianqi Du,Yisen Wang

contrastive-learningoversmoothingnormalizationProceedings DBLP

泛读ICLR 2023

Train Monolingual, Infer Bilingual

这篇论文要解决的是：能否只用单语训练，却在推理时获得双语能力。传统跨语言迁移通常依赖并行语料、共享词表或多语联合训练，这些资源对低资源语言并不总可得。

Alaeddin Selçuk Gürel,Aydin Gerek

cross-lingual-transfermonolingual-trainingProceedings DBLP

泛读ICLR 2023

CASR: Generating Complex Sequences with Autoregressive Self-Boost Refinement

这篇论文要解决的是：复杂序列生成中，一次性自回归解码容易早期犯错并持续传播，导致长结构、组合约束或全局一致性差。过去常见做法是 beam search 或 reranking，但它们主要在解码层补救，不能真正修正已生成内容。

Hongwei Han,Mengyu Zhou,Shi Han,Xiu Li,Dongmei Zhang

Microsoftsequence-generationautoregressiveself-boost-refinementProceedings DBLP

泛读ICLR 2023

A theoretical study of inductive biases in contrastive learning

这篇论文要回答的是：对比学习（contrastive learning）里常见的数据增强、负样本与归一化等“经验做法”，到底在理论上向表示学习注入了什么归纳偏置（inductive bias），以及这些偏置何时会带来可泛化的特征、何时只是在拟合捷径。

Jeff Z. HaoChen,Tengyu Ma

contrastive-learninginductive-biasestheoretical-studyProceedings DBLP

泛读ICLR 2023

Supervision Complexity and its Role in Knowledge Distillation

这篇论文要解释的是：知识蒸馏（KD）为什么能提升学生模型泛化，而不是只把它当作“软标签更好”的经验结论；尤其是老师预测的“可学性”如何与学生的归纳偏置相互作用。

Hrayr Harutyunyan,Ankit Singh Rawat,Aditya Krishna Menon,Seungyeon Kim,Sanjiv Kumar

knowledge-distillationsupervision-complexityneural-tangent-kernelProceedings arXiv DBLP

泛读ICLR 2023

Is Synthetic Data from Generative Models Ready for Image Recognition?

这篇论文要回答的是：文生图模型生成的高保真合成图像，是否真的“可用于识别”（recognition）而不只是“看起来像”，以及在少样本增广与大规模预训练两种用法下分别有哪些失效模式。

Ruifei He,Shuyang Sun,Xin Yu,Chuhui Xue,Wenqing Zhang,Philip H. S. Torr,Song Bai,Xiaojuan Qi

synthetic-dataimage-recognitiontext-to-image-generationProceedings arXiv DBLP

泛读ICLR 2023

A VAE for Transformers with Nonparametric Variational Information Bottleneck

这篇论文要解决的是：Transformer 的表示往往缺少显式的信息瓶颈与可控的潜变量结构，导致难以在压缩、泛化或可解释性上施加约束；作者希望用 VAE+信息瓶颈的视角为 Transformer 引入可调的表征压缩。

James Henderson,Fabio Fehr

vaetransformervariational-information-bottleneckProceedings DBLP

泛读ICLR 2023

Prompt-to-Prompt Image Editing with Cross-Attention Control

这篇论文要解决的是：扩散式文生图模型的 prompt 编辑往往难以做到“只改想改的区域/语义”，常见问题是编辑泄漏到无关区域或主体一致性被破坏。

Amir Hertz,Ron Mokady,Jay Tenenbaum,Kfir Aberman,Yael Pritch,Daniel Cohen-Or

image-editingcross-attention-controltext-to-imageProceedings arXiv DBLP

泛读ICLR 2023

WikiWhy: Answering and Explaining Cause-and-Effect Questions

这篇论文要解决的是：现有“推理型”QA 基准覆盖面窄且容易被模板/捷径击穿，难以评估 LLM 是否真的能给出因果解释；作者用“why 问题 + 显式 rationale”来提高评测约束。

Matthew Ho,Aditya Sharma,Justin Chang,Michael Saxon,Sharon Levy,Yujie Lu,William Yang Wang

reasoning-evalbenchmarkqaProceedings arXiv DBLP

ICLR 2023

Blurring Diffusion Models

基于热耗散（模糊）的扩散过程和标准高斯扩散过程之间的关系不明确，无法结合两者的优势，过往研究将两者视为完全独立的不同范式。

Emiel Hoogeboom,Tim Salimans

OpenAIUniversity of Amsterdamdiffusiongenerative-modelingnoise-scheduleProceedings arXiv DBLP

泛读ICLR 2023

Self-supervision through Random Segments with Autoregressive Coding (RandSAC)

将自回归预训练范式应用到视觉领域时，直接按空间顺序预测图像令牌的收敛速度慢、表征质量低，缺乏适配视觉数据结构的自监督训练策略。

Tianyu Hua,Yonglong Tian,Sucheng Ren,Michalis Raptis,Hang Zhao,Leonid Sigal

self-supervised-learningautoregressivevision-transformerProceedings arXiv DBLP

泛读ICLR 2023

FastFill: Efficient Compatible Model Update

Florian Jaeckle,Fartash Faghri,Ali Farhadi,Oncel Tuzel,Hadi Pouransari

model-updateeditingcompatibilityProceedings DBLP

ICLR 2023

Distilling Model Failures as Directions in Latent Space

这篇工作要解决的是：如何在几乎不依赖人工标注和人工审阅的情况下，自动找出模型稳定出错的子群体与伪相关模式。以往做法通常要先定义受保护属性、手工筛选 hard slice，或依赖特定数据集的元数据，因此很难扩展到开放场景；作者关心的是，能不能直接从模型错误本身蒸馏出可解释、可操作的 failure mode 表示。

Saachi Jain,Hannah Lawrence,Ankur Moitra,Aleksander Madry

MITfailure-analysislatent-spacerobustnessProceedings arXiv DBLP

泛读ICLR 2023

Tailoring Language Generation Models under Total Variation Distance

Haozhe Ji,Pei Ke,Zhipeng Hu,Rongsheng Zhang,Minlie Huang

language-modelingdistribution-shiftgenerationProceedings arXiv DBLP

泛读ICLR 2023

Layer Grafted Pre-training: Bridging Contrastive Learning And Masked Image Modeling For Label-Efficient Representations

Ziyu Jiang,Yinpeng Chen,Mengchen Liu,Dongdong Chen,Xiyang Dai,Lu Yuan,Zicheng Liu,Zhangyang Wang

contrastive-learningmasked-modelingvision-pretrainProceedings arXiv DBLP

泛读ICLR 2023

An Adaptive Policy to Employ Sharpness-Aware Minimization

Weisen Jiang,Hansi Yang,Yu Zhang,James T. Kwok

samoptimizertraining-stabilityProceedings DBLP

泛读ICLR 2023

New Insights for the Stability-Plasticity Dilemma in Online Continual Learning

Dahuin Jung,Dongjin Lee,Sunwon Hong,Hyemi Jang,Ho Bae,Sungroh Yoon

continual-learningstability-plasticitytraining-dynamicsProceedings DBLP

泛读ICLR 2023

Understanding DDPM Latent Codes Through Optimal Transport

这篇工作要回答的是：DDPM 在 probability flow ODE 下诱导出的 latent code，到底对应什么几何对象。扩散模型常被当作强生成器来用，但其 encoder map 的理论含义一直不清楚；如果这个映射和某个经典最优性原则一致，那么 latent space 的解释、可控性和 likelihood 相关分析都会更扎实。

Valentin Khrulkov,Gleb V. Ryzhakov,Andrei Chertkov,Ivan V. Oseledets

diffusionlatent-spaceoptimal-transportProceedings arXiv DBLP

泛读ICLR 2023

Preference Transformer: Modeling Human Preferences using Transformers for RL

Changyeon Kim,Jongjin Park,Jinwoo Shin,Honglak Lee,Pieter Abbeel,Kimin Lee

preference-modelrlhftransformerProceedings DBLP

泛读ICLR 2023

Scaling Laws For Deep Learning Based Image Reconstruction

Tobit Klug,Reinhard Heckel

scaling-lawimage-reconstructionProceedings DBLP

泛读ICLR 2023

Information-Theoretic Diffusion

扩散模型的正向加噪和反向去噪过程通常依赖启发式设计，缺乏从信息论视角对最优噪声调度和表示效率的严格刻画。

Xianghao Kong,Rob Brekelmans,Greg Ver Steeg

USCdiffusioninformation-theoryobjectiveProceedings DBLP

泛读ICLR 2023

Memorization Capacity of Neural Networks with Conditional Computation

条件计算（如 MoE）在经验上显著提升了 LLM 的推理效率，但缺乏对其记忆容量（Memorization Capacity）极限的严格数学证明。

Erdem Koyuncu

UICmoememorizationcapacityProceedings arXiv DBLP

泛读ICLR 2023

A new characterization of the edge of stability based on a sharpness measure aware of batch gradient distribution

大模型训练常在“稳定边缘（Edge of Stability, EoS）”运行，即 Hessian 矩阵的最大特征值徘徊在 $2/\eta$ 附近。但传统的锐度（Sharpness）指标无法完全解释 Batch 梯度分布带来的训练动态和 Loss 尖峰（Spikes）。

Sungyoon Lee,Cheongjae Jang

edge-of-stabilitysharpnessoptimizationProceedings DBLP

泛读ICLR 2023

Sparse Token Transformer with Attention Back Tracking

这篇论文要解决的是：Transformer 在高分辨率视觉输入上主要被 token 数拖慢，但直接做稀疏注意力通常会把早期被忽略的重要 token 永久丢掉。已有做法多靠固定窗口、启发式 token pruning 或静态稀疏模式降算力，问题是它们一旦裁错就很难恢复，精度和效率经常二选一。

Heejun Lee,Minki Kang,Youngwan Lee,Sung Ju Hwang

sparse-attentiontransformerefficiencyProceedings DBLP

泛读ICLR 2023

Discrete Predictor-Corrector Diffusion Models for Image Synthesis

这篇论文要解决的是：离散 diffusion 在图像生成上已可行，但纯离散链条的采样质量和稳定性仍受限，尤其难同时兼顾 coarse global structure 和 local refinement。此前离散模型通常直接沿单一离散去噪链采样，缺少类似连续 diffusion 中 predictor-corrector 的纠偏步骤。

José Lezama,Tim Salimans,Lu Jiang,Huiwen Chang,Jonathan Ho,Irfan Essa

discrete-diffusionpredictor-correctorimage-generationProceedings DBLP

泛读ICLR 2023

A Theoretical Understanding of Shallow Vision Transformers: Learning, Generalization, and Sample Complexity

这篇论文的核心问题是：ViT 在经验上很强，但训练与泛化为什么成立、样本复杂度受什么控制，理论上一直说不清。过去理论工作多回避 self-attention 的跨 token、跨层耦合，要么分析极简线性模型，要么不给出可训练性的明确结论。

Hongkang Li,Meng Wang,Sijia Liu,Pin-Yu Chen

vision-transformergeneralization-theorysample-complexityProceedings arXiv DBLP

泛读ICLR 2023

Trainable Weight Averaging: Efficient Training by Optimizing Historical Solutions

这篇论文要解决的是：训练过程中历史参数往往蕴含稳定且泛化更好的信息，但传统做法通常只在训练后做 SWA/EMA，历史解没有被当成可优化对象。已有平均策略大多是固定权重或启发式衰减，省事但不一定最优，也不能主动利用不同阶段参数的互补性。

Tao Li,Zhehao Huang,Qinghua Tao,Yingwen Wu,Xiaolin Huang

weight-averagingoptimizertraining-efficiencyProceedings DBLP

泛读ICLR 2023

MPCFORMER: Fast, Performant and Provate Transformer Inference with MPC

这篇论文要解决的是：Transformer 推理在多方安全计算（MPC）下非常慢，尤其 softmax attention、非线性和矩阵乘导致通信与延迟都难以接受。此前私有推理工作往往只在小模型或简化网络上可用，把 Transformer 真正做快、做实用一直是难点。

Dacheng Li,Hongyi Wang,Rulin Shao,Han Guo,Eric P. Xing,Hao Zhang

mpctransformer-inferenceprivacyProceedings DBLP

泛读ICLR 2023

SmartFRZ: An Efficient Training Framework using Attention-Based Layer Freezing

这篇论文要解决的是：全模型训练代价高，而简单的逐层冻结虽然能省算力，却容易冻结错层、损失精度。过去 layer freezing 多依赖手工 schedule 或经验规则，问题是不同任务和不同训练阶段，真正重要的层并不固定。

Sheng Li,Geng Yuan,Yue Dai,Youtao Zhang,Yanzhi Wang,Xulong Tang

efficient-traininglayer-freezingattentionProceedings arXiv DBLP

泛读ICLR 2023

HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers

这篇论文解决的是：预训练 Transformer 的蒸馏通常强依赖具体任务和中间层对齐设计，迁移性差，蒸馏过程也容易不稳定。过去 task-specific distillation 往往在某个下游上有效，但很难保留 teacher 的通用能力；而简单 logits matching 又不足以在无任务约束下稳定压缩大模型。

Chen Liang,Haoming Jiang,Zheng Li,Xianfeng Tang,Bing Yin,Tuo Zhao

knowledge-distillationtransformermodel-compressionProceedings DBLP

泛读ICLR 2023

MultiViz: Towards Visualizing and Understanding Multimodal Models

这篇论文要解决的是：多模态模型越来越复杂，但我们仍缺少统一、可操作的可视化工具去看它到底如何融合文本、视觉等模态，以及错误来自哪里。过去解释方法通常是单模态迁移过来的，或者只看 attention heatmap，难以反映真正的跨模态交互。

Paul Pu Liang,Yiwei Lyu,Gunjan Chhablani,Nihal Jain,Zihao Deng,Xingbo Wang,Louis-Philippe Morency,Ruslan Salakhutdinov

interpretabilitymultimodalvisualizationProceedings DBLP

泛读ICLR 2023

Adaptive Optimization in the ∞-Width Limit

这篇论文要解决的是：自适应优化器在无限宽极限下到底对应什么训练动力学，以及现有 μP/NTK 风格理论如何覆盖 Adam 一类方法。过去无限宽分析大多围绕 SGD 或少数可解析设定，自适应优化器虽然在实践中主导大模型训练，但理论刻画明显滞后。

Etai Littwin,Greg Yang

optimizationinfinite-widthadaptive-optimizersProceedings DBLP

泛读ICLR 2023

Gradient-Guided Importance Sampling for Learning Binary Energy-Based Models

这篇论文要解决的是：二值能量模型训练时，如何更高效地从困难分布中采样，降低梯度估计方差并改善学习。传统 MCMC 在离散空间里混合慢，负样本质量差会直接拖累 EBM 训练，因此作者把采样器设计成显式利用梯度信息的重要性采样。

Meng Liu,Haoran Liu,Shuiwang Ji

energy-based-modelimportance-samplingoptimizationProceedings DBLP

泛读ICLR 2023

Deja Vu: Continual Model Generalization for Unseen Domains

这篇论文要解决的是：模型在持续接触新域时，如何不仅避免遗忘旧域，还能对未来未见域保持泛化。传统 continual learning 多聚焦灾难性遗忘，但现实部署更关心 domain shift 下的持续泛化，作者把问题从“记住过去”扩展到“适应未来”。

Chenxi Liu,Lixu Wang,Lingjuan Lyu,Chen Sun,Xiao Wang,Qi Zhu

continual-learningdomain-generalizationadaptationProceedings arXiv DBLP

泛读ICLR 2023

Universal Vision-Language Dense Retrieval: Learning A Unified Representation Space for Multi-Modal Retrieval

这篇论文要解决的是：视觉-语言检索通常按任务或模态对分别训练，表示空间彼此割裂，能否学到一个统一空间同时支持多种跨模态检索。过去很多方法只优化 image-text 双塔上的单一检索设置，迁移到 region-text、image-image 或更复杂检索时往往需要重训或额外对齐。

Zhenghao Liu,Chenyan Xiong,Yuanhuiyi Lv,Zhiyuan Liu,Ge Yu

vision-languageretrievalunified-representationProceedings arXiv DBLP

泛读ICLR 2023

Generalizing and Decoupling Neural Collapse via Hyperspherical Uniformity Gap

解决神经网络坍缩（Neural Collapse, NC）理论在不平衡数据和非交叉熵损失下的泛化问题。以往的NC理论主要针对平衡数据集和交叉熵损失，难以解释更广泛的训练场景。

Weiyang Liu,Longhui Yu,Adrian Weller,Bernhard Schölkopf

University of CambridgeMax Planck Institute for Intelligent Systemsneural-collapserepresentation-learninggeneralizationProceedings DBLP

泛读ICLR 2023

Avoiding spurious correlations via logit correction

解决模型在训练数据存在虚假相关（spurious correlations）时泛化能力下降的问题。以往方法通常需要额外的组标注（group annotations）或复杂的两阶段训练，成本较高。

Sheng Liu,Xu Zhang,Nitesh Sekhar,Yue Wu,Prateek Singhal,Carlos Fernandez-Granda

New York UniversityAmazon Web Servicesspurious-correlationlogit-correctionrobustnessProceedings arXiv DBLP

泛读ICLR 2023

Block and Subword-Scaling Floating-Point (BSFP) : An Efficient Non-Uniform Quantization For Low Precision Inference

解决低精度浮点数（如FP8、FP4）量化在推理时精度下降的问题。传统的均匀量化或简单的非均匀量化难以兼顾大动态范围和高精度，尤其是在Transformer等模型中。

Yun-Chen Lo,Tse-Kuang Lee,Ren-Shuo Liu

National Tsing Hua Universityquantizationlow-precisioninferenceProceedings DBLP

泛读ICLR 2023

TrojText: Test-time Invisible Textual Trojan Insertion

解决文本模型在测试阶段面临的隐形木马（Trojan）攻击问题。以往的文本木马攻击通常需要修改训练数据（data poisoning），且触发器（trigger）往往是可见的、不自然的词汇，容易被防御机制检测。

Qian Lou,Yepeng Liu,Bo Feng

University of Central Floridasecuritytrojantext-modelsProceedings DBLP

泛读ICLR 2023

Understanding The Robustness of Self-supervised Learning Through Topic Modeling

理解自监督学习（SSL，如对比学习）为何对数据中的虚假相关性（spurious correlations）具有鲁棒性。以往研究观察到了这一现象，但缺乏理论解释。

Zeping Luo,Shiyou Wu,Cindy Weng,Mo Zhou,Rong Ge

Duke Universityself-supervised-learningrobustnesstopic-modelingProceedings DBLP

泛读ICLR 2023

Contrastive Training with more data

这篇论文关注的是对比学习在数据规模继续增大时如何训练得更好，而不是把改进局限在更复杂的损失或更大的 batch 上。问题的背景是：很多对比学习方法默认数据越多越好，但训练目标、负样本构造和优化设置未必能把额外数据真正转化成表示质量。

Stephen Mander,Scott Piao,Hossein Rahmani

contrastive-learningdata-scalingrepresentation-learningProceedings DBLP

泛读ICLR 2023

Words are all you need? Language as an approximation for human similarity judgments

这篇论文要解决的是：如果拿不到高质量的人类相似性标注，能不能直接用预训练模型来近似人类相似判断；作者的结论是否定偏多。过去很多工作默认预训练 DNN 的 embedding 已经足够接近人类感知，因此把它当廉价替代监督，但这个假设在跨领域上并没有被系统检验。

Raja Marjieh,Pol van Rijn,Ilia Sucholutsky,Theodore R. Sumers,Harin Lee,Thomas L. Griffiths,Nori Jacoby

language-modelshuman-alignmentrepresentationProceedings arXiv DBLP

泛读ICLR 2023

Visual Classification via Description from Large Language Models

这篇论文要解决的是零样本视觉分类过度依赖类别名的问题。标准 CLIP 式做法只拿一个标签词去和图像做相似度匹配，既浪费了语言能提供的判别细节，也不给出可调的决策依据，因此在细粒度或可解释场景下往往不够稳。

Sachit Menon,Carl Vondrick

vlmzero-shotclassificationProceedings arXiv DBLP

泛读ICLR 2023

Transformers are Sample-Efficient World Models

这篇论文关注的是 Transformer 作为世界模型时的样本效率问题，也就是在有限交互数据下能否学到足够好的环境动态。传统看法往往认为 Transformer 参数多、数据饥渴，更适合大规模离线序列建模；作者显然在挑战这一点。

Vincent Micheli,Eloi Alonso,François Fleuret

transformersworld-modelssample-efficiencyProceedings DBLP

泛读ICLR 2023

A Rate-Distortion View on Model Updates

这篇论文关心的是如何从 rate-distortion 的角度理解模型更新，也就是在有限更新预算下，哪些参数变化最值得保留、会带来多大任务收益。这个问题以前更多以压缩、联邦学习或增量更新的工程形式出现，但缺少统一的信息论视角来描述更新质量与代价的权衡。

Nicole Mitchell,Johannes Ballé,Zachary Charles,Jakub Konecný

model-updatescompressioncontinual-learningProceedings DBLP

泛读ICLR 2023

MLP-Attention: Improving Transformer Architecture with MLP Attention Weights

这篇论文要解决的是标准 attention 权重完全由 query-key 相似度决定，表达形式可能过于受限的问题。作者试图用 MLP 生成或修正 attention 权重，以提升 Transformer 的建模灵活性。

Alireza Morsali,Moein Heidari,Samin Heydarian,Tohid Abedini

transformersattentionarchitectureProceedings DBLP

泛读ICLR 2023

Meta Learning to Bridge Vision and Language Models for Multimodal Few-Shot Learning

作者要解决的是：在多模态 few-shot 场景里，冻结的视觉模型与语言模型之间存在显著“表征/接口鸿沟”，导致仅靠手工 prompt 或任务归纳（task induction）很难稳定泛化。以往做法通常把视觉概念“翻译成提示词”喂给冻结 LLM，但需要人为设计约束假设空间，学习能力被卡在工程启发式上。

Ivona Najdenkoska,Xiantong Zhen,Marcel Worring

vision-languagefew-shotmeta-learningProceedings arXiv DBLP

泛读ICLR 2023

Scaling Laws for a Multi-Agent Reinforcement Learning Model

作者要解决的是：强化学习（尤其 AlphaZero 这类自博弈算法）的性能是否也遵循类似监督学习的幂律 scaling law，以及在 compute/数据受限时如何刻画瓶颈。以往 scaling law 主要集中在监督/自监督，RL 因为非平稳数据与训练噪声更难做系统刻画。

Oren Neumann,Claudius Gros

scaling-lawreinforcement-learningmulti-agentProceedings arXiv DBLP

泛读ICLR 2023

A Primal-Dual Framework for Transformers and Neural Networks

作者要解决的是：Transformer 自注意力层长期依赖经验性设计，缺少一个能统一解释并系统派生新注意力形式的原则化框架。过去的注意力变体多靠启发式堆叠，导致“为什么有效、何时失效”难以判断。

Tan Minh Nguyen,Tam Minh Nguyen,Nhat Ho,Andrea L. Bertozzi,Richard G. Baraniuk,Stanley J. Osher

transformer-architectureself-attentionprimal-dualProceedings arXiv DBLP

泛读ICLR 2023

On The Inadequacy of Optimizing Alignment and Uniformity in Contrastive Learning of Sentence Representations

缺少论文摘要与正文信息，无法可靠判断作者具体要解决的核心问题与其相对已有工作的定位。

Zhijie Nie,Richong Zhang,Yongyi Mao

contrastive-learningsentence-representationalignment-uniformityProceedings DBLP

泛读ICLR 2023

CLIP-Dissect: Automatic Description of Neuron Representations in Deep Vision Networks

作者要解决的是：视觉网络内部单个神经元到底在“检测什么概念”很难自动化描述，传统做法要么依赖人工标注概念集，要么只能在最后层做有限验证。随着模型规模变大，手工解释单元语义的成本不可接受。

Tuomas P. Oikarinen,Tsui-Wei Weng

interpretabilityclipneuron-representationProceedings arXiv DBLP

泛读ICLR 2023

Towards Understanding Why Mask Reconstruction Pretraining Helps in Downstream Tasks

缺少论文摘要与正文信息，无法可靠概括作者对“mask reconstruction 预训练为何有利于下游”的具体问题分解与结论。

Jiachun Pan,Pan Zhou,Shuicheng Yan

masked-image-modelingpre-trainingrepresentation-learningProceedings arXiv DBLP

泛读ICLR 2023

What Do Self-Supervised Vision Transformers Learn?

作者要解决的是：对比学习（CL）与掩码图像建模（MIM）在 ViT 上学到的表征到底差在哪，为什么会导致线性评估、可扩展性与密集预测表现出现系统差异。以往讨论常停留在“哪个指标更好”，缺少对注意力与表征多样性的机制解释。

Namuk Park,Wonjae Kim,Byeongho Heo,Taekyung Kim,Sangdoo Yun

self-supervised-learningvision-transformercontrastive-learningProceedings arXiv DBLP

泛读ICLR 2023

Imitating Human Behaviour with Diffusion Models

在行为克隆（imitation learning）里用 diffusion 作为策略分布，替代高斯或 MoG 这种容易 mode-collapse 或无法表达多模态人类行为的输出头。过去 BC 一直被策略表达力卡住，高斯输出会把'左走或右走'平均成'直走'。

Tim Pearce,Tabish Rashid,Anssi Kanervisto,David Bignell,Mingfei Sun,Raluca Georgescu ... 省略 1 位作者 ... ,Shan Zheng Tan,Ida Momennejad,Katja Hofmann,Sam Devlin

Microsoft Researchdiffusion-modelsimitation-learningbehavior-cloningProceedings arXiv DBLP

泛读ICLR 2023

CrAM: A Compression-Aware Minimizer

训练时直接产出一个'压缩后依然好用'的 dense 模型。常规做法是先训练再剪枝/量化，精度损失需要再 fine-tune 弥补；本文想一步到位，让后训练的一次性压缩也不掉点。

Alexandra Peste,Adrian Vladu,Eldar Kurtic,Christoph H. Lampert,Dan Alistarh

IST AustriacompressionquantizationpruningProceedings arXiv DBLP

泛读ICLR 2023

Integrating Information from Natural Language Parse Tree to Code Generation

把自然语言需求的句法结构（parse tree）显式注入 NL→Code 生成模型，希望缓解纯 seq2seq 在长描述里对论元关系、从句嵌套理解不稳的问题。

Hung Phan,Ali Jannesari

code-generationsyntaxparsingProceedings DBLP

泛读ICLR 2023

DreamFusion: Text-to-3D using 2D Diffusion

没有大规模 3D 数据的前提下，怎么用文本生成 3D 物体。直接训练 text-to-3D 模型缺数据，DreamFusion 反过来用已经训好的 2D text-to-image diffusion 当'监督者'。

Ben Poole,Ajay Jain,Jonathan T. Barron,Ben Mildenhall

Google ResearchUC Berkeleydiffusiontext-to-3dguidanceProceedings arXiv DBLP

泛读ICLR 2023

Can discrete information extraction prompts generalize across language models?

AutoPrompt 这类离散 prompt 搜索出的 trigger 字符串能否跨模型迁移？还是说每个 LM 都需要单独搜一套。这个问题决定了离散 prompt engineering 能否作为通用工具。

Nathanaël Carraz Rakotonirina,Roberto Dessì,Fabio Petroni,Sebastian Riedel,Marco Baroni

Meta AIUniversitat Pompeu Fabrapromptinggeneralizationinformation-extractionProceedings DBLP

泛读ICLR 2023

Tiny Attention: A Simple yet Effective Method for Learning Contextual Word Embeddings

能否用一个极小的 attention 模块（远小于 Transformer 层）就学到有用的上下文化 word embedding，作为轻量 embedding 方案替代 ELMo/BERT。问题动机是 BERT 太贵，有些下游任务其实不需要完整 Transformer。

Renjith P. Ravindran,Narayana Murthy Kavi

word-embeddingsattentionsequence-modelingProceedings DBLP

泛读ICLR 2023

Scaling Forward Gradient With Local Losses

Mengye Ren,Simon Kornblith,Renjie Liao,Geoffrey E. Hinton

optimizationforward-gradientlocal-lossesProceedings DBLP

泛读ICLR 2023

STREET: A Multi-Task Structured Reasoning and Explanation Benchmark

Danilo Neves Ribeiro,Shen Wang,Xiaofei Ma,Henghui Zhu,Rui Dong,Deguang Kong ... 省略 3 位作者 ... ,William Yang Wang,George Karypis,Bing Xiang,Dan Roth

reasoningbenchmarkexplanationsProceedings DBLP

泛读ICLR 2023

Transformer-based World Models Are Happy With 100k Interactions

Jan Robine,Marc Höftmann,Tobias Uelwer,Stefan Harmeling

world-modelstransformersample-efficiencyProceedings DBLP

泛读ICLR 2023

Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees

Swarnadeep Saha,Shiyue Zhang,Peter Hase,Mohit Bansal

summarizationmodular-networksinterpretabilityProceedings DBLP

泛读ICLR 2023

Backpropagation through Combinatorial Algorithms: Identity with Projection Works

Subham Sekhar Sahoo,Anselm Paulus,Marin Vlastelica,Vít Musil,Volodymyr Kuleshov,Georg Martius

differentiable-optimizationcombinatorialbackpropagationProceedings DBLP

泛读ICLR 2023

Seeing in Words: Learning to Classify through Language Bottlenecks

Khalid Saifullah,Yuxin Wen,Jonas Geiping,Micah Goldblum,Tom Goldstein

language-bottleneckvision-languagerepresentation-learningProceedings DBLP

泛读ICLR 2023

Model Extraction Attacks on DistilBERT

Amro Salman,Ayman Saeed,Khalid N. Elmadani,Sharief Babiker

model-extractionsecuritydistilbertProceedings DBLP

泛读ICLR 2023

Zero-Shot Classification Reveals Potential Positive Sentiment Bias in African Languages Translations

机器翻译系统在处理低资源非洲语言时，其翻译结果的语义保真度难以评估，且可能存在未被察觉的系统性情感偏移。

Hrishav Sapkota,Saurav Keshari Aryal,Howard Prioleau

multilingualbiasevaluationProceedings DBLP

泛读ICLR 2023

How Informative is the Approximation Error from Tensor Decomposition for Neural Network Compression?

在利用张量分解压缩神经网络时，业界普遍假设“权重近似误差越小，微调后的模型性能越好”，但这一基础假设缺乏系统性的实验验证。

Jetze Schuurmans,Kim Batselier,Julian F. P. Kooij

Delft University of Technology (TU Delft)compressiontensor-decompositionfine-tuningProceedings arXiv DBLP

泛读ICLR 2023

Statistical Property Testing for Generative Models

生成式模型（如 LLM 或 Diffusion）的输出分布极其复杂，难以严格验证其是否满足特定的统计属性或安全约束。

Emmanouil Seferis,Simon Burton,Chih-Hong Cheng

evaluationgenerative-modelsproperty-testingProceedings DBLP

泛读ICLR 2023

Bit-Pruning: A Sparse Multiplication-Less Dot-Product

标准神经网络中的点积运算依赖大量密集的乘法累加（MAC）操作，导致极高的计算能耗和硬件带宽压力。

Yusuke Sekikawa,Shingo Yashima

quantizationsparsityinferenceProceedings DBLP

泛读ICLR 2023

kNN-Diffusion: Image Generation via Large-Scale Retrieval

主流的文本到图像扩散模型强依赖海量的图文对数据，导致它们无法在缺乏文本标签或数据稀缺的新领域中进行训练和部署。

Shelly Sheynin,Oron Ashual,Adam Polyak,Uriel Singer,Oran Gafni,Eliya Nachmani,Yaniv Taigman

Meta AIdiffusionretrievalknnProceedings arXiv DBLP

泛读ICLR 2023

Code Translation with Compiler Representations

这篇论文要解决的问题是：神经代码翻译把源码当普通文本序列处理时，容易抓住表面相似而忽略跨语言语义差异，导致译文看起来像代码但行为不对。传统 transpiler 依赖手写规则，覆盖窄且不自然；纯文本 NMT 扩展了覆盖面，但在语义保真上仍然不够。

Marc Szafraniec,Baptiste Rozière,Hugh Leather,Patrick Labatut,François Charton,Gabriel Synnaeve

MetacodetranslationirProceedings arXiv DBLP

泛读ICLR 2023

Investigating Multi-task Pretraining and Generalization in Reinforcement Learning

按标题判断，这篇论文研究的问题是：多任务预训练在强化学习里到底学到了什么，以及这些能力何时能迁移、何时只是任务内记忆。RL 里“先预训练再泛化”常被默认有效，但真实收益高度依赖任务分布、表示共享和评测协议。由于没有摘要，这里只能做保守概括。

Adrien Ali Taïga,Rishabh Agarwal,Jesse Farebrother,Aaron C. Courville,Marc G. Bellemare

multi-taskrlpretrainProceedings DBLP

泛读ICLR 2023

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

这篇论文要解决的问题是：BERT 式 masked modeling 在视觉上主要成功于 ViT，而直接搬到卷积网络上效果差，原因不在于 convnet 不能预训练，而在于 masked image modeling 的输入形态和 convnet 的计算假设不匹配。具体有两个障碍：随机掩码使输入变得不规则，conv 无法高效处理；同时 convnet 是分层多尺度结构，单尺度解码目标和它天然不对齐。

Keyu Tian,Yi Jiang,Qishuai Diao,Chen Lin,Liwei Wang,Zehuan Yuan

Peking Universitymasked-image-modelingconvnetself-supervisedProceedings arXiv DBLP

泛读ICLR 2023

Causal Confusion and Reward Misidentification in Preference-Based Reward Learning

按标题判断，这篇论文研究的问题是：基于偏好学习奖励函数时，模型可能因为因果混淆而学错了“人到底在偏好什么”，也就是 reward misidentification。它关注的不是如何把偏好拟合得更好看，而是偏好信号在存在混杂因素时是否真的对应目标奖励。没有摘要，因此这里只能做保守概括。

Jeremy Tien,Jerry Zhi-Yang He,Zackory Erickson,Anca D. Dragan,Daniel S. Brown

reward-learningcausal-confusionpreference-learningProceedings DBLP

泛读ICLR 2023

PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales

这篇论文要解决的是：链式思维提示虽然能提升推理正确率，但生成的 rationale 往往不忠实，模型可能先拍出答案再事后编理由。过去很多工作默认“有解释=按解释推理”，但这一点在多步语言推理里并不成立，所以作者尝试把 rationale 从自由生成改成受约束、可验证的中间表示。

Peifeng Wang,Aaron Chan,Filip Ilievski,Muhao Chen,Xiang Ren

reasoningrationale-generationpromptingProceedings DBLP

泛读ICLR 2023

Toward Adversarial Training on Contextualized Language Representation

这篇论文要解决的是：NLP 里的对抗训练大多作用在离散 token 或静态 embedding 上，但现代模型真正使用的是上下文化表示，攻击和鲁棒训练如果不对准这一层，往往既不稳定也不够有效。过去方法常在“可优化”与“语义保持”之间做妥协，这篇工作试图把对抗训练直接搬到 contextualized representation 上。

Hongqiu Wu,Yongxiang Liu,Hanwen Shi,Hai Zhao,Min Zhang

adversarial-traininglanguage-representationrobustnessProceedings DBLP

泛读ICLR 2023

DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion

这篇论文要解决的是：标准 Transformer 在图上做全局注意力时，计算和内存都随节点数平方增长，图稍大就不可扩展；而很多图 Transformer 的稀疏化又依赖手工结构偏置，表达力和通用性受限。作者想要一个既保留 Transformer 风格全局交互、又能线性或近线性扩展的替代机制。

Qitian Wu,Chenxiao Yang,Wentao Zhao,Yixuan He,David Wipf,Junchi Yan

graph-transformerdiffusionscalabilityProceedings DBLP

泛读ICLR 2023

Moderate Coreset: A Universal Method of Data Selection for Real-world Data-efficient Deep Learning

这篇论文要解决的是：现实数据高噪声、长尾、分布混杂时，现有 coreset / data selection 方法往往依赖特定任务假设，离开干净 benchmark 就失效。过去数据选择常在“理论优雅”与“真实可用”之间脱节，这篇工作试图给出一个更通用、对真实数据更稳的选择准则。

Xiaobo Xia,Jiale Liu,Jun Yu,Xu Shen,Bo Han,Tongliang Liu

data-selectiondata-efficiencycoresetProceedings DBLP

泛读ICLR 2023

Budgeted Training for Vision Transformer

这篇论文要解决的是：Vision Transformer 的训练成本高，而现有加速方法往往只优化单一维度，比如减少 token、缩短训练轮数或换轻量结构，结果常常在不同预算下不稳。作者想做的是预算感知训练：给定固定算力或时间，系统地重排训练过程，让 ViT 在预算内更高效地逼近全训练效果。

Zhuofan Xia,Xuran Pan,Xuan Jin,Yuan He,Hui Xue,Shiji Song,Gao Huang

vittraining-efficiencybudgeted-trainingProceedings DBLP

泛读ICLR 2023

The In-Sample Softmax for Offline Reinforcement Learning

这篇论文的核心结论是：离线 RL 里真正难的不是近似 in-sample max，而是避免 max 在覆盖不足时把 Q 值推向数据外动作；作者认为改做 in-sample softmax 更自然也更稳。过去很多方法围绕保守估计或行为约束去近似“只在数据内取最大”，但 max 本身对估计误差过于敏感，所以训练容易高估甚至发散。

Chenjun Xiao,Han Wang,Yangchen Pan,Adam White,Martha White

offline-rlsoftmaxdistribution-shiftProceedings arXiv DBLP

泛读ICLR 2023

Can Text Encoders be Deceived by Length Attack?

这篇论文要解决的是：文本编码器可能被纯长度变化欺骗，即语义几乎不变时，仅通过拉长输入就显著改变表示或检索结果。过去很多鲁棒性研究关注同义替换、拼写扰动或对抗 token，但长度本身作为攻击面被低估了，因为它不一定改变局部词义，却会系统性影响 pooling、位置编码和归一化。

Chenghao Xiao,Zihuiwen Ye,G. Thomas Hudson,Zhongtian Sun,Phil Blunsom,Noura Al Moubayed

text-encoderlength-generalizationrobustnessProceedings DBLP

泛读ICLR 2023

Hyper-Decision Transformer for Efficient Online Policy Adaptation

这篇论文的核心问题是：Decision Transformer 在离线 RL 上表现不错，但面对新任务时适应速度慢，尤其当只有少量 demonstrations 时，直接全模型微调既费数据也费参数。作者要解决的是如何让 DT 具备 few-shot task adaptation 能力，同时保持参数效率。

Mengdi Xu,Yuchen Lu,Yikang Shen,Shun Zhang,Ding Zhao,Chuang Gan

decision-transformeradaptationoffline-rlProceedings arXiv DBLP

泛读ICLR 2023

The Modality Focusing Hypothesis: Towards Understanding Crossmodal Knowledge Distillation

这篇论文要解决的是：跨模态知识蒸馏常被当成黑盒技巧使用，但我们并不清楚学生模型到底学到了什么、为什么有时蒸馏有效有时无效。作者提出“modality focusing hypothesis”，试图解释蒸馏过程中模型是否会过度聚焦某一模态，从而影响跨模态迁移。

Zihui Xue,Zhengqi Gao,Sucheng Ren,Hang Zhao

crossmodaldistillationrepresentation-learningProceedings arXiv DBLP

泛读ICLR 2023

One Student Knows All Experts Know: From Sparse to Dense

MoE（混合专家）模型在微调阶段容易出现过拟合和性能退化，导致其在下游任务上的表现不如同等参数量的稠密模型。过去通常通过增加正则化或调整路由策略来缓解，但没有从根本上解决稀疏模型在小数据上的脆弱性。

Fuzhao Xue,Xiaoxin He,Xiaozhe Ren,Yuxuan Lou,Yang You

National University of Singaporemoedistillationsparse-to-denseProceedings DBLP

泛读ICLR 2023

Re-calibrating Feature Attributions for Model Interpretation

现有的特征归因（Feature Attribution）方法在解释模型预测时，往往会受到模型自身偏差（如对某些特征的过度敏感）的影响，导致解释结果不够准确或具有误导性。过去的方法多关注于生成归因图，而较少关注归因图本身的校准。

Peiyu Yang,Naveed Akhtar,Zeyi Wen,Mubarak Shah,Ajmal Saeed Mian

University of Central FloridaUniversity of Western Australiainterpretabilityfeature-attributioncalibrationProceedings DBLP

泛读ICLR 2023

Learning to Solve Constraint Satisfaction Problems with Recurrent Transformer

如何让神经网络端到端地学习解决约束满足问题（CSP，如数独）。过去通常依赖图神经网络（GNN）或专门的神经符号求解器（如 SATNet），但这些方法在处理视觉输入或复杂逻辑时存在局限，且难以与通用架构统一。

Zhun Yang,Adam Ishay,Joohyung Lee

Arizona State UniversitytransformerrecurrencereasoningProceedings arXiv DBLP

泛读ICLR 2023

Masked Image Modeling with Denoising Contrast

掩码图像建模（MIM，如 MAE）在视觉预训练中取得了成功，但其重建目标通常是在像素空间或低级特征空间，这导致模型倾向于学习高频的局部细节，而忽略了对下游任务更重要的低频全局语义信息。

Kun Yi,Yixiao Ge,Xiaotong Li,Shusheng Yang,Dian Li,Jianping Wu,Ying Shan,Xiaohu Qie

Tencent AI LabPeking Universitymasked-image-modelingcontrastive-learningdenoisingProceedings DBLP

泛读ICLR 2023

Tuning Frequency Bias in Neural Network Training with Nonuniform Data

神经网络在训练时存在“频率偏差”（Frequency Bias，或称谱偏差 Spectral Bias），即倾向于先学习低频函数，后学习高频函数。在处理非均匀分布的数据时，这种偏差会导致模型在数据稀疏区域难以拟合高频特征，影响泛化性能。

Annan Yu,Yunan Yang,Alex Townsend

Cornell Universitytraining-dynamicsdata-distributionfrequency-biasProceedings DBLP

泛读ICLR 2023

PowerQuant: Automorphism Search for Non-Uniform Quantization

这篇论文解决的是非均匀量化码本如何自动设计的问题。传统做法通常固定量化级别分布或手工设定 companding 规则，搜索空间小但容易错过更适合权重/激活分布的离散映射；作者尝试把这个设计问题变成可搜索的结构优化。

Edouard Yvinec,Arnaud Dapogny,Matthieu Cord,Kevin Bailly

quantizationcompressionefficient-inferenceProceedings DBLP

泛读ICLR 2023

Contextual Image Masking Modeling via Synergized Contrasting without View Augmentation for Faster and Better Visual Pretraining

这篇论文要解决的是视觉自监督预训练里对比学习和掩码建模各有短板：前者常依赖重视图增强，训练成本高且语义粒度偏全局；后者训练更稳定但容易忽略判别性。作者想要一种更快、同时兼顾局部上下文和判别能力的视觉预训练方式。

Shaofeng Zhang,Feng Zhu,Rui Zhao,Junchi Yan

visual-pretrainingmasked-image-modelingcontrastive-learningProceedings DBLP

泛读ICLR 2023

Fast Sampling of Diffusion Models with Exponential Integrator

这篇论文要解决的是扩散模型采样太慢的问题。标准离散化求解器需要很多函数评估步数，虽然生成质量高，但推理成本高到限制了实际部署和与自回归模型竞争。

Qinsheng Zhang,Yongxin Chen

diffusion-modelsfast-samplingexponential-integratorProceedings DBLP

泛读ICLR 2023

Diagnosing and Rectifying Vision Models using Language

这篇论文要解决的是视觉模型出错后很难被系统诊断和修复，尤其当错误模式是语义性的而不是简单分布偏移时。传统做法通常依赖人工标注错误类别或重新收集数据，成本高且反馈慢。

Yuhui Zhang,Jeff Z. HaoChen,Shih-Cheng Huang,Kuan-Chieh Wang,James Zou,Serena Yeung

Stanford Universityvision-modelslanguage-guidancediagnosingProceedings DBLP

泛读ICLR 2023

Eva: Practical Second-order Optimization with Kronecker-vectorized Approximation

这篇论文要解决的是：二阶/准二阶优化在深度网络里往往“理论好但工程上太贵”，导致大多数训练只能在一阶方法（SGD/Adam）里做折中。以往的回避方式要么用对角近似（太粗），要么用K-FAC/自然梯度类方法（实现复杂、内存/通信重）。

Lin Zhang,Shaohuai Shi,Bo Li

second-order-optimizationkronecker-approximationoptimizerProceedings DBLP

泛读ICLR 2023

gDDIM: Generalized denoising diffusion implicit models

这篇论文要解决的是：DDIM把扩散采样从随机SDE变成确定性ODE后更快，但其形式与适用范围受限，难以统一解释“不同噪声日程/不同离散化/不同采样器”之间的关系。以往实践里常靠经验调参选采样器，缺少可控的泛化框架。

Qinsheng Zhang,Molei Tao,Yongxin Chen

diffusion-modelsddimgeneralized-samplingProceedings DBLP

泛读ICLR 2023

Symmetries, Flat Minima, and the Conserved Quantities of Gradient Flow

这篇论文要解决的是：深度网络的损失面存在对称性（如参数重标定）导致“平坦极小值/尖锐极小值”的直觉常被混淆，很多关于泛化与平坦性的讨论忽略了这些不变性。过去常用的平坦度度量可能在对称变换下不保持一致，从而得出不稳健结论。

Bo Zhao,Iordan Ganev,Robin Walters,Rose Yu,Nima Dehmamy

optimizationflat-minimatraining-dynamicsProceedings DBLP

泛读ICLR 2023

Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial Auto-Encoders

这篇论文要解决的是：标准扩散模型训练与采样都很慢，且把扩散当作纯生成器时难以与自编码器式的表示学习结合。过去的加速多在采样器上做文章，但训练成本与“生成-表示”统一仍是痛点。

Huangjie Zheng,Pengcheng He,Weizhu Chen,Mingyuan Zhou

diffusionautoencodersamplingProceedings DBLP

泛读ICLR 2023

Towards a Unified Theoretical Understanding of Non-contrastive Learning via Rank Differential Mechanism

Zhijian Zhuo,Yifei Wang,Jinwen Ma,Yisen Wang

self-supervisednon-contrastiverepresentation-learningProceedings DBLP