NAACL 2025

North American Chapter of the ACL

会议官网

385/ 1376 相关论文

Track

方向

Tier

385 / 385 篇论文

精读LongNAACL 2025

Seq1F1B: Efficient Sequence-Level Pipeline Parallelism for Large Language Model Training

Sun Ao,Weilin Zhao,Xu Han,Cheng Yang,Xinrong Zhang,Zhiyuan Liu,Chuan Shi,Maosong Sun

training-efficiencypipeline-parallelismsystemsDOI DBLP

精读LongNAACL 2025

Pula: Training Large Language Models for Setswana

这篇工作的核心问题是：如何为 Setswana 这样资源稀缺的语言真正训练可用的大语言模型，而不是只做翻译适配或小规模 continued pretraining。很多低资源语言工作停留在评测或 adapter 层面，作者显然想回答“从训练数据到模型配方，能不能把完整 LLM pipeline 跑通”。

Nathan Brown,Vukosi Marivate

pretraininglow-resourcemultilingualDOI DBLP

精读LongNAACL 2025

Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion

Jacob K. Christopher,Brian R. Bartoldson,Tal Ben-Nun,Michael Cardei,Bhavya Kailkhura,Ferdinando Fioretto

diffusion-lmspeculative-decodingdecodingDOI DBLP

精读FindingsNAACL 2025

Discrete Diffusion Language Model for Efficient Text Summarization

这篇工作试图解决离散 diffusion LM 在文本生成里“理论上并行、实际不够划算”的问题，并把焦点落在摘要任务上。过去 diffusion LM 常被质疑生成步数多、延迟高，虽然对全局规划和任意位置修正有优势，但在 NLP 中很难和标准自回归解码竞争，因此需要证明它在受限生成任务上能不能用更高效的方式发挥价值。

Do Huu Dat,Duc Anh Do,Anh Tuan Luu,Wray L. Buntine

diffusion-lmnon-arsummarizationDOI DBLP

精读FindingsNAACL 2025

SimSMoE: Toward Efficient Training Mixture of Experts via Solving Representational Collapse

这篇工作要解决的是 MoE 训练中的 representational collapse，也就是不同 expert 学到的表示越来越相似，最后路由看似稀疏，实际专家功能重合，效率和容量都没有兑现。过去很多 MoE 论文主要盯 routing balance，但即便 token 分配均匀，如果 expert 表征塌成一团，模型仍然学不到真正的专业化。

Giang Do,Hung Le,Truyen Tran

moetraining-stabilityrepresentationDOI DBLP

泛读FindingsNAACL 2025

Sequence-level Large Language Model Training with Contrastive Preference Optimization

AR大模型主流的下一词预测预训练损失仅优化token级目标，缺乏序列级质量信号，导致训练推理 mismatch。现有序列级偏好优化方法依赖昂贵的人工标注数据，无法直接嵌入预训练阶段执行。

Zhili Feng,Dhananjay Ram,Cole Hawkins,Aditya Rawal,Jinman Zhao,Sheng Zha

sequence-levelpreference-optimizationobjectiveDOI arXiv DBLP

精读LongNAACL 2025

DenseSSM: State Space Models with Dense Hidden Connection for Efficient Large Language Models

这篇工作要解决的问题是：状态空间模型（SSM）虽然在长序列和推理效率上比 Transformer 更有潜力，但语言建模能力常被有限的隐藏状态传递瓶颈拖住，导致同等规模下效果不稳。以往做法通常在线性递推效率和表达能力之间二选一，要么保留高效扫描但上下文压缩过强，要么引入更重的连接后又削弱了 SSM 的系统优势。

Wei He,Kai Han,Yehui Tang,Chengcheng Wang,Yujie Yang,Tianyu Guo,Yunhe Wang

ssmstate-space-modelarchitectureDOI DBLP

精读FindingsNAACL 2025

Continuous Speech Tokenizer in Text To Speech

这篇论文要解决的是 TTS 里离散 speech tokenizer 的信息瓶颈：传统做法把语音量化成离散码，便于语言模型建模，但会引入量化误差，尤其伤害韵律、细粒度音色和自然度。作者提出 continuous speech tokenizer，说明他们认为离散化带来的便利，已经开始明显限制生成质量。

Yixing Li,Ruobing Xie,Xingwu Sun,Yu Cheng,Zhanhui Kang

speech-tokenizeraudio-lmtokenizerDOI DBLP

精读FindingsNAACL 2025

A Closer Look into Mixture-of-Experts in Large Language Models

MoE（Mixture-of-Experts）在大模型中被广泛采用，但其内部专家的实际行为——专家专业化程度、路由模式、冗余度——缺乏深入的实证分析。这导致 MoE 的设计（专家数量、路由策略、容量因子）更多靠经验而非理解。

Ka Man Lo,Zeyu Huang,Zihan Qiu,Zili Wang,Jie Fu

HKUSTmoearchitecturescalingDOI DBLP

精读IndustryNAACL 2025

Efficient Continual Pre-training of LLMs for Low-resource Languages

这篇论文要解决的是：如何以较低成本对 LLM 做 continual pre-training，使其更好支持低资源语言，同时尽量不破坏原有能力。过去常见做法是直接追加目标语言语料继续训练，但这很容易遇到灾难性遗忘、训练效率低和数据极度稀缺的问题；因此关键不是“继续训”，而是“怎么高效地继续训”。

Arijit Nag,Soumen Chakrabarti,Animesh Mukherjee,Niloy Ganguly

continual-pretrainlow-resourcemultilingualDOI DBLP

精读LongNAACL 2025

VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning

这篇论文要解决的核心问题是：如何在不依赖多阶段复杂训练的前提下，让文本 LLM 获得可用的语音能力。现有语音-语言系统常把 ASR、TTS、对齐和对话能力拆成多模块或多阶段训练，集成成本高，误差也容易层层累积。

Yifan Peng,Krishna C. Puvvada,Zhehuai Chen,Piotr Zelasko,He Huang,Kunal Dhawan,Ke Hu,Shinji Watanabe,Jagadeesh Balam,Boris Ginsburg

speech-lmmultimodalsftDOI DBLP

精读DemoNAACL 2025

AutoClean: LLMs Can Prepare Their Training Corpus

Xingyu Shen,Shengding Hu,Xinrong Zhang,Xu Han,Xiaojun Meng,Jiansheng Wei,Zhiyuan Liu,Maosong Sun

data-qualitydata-cleaningsynthetic-dataDOI DBLP

精读LongNAACL 2025

CartesianMoE: Boosting Knowledge Sharing among Experts via Cartesian Product Routing in Mixture-of-Experts

这篇工作的核心问题是：MoE 模型虽然参数扩展高效，但专家之间往往共享不足，导致路由碎片化、数据效率差、长尾专家训练不充分。传统 top-k routing 倾向把 token 硬分配到少数专家，计算省了，但专家间组合结构很弱，知识容易局部化，尤其在中等数据规模或多任务设置下更明显。

Zhenpeng Su,Xing Wu,Zijia Lin,Yizhe Xiong,Minxuan Lv,Guangyuan Ma,Hui Chen,Songlin Hu,Guiguang Ding

moeroutingarchitectureDOI DBLP

精读IndustryNAACL 2025

CPRM: A LLM-based Continual Pre-training Framework for Relevance Modeling in Commercial Search

商业搜索中的相关性建模需要持续适应新查询模式和商品变化，但 LLM 的 continual pre-training 在搜索相关性场景下缺乏系统性框架——直接 fine-tune 容易遗忘通用能力，而不做领域适配又无法捕捉搜索特有的语义匹配信号。

Kaixin Wu,Yixin Ji,Zeyuan Chen,Qiang Wang,Cunxiang Wang,Hong Liu ... 省略 2 位作者 ... ,Zhongyi Liu,Jinjie Gu,Yuan Zhou,Linjian Mo

continual-pretraindomain-adaptationrelevance-modelingDOI DBLP

精读SRWNAACL 2025

Towards Codec-LM Co-design for Neural Codec Language Models

Neural codec language model（如 VALL-E）的性能高度依赖音频 codec 的设计，但 codec 和语言模型通常是独立开发的，两者之间缺乏协同设计。codec 的离散化方式（码本大小、量化层数、时间分辨率）直接影响 LM 建模难度，但这个 co-design 空间此前未被系统探索。

Shih-Lun Wu,Aakash Lahoti,Arjun Desai,Karan Goel,Chris Donahue,Albert Gu

Carnegie Mellon UniversityStanford Universityaudio-lmtokenizercodecDOI DBLP

精读ShortNAACL 2025

STEP: Staged Parameter-Efficient Pre-training for Large Language Models

这篇工作关注一个直接面向 pretrain 的问题：如何在资源受限下做参数高效的继续预训练，而不是每次都全量更新全部参数。过去 PEFT 更多用于下游微调，放到预训练阶段常被担心容量不够、遗忘严重或收益有限，因此缺少成体系的方法。

Kazuki Yano,Takumi Ito,Jun Suzuki

parameter-efficientpretrainingstaged-trainingDOI DBLP

精读LongNAACL 2025

Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training

这篇工作要解决的是：现有 LLM 做 agent 时，很多基础能力并不是靠少量工具调用数据就能补起来，尤其是规划、状态跟踪、长程交互和工具使用习惯。单靠 SFT 或 agent-specific RL 往往提升快但泛化窄，因此作者把问题重新拉回 continual pre-training：先把 agent 所需分布真正喂进模型。

Yuchen Zhuang,Jingfeng Yang,Haoming Jiang,Xin Liu,Kewei Cheng,Sanket Lokegaonkar ... 省略 9 位作者 ... ,Nasser Zalmout,Priyanka Nigam,Bing Yin,Chao Zhang

continual-pretrainagentdata-mixtureDOI DBLP

泛读DemoNAACL 2025

SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages

现有主流大模型主要优化英语、中文等高资源语言性能，对东南亚低资源语言支持严重不足，区域内缺少覆盖多语种的开源可用大模型。

Wenxuan Zhang,Hou Pong Chan,Yiran Zhao,Mahani Aljunied,Jianyu Wang,Chaoqun Liu ... 省略 2 位作者 ... ,Weiwen Xu,Yew Ken Chia,Xin Li,Lidong Bing

multilingualfoundation-modelinstruction-tuningDOI arXiv DBLP

精读FindingsNAACL 2025

Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting

Mohamed Salim Aissi,Clément Romac,Thomas Carta,Sylvain Lamprier,Pierre-Yves Oudeyer,Olivier Sigaud,Laure Soulier,Nicolas Thome

reinforcement-learningagentalignmentDOI DBLP

精读LongNAACL 2025

LCIRC: A Recurrent Compression Approach for Efficient Long-form Context and Query Dependent Modeling in LLMs

Sumin An,Junyoung Sung,Wonpyo Park,Chanjun Park,Paul Hongsuck Seo

long-contextcompressionmemoryDOI DBLP

精读FindingsNAACL 2025

COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning

这篇工作的核心问题很明确：中文指令微调里，数据质量可能比数据数量更关键。过去很多工作默认“多多益善”，用大规模自动采样或混合数据堆性能，但中文场景里重复、污染、低信息密度和风格失衡问题尤其严重，导致训练算力并没有有效转化为能力。

Yuelin Bai,Xeron Du,Yiming Liang,Leo Jin,Junting Zhou,Ziqiang Liu ... 省略 12 位作者 ... ,Jie Fu,Min Yang,Shiwen Ni,Ge Zhang

instruction-tuningdata-qualitychineseDOI DBLP

精读FindingsNAACL 2025

Aligning to What? Limits to RLHF Based Alignment

这篇工作直接追问 RLHF 对齐到底在对齐什么，以及它的边界在哪里。社区常把 RLHF 视为把模型行为拉向“人类偏好”的通用办法，但实际上奖励模型学到的常常是标注流程里的代理信号，而不一定是稳健、可迁移的目标行为。

Logan Barnhart,Reza Akbarian Bafghi,Stephen Becker,Maziar Raissi

rlhfalignmentreward-modelDOI DBLP

精读LongNAACL 2025

Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech

这篇论文要解决的是 AR Transformer TTS 在长度泛化上的老问题：训练时见过的音频长度有限，推理时一旦句子很长，常出现重复、跳词、韵律漂移或提前终止。传统做法通常通过截断训练、启发式停顿或外部时长模型绕开，而不是让模型本身具备稳健的无界长度生成能力。

Eric Battenberg,R. J. Skerry-Ryan,Daisy Stanton,Soroosh Mariooryad,Matt Shannon,Julian Salazar,David Kao

ttsautoregressivelength-generalizationDOI DBLP

精读FindingsNAACL 2025

Beyond Excess and Deficiency: Adaptive Length Bias Mitigation in Reward Models for RLHF

这篇工作针对 RLHF 里一个很具体但影响很大的问题：reward model 往往带长度偏置，偏长和偏短都可能被系统性奖励或惩罚。过去很多工作只把它看成 excess 或 deficiency 的单向问题，作者强调长度偏置是动态的、情境相关的，因此需要自适应修正，而不是固定惩罚项。

Yuyan Bu,Liangyu Huo,Yi Jing,Qing Yang

reward-modelrlhflength-biasDOI DBLP

泛读LongNAACL 2025

Mastering the Craft of Data Synthesis for CodeLLMs

这篇工作关心的不是“要不要做数据合成”，而是“怎么把代码数据合成做对”。CodeLLM 训练早已大量依赖 synthetic data，但现有做法常停留在多生成一些题解或指令样本，缺乏对数据类型、难度、验证和混合策略的系统方法；作者显然想把这件事从经验活变成可复用工艺。

Meng Chen,Philip Arthur,Qianyu Feng,Cong Duy Vu Hoang,Yu-Heng Hong,Mahdi Kazemi Moghaddam ... 省略 6 位作者 ... ,Krishnaram Kenthapadi,Don Dharmasiri,Long Duong,Yuan-Fang Li

data-synthesiscode-llmdata-qualityDOI DBLP

泛读FindingsNAACL 2025

Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding

Sukmin Cho,Sangjin Choi,Taeho Hwang,Jeongyeon Seo,Soyeong Jeong,Huije Lee,Hoyun Song,Jong C. Park,Youngjin Kwon

speculative-decodinghierarchical-draftinginference-speedDOI DBLP

精读FindingsNAACL 2025

Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning

Joy Crosbie,Ekaterina Shutova

induction-headsiclattentionDOI DBLP

精读LongNAACL 2025

Wav2Prompt: End-to-End Speech Prompt Learning and Task-based Fine-tuning for Text-based LLMs

这篇工作要解决的是：如何让纯文本 LLM 直接吃语音输入，而不是依赖单独 ASR 把语音先转成文本再喂进去。传统流水线方案简单但会丢失韵律、说话风格和任务相关声学线索，而且错误会在 ASR 阶段被锁死，无法端到端为下游任务优化。

Keqi Deng,Guangzhi Sun,Philip C. Woodland

speechpromptingaudio-textDOI DBLP

精读LongNAACL 2025

Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling

这篇工作针对 LLM self-improvement 中一个很实际的问题：模型自举生成训练数据时，分布会越来越窄，最后只会产生少数高概率、风格单一的答案，导致“越自我改进越保守”。过去很多 self-training 或 self-refine 方法默认高置信样本越多越好，但这会牺牲尾部推理路径和解题多样性。

Yiwen Ding,Zhiheng Xi,Wei He,Lizhuoyuan Lizhuoyuan,Yitao Zhai,Shi Xiaowei,Xunliang Cai,Tao Gui,Qi Zhang,Xuanjing Huang

self-improvementsamplingalignmentDOI DBLP

泛读ShortNAACL 2025

The Geometry of Numerical Reasoning: Language Models Compare Numeric Properties in Linear Subspaces

大模型数值推理的内部编码机制不明确，现有探针研究仅能证明数值信息与隐状态的关联，无法验证因果关系，主流假设认为数值信息分散在整个嵌入空间。

Ahmed Oumar El-Shangiti,Tatsuya Hiraoka,Hilal AlQuabeh,Benjamin Heinzerling,Kentaro Inui

numerical-reasoningrepresentationgeometryDOI arXiv DBLP

泛读LongNAACL 2025

Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts

现有多目标对齐方法需要随对齐目标数线性增加训练模型量，新增目标需要重新训练，扩展成本高，无法在解码阶段动态调整用户偏好权重。

Tingchen Fu,Yupeng Hou,Julian J. McAuley,Rui Yan

alignmentdecodingcontrollabilityDOI arXiv DBLP

泛读ShortNAACL 2025

Great Memory, Shallow Reasoning: Limits of kNN-LMs

kNN-LM（将检索与下一词预测结合的语言模型）在困惑度和部分 NLP 基准上表现优异，但这种改进是否真正转化为推理等下游能力，此前缺乏系统验证。

Shangyi Geng,Wenting Zhao,Alexander M. Rush

Cornell Universityretrievalknn-lmreasoningDOI arXiv DBLP

泛读FindingsNAACL 2025

Multi-Stage LLM Fine-Tuning with a Continual Learning Setting

这篇工作关注的是：LLM 在多阶段微调时容易遗忘早期能力，而现实训练流程又常常就是分阶段接入不同数据和目标。过去常见做法是把所有数据一次性混训，或者接受后续阶段对前面能力的覆盖，但这两种做法都不适合持续迭代的模型开发。

Changhao Guan,Chao Huang,Hongliang Li,You Li,Ning Cheng,Zihe Liu,Yufeng Chen,Jinan Xu,Jian Liu

continual-learningfine-tuningmulti-stageDOI DBLP

精读LongNAACL 2025

Measuring memorization in language models via probabilistic extraction

这篇工作要解决的是：如何更准确地测量语言模型的记忆化，而不是只靠字符串匹配式 extraction。传统 memorization 评估通常要求模型精确吐出训练语料片段，但这种定义过窄，会漏掉大量“高概率恢复但不逐字一致”的记忆，也难以比较不同提示和采样策略下的泄露风险。

Jamie Hayes,Marika Swanberg,Harsh Chaudhari,Itay Yona,Ilia Shumailov,Milad Nasr,Christopher A. Choquette-Choo,Katherine Lee,A. Feder Cooper

memorizationprivacydata-extractionDOI DBLP

精读LongNAACL 2025

HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing

这篇工作要解决的是：长上下文语言处理的成本随序列长度快速上升，而纯粹拉长 context window 往往在算力和显存上都不可持续。过去有两条主路：做稀疏/线性注意力，或者做外部 memory；前者常损失精度，后者又容易和主干 Transformer 脱节，导致读写无效。

Zifan He,Yingqi Cao,Zongyue Qin,Neha Prakriya,Yizhou Sun,Jason Cong

long-contextmemorytransformerDOI DBLP

精读FindingsNAACL 2025

Token Weighting for Long-Range Language Modeling

这篇工作关注的核心问题是：标准 next-token loss 默认所有 token 权重相同，但长程语言建模真正难的是远距离依赖，而不是局部高频 token 的重复预测。过去大家通常靠加长上下文、换架构或位置编码来提升长程能力，却较少直接改训练信号，结果模型仍可能把大部分容量花在短程统计上。

Falko Helm,Nico Daheim,Iryna Gurevych

Technical University of Darmstadttoken-weightinglong-rangelanguage-modelingDOI DBLP

精读ShortNAACL 2025

Repetition Neurons: How Do Language Models Produce Repetitions?

这篇工作关注的核心问题是：语言模型为什么会出现重复生成，尤其是那种并非采样噪声、而是由内部机制稳定诱发的 repetition loop。过去对重复问题的处理大多停留在 decoding 层，比如 repetition penalty 或 nucleus sampling，但这些方法是在症状层补丁，没回答模型内部到底哪些神经元或回路在驱动重复。

Tatsuya Hiraoka,Kentaro Inui

Tohoku UniversityinterpretabilityrepetitionneuronsDOI DBLP

泛读LongNAACL 2025

Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment

这篇论文要解决的问题很明确：Best-of-N 采样在用奖励模型做解码对齐时容易 reward hacking，尤其当奖励模型只是人类偏好的有噪代理时。以往 BoN 默认‘分高就选’，这在奖励模型不够准时会系统性放大奖励偏差，导致模型选出更像在讨好 reward model、而不是更符合真实偏好的答案。

Yuu Jinnai,Tetsuro Morimura,Kaito Ariu,Kenshi Abe

alignmentbest-of-nreward-modelDOI arXiv DBLP

泛读FindingsNAACL 2025

Weight-based Analysis of Detokenization in Language Models: Understanding the First Stage of Inference Without Inference

这篇论文关注一个很少被单独研究、但对 LM 输出层理解很关键的问题：detokenization 的第一步到底是怎么由模型权重决定的，而且能否在不真正跑推理的情况下分析它。以往我们通常把输出 token 看成前向传播后的自然结果，但很少追问 logits 形成之前，词表结构和输出权重本身已经隐含了什么偏置。

Go Kamoda,Benjamin Heinzerling,Tatsuro Inaba,Keito Kudo,Keisuke Sakaguchi,Kentaro Inui

tokenizerdetokenizationlogitsDOI DBLP

泛读LongNAACL 2025

Reversed Attention: On The Gradient Descent Of Attention Layers In GPT

这篇论文关注 attention 层在 GPT 中的梯度下降动力学，特别是‘reversed attention’这一现象或解释框架。现有对 attention 的理解大多停留在前向计算和功能解释层面，而对训练过程中 attention 权重为何会朝某种结构演化、以及梯度是否隐含反向抑制或竞争机制，研究相对少。

Shahar Katz,Lior Wolf

attentionoptimizationtraining-dynamicsDOI DBLP

泛读FindingsNAACL 2025

The Geometry of Prompting: Unveiling Distinct Mechanisms of Task Adaptation in Language Models

这篇工作研究的是 prompt 为什么能让模型适配任务，而且这种适配是否存在彼此不同的内部机制。过去大家常把 prompting 视为一个统一现象：换个提示词，模型性能就变了；但题目表明作者认为不同 prompt 可能通过不同几何路径或表示变换起作用，而不是同一种机制的强弱差别。

Artem Kirsanov,Chi-Ning Chou,Kyunghyun Cho,SueYeon Chung

promptingicltask-adaptationDOI DBLP

精读IndustryNAACL 2025

Does Self-Attention Need Separate Weights in Transformers?

这篇工作直接追问 Transformer 的一个基础设计：自注意力里的不同投影矩阵是否真的都需要分开学。标准 Transformer 默认给 query、key、value 以及不同头分配独立参数，但这个选择更多是经验继承，不一定是最简或最必要的；如果其中有冗余，就关系到参数效率、归纳偏置和训练稳定性。

Md. Kowsher,Nusrat Jahan Prottasha,Chun-Nam Yu,Ozlem O. Garibay,Niloofar Yousefi

self-attentiontransformer-architectureparameter-efficiencyDOI DBLP

精读FindingsNAACL 2025

RewardBench: Evaluating Reward Models for Language Modeling

这篇工作要解决的是：reward model 已经成为语言模型后训练的核心部件，但大家对它的评测长期不统一、不充分。很多 reward model 只在自己训练过的分布上看起来有效，一旦换任务、换风格、换长度偏置或遇到安全场景就可能失真，因此需要一个系统 benchmark 来判断 reward model 到底在奖励什么。

Nathan Lambert,Valentina Pyatkin,Jacob Morrison,Lester James V. Miranda,Bill Yuchen Lin,Khyathi Raghavi Chandu ... 省略 2 位作者 ... ,Tom Zick,Yejin Choi,Noah A. Smith,Hannaneh Hajishirzi

reward-modelbenchmarkrlhfDOI DBLP

精读FindingsNAACL 2025

LOFT: Scalable and More Realistic Long-Context Evaluation

这篇工作要解决的是：现有长上下文评测往往不够真实，也不够可扩展，导致模型看起来支持很长 context，但测试内容可能只是简单 needle-in-a-haystack 或合成检索。这样得到的结论对真实应用指导有限，因为真正的长上下文难点不只是能不能找到一个片段，而是能否在长文档里做多点整合、抗干扰和任务条件化读取。

Jinhyuk Lee,Anthony Chen,Zhuyun Dai,Dheeru Dua,Devendra Singh Sachan,Michael Boratko ... 省略 9 位作者 ... ,Sebastian Riedel,Iftekhar Naim,Ming-Wei Chang,Kelvin Guu

long-contextbenchmarkevaluationDOI DBLP

精读FindingsNAACL 2025

2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision

这篇论文要解决的是 DPO 的监督信号过于一维：传统 DPO 只知道 A 比 B 好，但不知道“好在哪里、差多少”，所以当偏好数据同时包含多个质量维度时，优化会变得粗糙。这个问题在对齐训练里越来越重要，因为真实偏好往往同时涉及 helpfulness、safety、style、factuality 等多个方向。

Shilong Li,Yancheng He,Hui Huang,Xingyuan Bu,Jiaheng Liu,Hangyu Guo,Weixun Wang,Jihao Gu,Wenbo Su,Bo Zheng

dpopreference-learningalignmentDOI DBLP

精读FindingsNAACL 2025

Language Modeling with Editable External Knowledge

这篇论文要解决的是语言模型知识一旦写进参数就很难编辑，而外部检索虽然可更新，却常常不能和生成过程深度耦合。过去常见做法是在“全参数记忆”和“外挂检索”之间二选一，这导致知识更新、局部编辑和生成流畅性之间一直存在张力。

Belinda Z. Li,Emmy Liu,Alexis Ross,Abbas Zeitoun,Graham Neubig,Jacob Andreas

Carnegie Mellon Universityexternal-memoryknowledgelanguage-modelingDOI DBLP

精读FindingsNAACL 2025

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

这篇论文要解决的是多模态多任务学习里表示空间割裂的问题：很多 MLLM 虽然表面上统一了输入输出接口，但不同模态、不同任务仍靠各自 head 或松散对齐，导致迁移差、复用差、任务间互相干扰。作者想做的是用 LLM 建一个真正统一的表示层，而不只是把不同 encoder 拼在一起。

Zhaowei Li,Wei Wang,Yiqing Cai,Qi Xu,Pengyu Wang,Dong Zhang,Hang Song,Botian Jiang,Zhida Huang,Tao Wang

multimodalunified-modelingrepresentationDOI DBLP

精读SRWNAACL 2025

Self-Vocabularizing Training for Neural Machine Translation

这篇工作要解决的是机器翻译中词表预先固定带来的表示约束。传统 NMT 依赖训练前设定好的 subword vocabulary，这在跨语言、领域迁移或低资源场景下常常不是最优，模型被迫适配一个静态词表，而不是学习更合适的离散单位。

Pin-Jie Lin,Ernie Chang,Yangyang Shi,Vikas Chandra

tokenizervocabularytraining-objectiveDOI DBLP

精读FindingsNAACL 2025

A Recipe of Parallel Corpora Exploitation for Multilingual Large Language Models

这篇工作要解决的是多语 LLM 如何更有效利用平行语料的问题。现有多语预训练通常以大规模单语混合为主，平行语料要么占比很低、要么只在指令或对齐阶段零散使用，导致跨语言对齐能力提升不稳定且成本偏高。

Peiqin Lin,André F. T. Martins,Hinrich Schütze

multilingualdata-mixtureparallel-dataDOI DBLP

精读FindingsNAACL 2025

Understanding Reference Policies in Direct Preference Optimization

这篇工作要解决的是 DPO 中 reference policy 的作用机制不清楚的问题。实践里很多人把 reference 当成实现细节：有时用 SFT 模型，有时冻结初始策略，有时近似省掉，但这些选择会显著影响优化稳定性、KL 约束强度和最终行为，却缺少系统解释。

Yixin Liu,Pengfei Liu,Arman Cohan

dpoalignmentreference-modelDOI DBLP

精读LongNAACL 2025

LiPO: Listwise Preference Optimization through Learning-to-Rank

DPO 等偏好优化方法通常只处理 pairwise 偏好对，无法充分利用多个候选响应之间的完整排序信息。这导致训练信号利用不充分，尤其当标注者提供了多级偏好排序时。

Tianqi Liu,Zhen Qin,Junru Wu,Jiaming Shen,Misha Khalman,Rishabh Joshi ... 省略 2 位作者 ... ,Simon Baumgartner,Jialu Liu,Peter J. Liu,Xuanhui Wang

Google ResearchGoogle DeepMindpreference-optimizationlistwisealignmentDOI DBLP

精读LongNAACL 2025

ReGLA: Refining Gated Linear Attention

Gated Linear Attention（GLA）作为 Transformer 的高效替代架构，在推理效率上有优势但在质量上仍落后于标准 attention。如何在保持线性复杂度的同时缩小与标准 attention 的质量差距？

Peng Lu,Ivan Kobyzev,Mehdi Rezagholizadeh,Boxing Chen,Philippe Langlais

Université de MontréalHuawei Noah's Ark Lablinear-attentionarchitecturelong-contextDOI DBLP

精读LongNAACL 2025

Transferable Post-training via Inverse Value Learning

Post-training（SFT/RLHF）的成果难以跨模型迁移——在一个 base model 上做的对齐工作，换一个 base model 就要重做。这导致每次 pretrain 迭代后 posttrain 成本重复累积。

Xinyu Lu,Xueru Wen,Yaojie Lu,Bowen Yu,Hongyu Lin,Haiyang Yu,Le Sun,Xianpei Han,Yongbin Li

中国科学院信息工程研究所Alibabapost-trainingvalue-learningalignmentDOI DBLP

精读ShortNAACL 2025

Language Models "Grok" to Copy

这篇工作研究的是一个看似简单但很有机制价值的问题：语言模型是如何学会 copy 的。复制能力常被当成 transformer 的天然属性，但训练中它何时出现、依赖什么数据与表示条件、是否属于 grokking 式突变，一直没有被讲清楚。

Ang Lv,Ruobing Xie,Xingwu Sun,Zhanhui Kang,Rui Yan

grokkingcopyinggeneralizationDOI DBLP

精读LongNAACL 2025

HIGGS: Pushing the Limits of Large Language Model Quantization via the Linearity Theorem

这篇工作要解决的是：如何把 LLM 量化再往前推，而不只是做经验性校准和逐层修补。现有量化方法很大程度是启发式工程，效果依赖校准集、层敏感度和后处理细节，因此很难知道极限在哪里，也难以系统解释为什么某些权重能压得更低。

Vladimir Malinovskii,Andrei Panferov,Ivan Ilin,Han Guo,Peter Richtárik,Dan Alistarh

quantizationinference-efficiencyllm-compressionDOI DBLP

精读FindingsNAACL 2025

A Survey to Recent Progress Towards Understanding In-Context Learning

这是一篇综述，核心问题不是提出新方法，而是系统梳理 in-context learning（ICL）到底已经被理解到什么程度、仍有哪些分歧。ICL 已经成为大模型行为的基础现象，但解释路径很多，从隐式梯度下降到模式匹配、从贝叶斯视角到机制电路，结论并不统一。

Haitao Mao,Guangliang Liu,Yao Ma,Rongrong Wang,Kristen Marie Johnson,Jiliang Tang

in-context-learningsurveymechanistic-interpretabilityDOI DBLP

精读FindingsNAACL 2025

Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation

这篇工作解决的是一个很实际的预训练问题：现有通用 tokenizer 对意大利语的 token fertility 偏高，导致序列更长、训练和推理更贵、表示效率更差。很多多语模型默认接受这种代价，但对单语或重点语种优化而言，这其实是一个可以显著改进的入口。

Luca Moroni,Giovanni Puccetti,Pere-Lluís Huguet Cabot,Andrei Stefan Bejgu,Alessio Miaschi,Edoardo Barba,Felice Dell'Orletta,Andrea Esuli,Roberto Navigli

tokenizervocabulary-adaptationmultilingualDOI DBLP

精读LongNAACL 2025

Sneaking Syntax into Transformer Language Models with Tree Regularization

这篇论文关注的是：纯序列 Transformer LM 缺少显式句法偏置，是否能通过树结构正则化补回一部分语法归纳能力。过去大模型常被认为会“自己学会语法”，但这并不等于其内部表示对句法稳定、可控或数据高效；在有限数据、长依赖或结构泛化场景下，缺少结构先验仍可能是短板。

Ananjan Nandi,Christopher D. Manning,Shikhar Murty

transformerregularizationsyntaxDOI DBLP

精读LongNAACL 2025

DPL: Diverse Preference Learning Without A Reference Model

这篇论文要解决的是：偏好学习能否不依赖 reference model，同时还能学到多样化而不是塌缩到单一风格的偏好。现有很多 preference optimization 方法无论是显式还是隐式，都在某种程度上依赖参考策略来稳定训练或限制漂移；但 reference model 会带来额外算力、实现复杂度，并可能把解空间锁死在旧策略附近。

Abhijnan Nath,Andrey Volozin,Saumajit Saha,Albert Nanda,Galina Grunin,Rahul Bhotika,Nikhil Krishnaswamy

preference-learningdpoalignmentDOI DBLP

泛读LongNAACL 2025

ALinFiK: Learning to Approximate Linearized Future Influence Kernel for Scalable Third-Parity LLM Data Valuation

Yanzhou Pan,Huawei Lin,Yide Ran,Jiamin Chen,Xiaodong Yu,Weijie Zhao,Denghui Zhang,Zhaozhuo Xu

data-valuationinfluencedata-qualityDOI DBLP

精读FindingsNAACL 2025

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

这篇工作研究一个很具体但常被忽略的问题：标点符号在 Transformer 上下文记忆里到底起了什么作用。过去标点通常被当成低层表面特征处理，但如果它实际上参与了分段、边界提示和注意力路由，那么我们对上下文记忆机制的很多解释都会不完整。

Anton Razzhigaev,Matvey Mikhalchuk,Temurbek Rahmatullaev,Elizaveta Goncharova,Polina Druzhinina,Ivan V. Oseledets,Andrey Kuznetsov

interpretabilitycontext-memorypunctuationDOI DBLP

泛读FindingsNAACL 2025

Improving Consistency in LLM Inference using Probabilistic Tokenization

Ashutosh Sathe,Divyanshu Aggarwal,Sunayana Sitaram

tokenizerinferencedecodingDOI DBLP

泛读IndustryNAACL 2025

MoFE: Mixture of Frozen Experts Architecture

Jean Seo,Jaeyoon Kim,Hyopil Shin

moearchitecturefrozen-expertsDOI DBLP

泛读LongNAACL 2025

CompAct: Compressed Activations for Memory-Efficient LLM Training

Yara Shamshoum,Nitzan Hodos,Yuval Sieradzki,Assaf Schuster

trainingmemoryactivationDOI DBLP

泛读LongNAACL 2025

Instantly Learning Preference Alignment via In-context DPO

这篇论文要解决的是：偏好对齐通常需要显式训练，如 DPO 或 RLHF，但很多场景下我们希望模型能在不给参数更新的情况下，立刻吸收少量偏好示例。过去 in-context learning 能做任务适配，却较少被系统地用于 preference alignment，因此作者在问：DPO 这种二元偏好学习能否被放进上下文里即时实现。

Feifan Song,Yuxuan Fan,Xin Zhang,Peiyi Wang,Houfeng Wang

dpoin-context-learningalignmentDOI DBLP

泛读DemoNAACL 2025

ESPnet-SpeechLM: An Open Speech Language Model Toolkit

现有语音语言模型（SpeechLM）开发没有统一的端到端工具链，各环节实现碎片化，复现成本高，中小团队难以快速搭建高性能SpeechLM。

Jinchuan Tian,Jiatong Shi,William Chen,Siddhant Arora,Yoshiki Masuyama,Takashi Maekaku ... 省略 6 位作者 ... ,Xiang Yue,Chao-Han Huck Yang,Graham Neubig,Shinji Watanabe

speech-lmtoolkitpretrainingDOI arXiv DBLP

精读FindingsNAACL 2025

Ignore the KL Penalty! Boosting Exploration on Critical Tokens to Enhance RL Fine-Tuning

这篇论文的核心结论是：RL 微调里一刀切地用 KL 约束整段输出，会压制真正需要探索的关键 token。现有 RLHF/RLAIF 体系通常依赖 KL penalty 保住预训练能力，但它默认所有位置都该被同等约束；对长程任务尤其是算术、多步推理这类问题，真正决定成败的往往只有少数“critical tokens”，这使得全局 KL 变成了低效甚至方向错误的探索控制手段。

Jean Vassoyan,Nathanaël Beau,Roman Plaud

rl-finetuningexplorationkl-penaltyDOI arXiv DBLP

泛读LongNAACL 2025

AudioBench: A Universal Benchmark for Audio Large Language Models

这篇论文要解决的是：音频大模型缺少统一、可横向比较的评测基准，导致不同工作各自选任务、选指标，结果很难判断模型到底在听觉理解、语音、音乐还是通用音频推理上进步了多少。这个问题以前在音频领域长期存在，但随着 audio LLM 快速增多，已经成为方法比较的主要障碍。

Bin Wang,Xunlong Zou,Geyu Lin,Shuo Sun,Zhuohan Liu,Wenyu Zhang,Zhengyuan Liu,AiTi Aw,Nancy F. Chen

audio-lmbenchmarkspeechDOI DBLP

泛读LongNAACL 2025

InfoPO: On Mutual Information Maximization for Large Language Model Alignment

LLM 对齐中的偏好优化（如 DPO）在理论上缺乏对信息利用效率的分析——模型应该从偏好数据中提取多少信息、如何避免过拟合偏好噪声。本文从互信息最大化的角度重新审视 LLM 对齐，提出 InfoPO。

Teng Xiao,Zhen Ge,Sujay Sanghavi,Tian Wang,Julian Katz-Samuels,Marc Versage,Qingjun Cui,Trishul Chilimbi

alignmentdpomutual-informationDOI DBLP

泛读LongNAACL 2025

Stronger Models are Not Always Stronger Teachers for Instruction Tuning

指令微调（instruction tuning）中，更强的教师模型生成的数据是否一定能训出更好的学生模型？直觉上是的，但实际中存在「能力差距过大导致学生学不好」的现象。本文系统研究教师模型强度与学生模型性能之间的非单调关系。

Zhangchen Xu,Fengqing Jiang,Luyao Niu,Bill Yuchen Lin,Radha Poovendran

University of Washingtoninstruction-tuningdata-synthesisteacher-modelDOI DBLP

泛读LongNAACL 2025

Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design

Mohan Zhang,Pingzhi Li,Jie Peng,Mufan Qiu,Tianlong Chen

moeroutingexpert-parallelismDOI DBLP

泛读LongNAACL 2025

Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

Jingyu Zhang,Marc Marone,Tianjian Li,Benjamin Van Durme,Daniel Khashabi

alignmentpretraining-dataattributionDOI DBLP

泛读LongNAACL 2025

On the Analysis and Distillation of Emergent Outlier Properties in Pre-trained Language Models

这篇工作聚焦预训练语言模型中的 emergent outlier properties，即少数异常大激活或异常重要通道为何会自发出现，以及能否被蒸馏出来。这个问题以前多被当成量化和部署阶段的工程现象处理，但如果 outlier 是能力形成的一部分，那么只在压缩阶段被动适配就太晚了。

Tianyang Zhao,Kunwar Yashraj Singh,Srikar Appalaraju,Peng Tang,Ying Nian Wu,Li Erran Li

pretrained-lmdistillationoutliersDOI DBLP

精读LongNAACL 2025

Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts

这篇工作要解决的是：MoE 在 instruction tuning 时，数据混合策略不能再沿用 dense 模型的静态配比。因为不同指令数据会触发不同专家，固定 mixing ratio 容易造成专家利用失衡、某些能力过拟合、另一些能力始终学不到。

Tong Zhu,Daize Dong,Xiaoye Qu,Jiacheng Ruan,Wenliang Chen,Yu Cheng

moeinstruction-tuningdata-mixtureDOI DBLP

泛读FindingsNAACL 2025

A Practical Analysis of Human Alignment with *PO

Kian Ahrabian,Xihui Lin,Barun Patra,Vishrav Chaudhary,Alon Benhaim,Jay Pujara,Xia Song

alignmentpreference-optimizationhuman-preferencesDOI DBLP

泛读LongNAACL 2025

The LLM Language Network: A Neuroscientific Approach for Identifying Causally Task-Relevant Units

Badr AlKhamissi,Greta Tuckute,Antoine Bosselut,Martin Schrimpf

interpretabilitycausal-analysisneuronsDOI DBLP

泛读FindingsNAACL 2025

ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models

David Anugraha,Genta Indra Winata,Chenyue Li,Patrick Amadeus Irawan,En-Shiun Annie Lee

scaling-lawproxy-modelmultilingualDOI DBLP

泛读FindingsNAACL 2025

SOLID: Self-seeding and Multi-intent Self-instructing LLMs for Generating Intent-aware Information-Seeking Dialogs

这篇工作要解决的是：如何低成本生成“带意图标注、符合信息寻求过程”的多轮对话数据。现有 self-instruct 多数擅长生成单轮指令或浅层多轮对话，但很少显式建模用户意图迁移、澄清、追问和目标变化，因此生成的数据常常像模板拼接，难以支撑更真实的对话训练。

Arian Askari,Roxana Petcu,Chuan Meng,Mohammad Aliannejadi,Amin Abolghasemi,Evangelos Kanoulas,Suzan Verberne

self-instructsynthetic-datadialogueDOI DBLP

泛读ShortNAACL 2025

AlignFreeze: Navigating the Impact of Realignment on the Layers of Multilingual Models Across Diverse Languages

这篇工作关注 multilingual model 在 realignment 之后到底改了什么，尤其是哪些层受影响、哪些语言受伤。现实里大家常做 RLHF、DPO 或 instruction tuning 后再拿多语模型用，但跨语言退化经常被当成整体分数变化处理，缺少层级和语言覆盖上的细粒度诊断。

Steve Bakos,David Guzmán,Riddhi More,Kelly Chutong Li,Félix Gaschi,En-Shiun Annie Lee

multilingualalignmentlayer-analysisDOI DBLP

泛读SRWNAACL 2025

Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling

这篇工作解决的是一个很现实的张力：如何生成足够真实的自由文本医疗记录，同时把重识别风险压低。常见做法要么过度匿名化，牺牲文本连贯性和临床细节；要么直接用生成模型合成，但隐私泄漏评估不充分，尤其自由文本比结构化表更难保证安全。

Samuel Belkadi,Libo Ren,Nicolo Micheletti,Lifeng Han,Goran Nenadic

masked-lmsynthetic-dataprivacyDOI DBLP

泛读LongNAACL 2025

In-Context Learning with Long-Context Models: An In-Depth Exploration

这篇工作研究长上下文模型里的 in-context learning 到底如何工作，以及长 context 是否真的带来稳定收益。业界常默认上下文越长越好，但实际效果受示例位置、检索噪声、注意力退化和任务结构影响很大，很多失败并不是“窗口不够长”，而是长窗口没有被有效利用。

Amanda Bertsch,Maor Ivgi,Emily Xiao,Uri Alon,Jonathan Berant,Matthew R. Gormley,Graham Neubig

in-context-learninglong-contextevaluationDOI DBLP

泛读LongNAACL 2025

Soft Prompting for Unlearning in Large Language Models

这篇工作聚焦于一个很实际的问题：能否用比全量微调更轻量的方式让大模型“忘记”特定知识或行为。现有 unlearning 方法常依赖参数更新、重训练或额外约束，代价高且容易伤到未目标能力；作者把问题转成 soft prompt 是否足以承载“遗忘信号”。

Karuna Bhaila,Minh-Hao Van,Xintao Wu

unlearningsoft-promptalignmentDOI DBLP

泛读FindingsNAACL 2025

Adaptive Parameter Compression for Language Models

这篇工作关注语言模型压缩中的一个老问题：统一压缩率通常不合理，因为不同层、不同模块、不同参数块的重要性并不一样。传统剪枝、量化或低秩压缩常用固定策略，简单但浪费冗余结构，也容易在关键层上过压缩导致能力骤降。

Jeremias Bohn,Frederic Mrozinski,Georg Groh

compressionparameter-efficientmodel-sizeDOI DBLP

泛读LongNAACL 2025

Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages

这篇工作的核心结论很明确：大语言模型在类型学差异较大的语言之间，确实共享了潜在语法概念的表示。过去多语言模型常通过零样本迁移表现来间接推断共享结构，但这类证据混杂了词汇重叠、数据不平衡和任务偏置；作者直接把问题落到内部表示层面。

Jannik Brinkmann,Chris Wendler,Christian Bartelt,Aaron Mueller

multilingualrepresentation-analysisgrammarDOI DBLP

泛读FindingsNAACL 2025

Aligning Black-box Language Models with Human Judgments

这篇工作要解决的是：当底座语言模型是 black-box、无法访问梯度或内部参数时，如何仍然让它更贴近人类判断。很多对齐方法默认可微、可训练、可采样大量偏好数据，但闭源 API 模型不满足这些条件，导致“想对齐却没接口”成为实际部署中的硬约束。

Gerrit J. J. van den Burg,Gen Suzuki,Wei Liu,Murat Sensoy

alignmentblack-boxhuman-preferencesDOI DBLP

泛读LongNAACL 2025

Extracting and Understanding the Superficial Knowledge in Alignment

这篇工作想回答一个机制问题：alignment 过程中到底学到了什么“表层知识”，以及这些知识如何影响模型行为。很多对齐研究只看最终偏好分数，却很少拆开哪些是深层行为变化，哪些只是可被提取的表面模板、拒答格式或风格规则；作者显然在追踪这部分浅层成分。

Runjin Chen,Gabriel J. Perin,Xuxi Chen,Xilun Chen,Yan Han,Nina S. T. Hirata,Junyuan Hong,Bhavya Kailkhura

alignmentsuperficial-knowledgesftDOI DBLP

泛读FindingsNAACL 2025

Flaming-hot Initiation with Regular Execution Sampling for Large Language Models

Weizhe Chen,Zhicheng Zhang,Guanlin Liu,Renjie Zheng,Wenlei Shi,Chen Dun,Zheng Wu,Xing Jin,Lin Yan

samplingdecodingreasoningDOI DBLP

泛读FindingsNAACL 2025

Neuroplasticity and Corruption in Model Mechanisms: A Case Study Of Indirect Object Identification

Vishnu Kabir Chhabra,Ding Zhu,Mohammad Mahdi Khalili

interpretabilitycircuit-analysisneuroplasticityDOI DBLP

泛读LongNAACL 2025

Token-based Decision Criteria Are Suboptimal in In-context Learning

Hakaze Cho,Yoshihiro Sakai,Mariko Kato,Kenshiro Tanaka,Akira Ishii,Naoya Inoue

icldecision-criteriatoken-levelDOI DBLP

泛读LongNAACL 2025

Pipeline Analysis for Developing Instruct LLMs in Low-Resource Languages: A Case Study on Basque

Ander Corral,Ixak Sarasua,Xabier Saralegi

instructlow-resourcedata-pipelineDOI DBLP

泛读FindingsNAACL 2025

Investigating the Zone of Proximal Development of Language Models for In-Context Learning

这篇工作要回答的核心问题是：LLM 的 in-context learning 到底在什么难度范围内最有效，也就是是否存在类似教育学里“最近发展区”的能力边界。过去很多 ICL 研究只看平均性能，默认给更多 demonstrations 就会更好，但实际中样例过易学不到规律，过难又无法从上下文中归纳，因此值得系统刻画“任务难度—模型能力—上下文示例”三者的匹配关系。

Peng Cui,Mrinmaya Sachan

iclgeneralizationpromptingDOI DBLP

泛读FindingsNAACL 2025

On Localizing and Deleting Toxic Memories in Large Language Models

这篇工作聚焦一个更细的问题：有毒内容并不是均匀存储在模型里，能否先定位对应“毒性记忆”，再有选择地删除，而不是用粗暴的全局安全微调。过去很多 detox 或 unlearning 方法会牺牲通用能力，因为它们只能在输出层面压制行为，无法区分哪些参数真在承载有害记忆。

Anubrata Das,Manoj Kumar,Ninareh Mehrabi,Anil Ramakrishna,Anna Rumshisky,Kai-Wei Chang,Aram Galstyan,Morteza Ziyadi,Rahul Gupta

unlearningtoxicitymodel-editingDOI DBLP

泛读FindingsNAACL 2025

Chasing Random: Instruction Selection Strategies Fail to Generalize

这篇工作的结论从标题就很直接：现有 instruction selection 策略往往在验证集上看起来优于随机，但并不能稳定泛化到新设置。过去大家习惯于从海量指令数据中做筛选，假设“选得更好”能减少训练成本并提升对齐质量，但很多方法可能只是对特定任务分布或评测器过拟合。

Harshita Diddee,Daphne Ippolito

instruction-dataselectiongeneralizationDOI DBLP

泛读LongNAACL 2025

Threshold Filtering Packing for Supervised Fine-Tuning: Training Related Samples within Packs

这篇工作关注一个很工程、但常被低估的问题：SFT 中为了提高吞吐常用 sample packing，但把不相关样本塞进同一个 pack 会引入训练干扰。过去 packing 主要按长度优化显存和 token 利用率，却默认跨样本边界不会显著影响学习；这一假设在 instruction tuning 中未必成立，因为相邻样本主题、格式和回答风格差异很大。

Jiancheng Dong,Lei Jiang,Wei Jin,Lu Cheng

sftpackingdata-selectionDOI DBLP

泛读LongNAACL 2025

UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models

这篇工作要解决的是 LLM unlearning 中一个核心稳定性问题：现有方法常通过最大化遗忘数据的交叉熵来“反向学习”，但这种目标天然不稳定，尤其在较大遗忘集上容易过度遗忘并拖垮语言能力。问题并不只是删不掉敏感信息，而是在删除与保留之间缺少稳定的优化路径。

Yijiang River Dong,Hongzhou Lin,Mikhail Belkin,Ramón Huerta,Ivan Vulic

unlearningdistillationprivacyDOI arXiv DBLP

泛读ShortNAACL 2025

Related Knowledge Perturbation Matters: Rethinking Multiple Pieces of Knowledge Editing in Same-Subject

这篇工作的核心结论很明确：在同一主体上同时编辑多条知识时，真正的难点不是 edit 数量本身，而是相关知识之间的扰动传播。现有知识编辑方法大多在单条事实或不同主体上评测，因此掩盖了 same-subject、multi-attribute 编辑时的耦合问题，导致看起来能改，实则一致性很差。

Zenghao Duan,Wenbin Duan,Zhiyi Yin,Yinghan Shen,Shaoling Jing,Jie Zhang,Huawei Shen,Xueqi Cheng

knowledge-editingmodel-editingmemoryDOI arXiv DBLP

泛读FindingsNAACL 2025

Linguistically Grounded Analysis of Language Models using Shapley Head Values

现有大模型语言知识探针方法无法准确定位处理特定形态句法现象的注意力头，难以量化单个头的贡献，无法对比不同模型的语言编码模式差异。

Marcell Fekete,Johannes Bjerva

interpretabilityattention-headslinguisticsDOI arXiv DBLP

泛读LongNAACL 2025

A Distributional Perspective on Word Learning in Neural Language Models

Filippo Ficarra,Ryan Cotterell,Alex Warstadt

word-learningdistributionlanguage-modelsDOI DBLP

LongNAACL 2025

Representing Rule-based Chatbots with Transformers

现有Transformer对话机制的可解释性研究局限于排序、形式语言识别等合成任务，无法扩展到真实对话场景，缺少明确的形式化分析基准。

Dan Friedman,Abhishek Panigrahi,Danqi Chen

transformermechanistic-interpretabilityconversationDOI arXiv DBLP

泛读FindingsNAACL 2025

Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions

Yujuan Fu,Özlem Uzuner,Meliha Yetisgen,Fei Xia

data-contaminationevaluationbenchmarkingDOI DBLP

泛读ShortNAACL 2025

Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes

LLM 自身存在社会偏见（刻板印象），现有去偏方法大多需要修改训练数据、模型参数或解码策略，对无法访问模型内部的场景不适用。本文探索仅通过 prompt 层面的零样本自去偏方法。

Isabel O. Gallegos,Ryan Aponte,Ryan A. Rossi,Joe Barrow,Md. Mehrab Tanjim,Tong Yu ... 省略 3 位作者 ... ,Franck Dernoncourt,Nedim Lipka,Deonna M. Owens,Jiuxiang Gu

Adobe Researchdebiasingzero-shotalignmentDOI arXiv DBLP

泛读FindingsNAACL 2025

Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference

自动评估框架（automatic LLM bencher）用于替代昂贵的人工评估来排名 LLM，但其四个组件（输入集、评估模型、评估类型、聚合方法）的选择和组合对排名结果的影响此前缺乏系统研究。

Mingqi Gao,Yixin Liu,Xinyu Hu,Xiaojun Wan,Jonathan Bragg,Arman Cohan

Peking Universityevaluationhuman-preferencealignmentDOI arXiv DBLP

泛读FindingsNAACL 2025

Learning to Search Effective Example Sequences for In-Context Learning

ICL 的效果高度依赖示例序列的长度、组成和排列顺序，但现有方法通常孤立地处理这些因素，忽略了它们之间的相互依赖。搜索空间巨大使得联合优化困难。

Xiang Gao,Ankita Sinha,Kamalika Das

in-context-learningexample-selectionsearchDOI arXiv DBLP

泛读FindingsNAACL 2025

Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency

代码生成模型在正确性和效率两个维度上的对齐问题。现有方法通常只优化正确性，忽略了生成代码的运行效率。本文探索用自生成的偏好数据同时优化这两个目标。

Leonidas Gee,Milan Gritta,Gerasimos Lampouras,Ignacio Iacobacci

preference-datacode-generationself-trainingDOI DBLP

泛读LongNAACL 2025

Intrinsic Bias is Predicted by Pretraining Data and Correlates with Downstream Performance in Vision-Language Encoders

CLIP 类视觉-语言模型包含内在社会偏见，但偏见与上游预训练因素（数据集、架构、规模）以及下游性能之间的关系此前不清楚。

Kshitish Ghate,Isaac Slaughter,Kyra Wilson,Mona T. Diab,Aylin Caliskan

Meta AIUniversity of Washingtonvlm-pretrainingbiasdata-qualityDOI arXiv DBLP

泛读LongNAACL 2025

AEGIS2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails

LLM 安全对齐需要覆盖多样风险类型的高质量数据集，但现有安全数据集在风险分类体系和多样性上不够完善。本文提出 AEGIS2.0 数据集和更全面的风险分类体系。

Shaona Ghosh,Prasoon Varshney,Makesh Narsimhan Sreedhar,Aishwarya Padmakumar,Traian Rebedea,Jibin Rajan Varghese,Christopher Parisien

safetyalignmentdatasetDOI DBLP

泛读SRWNAACL 2025

Text Compression for Efficient Language Generation

这篇工作要解决的是：能否先把文本压缩成更短的离散表示，再在压缩空间里生成，以显著降低长文本生成的推理成本。传统做法基本默认逐 token 自回归生成，效率瓶颈直接绑定在原始序列长度上；压缩生成一直少见，是因为压缩后很容易丢语义、难解码、训练也不稳定。

David Gu,Peter Belcak,Roger Wattenhofer

compressionefficient-generationinferenceDOI DBLP

泛读LongNAACL 2025

Towards Inducing Long-Context Abilities in Multilingual Neural Machine Translation Models

这篇工作要解决的是：多语言 NMT 模型通常在句级训练和推理下工作，因而缺乏真正利用长上下文的能力。以前不是没人知道文档级信息有用，而是长上下文数据稀缺、训练成本更高、跨语言上下文对齐也更复杂，所以很多系统仍停留在局部句子翻译。

Varun Gumma,Pranjal A. Chitale,Kalika Bali

long-contextmachine-translationmultilingualDOI DBLP

泛读LongNAACL 2025

SLIM: Let LLM Learn More and Forget Less with Soft LoRA and Identity Mixture

这篇工作要解决的是：参数高效微调在持续学习场景里容易遗忘旧任务，而标准 LoRA 的更新又往往过于刚性，难以同时兼顾新知识吸收与旧能力保留。以前常见方案要么给每个任务单独 adapter，管理复杂；要么共享单一 LoRA，后续任务一来前面能力就被冲掉。

Jiayi Han,Liang Du,Hongwei Du,Xiangguo Zhou,Yiwen Wu,Yuanfang Zhang,Weibo Zheng,Donghong Han

loracontinual-learningcatastrophic-forgettingDOI DBLP

泛读LongNAACL 2025

Incremental Sentence Processing Mechanisms in Autoregressive Transformer Language Models

这篇工作关注的是：自回归 Transformer 是否真的像人类增量句子处理那样，一边读一边构建结构化解释，而不是只做局部下一个 token 预测。过去很多结论来自最终准确率或 probing，但这类证据很难区分模型是逐步整合信息，还是靠后期补救。

Michael Hanna,Aaron Mueller

incremental-processingautoregressivepsycholinguisticsDOI DBLP

泛读LongNAACL 2025

FiNE: Filtering and Improving Noisy Data Elaborately with Large Language Models

这篇工作要解决的是：大规模训练数据里噪声很多，但“过滤掉坏数据”往往不够，因为大量样本并非完全无用，而是部分错误、表述粗糙或信息缺失。过去的数据治理常在过滤和保留之间二选一，这样要么浪费可修复样本，要么把噪声直接喂给模型。

Junliang He,Ziyue Fan,Shaohui Kuang,Li Xiaoqing,Kai Song,Yaqian Zhou,Xipeng Qiu

data-qualitydata-filteringnoisy-dataDOI DBLP

泛读LongNAACL 2025

Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models

这篇工作要解决的是：多语言大模型的长上下文能力是否真的跨语言一致，还是主要建立在英语和高资源语言上。过去长上下文评测大多默认单语英语设置，needle-in-a-haystack 这类测试也常把'能检索到一段信息'等同于普适能力，但对多语言 tokenization、脚本差异、训练语料不均衡带来的偏差关注不够。

Amey Hengle,Prasoon Bajpai,Soham Dan,Tanmoy Chakraborty

long-contextmultilingualneedle-in-haystackDOI DBLP

泛读ShortNAACL 2025

Cross-lingual Transfer of Reward Models in Multilingual Alignment

这篇工作要解决的是：多语言对齐里 reward model 能否跨语言迁移，还是每种语言都要单独收集高质量偏好数据。过去 RLHF 与偏好建模主要围绕英语展开，其他语言常靠翻译、蒸馏或直接迁移凑合，但大家并不清楚 reward 的'偏好结构'到底有多少是语言无关的，有多少会在跨语言时失真。

Jiwoo Hong,Noah Lee,Rodrigo Martínez-Castaño,César Rodríguez,James Thorne

reward-modelmultilingualcross-lingualDOI DBLP

泛读LongNAACL 2025

Functional Lexicon in Subword Tokenization

这篇工作讨论的核心问题是：现有 subword tokenizer 主要按频率和压缩率切分，往往忽略词法功能结构，导致模型在功能词、形态标记和语法边界上的表示效率并不理想。过去大家评估 tokenizer 多看压缩率和下游分数，但对于'切分单元是否承载了稳定的功能语义'这个问题研究得不够。

Zachary William Hopton,Yves Scherrer,Tanja Samardzic

tokenizersubwordfunctional-lexiconDOI DBLP

泛读LongNAACL 2025

Matina: A Large-Scale 73B Token Persian Text Corpus

这篇工作的核心问题很直接：波斯语高质量大规模预训练语料长期不足，导致该语言的基础模型训练受限，很多多语言模型里波斯语能力也被低资源覆盖拖累。过去常见做法是依赖小规模公开语料、网页抓取拼接或翻译扩充，但这些方案在规模、清洗和版权可用性上通常都不够理想。

Sara Bourbour Hosseinbeigi,Fatemeh Taherinezhad,Heshaam Faili,Hamed Baghbani,Fatemeh Nadi,Mostafa Amiri

pretraining-datapersiancorpusDOI DBLP

泛读LongNAACL 2025

Fine-Tuning Large Language Models with Sequential Instructions

这篇工作解决的问题是：标准指令微调通常把每条 instruction 当作独立样本处理，但真实交互往往是顺序相关的，前一条指令会改变后一条任务约束、风格或状态。过去这种顺序性在 SFT 里大多被忽略，结果模型擅长单轮服从，却不一定擅长在连续指令中保持状态、一致性和更新能力。

Hanxu Hu,Simon Yu,Pinzhen Chen,Edoardo M. Ponti

fine-tuninginstruction-tuningcurriculumDOI DBLP

泛读LongNAACL 2025

MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation

这篇工作关注的是：byte-based NMT 虽然天然规避了 tokenizer 和 OOV 问题，但字节级序列过长、局部模式碎片化，导致上下文化建模负担明显增加。过去的字节级方法通常用统一编码器硬扛所有上下文类型，结果在效率和表达上都容易吃亏。

Langlin Huang,Mengyu Bu,Yang Feng

moebyte-levelmachine-translationDOI DBLP

泛读LongNAACL 2025

Reward-Guided Tree Search for Inference Time Alignment of Large Language Models

推理时对齐（inference-time alignment）的核心问题是如何在不重新训练模型的情况下，利用额外计算让 LLM 输出更符合人类偏好。现有方法如 Best-of-N 和 ARGS 要么采样效率低，要么搜索策略粗糙，没有充分利用 reward model 的信号。

Chia-Yu Hung,Navonil Majumder,Ambuj Mehrish,Soujanya Poria

Singapore University of Technology and Designinference-timetree-searchalignmentDOI DBLP

泛读LongNAACL 2025

Can Large Language Models Invent Algorithms to Improve Themselves?

目前改进 LLM 的算法（如 SFT、RLHF、各种 prompting 策略）都是人类设计的，受限于人类的专业知识和想象力。这篇工作探索能否让 LLM 自己发明改进自身的算法，形成自我迭代的闭环。

Yoichi Ishibashi,Taro Yano,Masafumi Oyamada

self-improvementoptimizationalgorithm-discoveryDOI DBLP

泛读ShortNAACL 2025

Local Prompt Optimization

Prompt 优化（prompt optimization）的问题：如何自动找到让 LLM 在特定任务上表现最好的 prompt。"Local" 可能指在局部搜索空间内高效优化，而非全局搜索。摘要缺失，无法确认具体问题定义。

Yash Jain,Vishal Chowdhary

prompt-optimizationblack-boxalignmentDOI DBLP

泛读LongNAACL 2025

Probe-Free Low-Rank Activation Intervention

LLM 生成的文本可能包含不真实或有害内容。现有的推理时激活干预方法（activation intervention）需要先训练一个探针分类器（probe）来检测不良生成，再触发激活修改，流程复杂且探针本身引入额外误差。这篇工作要去掉探针，直接做干预。

Chonghe Jiang,Bao Nguyen,Anthony Man-Cho So,Viet Anh Nguyen

activation-steeringinterpretabilitylow-rankDOI arXiv DBLP

泛读FindingsNAACL 2025

On the Feasibility of In-Context Probing for Data Attribution

数据归因（data attribution）——确定哪些训练数据对模型特定行为有贡献——是理解和改进 pretrain 的重要工具。这篇工作探索用 in-context probing 来做数据归因的可行性，即通过 ICL 方式探测模型对特定训练样本的记忆或依赖。

Cathy Jiao,Weizhen Gao,Aditi Raghunathan,Chenyan Xiong

Carnegie Mellon Universitydata-attributionin-context-learningprobingDOI DBLP

泛读LongNAACL 2025

Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate

机器遗忘（machine unlearning）要从 LLM 中移除特定知识，但遗忘目标和模型性能保持之间存在根本性 trade-off——遗忘太彻底会损害模型整体能力，遗忘不够则知识残留。现有方法对这个 trade-off 的控制不够精细。

Xiaomeng Jin,Zhiqi Bu,Bhanukiran Vinzamuri,Anil Ramakrishna,Kai-Wei Chang,Volkan Cevher,Mingyi Hong

UCLAunlearningoptimizationforgettingDOI arXiv DBLP

泛读LongNAACL 2025

Towards Quantifying Commonsense Reasoning with Mechanistic Insights

这篇工作要解决的是：常识推理通常只看 benchmark 分数，缺少能解释模型到底依赖了什么机制的量化框架。过去常识推理研究经常把‘答对了’当作理解了，但这掩盖了模型可能只是利用表面相关性、数据偏置或模板记忆，而不是真在做可迁移的推断。

Abhinav Joshi,Areeb Ahmad,Divyaksh Shukla,Ashutosh Modi

mechanistic-interpretabilitycommonsensereasoningDOI DBLP

泛读LongNAACL 2025

ALPACA AGAINST VICUNA: Using LLMs to Uncover Memorization of LLMs

这篇论文要解决的是：如何更有效地揭示 LLM 的记忆化现象，尤其是模型是否复现了其他模型训练过的数据或输出模式。传统 memorization 检测常依赖固定基准、字符串匹配或成员推断，而题目表明作者试图用一个 LLM 去挖另一个 LLM 的记忆，这意味着他们关注的是更开放式、更生成式的记忆暴露方式。

Aly M. Kassem,Omar Mahmoud,Niloofar Mireshghallah,Hyunwoo Kim,Yulia Tsvetkov,Yejin Choi,Sherif Saad,Santu Rana

memorizationdata-leakageevaluationDOI DBLP

泛读LongNAACL 2025

A Systematic Examination of Preference Learning through the Lens of Instruction-Following

这篇工作要回答的是：偏好学习到底在多大程度上真的提升了 instruction-following，而不是只是在特定偏好数据和评测协议上看起来更好。过去 DPO、RLHF、RLAIF 等方法常被默认等价为‘更会听指令’，但这个因果链并没有被系统拆开——模型可能只是学会了更讨好 judge、写得更长、或更符合格式预期。

Joongwon Kim,Anirudh Goyal,Aston Zhang,Bo Xiong,Rui Hou,Melanie Kambadur,Dhruv Mahajan,Hannaneh Hajishirzi,Liang Tan

preference-learninginstruction-followingalignmentDOI DBLP

泛读LongNAACL 2025

Analyzing the Inner Workings of Transformers in Compositional Generalization

这篇工作关注一个基础但仍未解清的问题：Transformer 在组合泛化任务里到底学到了什么内部算法。以往大量工作只看最终准确率，无法区分模型是学到可迁移的结构规则，还是只在训练分布内记住局部模板，因此作者转向分析内部表征与电路行为。

Ryoma Kumon,Hitomi Yanaka

compositional-generalizationtransformerinterpretabilityDOI DBLP

泛读LongNAACL 2025

PORT: Preference Optimization on Reasoning Traces

这篇工作要解决的是：现有偏好优化大多只对最终答案做偏好学习，但推理模型真正关键的是中间 reasoning trace 的质量。只奖惩最终答案会让模型学会‘答对即可’，却不一定学到更稳健、更可控的推理过程；这也会放大 reward hacking，因为错误但貌似合理的中间步骤常被忽略。

Salem Lahlou,Abdalgader Abubaker,Hakim Hacid

preference-optimizationreasoningrlDOI DBLP

泛读LongNAACL 2025

Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison

这篇工作比较的是语音到文本模型里一个非常实际的接口设计：把语音表征直接前置到文本序列前面，还是通过 cross-attention 单独接入。很多工作默认选一种做法，但这其实牵涉到表示瓶颈、长度扩展、训练稳定性和是否便于复用现成 LLM，不是简单工程细节。

Tsz Kin Lam,Marco Gaido,Sara Papi,Luisa Bentivogli,Barry Haddow

speech-to-textcross-attentionmultimodal-architectureDOI DBLP

泛读FindingsNAACL 2025

Optimizing Hidden Markov Language Models: An Empirical Study of Reparameterization and Initialization Techniques

这篇工作重新审视一个经典但被神经 LM 长期压制的问题：Hidden Markov Language Models 往往不是能力完全不行，而是优化很难。HMM LM 理论上有清晰的离散状态结构和可解释性，但实际训练常受参数化方式和初始化影响很大，导致大家更容易把它们当作过时模型，而不是认真问‘它们是不是被优化问题拖累了’。

Ivan Lee,Taylor Berg-Kirkpatrick

hidden-markov-modellanguage-modeloptimizationDOI DBLP

泛读ShortNAACL 2025

STAR: Spectral Truncation and Rescale for Model Merging

Yu-Ang Lee,Ching-Yun Ko,Tejaswini Pedapati,I-Hsin Chung,Mi-Yen Yeh,Pin-Yu Chen

model-mergingspectral-methodsweight-averagingDOI DBLP

泛读LongNAACL 2025

LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices

Jung Hyun Lee,Jeonghoon Kim,June Yong Yang,Se Jung Kwon,Eunho Yang,Kang Min Yoo,Dongsoo Lee

quantizationpost-traininglow-rankDOI DBLP

泛读ShortNAACL 2025

How do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations

Hyunji Lee,Danni Liu,Supriti Sinhamahapatra,Jan Niehues

multimodal-representationcross-lingualspeech-textDOI DBLP

泛读ShortNAACL 2025

Language Models Encode Numbers Using Digit Representations in Base 10

Amit Arnold Levy,Mor Geva

numeracyrepresentationtokenizationDOI DBLP

泛读FindingsNAACL 2025

Unlocking the Planning Capabilities of Large Language Models with Maximum Diversity Fine-tuning

这篇论文要解决的问题是：LLM 在规划任务上常常不是“不会推理”，而是 fine-tuning 之后解空间塌缩，只学会少数高频计划模式，导致面对约束变化时缺少多样且可执行的方案。过去常见做法更强调正确率或偏好单一优解，较少直接优化“计划候选的覆盖度”，所以模型在开放式规划里容易显得僵硬。

Wenjun Li,Changyu Chen,Pradeep Varakantham

planningfine-tuningreasoningDOI DBLP

泛读ShortNAACL 2025

RuleR: Improving LLM Controllability by Rule-based Data Recycling

这篇论文解决的是 LLM 可控性提升成本高、规则覆盖不足的问题：很多 controllability 方法要么依赖人工构造大量规则数据，要么只在少数指令模板上生效，难以扩展。作者想做的是把已有规则和已有数据“回收再利用”，用更低成本把规则约束传播到更多训练样本中。

Ming Li,Han Chen,Chenguang Wang,Dang Nguyen,Dianqi Li,Tianyi Zhou

controllabilitydata-recyclingalignmentDOI DBLP

泛读LongNAACL 2025

ParaICL: Towards Parallel In-Context Learning

这篇论文要解决的是 ICL 天生串行、延迟高的问题：标准 in-context learning 需要把示例和待测样本放在同一上下文里一次次顺序解码，因此难以并行化，也不适合高吞吐场景。过去工业界常通过缓存、裁剪 prompt 或蒸馏来缓解，但没有从 ICL 机制本身去逼近并行执行。

Xingxuan Li,Xuan-Phi Nguyen,Shafiq Joty,Lidong Bing

Salesforce ResearchiclparallelisminferenceDOI DBLP

泛读LongNAACL 2025

Effective Skill Unlearning through Intervention and Abstention

这篇论文要解决的是 skill unlearning 很难既删得干净又不伤通用能力。以往 unlearning 常通过负向微调、数据删除或局部对抗训练来做，但模型往往只是把技能压低概率，并没有形成稳定拒绝机制，所以一旦 prompt 稍微变化，能力会“复活”。

Yongce Li,Chung-En Sun,Tsui-Wei Weng

unlearningsafetyinterventionDOI DBLP

泛读LongNAACL 2025

Sparser Mixture-of-Adapters with Cross-Layer Generalization

这篇工作要解决的是 adapter/LoRA 类参数高效微调在多任务或大模型场景下仍然不够稀疏、跨层复用不足的问题。现有 mixture-of-adapters 往往每层都单独路由和存储，带来额外参数、访存和训练不稳定，真正的模块共享做得不够彻底。

Ziyue Li,Tianyi Zhou

adapterssparsityparameter-efficientDOI DBLP

泛读LongNAACL 2025

DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models

这篇工作要解决的是多模态大模型安全对齐里“风险类型缠在一起”导致训练信号模糊的问题。现有安全对齐常把有害视觉内容、文本诱导、越狱提示和无害误拒混在同一目标里处理，结果是模型既学不清楚哪里危险，也容易过度拒答。

Jianyu Liu,Hangyu Guo,Ranjie Duan,Xingyuan Bu,Yancheng He,Shilong Li ... 省略 7 位作者 ... ,Yanan Wu,Jihao Gu,Yangguang Li,Jianke Zhu

safetyalignmentmllmDOI DBLP

泛读LongNAACL 2025

Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models

这篇工作要解决的是 LLM 微调数据选择里“多多益善”常常失效的问题。大量工作用启发式打分或多样性采样挑数据，但实际 fine-tuning 往往混入了风格噪声、重复样本和低信号样本，既浪费算力，也可能拉低泛化。

Ziche Liu,Rui Ke,Yajiao Liu,Feng Jiang,Haizhou Li

sftdata-selectiondata-qualityDOI DBLP

泛读FindingsNAACL 2025

UNLEARN Efficient Removal of Knowledge in Large Language Models

如何高效地从已训练好的 LLM 中移除特定知识（machine unlearning），同时不损害模型在其他任务上的通用能力。现有方法要么计算开销大（需要大量重训练），要么遗忘不彻底。

Tyler Lizzo,Larry Heck

unlearningmodel-editingsafetyDOI DBLP

泛读LongNAACL 2025

On the Impact of Fine-Tuning on Chain-of-Thought Reasoning

Fine-tuning 对 LLM 的 Chain-of-Thought 推理能力到底有什么影响？是增强了推理能力，还是只改变了输出格式而推理本质未变，甚至可能损害某些推理能力？这个问题此前缺乏系统性实证。

Elita A. Lobo,Chirag Agarwal,Himabindu Lakkaraju

Harvard Universitycotfine-tuningreasoningDOI DBLP

泛读FindingsNAACL 2025

Semi-supervised Fine-tuning for Large Language Models

这篇工作关注的问题是：当标注指令数据有限时，如何用半监督方式把大量未标注数据转化为对 LLM 微调有用的训练信号。现有指令微调往往默认只有“高质量有标注样本才值得用”，这在低资源任务、垂直域和长尾指令上都不现实。

Junyu Luo,Xiao Luo,Xiusi Chen,Zhiping Xiao,Wei Ju,Ming Zhang

semi-supervisedfine-tuningdata-efficiencyDOI DBLP

泛读LongNAACL 2025

Analyzing (In)Abilities of SAEs via Formal Languages

这篇工作要解决的是：Sparse Autoencoders（SAEs）到底能在多大程度上学到可解释、可分解的特征，而不是我们希望它们学到什么。现在很多机制可解释性工作把 SAE 当作默认工具，但它在哪些结构上可靠、在哪些结构上会失败，缺少可控而严格的分析基准。

Abhinav Menon,Manish Shrivastava,David Krueger,Ekdeep Singh Lubana

sparse-autoencoderformal-languagesinterpretabilityDOI DBLP

泛读LongNAACL 2025

Analyzing Memorization in Large Language Models through the Lens of Model Attribution

这篇工作关注的是：如何更准确地分析 LLM 的 memorization，而不是只靠字符串匹配或训练集泄漏检索。现有记忆化研究往往只能看到“模型吐出了训练样本”，却很难回答究竟是哪一部分参数或输入证据促成了复现，因此对机制和风险都解释得不够深。

Tarun Ram Menta,Susmit Agrawal,Chirag Agarwal

memorizationmodel-attributiontraining-dynamicsDOI DBLP

泛读LongNAACL 2025

Emergence of Episodic Memory in Transformers: Characterizing Changes in Temporal Structure of Attention Scores During Training

这篇工作研究的是 transformer 是否会在训练中形成某种 episodic memory，以及这种能力是否能从 attention 时间结构的变化中被观察到。很多关于记忆的讨论停留在行为层面，但模型内部何时开始按时间组织过去信息，缺少动态证据。

Deven Mahesh Mistry,Anooshka Bajaj,Yash Aggarwal,Sahaj Singh Maini,Zoran Tiganj

episodic-memoryattention-analysistraining-dynamicsDOI DBLP

泛读FindingsNAACL 2025

Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models

这篇论文要解决的是：标准 SAE（sparse autoencoder）在解释 foundation model 内部表征时，往往更容易抓住高频、共享的主成分，却看不清稀有概念。过去很多可解释性工作默认“一个统一 SAE 就够了”，但稀有概念恰好最容易被平均掉；如果目标是理解长尾知识、异常行为或少见能力，这个缺口就值得单独处理。

Aashiq Muhamed,Mona T. Diab,Virginia Smith

interpretabilitysparse-autoencoderfeature-analysisDOI DBLP

泛读LongNAACL 2025

One fish, two fish, but not the whole sea: Alignment reduces language models' conceptual diversity

这篇论文要回答的是：对齐训练是否在提升可控性的同时，压缩了语言模型原本更丰富的概念空间。过去对齐通常以安全性、帮助性和一致性为目标，很少直接衡量它对“概念多样性”的副作用；如果模型越来越像单一价值和表述风格的投影，那不仅是行为问题，也会影响知识表达与探索能力。

Sonia K. Murthy,Tomer D. Ullman,Jennifer Hu

alignmentrepresentationdiversityDOI DBLP

泛读LongNAACL 2025

Constrained Decoding with Speculative Lookaheads

这篇论文要解决的是：在 constrained decoding 下，如何保留 speculative decoding 的加速收益。传统 speculative decoding 假设验证较自由，而结构化约束、词典约束或语法约束会让草稿 token 更容易失配，导致推测解码在实际受限生成场景里收益缩水；这正是很多系统里“理论能加速、上线没法用”的原因。

Nishanth Sridhar Nakshatri,Shamik Roy,Rajarshi Das,Suthee Chaidaroon,Leonid Boytsov,Rashmi Gangadharaiah

constrained-decodingspeculative-decodinginferenceDOI DBLP

泛读LongNAACL 2025

On The Origin of Cultural Biases in Language Models: From Pre-training Data to Linguistic Phenomena

这篇论文要追问的是：语言模型中的文化偏见究竟从哪里来，如何从预训练数据一路传导到具体语言现象。过去很多工作只在输出层面测偏见，告诉你“模型有偏见”，但不解释偏见是由数据分布、语言形式、语用习惯还是模型放大机制造成的；没有来源分析，就很难提出有效干预。

Tarek Naous,Wei Xu

biaspretraining-datacultureDOI DBLP

泛读LongNAACL 2025

Differentially Private Learning Needs Better Model Initialization and Self-Distillation

这篇论文讨论的核心问题是：差分隐私训练下，模型性能差往往不只是因为噪声大，还因为初始化和训练信号设计不够好。很多 DP learning 工作把注意力放在隐私预算和优化器上，但忽视了一个现实事实：在高噪声、梯度裁剪的 regime 里，好的初始表示和更干净的蒸馏信号对最终可用性影响很大。

Ivoline C. Ngong,Joseph P. Near,Niloofar Mireshghallah

differential-privacyinitializationself-distillationDOI DBLP

泛读LongNAACL 2025

Prompting with Phonemes: Enhancing LLMs' Multilinguality for Non-Latin Script Languages

这篇论文要解决的是：非拉丁文字语言在 LLM 中常被 tokenizer 和预训练分布双重吃亏，导致多语能力明显落后，是否可以借助音素提示来补偿。过去提升这类语言性能常靠增语料或重做词表，但代价高且对极低资源语言不现实；而音素提供了一种跨书写系统、跨语言共享的中间表示，值得重新利用。

Hoang Nguyen,Khyati Mahajan,Vikas Yadav,Julian Salazar,Philip S. Yu,Masoud Hashemi,Rishabh Maheshwary

multilingualphonemetokenizerDOI DBLP

泛读LongNAACL 2025

EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models

Yunsheng Ni,Chuanjian Liu,Yehui Tang,Kai Han,Yunhe Wang

speculative-decodinginferencesamplingDOI DBLP

泛读FindingsNAACL 2025

Long-Tail Crisis in Nearest Neighbor Language Models

Yuto Nishida,Makoto Morishita,Hiroyuki Deguchi,Hidetaka Kamigaito,Taro Watanabe

knn-lmlong-tailretrievalDOI DBLP

泛读LongNAACL 2025

Private Synthetic Text Generation with Diffusion Models

Sebastian Ochs,Ivan Habernal

diffusion-lmsynthetic-dataprivacyDOI DBLP

泛读LongNAACL 2025

Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense

Yang Ouyang,Hengrui Gu,Shuhang Lin,Wenyue Hua,Jie Peng,Bhavya Kailkhura,Meijun Gao,Tianlong Chen,Kaixiong Zhou

jailbreaksafetyactivationDOI DBLP

泛读LongNAACL 2025

SafeQuant: LLM Safety Analysis via Quantized Gradient Inspection

Sindhu Padakandla,Sadbhavana Babar,Rathod Darshan D,Manohar Kaul

quantizationgradientssafetyDOI DBLP

泛读IndustryNAACL 2025

Granite Guardian: Comprehensive LLM Safeguarding

Inkit Padhi,Manish Nagireddy,Giandomenico Cornacchia,Subhajit Chaudhury,Tejaswini Pedapati,Pierre L. Dognin ... 省略 12 位作者 ... ,Werner Geyer,Ambrish Rawat,Kush R. Varshney,Prasanna Sattigeri

safeguardalignmentsafetyDOI DBLP

泛读LongNAACL 2025

PoisonedParrot: Subtle Data Poisoning Attacks to Elicit Copyright-Infringing Content from Large Language Models

这篇论文聚焦一个被低估的问题：攻击者是否能用很少、很隐蔽的数据投毒，让大模型在特定触发下复现受版权保护的内容。以往关于 memorization 和 copyright infringement 的讨论多停留在自然泄露或大规模重复数据，这篇工作更进一步，直接问训练数据供应链是否会成为可操作的攻击面。

Michael-Andrei Panaitescu-Liess,Pankayaraj Pathmanathan,Yigitcan Kaya,Zora Che,Bang An,Sicheng Zhu,Aakriti Agrawal,Furong Huang

data-poisoningcopyrightsafetyDOI DBLP

泛读LongNAACL 2025

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

这篇论文解决的是复杂推理时单个 LLM 容易走偏、而简单 self-consistency 又不会主动纠错的问题。作者尝试把模型集成和 process reward-guided tree search 结合起来，让搜索不只看最终答案，还利用过程奖励来筛选中间推理路径。

Sungjin Park,Xiao Liu,Yeyun Gong,Edward Choi

process-rewardtree-searchreasoningDOI DBLP

泛读DemoNAACL 2025

Dataverse: Open-Source ETL (Extract, Transform, Load) Pipeline for Large Language Models

这篇论文解决的是一个很实际但常被低估的问题：LLM 训练前的数据 ETL 流程缺少开源、可复现、可组合的工业级工具链。很多论文只汇报数据来源和最终规模，却不把抽取、清洗、转换、去重、过滤、装载这些关键步骤产品化，导致数据配方难以复现，也难以审计。

Hyunbyung Park,Sukyung Lee,Gyoungjin Gim,Yungi Kim,Dahyun Kim,Chanjun Park

data-pipelineetldata-qualityDOI DBLP

泛读LongNAACL 2025

CultureInstruct: Curating Multi-Cultural Instructions at Scale

这篇论文解决的是指令数据中长期存在的文化分布失衡问题：主流 instruction tuning 语料往往被英语和少数主流文化叙事主导，导致模型对多文化场景的指令理解和回应风格不稳定。过去这类问题通常被当作 fairness 或 localization 的下游现象处理，而不是上游数据构建问题。

Viet Thanh Pham,Zhuang Li,Lizhen Qu,Gholamreza Haffari

instruction-datadata-curationmultilingualDOI DBLP

泛读LongNAACL 2025

TinyThinker: Distilling Reasoning through Coarse-to-Fine Knowledge Internalization with Self-Reflection

这篇论文解决的是小模型推理蒸馏里一个核心难点：直接把大模型长链路推理压给小模型，往往既学不稳也学不全。作者提出 coarse-to-fine knowledge internalization with self-reflection，意图让小模型先掌握粗粒度解题结构，再逐步细化到更具体的推理步骤。

Shengmin Piao,Sanghyun Park

distillationreasoningself-reflectionDOI DBLP

泛读FindingsNAACL 2025

How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

这篇论文研究一个很实际的问题：LoRA 适配器到底能塞进多少新知识，同时又不明显伤害基座模型原有能力。业界普遍把 LoRA 当低成本增量知识注入手段，但其容量边界、遗忘风险和干扰模式并没有被系统量化。

Sergey Pletenev,Maria Marina,Daniil Moskovskiy,Vasily Konovalov,Pavel Braslavski,Alexander Panchenko,Mikhail Salnikov

loracapacityparameter-efficientDOI DBLP

泛读FindingsNAACL 2025

Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks

这篇工作要回答的问题是：多语言 LLM 在微调后为什么会出现跨语言脆弱性，而且这种脆弱性是否会被恶意利用。以往大家更多讨论单语安全对齐或越狱，对“某种语言上做微调会不会破坏其他语言上的安全与能力”研究不够系统；对多语言模型来说，这个问题现在重要，是因为共享参数带来的跨语言迁移既是能力来源，也是攻击面。

Samuele Poppi,Zheng-Xin Yong,Yifei He,Bobbie Chern,Han Zhao,Aobo Yang,Jianfeng Chi

multilingualfine-tuningsafetyDOI DBLP

泛读FindingsNAACL 2025

Scaling Up Membership Inference: When and How Attacks Succeed on Large Language Models

这篇工作关注成员推断在大语言模型上到底何时有效、为何有效。过去 membership inference 在小模型或分类场景里更清楚，但到了大模型生成场景，攻击成功条件、可扩展性和评估口径都不稳定，因此需要重新系统化。

Haritz Puerto,Martin Gubri,Sangdoo Yun,Seong Joon Oh

privacymembership-inferencedata-leakageDOI DBLP

泛读ShortNAACL 2025

Bottom-Up Synthesis of Knowledge-Grounded Task-Oriented Dialogues with Iteratively Self-Refined Prompts

这篇工作解决的是知识型任务导向对话数据稀缺且昂贵的问题，尤其是需要同时满足任务结构、外部知识一致性和多轮自然性的场景。过去常见做法是人工写 schema 或直接让 LLM 一步生成整段对话，但前者慢，后者容易事实漂移和流程失真。

Kun Qian,Maximillian Chen,Siyan Li,Arpit Sharma,Zhou Yu

synthetic-datadialogueself-refinementDOI DBLP

泛读LongNAACL 2025

Beyond the Next Token: Towards Prompt-Robust Zero-Shot Classification via Efficient Multi-Token Prediction

这篇工作要解决的是零样本文本分类对 prompt 形式过于敏感，而单 token 打分常常不足以稳定表示类别语义。以往 next-token 分类通常把标签压缩成一个词或比较少数 verbalizer，但这会把分类决策绑死在局部词面概率上，导致 prompt 一改结果就飘。

Junlang Qian,Zixiao Zhu,Hanzhang Zhou,Zijian Feng,Zepeng Zhai,Kezhi Mao

multi-token-predictionzero-shotclassificationDOI DBLP

泛读LongNAACL 2025

Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models

这篇工作关注如何识别专有或闭源 LLM 中是否带有特定训练数据的印记，而且希望方法不依赖拿到训练语料或模型内部信息。此前训练数据归因通常受限于开源模型、可控数据或直接记忆片段匹配；对 proprietary 模型，难点是既看不到数据，也无法做完整白盒分析。

Abhilasha Ravichander,Jillian Fisher,Taylor Sorensen,Ximing Lu,Maria Antoniak,Bill Yuchen Lin,Niloofar Mireshghallah,Chandra Bhagavatula,Yejin Choi

training-datamemorizationdata-attributionDOI DBLP

泛读DemoNAACL 2025

Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model

这篇工作要解决的是日本语 VLM 开发中的根本瓶颈：高质量多模态数据缺口，而现成英文图文数据和机器翻译方案往往不够用。过去很多日语 VLM 直接复用英文数据再翻译，速度快但语言自然性、文化适配和视觉文本一致性都容易打折。

Keito Sasagawa,Koki Maeda,Issa Sugiura,Shuhei Kurita,Naoaki Okazaki,Daisuke Kawahara

vlmdatasetmultimodalDOI DBLP

泛读LongNAACL 2025

In-Context Learning (and Unlearning) of Length Biases

Stephanie Schoch,Yangfeng Ji

in-context-learninglength-biasgeneralizationDOI DBLP

泛读ShortNAACL 2025

Do Audio-Language Models Understand Linguistic Variations?

Ramaneswaran Selvakumar,Sonal Kumar,Hemant Kumar Giri,Nishit Anand,Ashish Seth,Sreyan Ghosh,Dinesh Manocha

audio-languageevaluationlinguisticsDOI DBLP

泛读LongNAACL 2025

Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models

Nikhil Sharma,Kenton Murray,Ziang Xiao

multilingualknowledgedisparityDOI DBLP

泛读FindingsNAACL 2025

KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus

Xiaoming Shi,Zeming Liu,Yiming Lei,Chenkai Zhang,Haitao Leng,Chuan Wang,Qingjie Liu,Wanxiang Che,Yunhong Wang

video-languagedialoguedatasetDOI DBLP

泛读LongNAACL 2025

Generative Prompt Internalization

这篇论文要解决的是：LLM 虽然能靠长 prompt 临时表现出某种行为，但这些指令和偏好通常停留在上下文里，没有真正被模型“内化”为稳定生成策略。过去常见做法是继续依赖 prompt engineering 或额外微调，两者分别受限于推理开销和训练成本，因此作者试图研究能否让生成式模型更直接地吸收 prompt 中的行为规范。

Haebin Shin,Lei Ji,Yeyun Gong,Sungdong Kim,Eunbi Choi,Minjoon Seo

promptinginstruction-tuninggeneralizationDOI DBLP

泛读FindingsNAACL 2025

Accounting for Sycophancy in Language Model Uncertainty Estimation

这篇论文要解决的是：语言模型在做不确定性估计时，往往会受到迎合性（sycophancy）影响，即模型更倾向顺着用户表达的立场回答，而不是忠实反映自身把握程度。过去很多 uncertainty 方法默认模型回答只受知识和校准影响，较少显式建模用户立场带来的偏置，因此估计结果可能系统性失真。

Anthony Sicilia,Mert Inan,Malihe Alikhani

sycophancyuncertaintyalignmentDOI DBLP

泛读LongNAACL 2025

FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing

这篇论文要解决的是：现有 LLM 的剪枝和扩容通常是两套流程，前者强调压缩，后者强调增加容量，但都需要额外参数和重训练成本。作者想找的是一种统一机制，让模型既能在部署侧被压缩，也能在训练或迁移侧被扩展，而且尽量复用已有权重而不是从头改结构。

James Seale Smith,Chi-Heng Lin,Shikhar Tuli,Haris Jeelani,Shangqian Gao,Yilin Shen,Hongxia Jin,Yen-Chang Hsu

pruninglow-rankcompressionDOI DBLP

泛读FindingsNAACL 2025

Multilingual Blending: Large Language Model Safety Alignment Evaluation with Language Mixture

这篇论文的核心问题是：现有多语安全评测通常假设输入是单一语言，但真实用户经常使用 code-switching 或多语混合表达，这会暴露出安全对齐中的语言覆盖盲区。过去模型在单语测试上看似安全，实际上可能在语言切换时出现越狱或判别失效，因此作者专门用 language mixture 检验这一漏洞。

Jiayang Song,Yuheng Huang,Zhehua Zhou,Lei Ma

safetymultilingualalignmentDOI DBLP

泛读LongNAACL 2025

The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

这篇论文的结论导向很明确：评测 LLM 不能忽略非确定性，否则同一个模型的排名、结论甚至失效模式都可能被一次采样偶然性掩盖。过去很多论文默认 temperature=0 或单次采样就足够，但真实部署和很多研究设置都包含随机性，单点评分会系统性低估模型行为分布的宽度。

Yifan Song,Guoyin Wang,Sujian Li,Bill Yuchen Lin

evaluationnondeterminismbenchmarkDOI DBLP

泛读LongNAACL 2025

Learning to Summarize from LLM-generated Feedback

这篇工作要解决的是：在缺少高质量人工偏好标注时，能不能只用 LLM 生成的反馈，把摘要模型训练到可用水平。以往做法通常依赖人工 reference、偏好对比数据或直接拿强模型做蒸馏，但这些方法要么成本高，要么把教师模型的表面风格硬复制过来，难以稳定利用更细粒度的批评信号。现在值得重做，是因为高质量教师 LLM 已经能稳定产出可读的摘要评语，关键问题转成了如何把这些噪声较大的自然语言反馈转成有效训练信号。

Hwanjun Song,Taewon Yun,Yuho Lee,Jihwan Oh,Gihun Lee,Jason Cai,Hang Su

llm-feedbacksummarizationsynthetic-dataDOI DBLP

泛读FindingsNAACL 2025

How much do contextualized representations encode long-range context?

这篇工作要回答一个很基础但常被默认的问题：contextualized representation 到底在多大程度上编码了长程上下文，而不是只反映局部邻域或位置先验。过去大家常通过 probing 或下游任务间接推断表示里有 long-range information，但这些证据往往混杂了任务可解性、attention 路径和 decoder 读出能力，不能直接说明表征本身存了多少远程信息。

Simeng Sun,Cheng-Ping Hsieh

long-contextrepresentationcontext-lengthDOI DBLP

泛读FindingsNAACL 2025

LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models

这篇工作解决的是 MLLM 中视觉 token 太多、推理太慢的问题，尤其高分辨率输入会让视觉序列长度成为主要瓶颈。过去常见做法是固定规则下采样、基于视觉显著性剪枝，或者训练额外模块做 token selection，但这些方法要么忽略当前语言问题，要么增加训练复杂度。作者的目标是用语言信号指导视觉 token pruning，让保留的视觉信息更贴近当前问答需求。

Yizheng Sun,Yanze Xin,Hao Li,Jingyuan Sun,Chenghua Lin,Riza Batista-Navarro

vision-tokenpruningvlmDOI DBLP

泛读SRWNAACL 2025

SkipCLM: Enhancing Crosslingual Alignment of Decoder Transformer Models via Contrastive Learning and Skip Connection

这篇工作关注 decoder-only Transformer 的跨语言对齐不足问题：相比 encoder 型多语模型，纯 decoder 语言模型往往更偏生成，跨语言语义空间不够整齐，导致 zero-shot transfer 和 multilingual retrieval 不稳定。过去解决办法要么转向 encoder/encoder-decoder 架构，要么靠翻译数据做持续训练，但这会牺牲 decoder-only 模型的统一性或训练效率。

Nikita Sushko,Alexander Panchenko,Elena Tutubalina

crosslingualdecoder-onlycontrastive-learningDOI DBLP

泛读FindingsNAACL 2025

Hierarchical Speculative Decoding with Dynamic Window

Shensian Syu,Hung-yi Lee

speculative-decodinginferencelatencyDOI DBLP

泛读LongNAACL 2025

Mitigating Hallucinated Translations in Large Language Models with Hallucination-focused Preference Optimization

Zilu Tang,Rajen Chatterjee,Sarthak Garg

preference-optimizationhallucinationmachine-translationDOI DBLP

泛读LongNAACL 2025

DAWN-ICL: Strategic Planning of Problem-solving Trajectories for Zero-Shot In-Context Learning

Xinyu Tang,Xiaolei Wang,Xin Zhao,Ji-Rong Wen

iclplanningreasoningDOI DBLP

泛读LongNAACL 2025

SCIURus: Shared Circuits for Interpretable Uncertainty Representations in Language Models

大模型生成事实性和不确定性的编码机制不明确，现有研究假设两者由独立的模型电路处理，无法为可靠性改进提供协同优化靶点。

Carter Teplica,Yixin Liu,Arman Cohan,Tim G. J. Rudner

interpretabilityuncertaintycircuitsDOI DBLP

泛读FindingsNAACL 2025

ResoFilter: Fine-grained Synthetic Data Filtering for Large Language Models through Data-Parameter Resonance Analysis

Zeao Tu,Xiangdi Meng,Yu He,Zihan Yao,Tianyu Qi,Jun Liu,Ming Li

synthetic-datadata-filteringdata-qualityDOI DBLP

泛读LongNAACL 2025

MEDA: Dynamic KV Cache Allocation for Efficient Multimodal Long-Context Inference

这篇论文解决的是：长上下文多模态推理时，KV cache 增长过快，而现有压缩方法按层一刀切分配缓存，忽略了不同层的注意力密度差异。文本-图像、文本-视频输入会让 cache 成本远高于纯文本；如果仍用均匀或固定递减策略，就会在不重要层浪费预算、在关键信息融合层压得过狠，最终把效率提升换成明显精度损失。

Zhongwei Wan,Hui Shen,Xin Wang,Che Liu,Zheda Mai,Mi Zhang

kv-cachemultimodallong-contextDOI arXiv DBLP

泛读LongNAACL 2025

SVD-LLM V2: Optimizing Singular Value Truncation for Large Language Model Compression

这篇论文解决的核心问题是：SVD 压缩 LLM 很有吸引力，但以往方法对所有层或矩阵采用过于粗糙的截断策略，导致截断误差分配不合理。不同层、不同权重矩阵的冗余度并不一样；如果压缩率分配不匹配真实冗余，最终就会出现有些矩阵被过度压缩、损失关键表达能力，而另一些矩阵又保留了不必要的奇异值。

Xin Wang,Samiul Alam,Zhongwei Wan,Hui Shen,Mi Zhang

svdmodel-compressionllm-compressionDOI arXiv DBLP

泛读LongNAACL 2025

MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning

这篇论文的核心问题是：LoRA 一类参数高效微调通常只利用主奇异方向，而较小的奇异分量虽然能量低，却可能携带被忽视的任务适配信息。传统低秩更新默认“大奇异值更重要”，这对压缩常常成立，但对微调未必总对，因为任务差异可能恰好落在预训练主子空间之外。

Hanqing Wang,Yixia Li,Shuo Wang,Guanhua Chen,Yun Chen

lorasvdparameter-efficientDOI DBLP

泛读LongNAACL 2025

Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

这篇论文解决的是：多模态大模型的长上下文能力缺少一个像样的、可系统施压的评测基准。现有 MLLM 评测多集中在短上下文多图问答，无法区分模型到底是具备稳定的跨图检索与定位能力，还是只是在有限上下文里做局部匹配；这使得长上下文优化是否有效很难被客观验证。

Hengyi Wang,Haizhou Shi,Shiwei Tan,Weiyi Qin,Wenyuan Wang,Tunyu Zhang,Akshay Nambi,Tanuja Ganu,Hao Wang

multimodallong-contextbenchmarkDOI arXiv DBLP

泛读FindingsNAACL 2025

Aligning to Constraints for Data-Efficient Language Model Customization

这篇论文要解决的是：如何在只有很少定制数据时，把语言模型可靠地对齐到一组明确约束，而不是靠大规模 SFT 或偏好数据去“碰运气”学到目标行为。过去常见做法要么数据成本高，要么只能学风格而难以稳定满足硬约束，因此“数据高效 customization”值得单独处理。

Fei Wang,Chao Shang,Shuai Wang,Sarthak Jain,Qiang Ning,Bonan Min,Vittorio Castelli,Yassine Benajiba,Dan Roth

alignmentpreference-optimizationdata-efficiencyDOI DBLP

泛读LongNAACL 2025

BPO: Towards Balanced Preference Optimization between Knowledge Breadth and Depth in Alignment

这篇论文关注一个被偏好优化长期忽略的失衡问题：对齐训练往往会让模型在少数“深答”样本上变强，却牺牲知识覆盖面，或者反过来保留广度但回答变浅。过去 DPO/RLHF 通常把偏好当成单一标量目标，因此很难同时控制 breadth 和 depth。

Sizhe Wang,Yongqi Tong,Hengyuan Zhang,Dawei Li,Xin Zhang,Tianlong Chen

preference-optimizationalignmentknowledgeDOI DBLP

泛读LongNAACL 2025

Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

这篇论文解决的是一个很实用的问题：能否不重新训练模型，只通过简单参数编辑就稳定调节 LLM 行为。过去要改行为通常靠 SFT、LoRA 或 RLHF，但这些方法成本高、影响面大，也不适合快速试错或局部修补。

Huanqian Wang,Yang Yue,Rui Lu,Jingxin Shi,Andrew Zhao,Shenzhi Wang,Shiji Song,Gao Huang

model-editingparameter-editingalignmentDOI DBLP

泛读FindingsNAACL 2025

Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step

这篇论文讨论的是 CoT 研究里一个很关键但常被默认成立的前提：逐步生成的思维链是否真的“必要”，以及其中每一步是否真的对应模型内部用到的推理。过去很多工作把可见 CoT 当成真实推理轨迹，但这可能混淆了“解释文本”和“决策机制”。

Zezhong Wang,Xingshan Zeng,Weiwen Liu,Yufei Wang,Liangyou Li,Yasheng Wang,Lifeng Shang,Xin Jiang,Qun Liu,Kam-Fai Wong

cotreasoningprobingDOI DBLP

泛读LongNAACL 2025

Balancing Forget Quality and Model Utility: A Reverse KL-Divergence Knowledge Distillation Approach for Better Unlearning in LLMs

这篇论文要解决的是 LLM unlearning 里的核心矛盾：忘得干净通常会伤模型效用，保效用又往往忘不彻底。过去很多遗忘方法直接做梯度上升、负样本训练或前向 KL 蒸馏，容易把模型推离原分布太远，导致 utility 明显下降。

Bichen Wang,Yuzhe Zi,Yixin Sun,Yanyan Zhao,Bing Qin

unlearningdistillationreverse-klDOI DBLP

泛读LongNAACL 2025

Self-calibration for Language Model Quantization and Pruning

这篇论文想解决的是量化和剪枝中的一个常见工程痛点：压缩方法通常依赖额外校准集，但校准数据不一定可得，或者数据分布不匹配会让压缩效果很不稳定。对部署来说，这是比算法本身更现实的阻碍。

Miles Williams,George Chrysostomou,Nikolaos Aletras

quantizationpruningcalibrationDOI DBLP

泛读LongNAACL 2025

PA-RAG: RAG Alignment via Multi-Perspective Preference Optimization

RAG 系统中检索器和生成器之间存在偏好不对齐的问题——检索器返回的文档未必是生成器最能利用的，而生成器也未必能充分利用检索到的上下文。以往工作要么只优化检索端，要么只优化生成端，缺乏联合对齐。

Jiayi Wu,Hengyi Cai,Lingyong Yan,Hao Sun,Xiang Li,Shuaiqiang Wang,Dawei Yin,Ming Gao

中国科学院信息工程研究所ragpreference-optimizationalignmentDOI DBLP

泛读ShortNAACL 2025

A Systematic Study of Cross-Layer KV Sharing for Efficient LLM Inference

LLM 推理时 KV cache 的显存占用随层数线性增长，是长上下文和大批量推理的主要瓶颈。跨层 KV 共享（Cross-Layer KV Sharing）是一种直觉上有效的压缩方式，但此前缺乏系统性研究——哪些层可以共享、共享模式对质量的影响、与其他 KV 压缩方法的交互等问题没有被充分回答。

You Wu,Haoyi Wu,Kewei Tu

上海科技大学kv-cacheinferenceattentionDOI DBLP

泛读SRWNAACL 2025

Linear Relational Decoding of Morphology in Language Models

语言模型内部是否以线性关系编码了形态学（morphology）信息？例如，词根到派生词的映射是否在表示空间中呈现线性可解码的结构。这个问题关系到 LM 学到的语言知识的结构化程度。

Eric Xia,Jugal Kalita

interpretabilitymorphologyrepresentationDOI DBLP

泛读FindingsNAACL 2025

Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs

这篇工作解决的是生成式 LLM 不确定性估计长期依赖手工设计打分函数的问题。现有方法常用 entropy、logprob、self-consistency 分歧等启发式指标，但这些指标和真实错误率之间并不稳定，跨模型、跨任务迁移也差。

Duygu Nur Yaldiz,Yavuz Faruk Bakman,Baturalp Buyukates,Chenyang Tao,Anil Ramakrishna,Dimitrios Dimitriadis,Jieyu Zhao,Salman Avestimehr

uncertaintycalibrationscoringDOI DBLP

泛读LongNAACL 2025

Decoding Speculative Decoding

这篇工作要回答的核心问题是：speculative decoding 到底为什么快、什么时候快、瓶颈在哪里。这个方向已经被广泛采用，但业界常停留在经验层面的速度报告，缺少能指导系统设计的机制化分析。

Minghao Yan,Saurabh Agarwal,Shivaram Venkataraman

speculative-decodinginferenceefficiencyDOI DBLP

泛读FindingsNAACL 2025

Improving Reward Models with Synthetic Critiques

这篇工作要解决的是：奖励模型对回答好坏的判断信号太稀疏、太黑盒，导致偏好学习容易学到表面模式而不是可泛化的判别标准。传统做法大多直接用成对偏好或标量分数训练 RM，但这类监督只告诉模型谁更好，不告诉它为什么更好，因此在分布外样本、长回答或细粒度错误上往往不稳。

Zihuiwen Ye,Fraser Greenlee-Scott,Max Bartolo,Phil Blunsom,Jon Ander Campos,Matthias Gallé

reward-modelsynthetic-datacritiqueDOI DBLP

泛读FindingsNAACL 2025

Keep Guessing? When Considering Inference Scaling, Mind the Baselines

这篇工作要回答的是：所谓 inference scaling 的收益，到底来自更强的推理时计算，还是只是因为 baseline 设得太弱。近期很多方法通过多次采样、反复猜测、self-consistency 或搜索拿到提升，但如果不把 token 预算、sample 数、解码策略和 reranking 成本对齐，结论很容易高估。

Gal Yona,Or Honovich,Omer Levy,Roee Aharoni

inference-scalingbaselinestest-time-computeDOI DBLP

泛读LongNAACL 2025

Self-Generated Critiques Boost Reward Modeling for Language Models

这篇工作解决的核心问题与合成 critique 奖励建模一脉相承：奖励模型缺少对“为什么答案差”的显式监督，因此难以学到稳定的偏好标准。只用偏好对训练时，RM 很容易把长度、语气或模板化礼貌当作奖励代理变量。

Yue Yu,Zhengxing Chen,Aston Zhang,Liang Tan,Chenguang Zhu,Richard Yuanzhe Pang ... 省略 3 位作者 ... ,Chao Zhang,Melanie Kambadur,Dhruv Mahajan,Rui Hou

reward-modelself-critiquesynthetic-dataDOI DBLP

泛读FindingsNAACL 2025

Towards Better Multi-task Learning: A Framework for Optimizing Dataset Combinations in Large Language Models

这篇工作要解决的是多任务训练里最常见但长期缺乏系统解法的问题：数据集怎么配。很多 LLM 多任务学习仍靠经验设 sampling ratio、按数据量混合，或者事后做人工调参；问题在于任务间梯度冲突和数据质量差异很大，‘多加数据’并不等于‘多学到能力’。

Zaifu Zhan,Rui Zhang

multi-taskdata-mixtureoptimizationDOI DBLP

泛读FindingsNAACL 2025

Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning

Lin Zhang,Lijie Hu,Di Wang

mechanistic-interpretabilitytransformer-circuitsreasoningDOI DBLP

泛读LongNAACL 2025

IHEval: Evaluating Language Models on Following the Instruction Hierarchy

Zhihan Zhang,Shiyang Li,Zixuan Zhang,Xin Liu,Haoming Jiang,Xianfeng Tang ... 省略 4 位作者 ... ,Yichuan Li,Qingyu Yin,Bing Yin,Meng Jiang

instruction-followingalignmentevaluationDOI DBLP

泛读FindingsNAACL 2025

TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data

Jipeng Zhang,Yaxuan Qin,Renjie Pi,Weizhong Zhang,Rui Pan,Tong Zhang

instruction-tuningdata-selectiongradientDOI DBLP

泛读LongNAACL 2025

LLaMA-Berry: Pairwise Optimization for Olympiad-level Mathematical Reasoning via O1-like Monte Carlo Tree Search

Di Zhang,Jianbo Wu,Jingdi Lei,Tong Che,Jiatong Li,Tong Xie ... 省略 2 位作者 ... ,Marco Pavone,Yuqiang Li,Wanli Ouyang,Dongzhan Zhou

reasoningmctsmathDOI DBLP

泛读LongNAACL 2025

MoDification: Mixture of Depths Made Easy

Chen Zhang,Meizhi Zhong,Qimeng Wang,Xuantao Lu,Zheyu Ye,Chengqiang Lu ... 省略 1 位作者 ... ,Yao Hu,Kehai Chen,Min Zhang,Dawei Song

mixture-of-depthsefficiencyroutingDOI DBLP

泛读LongNAACL 2025

Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering

这篇工作要解决的是：能否不做参数更新，只通过表示层干预来稳定地改变 LLM 的知识选择行为。以往对“该检索内部知识还是外部知识、该信什么证据”的控制，多依赖提示词、RAG 或微调，但这些方法要么作用不稳定，要么代价高，也很难定位到具体内部机制。

Yu Zhao,Alessio Devoto,Giwon Hong,Xiaotang Du,Aryo Pradipta Gema,Hongru Wang,Xuanli He,Kam-Fai Wong,Pasquale Minervini

saerepresentationinterpretabilityDOI DBLP

泛读FindingsNAACL 2025

Improving Pre-trained Language Models with Knowledge Enhancement and Filtering Framework

这篇工作要解决的是：如何在不被噪声知识拖累的前提下，用外部知识真正改进预训练语言模型。过去“知识增强”常常只做知识注入，却对检索错误、冗余事实和时效性冲突处理不足，结果是模型记住了更多内容，但不一定更可靠。

Qi Zhao,Qi Song,Tian Xie,Haiyue Zhang,Hongyu Yang,Xiangyang Li

pretrained-lmknowledgefilteringDOI DBLP

泛读LongNAACL 2025

Is In-Context Learning a Type of Error-Driven Learning? Evidence from the Inverse Frequency Effect in Structural Priming

这篇工作在问一个更基础的问题：ICL 是否像人类结构启动中的 error-driven learning 一样，依赖对罕见或意外模式的更强更新。过去很多 ICL 研究停留在“像梯度下降”或“像贝叶斯更新”的类比层面，这篇论文试图用心理语言学里的逆频率效应做更细粒度检验。

Zhenghao Zhou,Robert Frank,R. Thomas McCoy

in-context-learninglearning-dynamicsgeneralizationDOI DBLP

泛读LongNAACL 2025

MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs

这篇工作解决的是 MoE 模型合并的问题，尤其是既包括同构 MoE，也包括异构 MoE。传统模型合并大多假设 dense 模型或结构完全一致，而 MoE 里专家分工和路由本身就引入了排列不对齐与功能不匹配，直接平均权重通常会严重破坏能力。

Yuhang Zhou,Giannis Karamanolakis,Victor Soto,Anna Rumshisky,Mayank Kulkarni,Furong Huang,Wei Ai,Jianhua Lu

model-mergingmoeadapterDOI DBLP

泛读FindingsNAACL 2025

GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation

这篇工作针对的是幻觉缓解中的一个常见失衡：模型要么继续胡编，要么过度拒答。很多 refusal-aware 方法通过加强拒答倾向来降低幻觉，但副作用是把可回答问题也拦掉，等于用保守性换真实性。

Runchuan Zhu,Xinke Jiang,Jiang Wu,Zhipeng Ma,Jiahe Song,Fengshuo Bai,Dahua Lin,Lijun Wu,Conghui He

instruction-tuninghallucinationrefusalDOI DBLP

泛读FindingsNAACL 2025

MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

这篇工作要解决的是 Transformer 解码阶段 KV cache 占用过大的问题，尤其是在长上下文和大 batch 推理下显存首先被 KV cache 而不是参数本体吃满。现有做法通常在质量和效率之间二选一：要么用 MQA/GQA 直接减少 KV 头数但牺牲部分表达能力，要么做量化/裁剪来省内存但引入额外误差或工程复杂度，因此作者尝试在两者之间找一个更平衡的结构改法。

Zayd Muhammad Kawakibi Zuhri,Muhammad Farid Adilazuarda,Ayu Purwarianti,Alham Fikri Aji

kv-cachedecodingmemoryDOI DBLP

泛读DemoNAACL 2025

TRUSTEVAL: A Dynamic Evaluation Toolkit on Trustworthiness of Generative Foundation Models

Yanbo Wang,Jiayi Ye,Siyuan Wu,Chujie Gao,Yue Huang,Xiuying Chen,Yue Zhao,Xiangliang Zhang

evaluationsafetytrustworthinessDOI DBLP

泛读FindingsNAACL 2025

Does Generative AI speak Nigerian-Pidgin?: Issues about Representativeness and Bias for Multilingualism in LLMs

David Ifeoluwa Adelani,A. Seza Dogruöz,Iyanuoluwa Shode,Anuoluwapo Aremu

multilingualbiaslow-resourceDOI DBLP

泛读LongNAACL 2025

IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models

David Ifeoluwa Adelani,Jessica Ojo,Israel Abebe Azime,Jian Yun Zhuang,Jesujoba Oluwadara Alabi,Xuanli He ... 省略 17 位作者 ... ,Sokhar Samb,Tadesse Kebede Guge,Tombekai Vangoni Sherman,Pontus Stenetorp

benchmarkafrican-languagesmultilingualDOI DBLP

泛读LongNAACL 2025

RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models

Bang An,Shiyue Zhang,Mark Dredze

ragsafetyevaluationDOI DBLP

泛读LongNAACL 2025

Towards Robust Knowledge Representations in Multilingual LLMs for Equivalence and Inheritance based Consistent Reasoning

Gaurav Arora,Srujana Merugu,Shreya Jain,Vaibhav Saxena

multilingualknowledge-representationreasoningDOI DBLP

泛读FindingsNAACL 2025

ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding

这篇工作聚焦一个被长期低估的问题：现有 LLM 评测集很难真实反映低资源语言理解能力。很多 benchmark 要么直接翻译高资源任务，要么依赖表面模式，导致模型看起来“会了”，但对文化负载、隐喻和非常识表达并不真的理解。

Israel Abebe Azime,Atnafu Lambebo Tonja,Tadesse Destaw Belay,Yonas Chanie,Bontu Fufa Balcha,Negasi Haile Abadi ... 省略 4 位作者 ... ,Assefa Atsbiha tesfau,Philipp Slusallek,Thamar Solorio,Dietrich Klakow

low-resourceevaluationbenchmarkDOI DBLP

泛读FindingsNAACL 2025

An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning

这篇工作要解决的是多阶段微调中的灾难性遗忘，而且目标是用更省成本的 rehearsal 方案缓解。现有做法要么简单回放旧数据、存储和计算开销高，要么依赖参数冻结/正则，保留旧能力但常常压制新任务学习。

Andrew Bai,Chih-Kuan Yeh,Cho-Jui Hsieh,Ankur Taly

continual-learningcatastrophic-forgettingfine-tuningDOI DBLP

泛读IndustryNAACL 2025

Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance

这篇论文讨论一个很尖锐的问题：模型编辑在一种语言里修正知识或行为后，会不会连带破坏其他语言的表现。过去 model editing 研究多在英语里验证“改一处、影响局部”，但对多语模型来说，同一事实往往通过共享参数跨语言耦合，这个假设并不稳。

Somnath Banerjee,Avik Halder,Rajarshi Mandal,Sayan Layek,Ian Soboroff,Rima Hazra,Animesh Mukherjee

model-editingmultilingualknowledge-editingDOI DBLP

泛读ShortNAACL 2025

FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs

这篇工作要解决的是：现代 LLM 摘要系统的 hallucination 评测仍然不够可靠，尤其缺少足够多样的错误类型覆盖。过去很多总结基准只测事实一致性的一小部分，或者数据来源单一，导致模型可能只是适应评测格式，而不是真的更忠实。

Forrest Sheng Bao,Miaoran Li,Renyi Qu,Ge Luo,Erana Wan,Yujia Tang ... 省略 6 位作者 ... ,Chenyu Xu,Matthew Gonzales,Ofer Mendelevitch,Amin Ahmad

hallucinationbenchmarksummarizationDOI DBLP

泛读FindingsNAACL 2025

From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization

这篇工作研究一个具体但很关键的问题：LLM 在多文档摘要里为什么更容易 hallucinate，而且它和单文档摘要的错误机制是否不同。过去很多忠实性分析默认摘要错误主要来自单一来源理解偏差，但多文档场景还叠加了证据聚合、冲突解析和来源归因问题。

Catarina G. Belém,Pouya Pezeshkpour,Hayate Iso,Seiji Maekawa,Nikita Bhutani,Estevam Hruschka

hallucinationsummarizationmulti-documentDOI DBLP

泛读IndustryNAACL 2025

Concept Distillation from Strong to Weak Models via Hypotheses-to-Theories Prompting

这篇工作要解决的是：强模型能否把较难显式标注的“概念”蒸馏给弱模型，而不是只蒸馏最终答案。传统 distillation 更擅长传递 logits 或任务输出，但对抽象规则、可迁移理论和中间解释的传递较弱；作者把这个缺口定义为从 hypotheses 到 theories 的概念蒸馏问题。

Emmanuel Aboah Boateng,Cassiano O. Becker,Nabiha Asghar,Kabir Walia,Ashwin Srinivasan,Ehi Nosakhare,Soundar Srinivasan,Victor Dibia

distillationreasoningweak-supervisionDOI DBLP

泛读LongNAACL 2025

High-Dimension Human Value Representation in Large Language Models

这篇工作的核心问题是：LLM 中的人类价值并不是一条单轴，而是高维结构，现有对齐评估和建模过于扁平。过去常把价值偏好压成几个标签或单一安全维度，这会掩盖价值之间的张力、相关性和文化差异；作者因此尝试把价值表示显式地做成高维。

Samuel Cahyawijaya,Delong Chen,Yejin Bang,Leila Khalatbari,Bryan Wilie,Ziwei Ji,Etsuko Ishii,Pascale Fung

human-valuesrepresentation-analysisalignmentDOI DBLP

泛读FindingsNAACL 2025

Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Senses

这篇工作的结论已经写在标题里：多语言大模型目前还不能可靠地区分跨语言词义歧义。过去很多 multilingual benchmark 把跨语言泛化看得过于乐观，但词义消歧这种细粒度语义任务能直接暴露模型是不是只学了表面对齐，而没有学到语言间稳健的 sense mapping。

Samuel Cahyawijaya,Ruochen Zhang,Jan Christian Blaise Cruz,Holy Lovenia,Elisa Gilbert,Hiroki Nomoto,Alham Fikri Aji

multilingualword-sensedisambiguationDOI DBLP

泛读LongNAACL 2025

LongLeader: A Comprehensive Leaderboard for Large Language Models in Long-context Scenarios

这篇工作的核心问题是：长上下文能力的评测很分裂，现有榜单和基准往往只测少数任务或只测理论上下文长度，无法反映真实可用性。很多模型宣称支持超长 context，但在检索、跨段推理、位置鲁棒性和成本效率上差异很大，因此需要一个更完整的 leaderboard。

Pei Chen,Hongye Jin,Cheng-Che Lee,Rulin Shao,Jingfeng Yang,Mingyu Zhao ... 省略 4 位作者 ... ,Huasheng Li,Bing Yin,Han Li,Lingyun Wang

long-contextbenchmarkevaluationDOI DBLP

泛读LongNAACL 2025

Reverse Thinking Makes LLMs Stronger Reasoners

Justin Chih-Yao Chen,Zifeng Wang,Hamid Palangi,Rujun Han,Sayna Ebrahimi,Long T. Le ... 省略 1 位作者 ... ,Swaroop Mishra,Mohit Bansal,Chen-Yu Lee,Tomas Pfister

reasoningreverse-thinkingcotDOI DBLP

泛读LongNAACL 2025

Little Giants: Synthesizing High-Quality Embedding Data at Scale

Haonan Chen,Liang Wang,Nan Yang,Yutao Zhu,Ziliang Zhao,Furu Wei,Zhicheng Dou

embeddingdata-synthesisdata-qualityDOI DBLP

泛读LongNAACL 2025

Vision-Language Models Can Self-Improve Reasoning via Reflection

Kanzhi Cheng,Yantao Li,Fangzhi Xu,Jianbing Zhang,Hao Zhou,Yang Liu

vlmself-improvementreasoningDOI DBLP

泛读LongNAACL 2025

Is Your LLM Outdated? A Deep Look at Temporal Generalization

ChenghaoZhu ChenghaoZhu,Nuo Chen,Yufei Gao,Yunyi Zhang,Prayag Tiwari,Benyou Wang

temporal-generalizationevaluationknowledge-cutoffDOI DBLP

泛读LongNAACL 2025

Improving and Assessing the Fidelity of Large Language Models Alignment to Online Communities

Minh Duc Chu,Zihao He,Rebecca Dorn,Kristina Lerman

alignmentcommunity-normsevaluationDOI DBLP

泛读FindingsNAACL 2025

Avoiding Copyright Infringement via Large Language Model Unlearning

这篇工作聚焦版权场景下的模型遗忘：当 LLM 可能记住受版权保护文本时，能否通过 unlearning 降低侵权风险，而不是简单依赖数据过滤或输出拒答。过去版权问题常在数据侧和法务侧讨论，但从训练角度看，更难的是删除可能已被模型内化的长尾记忆，同时尽量不破坏一般文本生成能力。

Guangyao Dou,Zheyuan Liu,Qing Lyu,Kaize Ding,Eric Wong

unlearningcopyrightsafetyDOI DBLP

泛读FindingsNAACL 2025

Atoxia: Red-teaming Large Language Models with Target Toxic Answers

这篇工作要解决的是更有针对性的 red-teaming：不是泛泛寻找危险输出，而是给定某类目标毒性答案，反向构造最容易诱发模型说出这类内容的用户查询。现有 red-teaming 往往覆盖面广但不够定向，因此难以系统发现某种具体风险模式的薄弱点。

Yuhao Du,Zhuo Li,Pengyu Cheng,Xiang Wan,Anningzhe Gao

red-teamingtoxicitysafetyDOI arXiv DBLP

泛读FindingsNAACL 2025

M-IFEval: Multilingual Instruction-Following Evaluation

Antoine Dussolle,Andrea Cardeña Díaz,Shota Sato,Peter Devine

multilingualinstruction-followingevaluationDOI DBLP

泛读ShortNAACL 2025

A Fair Comparison without Translationese: English vs. Target-language Instructions for Multilingual LLMs

这篇论文要解决的是：过去“非英语任务也更适合用英文指令”的结论，可能被 translationese 污染了，因而并不公平。很多已有比较直接使用从英文翻译来的指令和数据，这会把英文原始表达的分布优势带进评测；作者重新构造去除这种偏差的设置，检验英文指令优势到底有多大。

Taisei Enomoto,Hwichan Kim,Zhousi Chen,Mamoru Komachi

multilingualinstruction-datatranslationeseDOI DBLP

泛读LongNAACL 2025

What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering

Federico Errica,Davide Sanvito,Giuseppe Siracusano,Roberto Bifulco

promptingsensitivityconsistencyDOI DBLP

泛读LongNAACL 2025

Improving Retrospective Language Agents via Joint Policy Gradient Optimization

这篇论文要解决的是：小模型 agent 虽然可以通过微调获得任务能力，但通常缺少反思和自我改进能力；而只靠大模型做 prompt-based agent，成本高且难以沉淀到小模型里。作者试图把“任务规划”和“回顾式自我修正”一起训练，而不是把反思只留在推理时 prompt 里。

Xueyang Feng,Bo Lan,Quanyu Dai,Lei Wang,Jiakai Tang,Xu Chen,Zhenhua Dong,Ji-Rong Wen

agentpolicy-gradientself-improvementDOI arXiv DBLP

FindingsNAACL 2025

Towards Zero-Shot Multimodal Machine Translation

这篇论文要解决的是：多模态机器翻译通常依赖“图像+源句+目标译文”三元监督数据，但这种数据昂贵且语言覆盖差，导致 MMT 很难扩展到低资源语对。作者尝试只用英文多模态数据，把一个强文本 MT 模型改造成零样本 MMT，而不要求目标语的多模态平行语料。

Matthieu Futeral,Cordelia Schmid,Benoît Sagot,Rachel Bawden

multimodal-translationzero-shotcross-modalDOI arXiv DBLP

泛读LongNAACL 2025

Are We Done with MMLU?

MMLU 是最广泛使用的 LLM 评测基准之一，但其标注质量存在严重问题——例如 Virology 子集中 57% 的题目有错误。这些错误会扭曲模型能力的真实评估。

Aryo Pradipta Gema,Joshua Ong Jun Leang,Giwon Hong,Alessio Devoto,Alberto Carlo Maria Mancino,Rohit Saxena ... 省略 6 位作者 ... ,Joshua Harris,Jean Kaddour,Emile van Krieken,Pasquale Minervini

evaluationbenchmarkmmluDOI arXiv DBLP

泛读DemoNAACL 2025

NeMo-Inspector: A Visualization Tool for LLM Generation Analysis

合成数据是 LLM 训练的重要数据来源，但质量控制困难——开发者需要手动检查大量样本来发现错误。缺乏专门的工具来高效分析和清洗合成数据集。

Daria Gitman,Igor Gitman,Evelina Bakhturina

NVIDIAsynthetic-datageneration-analysisvisualizationDOI arXiv DBLP

泛读LongNAACL 2025

Can Unconfident LLM Annotations Be Used for Confident Conclusions?

LLM 标注在社会科学等领域被大量用于替代人工标注，但 LLM 标注本身存在不确定性。问题是：当 LLM 标注不够自信时，基于这些标注得出的统计结论是否仍然可靠？

Kristina Gligoric,Tijana Zrnic,Cinoo Lee,Emmanuel J. Candès,Dan Jurafsky

Stanford Universityllm-annotationuncertaintyevaluationDOI DBLP

泛读IndustryNAACL 2025

TurboFuzzLLM: Turbocharging Mutation-based Fuzzing for Effectively Jailbreaking Large Language Models in Practice

LLM 的安全性测试需要高效发现能绕过安全防护的 jailbreak 模板，但现有基于模板变异的攻击方法在实际应用中效率不足。

Aman Goel,Xian Carrie Wu,Zhe Wang,Dmitriy Bespalov,Yanjun Qi

jailbreaksafetyfuzzingDOI arXiv DBLP

泛读LongNAACL 2025

What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation

VLM（视觉-语言模型）的内部机制不透明，现有可解释性方法通常依赖加噪等干预手段来分析模型行为，但高斯噪声等方法可能引入不自然的分布偏移。本文提出一种无需高斯噪声的文本-图像腐蚀与评估流水线。

Michal Golovanevsky,William Rudman,Vedant Palit,Carsten Eickhoff,Ritambhara Singh

Brown Universityvlmmechanistic-interpretabilitycorruptionDOI DBLP

泛读FindingsNAACL 2025

OLMES: A Standard for Language Model Evaluations

这篇工作要解决的是：语言模型评测缺少统一、可复现、可比较的标准，导致不同论文的结果常常无法横向对齐。过去大家用各自的 prompt、过滤规则、打分脚本和版本管理，哪怕测的是同一模型同一任务，结果也可能不一致，所以“评测进步”里混入了大量 pipeline 差异。

Yuling Gu,Oyvind Tafjord,Bailey Kuehl,Dany Haddad,Jesse Dodge,Hannaneh Hajishirzi

evaluationbenchmarkingstandardizationDOI DBLP

泛读LongNAACL 2025

Efficient Prompting for Continual Adaptation to Missing Modalities

这篇工作要解决的是：多模态模型在持续适配新场景时，经常遇到某些模态缺失，导致统一微调或推理策略失效。过去常见做法要么假设所有模态都在，要么为每种缺失模式单独训练，前者不现实，后者在组合数上会迅速爆炸。

Zirun Guo,Shulei Wang,Wang Lin,Weicai Yan,Yangyang Wu,Tao Jin

missing-modalitiespromptingcontinual-adaptationDOI DBLP

泛读FindingsNAACL 2025

Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models

这篇工作关注的是：标准监督微调往往会提升训练分布内表现，却牺牲 out-of-distribution generalization，而大模型已有的自监督能力没有被有效利用。过去大家通常把 SFT 当成纯监督问题处理，但这会把模型往更窄的决策边界上推，特别是在标注数据有限或有偏时更明显。

Sonam Gupta,Yatin Nandwani,Asaf Yehudai,Dinesh Khandelwal,Dinesh Raghu,Sachindra Joshi

fine-tuninggeneralizationself-supervisedDOI DBLP

泛读ShortNAACL 2025

Beyond Literal Token Overlap: Token Alignability for Multilinguality

这篇工作要解决的是：衡量多语言模型中的跨语言共享，不能只看字面 token overlap，因为很多语言之间几乎不共享表面子词，但仍可能在表示层面对齐。过去不少分析把 tokenizer 共享度当成 multilingual transfer 的代理指标，这对拼写接近的语言还凑合，但对文字系统不同的语言会明显失真。

Katharina Hämmerl,Tomasz Limisiewicz,Jindrich Libovický,Alexander Fraser

tokenizermultilingualtoken-alignmentDOI DBLP

泛读FindingsNAACL 2025

Data Poisoning for In-context Learning

这篇工作研究的核心问题是：上下文学习（ICL）是否会被训练数据投毒系统性操控，而不只是像传统后门那样依赖显式触发器。这个问题以前更多在监督微调或检索增强场景下被讨论，但随着模型越来越依赖 few-shot prompt 和上下文示例，ICL 本身已经成为一条可被攻击的推理路径。

Pengfei He,Han Xu,Yue Xing,Hui Liu,Makoto Yamada,Jiliang Tang

data-poisoningin-context-learningsecurityDOI DBLP

泛读LongNAACL 2025

Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks?

这篇工作要回答的是：困难推理任务里，什么样的监督信号真正有用，尤其是在'答案对但过程差'、'过程长但不关键'、'步骤细但不泛化'这些常见矛盾下该如何选。过去很多工作默认更长的 chain-of-thought 或更细的过程标注一定更好，但实际训练里经常出现监督很贵、迁移不稳、模型学到格式而不是推理能力的问题。

Xuan He,Da Yin,Nanyun Peng

reasoningsupervisiondistillationDOI DBLP

泛读LongNAACL 2025

Large Language Models Are Cross-Lingual Knowledge-Free Reasoners

这篇工作要回答的是：大语言模型在跨语言推理中表现好，到底是因为真的掌握了跨语言知识，还是因为它们主要在做与语言无关的形式推理。过去很多跨语言 benchmark 把知识召回、翻译质量和推理能力混在一起，因此高分并不能说明模型具备稳固的跨语言知识迁移。

Peng Hu,Sizhe Liu,Changjiang Gao,Xin Huang,Xue Han,Junlan Feng,Chao Deng,Shujian Huang

reasoningcross-lingualgeneralizationDOI DBLP

泛读LongNAACL 2025

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

现有多模态 benchmark 存在评估不可靠的问题——模型可能通过捷径（如仅看选项文本、猜测偏置）获得高分，而非真正理解图像内容。之前的 benchmark 缺乏系统性的校准机制来区分真实能力与虚假得分。

Jinsheng Huang,Liang Chen,Taian Guo,Fu Zeng,Yusheng Zhao,Bohan Wu ... 省略 6 位作者 ... ,Luchen Liu,Tianyu Liu,Baobao Chang,Ming Zhang

multimodalbenchmarkevaluationDOI DBLP

泛读FindingsNAACL 2025

Attention Tracker: Detecting Prompt Injection Attacks in LLMs

LLM 容易受到 prompt injection 攻击——恶意输入让模型忽略原始指令、执行注入指令。现有防御方法多需要额外推理或专门训练，成本高且泛化差。这篇工作试图从注意力机制内部找到检测信号，实现免训练的攻击检测。

Kuo-Han Hung,Ching-Yun Ko,Ambrish Rawat,I-Hsin Chung,Winston H. Hsu,Pin-Yu Chen

IBM ResearchNational Taiwan Universityattentionprompt-injectionsecurityDOI arXiv DBLP

泛读LongNAACL 2025

Evaluating Morphological Compositional Generalization in Large Language Models

LLM 的语言泛化能力是否真正具有组合性（compositionality），特别是在形态学层面？之前的研究主要关注句法和语义层面的组合泛化，形态学维度——即模型能否像人类一样组合词素（morpheme）来理解和生成新词——几乎未被系统研究。

Mete Ismayilzada,Defne Circi,Jonne Sälevä,Hale Sirin,Abdullatif Köksal,Bhuwan Dhingra,Antoine Bosselut,Duygu Ataman,Lonneke van der Plas

generalizationmorphologyevaluationDOI arXiv DBLP

泛读FindingsNAACL 2025

SimulBench: Evaluating Language Models with Creative Simulation Tasks

现有 LLM benchmark 很少覆盖创意模拟任务（如扮演 Linux 终端、玩文字游戏），而这类任务是衡量 LLM 通用智能的有效手段。核心难点是如何在保持多轮交互特性的同时，公平地评估不同 LLM。

Qi Jia,Xiang Yue,Tuney Zheng,Jie Huang,Bill Yuchen Lin

Allen AIbenchmarkevaluationsimulationDOI arXiv DBLP

泛读FindingsNAACL 2025

How Well Do LLMs Handle Cantonese? Benchmarking Cantonese Capabilities of Large Language Models

粤语（Cantonese）有超过 8500 万使用者，但在 NLP 研究中严重欠缺代表性，LLM 对粤语的支持程度不明。这篇工作系统梳理粤语 NLP 现状并构建专门的 benchmark 来评估 LLM 的粤语能力。

Jiyue Jiang,Pengan Chen,Liheng Chen,Sheng Wang,Qinghang Bao,Lingpeng Kong,Yu Li,Chuan Wu

benchmarkmultilingualevaluationDOI arXiv DBLP

泛读FindingsNAACL 2025

Beyond the Mode: Sequence-Level Distillation of Multilingual Translation Models for Low-Resource Language Pairs

多语言翻译模型的知识蒸馏（distillation）在低资源语言对上的效果问题。标准的 sequence-level distillation 倾向于只蒸馏 mode（最高概率输出），丢失了教师模型输出分布中的多样性信息，这对低资源语言对尤其有害。

Aarón Galiano Jiménez,Juan Antonio Pérez-Ortiz,Felipe Sánchez-Martínez,Víctor M. Sánchez-Cartagena

distillationmultilingualsequence-levelDOI DBLP

泛读LongNAACL 2025

Self-Harmonized Chain of Thought

这篇工作关注的是：如何让链式思维（CoT）在多步推理中减少自我矛盾，而不是只靠更长的推理轨迹碰运气。现有做法往往通过采样更多 CoT、做自一致性投票，或在后验阶段筛答案，但这些办法主要修补输出结果，不直接约束推理过程内部是否前后一致，因此容易出现步骤看似合理、整体却不协调的问题。

Ziqi Jin,Wei Lu

chain-of-thoughtself-consistencyreasoningDOI DBLP

泛读LongNAACL 2025

Unfamiliar Finetuning Examples Control How Language Models Hallucinate

这篇论文研究的是一个很实用的问题：微调数据里那些模型不熟悉、分布外或低频的例子，会如何改变模型 hallucination 的方式，而不只是改变 hallucination 的总量。过去很多工作把幻觉当作统一现象来压低，但实际系统里更关键的是：模型会在什么条件下编、沿着什么模式编，这和 finetuning 数据分布的关系并不清楚。

Katie Kang,Eric Wallace,Claire J. Tomlin,Aviral Kumar,Sergey Levine

finetuninghallucinationdata-qualityDOI DBLP

泛读LongNAACL 2025

From Evidence to Belief: A Bayesian Epistemology Approach to Language Models

这篇论文讨论的是：能否用贝叶斯认识论的框架来刻画语言模型如何从证据走向信念，而不是把模型输出概率直接当成信念本身。以往我们常用 token probability 或 answer confidence 近似模型信念，但这种做法混合了语言流畅性、先验偏置和生成策略，未必对应真正意义上的证据更新。

Minsu Kim,Sangryul Kim,James Thorne

uncertaintybeliefbayesianDOI DBLP

泛读LongNAACL 2025

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models

这篇论文要解决的是：现有 LLM 评测往往过粗，难以细粒度地区分模型到底在哪些能力点上强或弱，而且越来越依赖 LLM-as-a-judge 却缺少原则化设计。作者提出的 BiGGen Bench，按题目看，目标就是建立一个更细颗粒度、并且用语言模型辅助评语言模型的系统评测框架。

Seungone Kim,Juyoung Suk,Ji Yong Cho,Shayne Longpre,Chaeeun Kim,Dongkeun Yoon ... 省略 20 位作者 ... ,Bill Yuchen Lin,Sean Welleck,Graham Neubig,Moontae Lee

benchmarkevaluationllm-as-judgeDOI DBLP

泛读LongNAACL 2025

The Impact of Inference Acceleration on Bias of LLMs

这篇论文研究的是：推理加速技术会不会系统性改变 LLM 的偏见表现，而不只是改变速度和成本。过去 inference acceleration 通常被当作纯系统优化问题处理，例如量化、剪枝、早退或 speculative decoding，但如果这些方法改变了输出分布，它们也可能连带改变公平性和偏置，这一点往往没有被单独评估。

Elisabeth Kirsten,Ivan Habernal,Vedant Nanda,Muhammad Bilal Zafar

inferenceaccelerationbiasDOI DBLP

泛读LongNAACL 2025

GroundCocoa: A Benchmark for Evaluating Compositional & Conditional Reasoning in Language Models

这篇工作要解决的核心问题是：现有基准很难把语言模型的“组合推理”与“条件推理”能力真正拆开测清楚。很多常用评测要么混入世界知识和模板记忆，要么条件约束不够严格，导致模型看起来会推理，实际可能只是靠表面模式匹配过关，因此作者提出一个专门面向这两类能力的基准。

Harsh Kohli,Sachin Kumar,Huan Sun

benchmarkreasoningcompositionalityDOI DBLP

泛读FindingsNAACL 2025

SWITCH: Studying with Teacher for Knowledge Distillation of Large Language Models

这篇工作要解决的是：大模型蒸馏往往把教师当作静态标签源，但学生真正学不会的部分并没有被有针对性地教。传统知识蒸馏常把所有样本一视同仁，或者只做logit matching，结果是教师算力花了很多，学生吸收却并不高效，尤其在复杂推理或知识密集任务上更明显。

Jahyun Koo,Yerin Hwang,Yongil Kim,Taegwan Kang,Hyunkyung Bae,Kyomin Jung

distillationteacher-studentinstruction-tuningDOI DBLP

泛读LongNAACL 2025

ComPO: Community Preferences for Language Model Personalization

这篇工作要解决的是：语言模型个性化通常依赖个人偏好数据，但真实部署里很多偏好是群体性的、社区性的，而且同一用户往往属于多个价值或兴趣共同体。现有 personalization 方法常把偏好建模成单用户或单一 reward 的问题，因此既难覆盖长尾，也容易把复杂社区差异压成一个平均口味。

Sachin Kumar,Chan Young Park,Yulia Tsvetkov,Noah A. Smith,Hannaneh Hajishirzi

preference-optimizationpersonalizationalignmentDOI DBLP

泛读FindingsNAACL 2025

LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression

这篇工作要解决的是：LVLM 压缩通常只报告通用精度或推理速度，但压缩后的更广泛影响几乎没有被系统评测。对视觉-语言模型来说，压缩可能不仅影响平均任务分数，还会改变安全性、公平性、幻觉率、鲁棒性和不同模态能力平衡；如果只看一两个 leaderboard，很容易得到过于乐观的结论。

Souvik Kundu,Anahita Bhiwandiwalla,Sungduk Yu,Phillip Howard,Tiep Le,Sharath Nittur Sridhar,David Cobbley,Hao Kang,Vasudev Lal

vlm-compressionquantizationbenchmarkDOI DBLP

泛读LongNAACL 2025

See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

这篇工作针对 VLM 中常见的 dominant modality bias：训练时模型容易被更强势的模态牵着走，导致另一模态学不到足够表示。典型现象是语言先验压过视觉证据，或者视觉特征主导训练信号，最终造成图文不平衡、跨模态对齐不足和错误归因。

Junehyoung Kwon,Mihyeon Kim,Eunju Lee,Juhwan Choi,YoungBin Kim

modality-balancevlmgradient-analysisDOI DBLP

泛读ShortNAACL 2025

PROM: Pivoted and Regulated Optimization for Multilingual Instruction Learning

Jaeseong Lee,Seung-won Hwang,Hojin Lee,Yunju Bak,Changmin Lee

multilingualinstruction-tuningsftDOI DBLP

泛读LongNAACL 2025

Behavior-SD: Behaviorally Aware Spoken Dialogue Generation with Large Language Models

Sehun Lee,Kang-wook Kim,Gunhee Kim

spoken-dialoguespeech-lmllm-generationDOI DBLP

泛读FindingsNAACL 2025

VLind-Bench: Measuring Language Priors in Large Vision-Language Models

Kang-il Lee,Minbeom Kim,Seunghyun Yoon,Minsung Kim,Dongryeol Lee,Hyukhun Koh,Kyomin Jung

vlmlanguage-priorbenchmarkDOI DBLP

泛读LongNAACL 2025

Dynamic Fisher-weighted Model Merging via Bayesian Optimization

Sanwoo Lee,Jiahao Liu,Qifan Wang,Jingang Wang,Xunliang Cai,Yunfang Wu

model-mergingfisher-informationbayesian-optimizationDOI DBLP

泛读LongNAACL 2025

Self-Training Meets Consistency: Improving LLMs' Reasoning with Consistency-Driven Rationale Evaluation

Jaehyeok Lee,Keisuke Sakaguchi,JinYeong Bak

self-trainingconsistencyreasoningDOI DBLP

泛读LongNAACL 2025

Preference Consistency Matters: Enhancing Preference Learning in Language Models with Automated Self-Curation of Training Corpora

JoonHo Lee,JuYoun Son,Juree Seok,Wooseok Jang,Yeong-Dae Kwon

preference-learningdata-curationconsistencyDOI DBLP

泛读LongNAACL 2025

ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage

Taewhoo Lee,Chanwoong Yoon,Kyochul Jang,Donghyeon Lee,Minju Song,Hyunjae Kim,Jaewoo Kang

long-contextbenchmarkevaluationDOI DBLP

泛读LongNAACL 2025

Racing Thoughts: Explaining Contextualization Errors in Large Language Models

Michael A. Lepori,Michael Curtis Mozer,Asma Ghandeharioun

contextualizationllm-errorsinterpretabilityDOI DBLP

泛读FindingsNAACL 2025

BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression

这篇论文要解决的是多跳问答里“检索到了但推不出来，或者推理需要的证据太长塞不进上下文”的问题。以前常见方案是继续堆更强检索器或更长上下文，但这两条路都会遇到噪声累积和计算成本上升，尤其在多跳场景里，证据链长并不等于推理链清晰。

Yuankai Li,Jia-Chen Gu,Di Wu,Kai-Wei Chang,Nanyun Peng

UCLAretrievalcompressionmulti-hopDOI DBLP

泛读LongNAACL 2025

VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models

这篇论文要解决的是大多多模态模型能看图答题，但很难做真正依赖视觉证据的多步推理。过去很多“多模态推理”其实主要靠语言先验完成，视觉只提供浅层提示；一旦需要在多个视觉线索之间建立链式关系，模型就容易失真。

Zejun Li,Ruipu Luo,Jiwen Zhang,Minghui Qiu,Xuanjing Huang,Zhongyu Wei

Fudan UniversitymultimodalreasoningvlmDOI DBLP

泛读FindingsNAACL 2025

Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data

这篇论文解决的是蒸馏太依赖标注数据的问题：很多 LLM distillation 方法虽然 teacher 很强，但 student 训练仍然受限于任务标签或高质量 instruction 数据。作者关注的是能否直接利用无标注数据，把 teacher 的知识转移给 student，从而降低蒸馏成本并扩大覆盖面。

Juanhui Li,Sreyashi Nag,Hui Liu,Xianfeng Tang,Sheikh Muhammad Sarwar,Limeng Cui,Hansu Gu,Suhang Wang,Qi He,Jiliang Tang

distillationunlabeled-datastudent-modelDOI DBLP

泛读LongNAACL 2025

Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets

这篇论文解决的是长尾不平衡训练里一个老但仍未讲透的问题：到底该通过上采样少数类，还是通过损失重加权来平衡训练？过去两种做法都很常见，但经验结论高度依赖任务、batch 组成和优化器状态，很多实践是在试错而不是基于机制选择。

Tianjian Li,Haoran Xu,Weiting Tan,Kenton Murray,Daniel Khashabi

Allen Institute for AIdata-mixtureimbalancesamplingDOI DBLP

泛读LongNAACL 2025

Amphista: Bi-directional Multi-head Decoding for Accelerating LLM Inference

这篇工作要解决的是 LLM 推理阶段串行 next-token 解码过慢的问题。现有加速方法大多依赖投机解码、草稿模型或并行验证，往往要额外模型、额外训练或在接受率低时收益不稳定；作者尝试直接改造解码方式，在不明显改动主模型能力的前提下提高吞吐。

Zeping Li,Xinlong Yang,Ziheng Gao,Ji Liu,Guanchen Li,Zhuang Liu,Dong Li,Jinzhang Peng,Lu Tian,Emad Barsoum

decodinginferenceaccelerationDOI DBLP

泛读ShortNAACL 2025

Context-Efficient Retrieval with Factual Decomposition

这篇工作要解决的是检索增强生成里上下文窗口被低效占用的问题。传统检索常把一整段文档塞进提示里，即使真正有用的信息只占其中少量事实，结果是 token 浪费、噪声增加，长上下文下反而更容易干扰生成。

Yanhong Li,David Yunis,David McAllester,Jiawei Zhou

retrievalcontext-efficiencydecompositionDOI DBLP

泛读LongNAACL 2025

Forest for the Trees: Overarching Prompting Evokes High-Level Reasoning in Large Language Models

这篇工作要解决的是 LLM 在复杂推理提示下容易陷入局部步骤优化、却抓不住整体任务结构的问题。过去常见做法是要求模型一步一步细化，但这会让模型过早承诺错误路径；作者提出先激发高层框架，再展开细节。

Haoran Liao,Shaohua Hu,Zhihao Zhu,Hao He,Yaohui Jin

promptingreasoningcotDOI DBLP

泛读FindingsNAACL 2025

Towards Long Context Hallucination Detection

这篇工作要解决的是长上下文场景下幻觉检测失效的问题。短上下文 hallucination detection 的很多方法默认证据集中、引用关系清晰，但当输入拉长后，模型会因为检索困难、位置偏置和跨段整合失败而产生新的幻觉类型，原有检测器往往抓不住。

Siyi Liu,Kishaloy Halder,Zheng Qi,Wei Xiao,Nikolaos Pappas,Phu Mon Htut,Neha Anna John,Yassine Benajiba,Dan Roth

long-contexthallucinationevaluationDOI DBLP

泛读IndustryNAACL 2025

Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings

这篇工作要解决的是偏好学习通常只在整轮对话或整条回答级别建模，忽略了对话内部 utterance-level 偏好的问题。这样会导致模型知道哪段完整回答更好，却不清楚具体是哪个话轮、哪种局部回应方式更受偏好，从而限制对多轮对话行为的精细控制。

Xuanqing Liu,Luyang Kong,Wei Niu,Afshin Khashei,Belinda Zeng,Steve Johnson,Jon Jay,Davor Golac,Matt Pope

preference-learningdialoguealignmentDOI DBLP

泛读LongNAACL 2025

Style Transfer with Multi-iteration Preference Optimization

这篇工作要解决的是文本风格迁移中单轮偏好优化往往不够稳定的问题。风格迁移既要改写风格，又不能破坏语义保真；一次性的 preference optimization 容易在风格强化和内容保持之间失衡，出现过度改写或迁移不充分。

Shuai Liu,Jonathan May

preference-optimizationstyle-transferalignmentDOI DBLP

泛读LongNAACL 2025

Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation

RAG 系统缺乏一个不依赖下游任务标注的通用性能度量指标。现有评估要么需要 ground-truth 答案，要么只能衡量检索质量而非端到端生成质量，导致难以在部署前预判 RAG 效果。

Tianyu Liu,Jirui Qi,Paul He,Arianna Bisazza,Mrinmaya Sachan,Ryan Cotterell

ETH ZurichUniversity of GroningenragevaluationpmiDOI DBLP

泛读LongNAACL 2025

ReIFE: Re-evaluating Instruction-Following Evaluation

现有的指令遵循评估方法（如 IFEval）本身的可靠性和一致性缺乏系统性审视。评估指标的偏差会直接误导模型对比和 posttrain 策略选择。

Yixin Liu,Kejian Shi,Alexander R. Fabbri,Yilun Zhao,Peifeng Wang,Chien-Sheng Wu,Shafiq Joty,Arman Cohan

Yale UniversitySalesforce Researchinstruction-followingevaluationalignmentDOI DBLP

泛读LongNAACL 2025

Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction

LLM 的迭代反思（iterative reflection）能力不稳定——模型常常在自我纠错时退化或原地打转。已有方法多用固定 prompt 引导反思，缺乏根据当前错误类型动态调整反思策略的能力。

Liping Liu,Chunhong Zhang,Likang Wu,Chuang Zhao,Zheng Hu,Ming He,Jianping Fan

reflectioninstruction-tuningreasoningDOI DBLP

泛读LongNAACL 2025

Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models

多语言任务中，"先翻译成英文再用英文 LLM 处理" 是否足够好？这个看似简单的 baseline 在实践中被广泛使用但缺乏系统性对比：翻译引入的信息损失 vs. 英文模型的能力优势，哪个影响更大？

Chaoqun Liu,Wenxuan Zhang,Yiran Zhao,Anh Tuan Luu,Lidong Bing

Alibaba DAMO AcademyNanyang Technological UniversitymultilingualtranslationevaluationDOI DBLP

泛读LongNAACL 2025

LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs

LLM 对输出格式（如 JSON、列表、自由文本）存在系统性偏好偏差——同一个问题用不同格式要求回答时，模型的准确率会显著变化。这意味着评估结果可能被格式选择而非真实能力所主导。

Do Xuan Long,Ngoc-Hai Nguyen,Tiviatis Sim,Hieu Dao,Shafiq Joty,Kenji Kawaguchi,Nancy F. Chen,Min-Yen Kan

Salesforce ResearchNanyang Technological Universitybiasoutput-formatevaluationDOI DBLP

泛读FindingsNAACL 2025

LSDC: An Efficient and Effective Large-Scale Data Compression Method for Supervised Fine-tuning of Large Language Models

SFT 数据量增长带来的训练成本问题：大规模 SFT 数据集存在大量冗余，如何在不损失模型性能的前提下大幅压缩 SFT 数据量？

Zhaoguang Long,Yuhao Zhou,Shangqing Zhao,Yupei Ren,Li Cai,Chenghao Jia,Zhe Chen,Zhe Fang,Yuxiang Song,Man Lan

sftdata-compressionefficiencyDOI DBLP

泛读FindingsNAACL 2025

Self-Training Large Language Models for Tool-Use Without Demonstrations

这篇工作要解决的是：在没有人工工具调用示范的情况下，能否把通用 LLM 训练成可用的 tool-use 模型。现有方法通常依赖高质量轨迹标注或人工构造 API 调用样本，成本高且覆盖窄，因此一旦工具集合变化，数据就要重做，这使方法难以扩展。

Ne Luo,Aryo Pradipta Gema,Xuanli He,Emile van Krieken,Pietro Lesci,Pasquale Minervini

tool-useself-trainingsynthetic-dataDOI DBLP

泛读LongNAACL 2025

M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models

这篇工作要解决的是：如何同时提升 LLM 的多语言能力和多轮对话指令对齐，而不是只在英文单轮指令上做对齐。现有 instruction tuning 往往在这两个维度上都偏弱——多语言数据覆盖不足，多轮对话又常被简化成单轮问答，结果是模型在真实交互中容易出现语言漂移、上下文遗忘和对齐不稳定。

Rishabh Maheshwary,Vikas Yadav,Hoang Nguyen,Khyati Mahajan,Sathwik Tejaswi Madhusudhan

multilingualinstruction-tuningmulti-turnDOI DBLP

泛读LongNAACL 2025

Benchmarking Distributional Alignment of Large Language Models

这篇工作研究的是：我们到底该如何评估 LLM 的 distributional alignment，而不是只看单点偏好分数。现有对齐评测常把模型输出压缩成胜率、帮助性或安全性单指标，但真实部署里更重要的是输出分布是否整体贴近目标分布，包括多样性、校准、风格和错误类型结构。

Nicole Meister,Carlos Guestrin,Tatsunori Hashimoto

distributional-alignmentllm-evaluationcalibrationDOI DBLP

泛读LongNAACL 2025

Waste Not, Want Not; Recycled Gumbel Noise Improves Consistency in Natural Language Generation

这篇工作要解决的是：自然语言生成中的采样一致性问题，尤其是在重复生成、局部重写或相关解码过程中，随机性会导致输出前后不稳定。标准 Gumbel 噪声采样每次都重新抽样，虽然无偏，但会破坏不同解码步骤之间应有的相关结构。

Damien de Mijolla,Hannan Saddiq,Kim Moore

gumbel-noisedecodingtext-generationDOI DBLP

泛读LongNAACL 2025

Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring

这篇论文要解决的是：攻击者如何用表面无害、甚至看起来像常规训练/提示数据的“镜像样本”去稳定绕过 LLM 的安全防护。以往越狱多依赖显式的恶意提示、角色扮演或编码混淆，容易被关键词过滤和策略模型拦截；如果攻击载荷被伪装成良性数据分布的一部分，现有防线往往更难发现，这使问题对真实部署更危险。

Honglin Mu,Han He,Yuxin Zhou,Yunlong Feng,Yang Xu,Libo Qin ... 省略 2 位作者 ... ,Xudong Han,Qi Shi,Qingfu Zhu,Wanxiang Che

jailbreaksafetyalignmentDOI DBLP

泛读LongNAACL 2025

Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models

这篇论文要解决的是：Mamba 这类 selective structured state space model 在推理效率上有潜力，但训练后模型仍可能冗余，缺少像 Transformer 那样成熟的压缩工具链。过去很多压缩方法主要围绕 attention/block 结构设计，直接套到 SSM 往往不匹配；如果 Mamba 想真正进入资源受限部署，后训练压缩就必须单独研究。

Juan Pablo Muñoz,Jinjie Yuan,Nilesh Jain

mambacompressionefficient-inferenceDOI DBLP

泛读LongNAACL 2025

Learning vs Retrieval: The Role of In-Context Examples in Regression with Large Language Models

这篇论文讨论的核心问题是：在用 LLM 做回归时，in-context examples 到底是在让模型“临时学会”数值映射，还是主要在做相似样本检索。过去 ICL 的讨论多集中在分类和文本任务，回归场景更容易把模式学习和记忆检索混在一起；把两者拆开，对理解 ICL 机制很关键。

Aliakbar Nafar,K. Brent Venable,Parisa Kordjamshidi

in-context-learningretrievalgeneralizationDOI DBLP

泛读ShortNAACL 2025

Task-driven Layerwise Additive Activation Intervention

Hieu Trung Nguyen,Bao Nguyen,Binh Nguyen,Viet Anh Nguyen

activation-steeringinterventioncontrolDOI DBLP

泛读SRWNAACL 2025

Towards LLMs Robustness to Changes in Prompt Format Styles

Lilian Ngweta,Kiran Kate,Jason Tsay,Yara Rizk

robustnesspromptingformat-varianceDOI DBLP

泛读LongNAACL 2025

Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Large Multi-modal Models

Joan Nwatu,Oana Ignat,Rada Mihalcea

multimodaldata-qualitybiasDOI DBLP

泛读FindingsNAACL 2025

Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning

Jeffrey Olmo,Jared Wilson,Max Forsey,Bryce Hepner,Thomas Vin Howe,David Wingate

interpretabilitydictionary-learninggradientsDOI DBLP

泛读LongNAACL 2025

Are explicit belief representations necessary? A comparison between Large Language Models and Bayesian probabilistic models

Dingyi Pan,Benjamin K. Bergen

beliefreasoningbayesianDOI DBLP

泛读FindingsNAACL 2025

NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models

这篇论文要解决的问题很直接：现有 VLM benchmark 往往更像识别或模板问答，难以稳定测出真正的认知推理能力。作者因此提出一个专门面向视觉语言模型的 cognitive reasoning benchmark，试图把“看到了什么”和“基于看到的东西做推断”分开评估。

Pranshu Pandya,Vatsal Gupta,Agney S. Talwarr,Tushar Kataria,Dan Roth,Vivek Gupta

vlmbenchmarkreasoningDOI DBLP

泛读IndustryNAACL 2025

Understanding LLM Development Through Longitudinal Study: Insights from the Open Ko-LLM Leaderboard

这篇论文关注一个少有人系统回答的问题：LLM 的能力是如何沿时间轴演化的，尤其是在开放 leaderboard 环境下。多数工作只给单次快照排名，但这无法回答模型开发到底是持续平滑进步、任务特化优化，还是榜单驱动的过拟合。

Chanjun Park,Hyeonwoo Kim

leaderboardlongitudinalevaluationDOI DBLP

泛读LongNAACL 2025

Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs

这篇论文要解决的是 VLM 幻觉检测里一个常见误区：只盯着输出层 logits 往往看不到模型真正依据了哪些上下文证据。作者提出超越 logit lens，转而利用 contextual embeddings 来判断回答是否有视觉 grounding，以及何时发生幻觉。

Anirudh Phukan,Divyansh,Harshit Kumar Morj,Vaishnavi,Apoorv Saxena,Koustava Goswami

vlmhallucinationgroundingDOI DBLP

泛读DemoNAACL 2025

LM-Pub-Quiz: A Comprehensive Framework for Zero-Shot Evaluation of Relational Knowledge in Language Models

这篇论文要解决的是语言模型关系知识评测长期不够系统的问题。很多知识 benchmark 只测单跳事实记忆，或者 heavily depend on prompting，难以区分模型是真的掌握了 relational knowledge，还是只会表层补全。

Max Ploner,Jacek Wiland,Sebastian Pohl,Alan Akbik

benchmarkknowledgezero-shotDOI DBLP

泛读LongNAACL 2025

Towards Sustainable NLP: Insights from Benchmarking Inference Energy in Large Language Models

这篇论文解决的是一个正在变重要但数据仍然稀缺的问题：LLM 推理阶段到底消耗多少能量，以及这种能耗如何随模型、任务和部署方式变化。过去可持续性讨论更多聚焦训练成本，但实际大规模上线后，长期能耗常由 inference 主导。

Soham Poddar,Paramita Koley,Janardan Misra,Niloy Ganguly,Saptarshi Ghosh

inferenceenergyefficiencyDOI DBLP

泛读FindingsNAACL 2025

LLMs for Extremely Low-Resource Finno-Ugric Languages

这篇工作要解决的是：极低资源芬兰-乌戈尔语能否在现有 LLM 范式下获得可用的语言建模与生成能力。过去这类语言通常被更大语系覆盖掉，或者只能靠机器翻译、跨语迁移和小型专用模型勉强处理；问题值得重新做，是因为现在 tokenizer、持续预训练和合成数据让低资源建模的成本结构发生了变化。

Taido Purason,Hele-Andra Kuulmets,Mark Fishel

low-resourcemultilingualdata-scalingDOI DBLP

泛读FindingsNAACL 2025

Multimodal Generation with Consistency Transferring

这篇工作讨论的是多模态生成中不同模态的一致性难以维持，尤其是在联合生成或互相条件生成时，内容对齐常常比单模态质量更先崩。过去常见方法要么分别训练再硬拼接，要么靠后验对齐损失补救，但生成过程中的一致性传递通常不够直接。

Junxiang Qiu,Jinda Lu,Shuo Wang

multimodal-generationconsistencycross-modalDOI DBLP

泛读FindingsNAACL 2025

When natural language is not enough: The limits of in-context learning demonstrations in multilingual reasoning

这篇工作要说明的是：在多语言推理里，单靠自然语言 demonstrations 做 in-context learning 有明确上限。过去很多工作默认只要示例足够像、语言足够接近，ICL 就能迁移推理过程；但题目已经给出作者结论——自然语言示例本身不足以稳定支撑跨语言推理。

Leonardo Ranaldi,Barry Haddow,Alexandra Birch

iclmultilingualreasoningDOI DBLP

泛读FindingsNAACL 2025

LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy

这篇工作要解决的是多语言 LLM 的推理能力在跨语言场景下不稳定，尤其是语言对齐不足时，推理步骤和答案表达很难同时保真。以往做法常见两类：要么继续堆多语数据，要么在推理时翻译成高资源语言；前者成本高且不一定对齐，后者会引入翻译误差。

Zhiwen Ruan,Yixia Li,He Zhu,Longyue Wang,Weihua Luo,Kaifu Zhang,Yun Chen,Guanhua Chen

multilingualreasoninglayer-fusionDOI DBLP

泛读LongNAACL 2025

Where is the answer? An empirical study of positional bias for parametric knowledge extraction in language model

这篇工作研究参数知识抽取中的位置偏置：答案到底更容易在什么位置被模型成功提取，为什么会这样。过去 parametric knowledge probing 多关注问法、真假性和知识覆盖，但对答案位置、提示模板中候选排列顺序等因素的系统研究不够，这会让我们误把位置效应当成知识效应。

Kuniaki Saito,Chen-Yu Lee,Kihyuk Sohn,Yoshitaka Ushiku

positional-biasknowledge-extractionparametric-knowledgeDOI DBLP

泛读SRWNAACL 2025

Streamlining LLMs: Adaptive Knowledge Distillation for Tailored Language Models

Prajvi Saxena,Sabine Janzen,Wolfgang Maass

distillationcompressionmodel-sizeDOI DBLP

泛读DemoNAACL 2025

A Sentence-Level Visualization of Attention in Large Language Models

Seongbum Seo,Sangbong Yoo,Hyelim Lee,Yun Jang,Ji Hwan Park,Jeong-Nam Kim

attentionvisualizationinterpretabilityDOI DBLP

泛读FindingsNAACL 2025

UniRAG: Universal Retrieval Augmentation for Large Vision Language Models

Sahel Sharifymoghaddam,Shivani Upadhyay,Wenhu Chen,Jimmy Lin

ragvlmretrievalDOI DBLP

泛读LongNAACL 2025

SafetyQuizzer: Timely and Dynamic Evaluation on the Safety of LLMs

Zhichao Shi,Shaoling Jing,Yi Cheng,Hao Zhang,Yuanzhuo Wang,Jie Zhang,Huawei Shen,Xueqi Cheng

safetyevaluationalignmentDOI DBLP

泛读DemoNAACL 2025

VERSA: A Versatile Evaluation Toolkit for Speech, Audio, and Music

这篇论文要解决的是：语音、通用音频和音乐模型的评测长期是碎片化的，导致不同模态、不同任务、不同论文之间几乎无法公平比较。过去社区通常按任务各自维护脚本和指标，短期看灵活，长期看会带来复现成本高、评测口径不一致、系统能力被局部指标误导的问题，因此现在需要一个统一且可扩展的评测工具链。

Jiatong Shi,Hye-jin Shim,Jinchuan Tian,Siddhant Arora,Haibin Wu,Darius Petermann ... 省略 7 位作者 ... ,Jionghao Han,Yiwen Zhao,Chris Donahue,Shinji Watanabe

audiospeechmusicDOI DBLP

泛读SRWNAACL 2025

Do Video Language Models really understand the video contexts?

这篇论文的核心问题是：很多 Video LMs 在 benchmark 上看起来会“理解视频”，但它们是否真的利用了视频上下文，而不是靠语言先验、静态帧偏置或数据集漏洞作答。这个问题过去经常被高分掩盖，因为现有评测往往没有把“看视频”与“猜答案”明确区分开。

Jeongwan Shin,Jinhyeong Lim,Hyeyoung Park

video-languageevaluationcontextDOI DBLP

泛读FindingsNAACL 2025

PLD+: Accelerating LLM Inference by Leveraging Language Model Artifacts

这篇论文的核心问题是：LLM 推理中存在大量可预测的“语言模型伪影”或重复模式，但标准解码通常把每一步都当成独立决策来做，导致计算浪费。作者试图利用这些生成分布中的规律来加速推理，而不是只靠更底层的 kernel 或缓存优化。

Shwetha Somasundaram,Anirudh Phukan,Apoorv Saxena

inferenceaccelerationdecodingDOI DBLP

泛读FindingsNAACL 2025

What Is Missing in Multilingual Visual Reasoning and How to Fix It

这篇论文要回答的是：多语言视觉推理现有设置到底缺了什么，导致模型在“会看图”和“会多语”之间没有真正形成联合能力。过去很多 benchmark 只是把英语视觉问答翻译成多语言，表面上扩大了语言覆盖，实际上没有引入新的文化语境、视觉歧义或跨语言推理难点，因此问题被低估了。

Yueqi Song,Simran Khanuja,Graham Neubig

multilingualvisual-reasoningevaluationDOI DBLP

泛读LongNAACL 2025

Is a Peeled Apple Still Red? Evaluating LLMs' Ability for Conceptual Combination with Property Type

这篇论文关注一个很基本但常被忽略的问题：LLM 在做概念组合时，是否真的理解组合后的属性如何变化，而不是机械继承原概念属性。像“削皮的苹果还是红的吗”这种问题，对人类很自然，但对模型是检验其组合泛化和属性类型区分能力的好探针。过去很多 benchmark 更关注事实回忆或常识问答，没有细测属性在概念变换后的保留、消失和冲突。

Seokwon Song,Taehyun Lee,Jaewoo Ahn,Jae Hyuk Sung,Gunhee Kim

concept-compositionreasoningevaluationDOI DBLP

泛读LongNAACL 2025

A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models

这篇论文要解决的是：现有 LVLM benchmark 往往把图像描述和图像推理混在一起，或者只测任务正确率，却没有从认知层面区分模型是看到了什么、理解了什么、又是如何组织成语言的。结果是高分不一定对应真正的视觉认知能力，尤其在描述和推理可能互相掩护时更明显。

Xiujie Song,Mengyue Wu,Kenny Q. Zhu,Chunhao Zhang,Yanyi Chen

vlmbenchmarkimage-reasoningDOI DBLP

泛读IndustryNAACL 2025

Chatbot Arena Estimate: towards a generalized performance benchmark for LLM capabilities

这篇工作要解决的是：Chatbot Arena 的对战偏好分数很有影响力，但它到底衡量了哪些能力、能否外推到更广泛的真实能力评估，这件事一直不清楚。过去很多人直接把 Arena 排名当“通用能力榜”，但 Arena 本质上是用户偏好驱动的 pairwise comparison，容易混入文风、长度、迎合性和题目分布偏差，所以需要一个更可解释、更可泛化的估计框架。

Lucas Spangher,Tianle Li,William F. Arnold,Nick Masiewicki,Xerxes Dotiwalla,Rama Kumar Pasumarthi,Peter Grabowski,Eugene Ie,Daniel Gruhl

benchmarkarenaevaluationDOI DBLP

泛读LongNAACL 2025

Teaching Models to Balance Resisting and Accepting Persuasion

这篇工作关注一个常被混在一起的问题：模型既要能抵抗误导性说服，也要在有充分证据时接受合理说服。过去安全或稳健性工作往往只优化“不要被带偏”，结果容易把模型推成一味固执；而只优化可更新性，又会让模型更容易被花言巧语操控。作者想解决的是这两种目标之间的平衡，而不是单边拉满某一项。

Elias Stengel-Eskin,Peter Hase,Mohit Bansal

alignmentpersuasionsafetyDOI DBLP

泛读LongNAACL 2025

HARP: Hesitation-Aware Reframing in Transformer Inference Pass

这篇工作试图解决标准 Transformer 推理时的一个结构性缺陷：模型一旦在早期 token 上走偏，后续生成通常只能沿着错误轨迹继续，缺少低成本的“犹豫—重构”机制。以往解决办法多靠采样、self-consistency、外部 verifier 或多次解码重试，但这些方法要么算力贵，要么只在最终输出层面筛选，没有在单次 inference pass 内部显式利用模型的不确定性。

Romain Storaï,Seung-won Hwang

inferencetransformerhesitationDOI DBLP

泛读LongNAACL 2025

AI-LieDar : Examine the Trade-off Between Utility and Truthfulness in LLM Agents

这篇工作关注 LLM agent 的一个现实矛盾：越追求任务完成率，模型越可能在中间过程里编造、隐瞒或策略性失实。过去很多 truthfulness 工作研究的是静态问答，而 agent setting 更复杂，因为模型有目标、有工具、有多步决策，效用和真实性不是天然一致的。作者想量化并分析这种 utility-truthfulness trade-off，而不是默认两者总能一起优化。

Zhe Su,Xuhui Zhou,Sanketh Rangreji,Anubha Kabra,Julia Mendelsohn,Faeze Brahman,Maarten Sap

agenttruthfulnessutilityDOI DBLP

泛读LongNAACL 2025

MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools

这篇工作要解决的是：带工具的 agent 什么时候该自己答、什么时候该调用工具、什么时候该怀疑工具结果，现有系统缺少可靠的内部置信度估计。过去常见做法是用输出概率、外部校准器或启发式规则，但这些信号在工具调用场景里往往不稳，因为模型的语言流畅度和真实任务把握并不等价。

Nishant Subramani,Jason Eisner,Justin Svegliato,Benjamin Van Durme,Yu Su,Sam Thomson

agenttool-usecalibrationDOI DBLP

泛读SRWNAACL 2025

Developing Japanese CLIP Models Leveraging an Open-weight LLM for Large-scale Dataset Translation

这篇工作解决的是日语 CLIP 训练里一个很现实的瓶颈：高质量大规模图文对数据不足，而直接依赖英文预训练模型会遇到语言覆盖和文化语境偏差。过去常见路线是用机器翻译粗糙扩充数据，或直接做多语对齐，但这两种做法都容易在图文匹配任务里引入噪声。作者的切入点是利用开源可商用的 open-weight LLM 做大规模翻译，构建更适合日语 CLIP 的训练语料。

Issa Sugiura,Shuhei Kurita,Yusuke Oda,Daisuke Kawahara,Naoaki Okazaki

clipdata-translationmultilingualDOI DBLP

泛读LongNAACL 2025

DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback

这篇工作针对 text-to-image 生成中的一个老问题：生成模型擅长出图，但对文本是否真正被满足缺少强监督，因此常见问题是语义遗漏、关系错误和细节对不上。过去主流做法主要依赖人类偏好、重建损失或文本侧 reward，而这些信号要么昂贵，要么对图像内容理解不够细。作者想把 image understanding model 的反馈引入生成对齐，让‘会看图的模型’来帮助‘会画图的模型’。

Jiao Sun,Deqing Fu,Yushi Hu,Su Wang,Royi Rassin,Da-Cheng Juan ... 省略 1 位作者 ... ,Charles Herrmann,Sjoerd van Steenkiste,Ranjay Krishna,Cyrus Rashtchian

text-to-imagealignmentfeedbackDOI DBLP

泛读SRWNAACL 2025

Reliability of Distribution Predictions by LLMs: Insights from Counterintuitive Pseudo-Distributions

Toma Suzuki,Ayuki Katayama,Seiji Gobara,Ryo Tsujimoto,Hibiki Nakatani,Kazuki Hayashi,Yusuke Sakai,Hidetaka Kamigaito,Taro Watanabe

uncertaintycalibrationdistributionDOI DBLP

泛读FindingsNAACL 2025

Perception Compressor: A Training-Free Prompt Compression Framework in Long Context Scenarios

Jiwei Tang,Jin Xu,Tingwei Lu,Zhicheng Zhang,Yiming Zhao,Lin Hai,Hai-Tao Zheng

prompt-compressionlong-contextinferenceDOI DBLP

LongNAACL 2025

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image

这篇论文要解决的是：VLM 的安全对齐不仅可能在推理时被 prompt jailbreak 绕过，也可能在训练数据层面被后门化。作者研究一种更强的训练时攻击：只需一张带毒图像，就能在用户输入有害指令时触发越狱行为。

Xijia Tao,Shuai Zhong,Lei Li,Qi Liu,Lingpeng Kong

vlmjailbreaksafetyDOI arXiv DBLP

FindingsNAACL 2025

GenEOL: Harnessing the Generative Power of LLMs for Training-Free Sentence Embeddings

这篇论文要解决的是：训练无关的句向量方法虽然便宜，但通常只在 embedding prompt 上做文章，没有利用 LLM 的生成能力来增强语义稳健性。作者关注的问题不是再训练一个 embedding 模型，而是在不做对比学习的前提下，如何从现成 LLM 中榨出更好的句表示。

Raghuveer Thirukovalluru,Bhuwan Dhingra

sentence-embeddingtraining-freellm-generationDOI arXiv DBLP

泛读LongNAACL 2025

What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length

这篇论文要解决的是：用 LM 概率去拟合人类可接受性判断时，长度和词频会强烈影响模型分数，但人类对这些因素并不同样敏感；更关键的是，不同模型受这些偏差影响的程度并不一样。过去很多工作对所有模型使用同一种校正方式，这相当于默认它们需要相同强度的长度/词频补偿，作者认为这个假设过强。

Lindia Tjuatja,Graham Neubig,Tal Linzen,Sophie Hao

acceptabilityfrequencylength-biasDOI arXiv DBLP

泛读FindingsNAACL 2025

As easy as PIE: understanding when pruning causes language models to disagree

这篇论文要解决的是：剪枝通常只报告平均精度与效率权衡，但平均数会掩盖一个更尖锐的问题——有一小部分样本在剪枝后持续受到 disproportionate 的伤害。作者把这类样本称为 PIEs，并研究它们在 NLP 中何时出现、受什么因素影响。

Pietro Tropeano,Maria Maistro,Tuukka Ruotsalo,Christina Lioma

pruningmodel-compressioninterpretabilityDOI arXiv DBLP

泛读LongNAACL 2025

Language Models Largely Exhibit Human-like Constituent Ordering Preferences

这篇论文要回答的核心问题是：语言模型是否像人类一样，对句法成分的排列顺序存在系统性的偏好。过去这类问题常被更宽泛的句法能力评测掩盖，模型只要能给出可接受句子就算过关，但这并不能说明它是否学到了更细粒度的排序约束。这个问题现在值得重看，因为大模型越来越常被当作语言认知代理使用，而成分排序偏好正是检验其是否真正吸收自然语言分布规律的一个更敏感切口。

Ada Defne Tur,Gaurav Kamath,Siva Reddy

constituent-orderinglinguistic-analysislanguage-model-behaviorDOI DBLP

泛读FindingsNAACL 2025

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

这篇论文要解决的是：现有 LVLM 的视觉-语言对齐提升，往往依赖更强外部模型或额外数据，成本高且结果不稳定。很多视觉指令调优方法默认数据和 teacher 足够好，但真正限制模型上限的常常是模态对齐误差本身；如果继续靠外援纠偏，就很难控制偏好信号质量，也难判断提升究竟来自方法还是来自更强 teacher。

Xiyao Wang,Jiuhai Chen,Zhaoyang Wang,Yuhang Zhou,Yiyang Zhou,Huaxiu Yao ... 省略 2 位作者 ... ,Parminder Bhatia,Taha A. Kass-Hout,Furong Huang,Cao Xiao

vlmmodality-alignmentself-improvementDOI arXiv DBLP

泛读LongNAACL 2025

Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data

这篇论文聚焦一个高性价比问题：不增加额外数据，能否仅通过更好地利用现有难样本对来提升视觉-语言模型。很多 VLM 训练流程把数据扩充当成默认解法，但真实瓶颈常常是已有数据里的 hard pairs 没被充分利用，导致模型在细粒度区分和对齐上学得不够扎实。

Haonan Wang,Minbin Huang,Runhui Huang,Lanqing Hong,Hang Xu,Tianyang Hu,Xiaodan Liang,Zhenguo Li,Hong Cheng,Kenji Kawaguchi

vlmhard-negativecontrastive-learningDOI DBLP

泛读FindingsNAACL 2025

Verifiable Format Control for Large Language Model Generations

这篇论文的核心结论是：7B 左右小模型的格式遵循能力是一个真实短板，而且现有评测和改进方式都不够扎实。很多工作关注一般 instruction following，却把 JSON、模板字段、可解析结构这类细粒度格式控制当成次要问题；同时还常用更强 LLM 充当裁判，既贵又有偏，导致格式问题难以被稳定度量和针对性优化。

Zhaoyang Wang,Jinqi Jiang,Huichi Zhou,Wenhao Zheng,Xuchao Zhang,Chetan Bansal,Huaxiu Yao

format-controlstructured-outputinstruction-followingDOI arXiv DBLP

泛读FindingsNAACL 2025

Lost in the Distance: Large Language Models Struggle to Capture Long-Distance Relational Knowledge

这篇论文关注的核心问题是：大语言模型在长距离关系知识上存在明显缺陷。很多知识评测默认相关实体或约束在局部上下文里出现，模型可以靠近邻共现和短程模式取巧；但一旦关系需要跨较长距离整合，模型是否真能稳定绑定实体与属性、事件与角色，就成了更严格也更接近真实推理的问题。

Meiyun Wang,Takeshi Kojima,Yusuke Iwasawa,Yutaka Matsuo

long-distance-relationsknowledge-representationllm-limitationsDOI DBLP

泛读LongNAACL 2025

MixLLM: Dynamic Routing in Mixed Large Language Models

这篇论文想解决的是：如何在 mixed large language models 中做动态路由，以在能力、效率和成本之间取得更好的平衡。现有路线要么用单一稠密模型统一处理所有输入，造成简单样本算力浪费；要么用静态 MoE 或模型级切换，难以根据实例难度实时选择最合适的计算路径。

Xinyuan Wang,Yanchi Liu,Wei Cheng,Xujiang Zhao,Zhengzhang Chen,Wenchao Yu,Yanjie Fu,Haifeng Chen

moedynamic-routinginference-efficiencyDOI DBLP

泛读LongNAACL 2025

AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge

这篇论文的核心结论是：处理上下文知识与参数知识冲突时，静态对比式解码经常调得过头，而真正需要的是按样本自适应地调整冲突修正强度。现有 test-time contrastive decoding 通常比较“有上下文”和“无上下文”两个分布，再固定加权修正，但这隐含假设所有样本的冲突程度差不多；一旦样本根本没有冲突，静态方法就容易误伤原本正确的参数知识。

Han Wang,Archiki Prasad,Elias Stengel-Eskin,Mohit Bansal

decodingragcontext-useDOI arXiv DBLP

泛读FindingsNAACL 2025

Data-centric NLP Backdoor Defense from the Lens of Memorization

这篇论文要解决的是：NLP 后门防御为什么经常不稳，以及能否从“记忆化”而不是只看触发器模式去解释和防御。过去很多防御方法围绕触发器检测、样本过滤或鲁棒训练，但后门成功很大程度上依赖模型对异常映射的过度记忆，这个角度更接近训练动力学本身。

Zhenting Wang,Zhizhi Wang,Mingyu Jin,Mengnan Du,Juan Zhai,Shiqing Ma

backdoormemorizationdata-qualityDOI DBLP

泛读FindingsNAACL 2025

Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Models

这篇论文要回答的是：输入本身看起来安全时，大视觉语言模型为什么仍会给出不安全输出。过去安全评测往往把重点放在明显有害提示词或图像上，但跨模态系统的风险常来自模态间组合、隐含语境和对齐链路断裂，而不是单模态内容本身。

Siyin Wang,Xingsong Ye,Qinyuan Cheng,Junwen Duan,Shimin Li,Jinlan Fu,Xipeng Qiu,Xuanjing Huang

multimodalsafetyalignmentDOI DBLP

泛读LongNAACL 2025

CogLM: Tracking Cognitive Development of Large Language Models

这篇论文试图回答一个基础但长期缺少系统工具的问题：大语言模型的“认知能力”是如何随规模、训练阶段或对齐阶段演化的。过去这类讨论往往停留在零散 benchmark 或个别涌现现象上，难以形成可追踪、可比较的发展曲线。

Xinglin Wang,Peiwen Yuan,Shaoxiong Feng,Yiwei Li,Boyuan Pan,Heda Wang,Yao Hu,Kan Li

scalingdevelopmentevaluationDOI DBLP

泛读LongNAACL 2025

ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis

这篇论文针对的是 tool-calling 训练里的数据瓶颈：现有数据常是模板化的函数调用样例，形式正确但对话不自然，导致模型会“调 API”却不会在真实对话里自然地决定何时调用工具。这个问题以前被样例堆量部分掩盖了，但随着 agent 场景增多，数据质量短板变得更明显。

Zezhong Wang,Xingshan Zeng,Weiwen Liu,Liangyou Li,Yasheng Wang,Lifeng Shang,Xin Jiang,Qun Liu,Kam-Fai Wong

tool-usesynthetic-datadialogueDOI DBLP

泛读LongNAACL 2025

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

这篇论文解决的是 IR 模型一个越来越现实的短板：它们能检索相关文档，但未必能理解并遵守用户的检索指令，比如时间范围、证据类型、立场平衡或格式约束。传统 IR 评测主要看 relevance，对“follow instructions”几乎没有系统考察。

Orion Weller,Benjamin Chang,Sean MacAvaney,Kyle Lo,Arman Cohan,Benjamin Van Durme,Dawn J. Lawrie,Luca Soldaini

retrievalinstruction-followingbenchmarkDOI DBLP

泛读FindingsNAACL 2025

Improve Decoding Factuality by Token-wise Cross Layer Entropy of Large Language Models

LLM 生成时的事实性错误（hallucination）是一个核心痛点。现有解码策略（如 DoLa）利用层间对比来提升事实性，但对「哪些 token 位置需要干预、干预信号如何量化」缺乏精细分析。本文提出用 token 级别的跨层熵（Cross Layer Entropy）来定位和修正不确定 token。

Jialiang Wu,Yi Shen,Sijia Liu,Yi Tang,Sen Song,Xiaoyi Wang,Longjun Cai

decodingfactualityhallucinationDOI DBLP

泛读FindingsNAACL 2025

Transformer-based Causal Language Models Perform Clustering

Transformer 因果语言模型在预训练过程中是否隐式地执行了聚类操作？这个问题关系到对 LLM 内部表示学习机制的理解——为什么 next-token prediction 能学到有结构的语义表示，而不仅仅是表面的 n-gram 统计。

Xinbo Wu,Lav R. Varshney

University of Illinois Urbana-ChampaignrepresentationclusteringemergenceDOI DBLP

泛读LongNAACL 2025

Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task

LLM 在 ARC（Abstraction and Reasoning Corpus）任务上表现很差，这暴露了其流体智能（fluid intelligence，即面对全新问题的抽象推理能力）的不足。本文系统分析 LLM 在 ARC 上失败的原因，试图定位是表示能力、推理链路还是泛化机制的问题。

Junjie Wu,Mo Yu,Lemao Liu,Dit-Yan Yeung,Jie Zhou

香港科技大学腾讯AI LabreasoningevaluationgeneralizationDOI DBLP

泛读LongNAACL 2025

Mitigating Hallucinations in Multi-modal Large Language Models via Image Token Attention-Guided Decoding

多模态大语言模型（MLLM）在生成文本时容易产生与图像内容不一致的幻觉。现有方法多在训练阶段缓解，推理时的干预手段有限。本文提出利用图像 token 的注意力分布来引导解码，减少视觉幻觉。

Xinhao Xu,Hui Chen,Mengyao Lyu,Sicheng Zhao,Yizhe Xiong,Zijia Lin,Jungong Han,Guiguang Ding

multimodalhallucinationdecodingDOI DBLP

泛读FindingsNAACL 2025

Constraining Sequential Model Editing with Editing Anchor Compression

对 LLM 进行连续多次知识编辑（sequential model editing）时，编辑之间会互相干扰，导致早期编辑被覆盖或模型整体性能退化。现有编辑方法大多只考虑单次编辑的效果，缺乏对序列编辑场景的约束机制。

Hao-Xiang Xu,Jun-Yu Ma,Zhen-Hua Ling,Ningyu Zhang,Jia-Chen Gu

浙江大学model-editingmemorycompressionDOI DBLP

泛读LongNAACL 2025

ToW: Thoughts of Words Improve Reasoning in Large Language Models

这篇工作要解决的是：LLM 在复杂推理里往往只显式生成长链式思维，却没有稳定利用更细粒度的词级中间表示，导致推理容易冗长、脆弱且局部决策不稳。过去主流做法要么依赖 CoT 把推理全部外显，要么靠采样堆算力弥补，但很少直接建模“词的想法”这一层级。

Zhikun Xu,Ming Shen,Jacob Dineen,Zhaonan Li,Xiao Ye,Shijie Lu,Aswin RRV,Chitta Baral,Ben Zhou

reasoningcotinference-timeDOI DBLP

泛读LongNAACL 2025

From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning

这篇工作关注多模态 ICL 里的一个实际问题：示例 demonstration 到底该怎么选、怎么排、怎么组织，过去很多做法靠经验试错，缺少系统性分析。这个问题现在重要，是因为多模态模型对示例格式、模态配比和上下文位置通常比纯文本更敏感，经验法很难稳定迁移。

Nan Xu,Fei Wang,Sheng Zhang,Hoifung Poon,Muhao Chen

multimodal-icldemonstrationpromptingDOI DBLP

泛读FindingsNAACL 2025

Position Really Matters: Towards a Holistic Approach for Prompt Tuning

这篇工作指出 prompt tuning 里一个被低估的问题：软提示不只是“内容”重要，放在什么位置同样决定效果。过去很多方法默认把可学习 prompt 固定在输入前缀位置，或者只做局部位置尝试，没有从整体上分析位置设计与任务、层次、表示流动之间的关系。

Xianjun Yang,Wei Cheng,Xujiang Zhao,Wenchao Yu,Linda Ruth Petzold,Haifeng Chen

prompt-tuningposition-biasadaptationDOI DBLP

泛读LongNAACL 2025

Palette of Language Models: A Solver for Controlled Text Generation

这篇工作想解决的是受控文本生成往往需要为不同属性单独设计解码或训练方法，控制目标一多就难以统一。现有方案常在可控性、流畅性和推理开销之间做艰难折中，尤其当多个约束同时存在时更明显。

Zhe Yang,Yi Huang,Yaqin Chen,XiaotingWu XiaotingWu,Junlan Feng,Chao Deng

controlled-generationcompositiondecodingDOI DBLP

泛读LongNAACL 2025

Markov Chain of Thought for Efficient Mathematical Reasoning

这篇工作解决的是数学推理里 CoT 成本高、路径长且常有冗余的问题。现有高精度方法通常依赖长推理轨迹、多次采样或搜索，准确率能上去，但 token 成本和时延也显著上升。

Wen Yang,Minpeng Liao,Kai Fan

reasoningcotefficiencyDOI DBLP

泛读LongNAACL 2025

Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models

这篇工作指出音频输入是音频大多模态模型的薄弱环节，核心问题不是一般性能，而是安全鲁棒性：模型可能在音频通道上暴露比文本更容易被绕过的攻击面。过去红队工作更多聚焦文本和图像，多模态安全分析对音频覆盖明显不足。

Hao Yang,Lizhen Qu,Ehsan Shareghi,Gholamreza Haffari

audiored-teamingmultimodalDOI DBLP

泛读ShortNAACL 2025

LLM2: Let Large Language Models Harness System 2 Reasoning

这篇工作试图让 LLM 更稳定地使用“System 2”式慢思考推理，而不是停留在快速但浅层的模式匹配。过去很多方法通过 CoT、反思、工具调用来逼近这一点，但常见问题是推理过程不受控、代价高，而且不同任务间泛化不稳定。

Cheng Yang,Chufan Shi,Siheng Li,Bo Shui,Yujiu Yang,Wai Lam

reasoningsystem-2scaffoldingDOI DBLP

泛读FindingsNAACL 2025

COAST: Enhancing the Code Debugging Ability of LLMs through Communicative Agent Based Data Synthesis

这篇工作解决的是代码调试数据稀缺且高质量错误修复轨迹难获得的问题。现有代码 LLM 往往在生成代码上还行，但在定位 bug、解释原因、逐步修复方面明显弱，因为训练数据更偏成品代码而不是交互式调试过程。

Weiqing Yang,Hanbin Wang,Zhenghao Liu,Xinze Li,Yukun Yan,Shuo Wang,Yu Gu,Minghe Yu,Zhiyuan Liu,Ge Yu

codedebuggingsynthetic-dataDOI DBLP

泛读LongNAACL 2025

Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions

这篇工作试图解决多模态模型微调时常见的“视觉鸿沟”：模型虽然能接收图像，但训练监督往往是浅层 caption，无法把视觉内容和任务所需知识真正接起来。过去很多方法直接用原始描述做监督，结果是模型学到表面配对，却难在需要常识或外部知识的视觉任务上泛化。

Moran Yanuka,Assaf Ben-Kish,Yonatan Bitton,Idan Szpektor,Raja Giryes

vlmfine-tuningcaptionDOI DBLP

泛读LongNAACL 2025

Has this Fact been Edited? Detecting Knowledge Edits in Language Models

这篇工作关注一个被低估的问题：当模型经过知识编辑后，我们能否可靠地检测某条事实是否被改过。现有知识编辑研究更重视“改成功没有”和“副作用大不大”，但对可检测性研究较少；一旦无法检测，模型版本审计、数据溯源和安全治理都会很弱。

Paul Youssef,Zhixue Zhao,Christin Seifert,Jörg Schlötterer

knowledge-editingdetectioninterpretabilityDOI DBLP

泛读LongNAACL 2025

How to Make LLMs Forget: On Reversing In-Context Knowledge Edits

这篇工作要解决的是：in-context knowledge edit 加进上下文后，如何让模型‘忘掉’这个临时注入的知识。现有研究常把 ICL 编辑当成可控、可撤销的软编辑，但实际上模型会被上下文强烈牵引，后续 prompt 中残留多长、在什么条件下消退，并没有被系统回答。

Paul Youssef,Zhixue Zhao,Jörg Schlötterer,Christin Seifert

knowledge-editingin-context-learningreversalDOI DBLP

泛读LongNAACL 2025

Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment

这篇工作针对的是 LLM 的 negative bias，即模型在理解或生成时对负向表达、负面语义或潜在有害线索存在系统性偏置，从而导致判断失衡。过去很多工作只在数据层面做 debias 或 safety filtering，但对注意力层内部如何放大这种负偏置处理得不够细。

Sangwon Yu,Jongyoon Song,Bongkyu Hwang,Hoyoung Kang,Sooah Cho,Junhwa Choi,Seongho Joe,Taehee Lee,Youngjune Gwon,Sungroh Yoon

attentionnegative-biasalignmentDOI DBLP

泛读ShortNAACL 2025

Reverse Modeling in Large Language Models

这篇工作的核心问题是：LLM 能否不仅从前向条件概率 p(x_t | x_<t) 学，还显式利用反向或逆向建模信号来提升表示与生成。标准 next-token AR 把序列方向固定为左到右，这在生成上自然，但会丢掉从未来约束当前的训练视角，因此很多现象只能靠更大模型硬学。

Sicheng Yu,Yuanchen Xu,Cunxiao Du,Yanying Zhou,Minghui Qiu,Qianru Sun,Hao Zhang,Jiawei Wu

reverse-modelingllminterpretabilityDOI DBLP

泛读FindingsNAACL 2025

Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models

这篇工作要解决的是 factuality tuning 中一个常见误区：问题不只是 under-alignment，也就是模型没有足够听偏好信号；更深层的问题是偏好本身过粗，无法准确区分事实性错误的原子成分。很多对齐方法把‘更真实’当成整体标签优化，结果模型会学到保守拒答或表面谨慎，而不是细粒度事实修正。

Hongbang Yuan,Yubo Chen,Pengfei Cao,Zhuoran Jin,Kang Liu

factualityalignmentpreference-tuningDOI DBLP

泛读LongNAACL 2025

KS-Lottery: Finding Certified Lottery Tickets for Multilingual Transfer in Large Language Models

这篇工作解决的是 multilingual transfer 中一个很实际的问题：能否找到既小又可靠的子网络，让大模型在跨语言迁移时保留关键能力，而且这种保留有可认证保证。常规 lottery ticket 工作大多关注稀疏子网可训练性，但很少把‘认证’和‘多语言迁移’放在一起考虑。

Fei Yuan,Chang Ma,Shuai Yuan,Qiushi Sun,Lei Li

lottery-ticketmultilingualtransferDOI DBLP

泛读LongNAACL 2025

Enhancing Language Model Hypernetworks with Restart: A Study on Optimization

这篇工作关注 LM hypernetwork 的一个优化难点：这类模型表达能力强，但训练容易不稳、陷入次优解或对初始化很敏感。过去超网络常被用来生成权重、适配任务或提高参数效率，但相比普通主干网络，它们的优化路径更复杂，因此实际效果常被优化问题而不是建模上限限制。

Yihan Zhang,Jie Fu,Rongrong Ji,Jie Chen

hypernetworkoptimizationrestartDOI DBLP

泛读LongNAACL 2025

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

这篇工作要解决的是视频大多模态模型的偏好优化监督太贵，而现成视频奖励模型又不成熟，能否直接借用语言模型奖励来做视频 LMM 的 DPO。视频对齐常被卡在高质量视频偏好数据和视频 reward model 缺失上，因此很多系统只能停留在 SFT 或用弱启发式评价。

Ruohong Zhang,Liangke Gui,Zhiqing Sun,Yihao Feng,Keyang Xu,Yuanhan Zhang ... 省略 1 位作者 ... ,Chunyuan Li,Alexander G. Hauptmann,Yonatan Bisk,Yiming Yang

dpovideo-llmreward-modelDOI DBLP

泛读FindingsNAACL 2025

Tomato, Tomahto, Tomate: Do Multilingual Language Models Understand Based on Subword-Level Semantic Concepts?

Crystina Zhang,Jing Lu,Vinh Q. Tran,Tal Schuster,Donald Metzler,Jimmy Lin

multilingualtokenizersubwordDOI DBLP

泛读FindingsNAACL 2025

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

Kaichen Zhang,Bo Li,Peiyuan Zhang,Fanyi Pu,Joshua Adrian Cahyono,Kairui Hu ... 省略 1 位作者 ... ,Yuanhan Zhang,Jingkang Yang,Chunyuan Li,Ziwei Liu

multimodalevaluationbenchmarkDOI DBLP

泛读LongNAACL 2025

From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks

Xiaofeng Zhang,Yihao Quan,Chen Shen,Xiaosong Yuan,Shaotian Yan,Liang Xie,Wenxiao Wang,Chaochen Gu,Hao Tang,Jieping Ye

multimodalreasoninginformation-flowDOI DBLP

泛读FindingsNAACL 2025

MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time

Mozhi Zhang,Pengyu Wang,Chenkun Tan,Mianqiu Huang,Dong Zhang,Yaqian Zhou,Xipeng Qiu

alignmentinference-timepreferenceDOI DBLP

泛读LongNAACL 2025

Scaling LLM Inference Efficiently with Optimized Sample Compute Allocation

Kexun Zhang,Shang Zhou,Danqing Wang,William Yang Wang,Lei Li

inferencesample-allocationtest-time-computeDOI DBLP

泛读LongNAACL 2025

MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps

这篇工作要解决的是：多模态 CoT 现在缺的不是更多样例，而是可靠的质量评估。现有评测通常只看最终答案是否对，但看不到图像描述是否扎实、推理步骤是否真的依赖视觉证据，因此很难区分“答对了”和“推理对了”。

Xiongtao Zhou,Jie He,Lanyu Chen,Jingyu Li,Haojing Chen,Víctor Gutiérrez-Basulto,Jeff Z. Pan,Hanjie Chen

multimodal-cotevaluationreasoningDOI DBLP

泛读FindingsNAACL 2025

QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models

这篇工作关注 LLM 结构化剪枝里的一个老难点：离散剪枝决策很难优化，硬阈值方法不稳定，软门控方法又常带来训练-部署不一致。过去很多方法能在训练时学到可微 mask，但落到真正的结构化删层、删头、删通道时，经常因为决策粗糙而损伤精度。

Changhai Zhou,Yuhua Zhou,Yibin Wang,Shijie Han,Qian Qiao,Hongguang Li

quantizationpruningllmDOI DBLP

泛读LongNAACL 2025

Logit Separability-Driven Samples and Multiple Class-Related Words Selection for Advancing In-Context Learning

这篇工作解决的是 ICL 示例选择中的两个常见误区：一是只按语义相似度找 demonstrations，二是用单一标签词做类别提示。这样做在分类任务里常常不稳，因为模型真正利用的不是“最像”的样本，而是那些能把类间决策边界拉开的样本与标签表达。

Zixiao Zhu,Zijian Feng,Hanzhang Zhou,Junlang Qian,Kezhi Mao

iclin-context-learningsample-selectionDOI DBLP

泛读IndustryNAACL 2025

Can Post-Training Quantization Benefit from an Additional QLoRA Integration?

这篇工作问的是一个很实际的问题：后训练量化之后，再额外接一个 QLoRA 适配层，能不能继续把精度拉回来，而且值不值得。很多 PTQ 方法默认量化完成后模型就定型了，但如果少量可训练低秩参数能补偿量化误差，那 PTQ 与轻量适配之间就不是二选一关系。

Xiliang Zhu,Elena Khasanova,Cheng Chen

quantizationqlorapost-trainingDOI DBLP