EMNLP 2024

Conference on Empirical Methods in Natural Language Processing

会议官网

718/ 2460 相关论文

Track

方向

Tier

718 / 718 篇论文

精读EMNLP 2024

Birdie: Advancing State Space Language Modeling with Dynamic Mixtures of Training Objectives

这篇工作要解决的是状态空间语言模型在训练目标上过于单一的问题：如果只用标准 next-token objective，SSM 可能没有充分发挥其长程建模和高效序列处理优势。作者尝试通过动态混合训练目标，让模型在不同训练阶段学到不同类型的序列依赖。

Sam Blouir,Jimmy T. H. Smith,Antonios Anastasopoulos,Amarda Shehu

state-spaceobjectivepretrainingDOI DBLP

精读EMNLP 2024

Autoregressive Pre-Training on Pixels and Texts

当前多模态模型通常需要独立的视觉编码器（如 ViT），然后与语言模型对接。这篇工作探索直接在像素和文本上做自回归预训练，用统一的 AR 目标同时建模图像和文本，省去独立视觉编码器。

Yekun Chai,Qingyi Liu,Jingwu Xiao,Shuohuan Wang,Yu Sun,Hua Wu

BaidumultimodalautoregressivetokenizerDOI DBLP

精读IndustryEMNLP 2024

Scaling Parameter-Constrained Language Models with Quality Data

这篇论文的核心结论是：对参数受限语言模型，决定泛化效果的不只是训练 token 总量，而是“有效训练 token”总量，数据质量必须被显式写进 scaling law。传统 scaling law 更擅长回答“多大模型配多少数据算 compute-optimal”，但它把不同质量数据几乎等价地折算为 token，这会系统性高估低质量数据、低估高质量数据的价值。

Ernie Chang,Matteo Paltenghi,Yang Li,Pin-Jie Lin,Changsheng Zhao,Patrick Huber,Zechun Liu,Rastislav Rabatin,Yangyang Shi,Vikas Chandra

scaling-lawdata-qualitylanguage-modelingDOI arXiv DBLP

精读EMNLP 2024

Scaling Properties of Speech Language Models

这篇工作关注的核心问题是：语音语言模型是否也遵循类似文本 LLM 的 scaling 规律，以及规律在哪里失效。过去 speech LM 往往被当成特殊系统单独调参，缺少像文本预训练那样清晰的参数-数据-损失关系，所以模型该做多大、tokenizer 该多细、数据该扩到哪里都缺少定量依据。

Santiago Cuervo,Ricard Marxer

speech-lmscaling-lawaudio-tokenizerDOI DBLP

精读EMNLP 2024

CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models

这篇论文要解决的问题是：continual pre-training 时新旧数据该怎么混，尤其关键 mixture ratio 能否提前预测，而不是靠大规模网格搜索试出来。过去实践通常凭经验设定 replay 比例或做昂贵 sweep，但这个比例直接决定新知识吸收、旧能力保持和训练效率的平衡，代价很高也很不稳定。

Jiawei Gu,Zacc Yang,Chuanghao Ding,Rui Zhao,Fei Tan

continual-pretrainingscaling-lawdata-mixtureDOI DBLP

精读EMNLP 2024

Data, Data Everywhere: A Guide for Pretraining Dataset Construction

Jupinder Parmar,Shrimai Prabhumoye,Joseph Jennings,Bo Liu,Aastha Jhunjhunwala,Zhilin Wang,Mostofa Patwary,Mohammad Shoeybi,Bryan Catanzaro

pretraining-datadata-pipelinedata-qualityDOI DBLP

精读EMNLP 2024

Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models

Scaling law 研究主要集中在 dense transformer 上，MoE（Mixture of Experts）模型的 scaling 行为与 dense 模型有何异同，缺乏系统的对比分析。这对于在给定计算预算下选择 dense 还是 MoE 架构至关重要。

Siqi Wang,Zhengyu Chen,Bei Li,Keqing He,Min Zhang,Jingang Wang

scaling-lawmoedenseDOI DBLP

泛读EMNLP 2024

Breaking ReLU Barrier: Generalized MoEfication for Dense Pretrained Models

现有稠密预训练模型转MoE的方法仅支持带自然稀疏性的ReLU激活模型，无法适配大量使用其他激活函数的现代大模型，限制了MoE架构在存量模型推理降本中的落地。

Jaeseong Lee,Seung-won Hwang,Wonpyo Park,Mingi Ji

moedense-to-moearchitectureDOI DBLP

精读EMNLP 2024

LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-Training

从头训练大规模MoE模型存在数据需求量大、训练不稳定的问题，现有从稠密模型转换MoE的方案缺乏系统的专家构造和持续预训练策略探索。

Tong Zhu,Xiaoye Qu,Daize Dong,Jiacheng Ruan,Jingqi Tong,Conghui He,Yu Cheng

moecontinual-pretrainingdense-to-moeDOI arXiv DBLP

精读FindingsEMNLP 2024

Weak-to-Strong Reasoning

这篇论文要解决的是：在强模型已经超过弱监督者能力时，怎样用弱模型的推理监督继续把强模型训好，而不是把弱模型的错误也一起放大。过去 weak-to-strong learning 多在分类或较简单任务上讨论，复杂推理场景更难，因为监督不只是标签而是一整条 reasoning chain，直接模仿弱监督会把系统性错误、捷径和脆弱的中间步骤一起蒸馏进去。

Yuqing Yang,Yan Ma,Pengfei Liu

weak-to-strongreasoningsupervisionDOI arXiv DBLP

精读EMNLP 2024

Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models

这篇工作要解决的是多语言建模中的“multilinguality curse”：语言越多，固定参数预算下单语言性能越容易被稀释，尤其低资源语言和高资源语言会彼此竞争。过去常见做法是共享一个大 backbone 再靠数据配比补救，但这种方案在容量受限时并不理想。

Terra Blevins,Tomasz Limisiewicz,Suchin Gururangan,Margaret Li,Hila Gonen,Noah A. Smith,Luke Zettlemoyer

multilingualmoescaling-lawDOI DBLP

精读FindingsEMNLP 2024

Tokenization Falling Short: On Subword Robustness in Large Language Models

LLM 对同一个词的不同 tokenization 结果（如大小写变化、拼写变体、添加空格等导致的不同 subword 切分）表现出不一致的行为，即 subword 鲁棒性问题。这篇工作系统研究了这种脆弱性的程度和原因。

Yekun Chai,Yewei Fang,Qiwei Peng,Xuhong Li

tokenizerrobustnesssubwordDOI DBLP

精读EMNLP 2024

On Training Data Influence of GPT Models

GPT 类模型的训练数据对最终模型行为有多大影响？具体来说，能否追踪特定训练样本对模型预测的贡献？这是数据归因（data attribution）在大规模 LLM 上的核心挑战。

Yekun Chai,Qingyi Liu,Shuohuan Wang,Yu Sun,Qiwei Peng,Hua Wu

Baidutraining-datadata-attributionscaling-lawDOI DBLP

精读EMNLP 2024

When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages

这篇论文要回答的核心问题是：多语言预训练在什么条件下会从“共享带来迁移”变成“共享带来伤害”，尤其是在 250 个高低资源语言一起建模时。过去大家通常只报告平均多语收益，或者只看少数高资源语言，对低资源语言被挤压、容量竞争和训练分配失衡这些问题交代不够；这篇工作显然是在追问多语言扩展的失效边界。

Tyler A. Chang,Catherine Arnett,Zhuowen Tu,Ben Bergen

multilinguallanguage-modelinglow-resourceDOI DBLP

精读EMNLP 2024

Target-Aware Language Modeling via Granular Data Sampling

这篇论文要解决的是：预训练数据采样通常是全局静态的，但真实目标任务往往只需要某些能力和分布，如何让语言模型的训练采样对“目标”敏感而不是平均用力。过去常见做法是统一混合数据或靠后训练阶段补救，这会让参数预算被无关数据稀释，尤其对参数受限模型更吃亏。

Ernie Chang,Pin-Jie Lin,Yang Li,Changsheng Zhao,Daeil Kim,Rastislav Rabatin,Zechun Liu,Yangyang Shi,Vikas Chandra

data-samplingdata-qualitylanguage-modelingDOI DBLP

精读EMNLP 2024

Instruction Pre-Training: Language Models are Supervised Multitask Learners

现有大模型预训练采用无监督多任务范式，有监督多任务信号仅在SFT阶段注入，受限于SFT阶段的数据规模，无法充分发挥有监督信号对泛化性的提升作用。

Daixuan Cheng,Yuxian Gu,Shaohan Huang,Junyu Bi,Minlie Huang,Furu Wei

instruction-pretrainingsupervised-pretrainingdata-mixtureDOI arXiv DBLP

精读FindingsEMNLP 2024

Exploring Quantization for Efficient Pre-Training of Transformer Language Models

Kamran Chitsaz,Quentin Fournier,Gonçalo Mordido,Sarath Chandar

quantizationpretrainingefficiencyDOI DBLP

精读EMNLP 2024

BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training

Pavel Chizhov,Catherine Arnett,Elizaveta Korotkova,Ivan P. Yamshchikov

tokenizerbpevocabularyDOI DBLP

精读EMNLP 2024

Stable Language Model Pre-training by Reducing Embedding Variability

Woojin Chung,Jiwoo Hong,Na Min An,James Thorne,Se-Young Yun

pretrainingstabilityoptimizationDOI DBLP

精读EMNLP 2024

T-FREE: Subword Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

这篇工作要解决的是：生成式 LLM 是否可以摆脱传统 subword tokenizer，同时避免字符级建模带来的巨大序列长度和 embedding 开销。过去 tokenizer-free 模型的主要障碍不是概念上不可行，而是内存和参数成本过高，尤其输入 embedding 和输出 softmax 会随着原子表征方式迅速膨胀。

Björn Deiseroth,Manuel Brack,Patrick Schramowski,Kristian Kersting,Samuel Weinbach

tokenizertokenizer-freesubwordDOI DBLP

精读EMNLP 2024

Pretraining Language Models Using Translationese

这篇工作要解决的是：translationese 能不能作为一种特殊数据源用于语言模型预训练。translationese 指翻译文本带有源语言干扰和较规整表达的语言变体；过去它多被当作机器翻译或语言学现象研究对象，很少被当成可利用的预训练数据属性来系统评估。

Meet Doshi,Raj Dabre,Pushpak Bhattacharyya

Indian Institute of Technology Bombaypretrainingdata-mixturetranslationeseDOI DBLP

精读FindingsEMNLP 2024

Gradient Localization Improves Lifelong Pretraining of Language Models

这篇工作解决的是 lifelong pretraining 中最现实的问题之一：模型在持续吸收新数据时，更新会扩散到大量无关参数，导致旧知识退化和训练效率低下。现有 continual/lifelong 方案常在数据采样或正则化层面补救，但对“梯度究竟该流向哪里”控制不够精确。

Jared Fernandez,Yonatan Bisk,Emma Strubell

continual-pretraingradient-localizationlifelong-learningDOI DBLP

精读EMNLP 2024

GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

这篇工作要解决的是：现有 audio-language model 往往停留在音频理解或简单问答层面，难以同时支持更复杂的音频推理。过去很多系统把音频编码成连续特征，再接一个 LLM 做浅层对齐，结果通常能做标签识别，但遇到多事件、时序关系或需要跨音频语义整合的任务时能力不够，因此作者试图做一个更强的通用大音频语言模型。

Sreyan Ghosh,Sonal Kumar,Ashish Seth,Chandra Kiran Reddy Evuru,Utkarsh Tyagi,S. Sakshi,Oriol Nieto,Ramani Duraiswami,Dinesh Manocha

audio-lmmultimodalspeech-lmDOI DBLP

精读EMNLP 2024

Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules

Zhuocheng Gong,Ang Lv,Jian Guan,Wei Wu,Huishuai Zhang,Minlie Huang,Dongyan Zhao,Rui Yan

architecturemodularitydynamic-routingDOI DBLP

精读EMNLP 2024

ORPO: Monolithic Preference Optimization without Reference Model

Jiwoo Hong,Noah Lee,James Thorne

preference-optimizationalignmentdpoDOI DBLP

精读FindingsEMNLP 2024

WavLLM: Towards Robust and Adaptive Speech Large Language Model

Shujie Hu,Long Zhou,Shujie Liu,Sanyuan Chen,Lingwei Meng,Hongkun Hao ... 省略 2 位作者 ... ,Jinyu Li,Sunit Sivasankaran,Linquan Liu,Furu Wei

speech-lmaudiorobustnessDOI DBLP

精读FindingsEMNLP 2024

Self-Explore: Enhancing Mathematical Reasoning in Language Models with Fine-grained Rewards

这篇工作的核心问题是：如何在不完全依赖人工过程标注的情况下，提高语言模型的数学推理能力。现有方法要么只用结果级奖励，信号太稀疏；要么依赖昂贵的逐步监督，扩展性差，因此需要一种更细粒度、但成本可控的奖励构造方式。

Hyeonbin Hwang,Doyoung Kim,Seungone Kim,Seonghyeon Ye,Minjoon Seo

rlreasoningprocess-rewardDOI DBLP

精读EMNLP 2024

Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing

LLM 的规划式推理（planning-based reasoning）能力不足，现有方法要么依赖昂贵的人工标注推理轨迹，要么用简单的结果奖励训练，无法有效学习中间推理步骤的质量。

Fangkai Jiao,Chengwei Qin,Zhengyuan Liu,Nancy F. Chen,Shafiq Joty

Salesforce ResearchNanyang Technological UniversityA*STARreasoningplanningprocess-rewardDOI DBLP

精读EMNLP 2024

ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws

这篇工作要解决的是数据质量评估如何摆脱昂贵且不稳定的人工规则，直接从 scaling law 反推样本价值。传统做法常用启发式过滤器、困惑度阈值或小模型打分，但这些分数与“对大模型训练到底有多有用”并不总一致。

Ruihang Li,Yixuan Wei,Miaosen Zhang,Nenghai Yu,Han Hu,Houwen Peng

data-qualityscaling-lawdata-selectionDOI DBLP

精读EMNLP 2024

Mitigating the Alignment Tax of RLHF

RLHF对齐会导致大模型遗忘预训练阶段学到的能力（即对齐税），现有缓解遗忘的方法通常会牺牲对齐效果，存在对齐效果与遗忘缓解的权衡。

Yong Lin,Hangyu Lin,Wei Xiong,Shizhe Diao,Jianmeng Liu,Jipeng Zhang ... 省略 7 位作者 ... ,Nan Jiang,Heng Ji,Yuan Yao,Tong Zhang

rlhfalignmentforgettingDOI arXiv DBLP

精读FindingsEMNLP 2024

Enable Fast Sampling for Seq2Seq Text Diffusion

这篇工作要解决的是 seq2seq text diffusion 采样太慢的问题。文本 diffusion 的优点通常是更灵活的生成顺序和潜在更好的全局建模，但它长期被回避的核心障碍就是推理步数远多于 AR 解码，放到条件生成任务里尤其不实用。

Pan Liu,Xiaohua Tian,Zhouhan Lin

diffusion-lmseq2seqsamplingDOI DBLP

精读FindingsEMNLP 2024

Scaling Laws for Fact Memorization of Large Language Models

Xingyu Lu,Xiaonan Li,Qinyuan Cheng,Kai Ding,Xuanjing Huang,Xipeng Qiu

scaling-lawmemorizationknowledgeDOI DBLP

精读EMNLP 2024

Scalable Efficient Training of Large Language Models with Low-dimensional Projected Attention

Xingtai Lv,Ning Ding,Kaiyan Zhang,Ermo Hua,Ganqu Cui,Bowen Zhou

efficient-trainingattentionlow-rankDOI DBLP

精读EMNLP 2024

Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing

这篇论文要解决的是语言模型预训练中两个彼此相关的表示问题：高频词偏置和 embedding/hidden state 的各向异性。过去这两个问题通常分别处理，但作者认为它们都和模型过度依赖浅层共现统计有关，因此可以通过句法平滑来同时缓解。

Richard Diehl Martinez,Zébulon Goriely,Andrew Caines,Paula Buttery,Lisa Beinborn

pretraininganisotropyfrequency-biasDOI DBLP

精读FindingsEMNLP 2024

Tending Towards Stability: Convergence Challenges in Small Language Models

这篇论文聚焦小语言模型训练中的收敛稳定性问题：小模型不是大模型的缩小版，很多在大规模设置下被优化器和数据量掩盖的问题，在小模型上会直接表现为不收敛、loss spike 或性能高度不稳定。过去社区更关注大模型 scaling，而对小模型的训练动力学缺少系统总结。

Richard Diehl Martinez,Pietro Lesci,Paula Buttery

training-stabilityoptimizationsmall-language-modelDOI DBLP

精读FindingsEMNLP 2024

PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems

现有多模态大模型做语音对话时，必须先生成文本回复再生成语音，且语音序列远长于文本，端到端延迟高，无法满足低延迟对话的需求。

Kentaro Mitsui,Koh Mitsuda,Toshiaki Wakatsuki,Yukiya Hono,Kei Sawada

speech-lmmultimodaltext-speechDOI arXiv DBLP

精读EMNLP 2024

GRASS: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients

这篇工作要解决的是：LLM 训练的梯度和优化器状态太占显存，导致低成本训练受限。常见办法是激活重算、ZeRO、量化或低秩更新，但这些方法要么牺牲吞吐，要么改变可训练参数形态。GRASS 从标题看选择另一条路：直接让梯度结构化稀疏，从而同时省显存和算力。

Aashiq Muhamed,Oscar Li,David P. Woodruff,Mona T. Diab,Virginia Smith

training-efficiencysparse-gradientsoptimizationDOI DBLP

精读EMNLP 2024

Initialization of Large Language Models via Reparameterization to Mitigate Loss Spikes

这篇论文聚焦一个非常工程化但重要的问题：大语言模型训练早期的 loss spike 能否通过更好的初始化方式缓解。现有大模型训练里，loss spike 往往被靠学习率 warmup、梯度裁剪或经验性超参去压，但这些是事后补救，不直接处理初始化导致的信号放大和梯度不稳。

Kosuke Nishida,Kyosuke Nishida,Kuniko Saito

initializationloss-spikestraining-stabilityDOI DBLP

精读EMNLP 2024

Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve?

这篇论文讨论的是一个对 continual/domain-adaptive pretraining 很关键的问题：为什么额外预训练有时不但不提升，反而收益很差甚至伤害模型。业界通常把 additional pretraining 当成相对安全的增强手段，但实践里经常出现“算力花了、下游没涨”的情况，说明其中有比数据量更复杂的适配动力学。

Firat Öncel,Matthias Bethge,Beyza Ermis,Mirco Ravanelli,Cem Subakan,Çagatay Yildiz

continual-pretrainadaptationcatastrophic-forgettingDOI DBLP

精读EMNLP 2024

Scaling Laws for Linear Complexity Language Models

Xuyang Shen,Dong Li,Ruitao Leng,Zhen Qin,Weigao Sun,Yiran Zhong

scaling-lawlinear-attentionarchitectureDOI DBLP

精读EMNLP 2024

Consistent Bidirectional Language Modelling: Expressive Power and Representational Conciseness

这篇工作要解决的是：双向语言建模如果要求前后条件分布彼此一致，能否在表达能力和表示紧致性上优于常见做法。传统 AR LM 表达清晰但方向单一；MLM 双向但不是严格一致的联合分布，因此“consistent bidirectional LM”是在重新审视非 AR 语言建模的理论基础。

Georgi Shopov,Stefan Gerdjikov

bidirectional-lmnon-arlanguage-modelingDOI DBLP

泛读FindingsEMNLP 2024

Hop, skip, jump to Convergence: Dynamics of Learning Rate Transitions for Improved Training of Large Language Models

现有大模型训练的学习率调度依赖固定函数形式（如余弦衰减），需要手动调整预热步、峰值学习率等超参数，或中途手动修改学习率，缺乏对训练中途切换学习率的理论和实证研究。

Shreyas Subramanian,Vignesh Ganapathiraman,Corey Barrett

optimizationlearning-ratetraining-dynamicsDOI DBLP

泛读IndustryEMNLP 2024

FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

现有多语种大模型普遍存在高低资源语言性能差异大的问题，缺乏数据平衡、性能均衡的开源多语种大模型供研究使用。

Haoran Sun,Renren Jin,Shaoyang Xu,Leiyu Pan,Supryadi,Menglong Cui ... 省略 3 位作者 ... ,Ling Shi,Juesi Xiao,Shaolin Zhu,Deyi Xiong

multilingualdata-mixturepretrainingDOI arXiv DBLP

泛读IndustryEMNLP 2024

Mixture of Diverse Size Experts

现有稀疏激活MoE架构的所有专家参数大小相同，token无法选择最合适大小的专家生成下一个token，导致简单token浪费计算、复杂token计算不足的问题。

Manxi Sun,Wei Liu,Jian Luan,Pengzhi Gao,Bin Wang

moearchitecturescalingDOI arXiv DBLP

精读EMNLP 2024

Extending Context Window of Large Language Models from a Distributional Perspective

LLM 的上下文窗口扩展在超出训练长度后性能急剧下降，核心原因是位置编码（如 RoPE）在外推时的分布偏移。本文从分布视角分析并解决这个问题。

Yingsheng Wu,Yuxuan Gu,Xiaocheng Feng,Weihong Zhong,Dongliang Xu,Qing Yang,Hongtao Liu,Bing Qin

Harbin Institute of Technologylong-contextcontext-extensiondistribution-shiftDOI DBLP

精读FindingsEMNLP 2024

Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data

这篇工作关注一个当前很关键的问题：能否在没有 preference data 的情况下，用 RL 直接对齐 LLM。现有 RLHF / DPO 类方法通常依赖成对偏好或显式 reward model，这在数据获取、标注成本和奖励偏差上都有明显瓶颈。

Han Xia,Songyang Gao,Qiming Ge,Zhiheng Xi,Qi Zhang,Xuanjing Huang

reinforcement-learningalignmenttoken-levelDOI DBLP

精读EMNLP 2024

Semformer: Transformer Language Models with Semantic Planning

这篇工作要解决的是：标准自回归语言模型只在 token 级做局部预测，缺少显式的高层语义规划，因此长文本生成常出现内容漂移和全局一致性不足。过去很多方法要么靠更长上下文硬扛，要么在解码后做 rerank，但都没有真正把“先想语义骨架、再写表面文本”纳入模型本体。

Yongjing Yin,Junran Ding,Kai Song,Yue Zhang

semantic-planninglanguage-modelingtransformerDOI DBLP

精读EMNLP 2024

Self-Powered LLM Modality Expansion for Large Speech-Text Models

这篇工作要解决的是：如何把纯文本 LLM 高效扩展成大规模语音-文本模型，而且尽量减少对昂贵语音标注和外部教师的依赖。现有 speech-text 模型常常依赖专门架构或大规模监督数据，导致无法充分复用文本 LLM 的语言能力；因此“自供能”的模态扩展是很有吸引力的路线。

Tengfei Yu,Xuebo Liu,Zhiyi Hou,Liang Ding,Dacheng Tao,Min Zhang

speech-lmmultimodaltokenizerDOI DBLP

精读EMNLP 2024

Turn Waste into Worth: Rectifying Top-k Router of MoE

Zhiyuan Zeng,Qipeng Guo,Zhaoye Fei,Zhangyue Yin,Yunhua Zhou,Linyang Li,Tianxiang Sun,Hang Yan,Dahua Lin,Xipeng Qiu

moeroutingtraining-dynamicsDOI DBLP

精读FindingsEMNLP 2024

AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models

Zihao Zeng,Yibo Miao,Hongcheng Gao,Hao Zhang,Zhijie Deng

moeroutingtoken-adaptiveDOI DBLP

精读FindingsEMNLP 2024

Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding

这篇论文解决的问题不是提出新方法，而是系统梳理 Transformer 长度外推里最核心的一块：位置编码。长度外推已经成为长上下文训练和推理的基础问题，但相关方法很多，结论又常依赖训练长度、任务形式和 attention 细节，导致社区对“什么方法为什么有效”认识并不统一。

Liang Zhao,Xiachong Feng,Xiaocheng Feng,Weihong Zhong,Dongliang Xu,Qing Yang,Hongtao Liu,Bing Qin,Ting Liu

positional-encodinglength-extrapolationlong-contextDOI DBLP

泛读FindingsEMNLP 2024

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts

当前RLHF的奖励模型为黑盒结构，无法给出打分的可解释依据，容易引发奖励黑客问题。过往方案要么牺牲奖励模型精度换取可解释性，要么完全忽略可解释性设计。

Haoxiang Wang,Wei Xiong,Tengyang Xie,Han Zhao,Tong Zhang

rlhfreward-modelmoeDOI arXiv DBLP

泛读EMNLP 2024

Optimizing Language Models with Fair and Stable Reward Composition in Reinforcement Learning

RLHF/RLAIF中多源奖励（人类反馈、AI反馈、安全规则奖励等）的特征分布差异大，常规加权组合方法会偏向数值更高的奖励源，导致RL训练不稳定、模型性能下降。过往的加权、排序、约束方案都未完全解决奖励偏斜问题。

Jiahui Li,Hanlin Zhang,Fengda Zhang,Tai-Wei Chang,Kun Kuang,Long Chen,Jun Zhou

rlhfrlaifreward-compositionDOI DBLP

泛读FindingsEMNLP 2024

Reward Difference Optimization For Sample Reweighting In Offline RLHF

当前离线RLHF仅建模响应之间的序关系，忽略了两个响应之间的偏好程度差异，导致样本利用率低、对齐效果差。过往的离线RLHF方案都采用等权重的排序损失，没有区分不同样本对的偏好强度。

Shiqi Wang,Zhengze Zhang,Rui Zhao,Fei Tan,Cam-Tu Nguyen

offline-rlhfsample-reweightingpreference-learningDOI arXiv DBLP

泛读FindingsEMNLP 2024

Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning

这篇论文要解决的是：偏好学习里并不是所有 preference pair 都同样有价值，如何在标注预算有限时优先挑选最能提升模型的样本。过去很多 RLHF / DPO 流程默认随机采样或均匀标注，但实际数据里大量 pair 信息冗余、难度过低或噪声过大，导致标注钱花了，学习信号却不够强。

Sen Yang,Leyang Cui,Deng Cai,Xinting Huang,Shuming Shi,Wai Lam

preference-learningdata-efficiencyannotationDOI DBLP

泛读EMNLP 2024

Demystifying Verbatim Memorization in Large Language Models

这篇论文要回答的是一个被频繁讨论但常被混淆的问题：LLM 到底在多大程度上逐字记忆训练文本，什么现象才算真正的 verbatim memorization，而不是高频模式重现或近似复述。过去关于 memorization 的讨论常把数据污染、模板复用、语言规律和真实逐字回忆混在一起，导致风险判断和治理策略都不够精确。

Jing Huang,Diyi Yang,Christopher Potts

memorizationdata-qualityprivacyDOI DBLP

精读FindingsEMNLP 2024

LongAlign: A Recipe for Long Context Alignment of Large Language Models

Yushi Bai,Xin Lv,Jiajie Zhang,Yuze He,Ji Qi,Lei Hou,Jie Tang,Yuxiao Dong,Juanzi Li

long-contextalignmentsftDOI DBLP

精读FindingsEMNLP 2024

Adaptive BPE Tokenization for Enhanced Vocabulary Adaptation in Finetuning Pretrained Language Models

Gunjan Balde,Soumyadeep Roy,Mainack Mondal,Niloy Ganguly

tokenizerbpefinetuningDOI DBLP

泛读FindingsEMNLP 2024

Data Diversity Matters for Robust Instruction Tuning

这篇工作要解决的是 instruction tuning 中一个经常被低估的问题：数据多不等于数据好，特别是分布过窄时，模型会在熟悉格式上表现不错，但对分布外指令和扰动非常脆弱。作者关心的不是单纯增加样本量，而是数据多样性如何影响鲁棒性。

Alexander Bukharin,Shiyang Li,Zhengyang Wang,Jingfeng Yang,Bing Yin,Xian Li,Chao Zhang,Tuo Zhao,Haoming Jiang

instruction-tuningdata-qualitydata-mixtureDOI DBLP

泛读EMNLP 2024

ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

这篇工作要解决的是多模态 CoT 推理训练信号稀缺且不稳定的问题：单纯 SFT 往往让模型学会格式，单纯 RL 又容易奖励黑客或训练崩。作者尝试把 RL 和 SFT 交替起来，并引入多样化 AI feedback，提升多模态链式推理能力。

Ju-Seung Byun,Jiyun Chun,Jihyung Kil,Andrew Perrault

reinforcement-learningsftmultimodalDOI DBLP

泛读EMNLP 2024

Enhancing Reinforcement Learning with Dense Rewards from Language Model Critic

RL 训练 LLM 时，奖励信号通常只在序列末尾给出（sparse reward），导致 credit assignment 困难、训练效率低。如何利用语言模型自身能力生成 dense reward 来加速 RL 训练，是这篇工作要解决的问题。

Meng Cao,Lei Shu,Lei Yu,Yun Zhu,Nevan Wichers,Yinxiao Liu,Lei Meng

Googlereinforcement-learningdense-rewardcriticDOI DBLP

泛读FindingsEMNLP 2024

Head-wise Shareable Attention for Large Language Models

LLM 的多头注意力机制中，不同 head 之间存在大量冗余。如何在不显著损失性能的前提下共享 attention head 的计算，从而降低推理和训练开销，是这篇工作的核心问题。

Zouying Cao,Yifei Yang,Hai Zhao

Shanghai Jiao Tong UniversityattentionefficiencyarchitectureDOI DBLP

精读EMNLP 2024

A Multi-Perspective Analysis of Memorization in Large Language Models

这篇论文的核心问题是：LLM 记忆训练语料并不只是“会不会背出来”这么简单，哪些句子更容易被记住、生成记忆文本时模型内部信号如何变化、记忆与非记忆样本是什么关系、以及这种现象能否被预测。过去对 memorization 的研究更偏宏观统计，这篇工作转向更细的动态和表征层面。

Bowen Chen,Namgi Han,Yusuke Miyao

memorizationpretrainingtraining-dynamicsDOI arXiv DBLP

泛读FindingsEMNLP 2024

Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection

这篇论文的核心结论是：知识注入并不需要均匀作用于所有层，浅层在知识注入里比常规做法假设的更关键。过去无论是 PEFT 还是 block expansion，很多方法默认全层均匀加改动，等于把“哪里值得注入”这个问题回避了；这篇工作直接挑战这个默认设置。

Tianxiang Chen,Zhentao Tan,Tao Gong,Yue Wu,Qi Chu,Bin Liu,Jieping Ye,Nenghai Yu

knowledge-injectionlayer-analysiscontinual-pretrainDOI arXiv DBLP

精读EMNLP 2024

The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models

Yanjun Chen,Dawei Zhu,Yirong Sun,Xinghao Chen,Wei Zhang,Xiaoyu Shen

rlhfreward-modelalignmentDOI DBLP

泛读EMNLP 2024

Improving Discriminative Capability of Reward Models in RLHF Using Contrastive Learning

当前RLHF的奖励模型仅用排序损失训练，对噪声和模糊数据敏感，区分相似响应的能力差，无法准确捕捉人类的真实意图。过往的奖励模型优化方案多聚焦于数据清洗，没有从损失函数层面提升区分能力。

Lu Chen,Rui Zheng,Binghai Wang,Senjie Jin,Caishuang Huang,Junjie Ye ... 省略 2 位作者 ... ,Zhiheng Xi,Tao Gui,Qi Zhang,Xuanjing Huang

rlhfreward-modelcontrastive-learningDOI DBLP

泛读EMNLP 2024

RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs

这篇工作解决的核心问题是：RLHF 或 preference optimization 能不能真正做成多语言，而不是只在英文偏好数据上训练后指望自然迁移。过去多数对齐流程默认英文足够覆盖价值偏好，但实际会在低资源语言上出现回答质量下降、过度拒答和文化风格失配。

John Dang,Arash Ahmadian,Kelly Marchisio,Julia Kreutzer,Ahmet Üstün,Sara Hooker

rlhfpreference-optimizationmultilingualDOI DBLP

泛读FindingsEMNLP 2024

LPZero: Language Model Zero-cost Proxy Search from Zero

这篇工作要解决的是：能否在不真正训练语言模型的前提下，快速估计架构或配置的潜力，从而做 zero-cost proxy search。传统架构搜索对 LM 来说代价太高，因为哪怕只是比较几个候选都要做昂贵预训练；如果 proxy 不可靠，搜索就会把算力花在错误方向上。

Peijie Dong,Lujun Li,Xiang Liu,Zhenheng Tang,Xuebo Liu,Qiang Wang,Xiaowen Chu

naszero-cost-proxyarchitecture-searchDOI DBLP

泛读DemoEMNLP 2024

Sailor: Open Language Models for South-East Asia

这篇工作要解决的是：为东南亚语言构建真正可用的开放大语言模型。现有开源模型对这一区域语言普遍覆盖不足，问题不只是 token 少，更是语料质量差、文字系统复杂、语种间资源极不均衡，导致模型常常既不懂本地语言，也无法稳定跨语迁移。

Longxu Dou,Qian Liu,Guangtao Zeng,Jia Guo,Jiahui Zhou,Xin Mao,Ziqi Jin,Wei Lu,Min Lin

open-llmmultilingualdata-mixtureDOI DBLP

泛读FindingsEMNLP 2024

Targeted Multilingual Adaptation for Low-resource Language Families

这篇工作要解决的是：如何针对低资源语言家族做更有效的多语适配，而不是把所有语言一锅炖地继续预训练。现有 multilingual adaptation 常按单语或按全语种平均来分配资源，但低资源语言真正能借力的往往是近亲语言；如果忽略语言家族结构，有限预算会被高资源或远距离语言稀释掉。

C. M. Downey,Terra Blevins,Dhwani Serai,Dwija Parikh,Shane Steinert-Threlkeld

multilingualadaptationcontinued-pretrainingDOI DBLP

泛读FindingsEMNLP 2024

Unlocking Continual Learning Abilities in Language Models

这篇工作要解决的是：如何让语言模型具备真正可用的 continual learning 能力，而不是一继续训练就遗忘旧知识。现有 LLM 的继续预训练和增量学习通常在短期适配上有效，但很容易发生 catastrophic forgetting，尤其当新数据分布窄、训练轮次长或参数更新过于集中时。

Wenyu Du,Shuang Cheng,Tongxu Luo,Zihan Qiu,Zeyu Huang,Ka Chun Cheung,Reynold Cheng,Jie Fu

continual-learningllmadaptationDOI DBLP

泛读EMNLP 2024

Is Child-Directed Speech Effective Training Data for Language Models?

这篇工作要回答一个长期被默认接受、但很少被系统验证的问题：儿童导向语料（child-directed speech, CDS）到底是不是训练语言模型的高效数据。很多关于人类语言习得的讨论会把 CDS 视作高质量输入，但对现代 LM 来说，数据价值不只取决于“是否自然、是否面向学习者”，还取决于覆盖面、重复度、句法分布和 token 效率，所以这个假设值得重新量化。

Steven Y. Feng,Noah D. Goodman,Michael Frank

training-datachild-directed-speechdata-qualityDOI DBLP

泛读FindingsEMNLP 2024

Long Sequence Modeling with Attention Tensorization: From Sequence to Tensor Learning

这篇工作试图解决长序列建模里一个老问题：标准注意力在序列长度上二次复杂度，靠稀疏化、线性化或状态压缩虽然能省算力，但往往牺牲表达力，尤其在跨远距离和高阶依赖上退化明显。作者给出的方向是不要只把输入看作一维序列，而是重排成张量后在更结构化的空间里做建模。

Aosong Feng,Rex Ying,Leandros Tassiulas

long-contextattentiontensorizationDOI DBLP

泛读EMNLP 2024

Information Flow Routes: Automatically Interpreting Language Models at Scale

这篇工作要解决的是解释性方法一个很现实的瓶颈：能做细致因果分析，但扩展不到大模型、大数据和大批量样本。很多 mechanistic interpretability 工具一次只能解释一个样本或一小段路径，人工成本高，结果也难系统化，因此作者试图自动化地恢复模型中的信息流路由。

Javier Ferrando,Elena Voita

interpretabilityinformation-flowcircuit-analysisDOI DBLP

泛读EMNLP 2024

Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

这篇工作关注一个很具体但很有意思的问题：LLM 里可能存在 tokenizer 词表之外的“隐式词项”，而它们平时不直接可见。过去我们常把模型的词汇知识等同于显式 token 词表，但实际模型可能通过多 token 组合、内部特征复用和训练共现，形成对某些词或短语的整体性表征；作者试图用 token erasure 这一现象去抓到这种隐藏结构的足迹。

Sheridan Feucht,David Atkinson,Byron C. Wallace,David Bau

tokenizerimplicit-vocabularytoken-erasureDOI DBLP

泛读EMNLP 2024

Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion

这篇工作要解决的是：LLM 对齐里很多有用信号天然是序列级分数，但现有 RLHF/PPO 类方法要么训练复杂、要么样本效率低，而纯监督方法又很难直接优化这类非 token 级目标。作者试图在“能用 sequence-level reward”与“训练尽量像 supervised learning 一样稳”之间找一个中间点。

Yannis Flet-Berliac,Nathan Grinsztajn,Florian Strub,Eugene Choi,Bill Wu,Chris Cremer ... 省略 1 位作者 ... ,Yash Chandak,Mohammad Gheshlaghi Azar,Olivier Pietquin,Matthieu Geist

rlhfpolicy-gradientalignmentDOI DBLP

泛读EMNLP 2024

MOSEL: 950, 000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages

这篇工作要解决的核心问题是：开源语音基础模型在欧洲语言上的训练数据长期不够大、不够干净、也不够统一，导致很多方法讨论停留在模型结构层面，实际瓶颈却是数据供给。过去常见做法是依赖英语主导的公开视频或小规模单语语料，覆盖面和可复现性都有限，因此现在有必要把“多语言语音预训练数据集”本身做成一项一等公民的研究对象。

Marco Gaido,Sara Papi,Luisa Bentivogli,Alessio Brutti,Mauro Cettolo,Roberto Gretter,Marco Matassoni,Mohamed Nabih,Matteo Negri

speech-datadata-qualitymultilingualDOI DBLP

泛读FindingsEMNLP 2024

Insights into LLM Long-Context Failures: When Transformers Know but Don't Tell

这篇工作聚焦一个很具体但很关键的问题：长上下文失败不一定是模型“不会”，很多时候是模型“知道但没有在输出里用出来”。过去对 long-context failure 的解释常常混在一起，把检索失败、注意力衰减、位置泛化差和解码策略问题都归为“模型没学会长上下文”；这篇论文要拆开其中的机制，区分表征里是否已经有信号，与最终生成是否把信号说出来。

Muhan Gao,Taiming Lu,Kuai Yu,Adam Byerly,Daniel Khashabi

long-contextfailure-analysisattentionDOI DBLP

泛读EMNLP 2024

Where is the signal in tokenization space?

这篇工作讨论的是一个基础但经常被忽视的问题：tokenization space 里到底哪里有真正有用的学习信号。大家通常把 tokenizer 当固定前处理，然后在 token 序列上做建模，但不同切分方式会改变统计结构、局部组合规律和优化难度，因此作者想回答的不是‘哪个 tokenizer 分数更高’这么窄的问题，而是‘信号在切分空间里如何分布、模型实际上学到了什么’。

Renato Lui Geh,Honghua Zhang,Kareem Ahmed,Benjie Wang,Guy Van den Broeck

tokenizerrepresentationinformation-theoryDOI DBLP

泛读EMNLP 2024

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

这篇工作讨论一个很现实的模型更新问题：把新知识通过 fine-tuning 塞进 LLM，是否会反而诱发更多 hallucination。过去默认假设是‘学到新事实就更准’，但参数更新会扰动已有知识边界和置信度校准，模型可能在新知识附近变得更爱编，因此这个问题对持续更新和 continual pretrain/fine-tune 都很关键。

Zorik Gekhman,Gal Yona,Roee Aharoni,Matan Eyal,Amir Feder,Roi Reichart,Jonathan Herzig

fine-tuninghallucinationknowledge-editingDOI DBLP

泛读EMNLP 2024

GlossLM: A Massively Multilingual Corpus and Pretrained Model for Interlinear Glossed Text

Michael Ginn,Lindia Tjuatja,Taiqi He,Enora Rice,Graham Neubig,Alexis Palmer,Lori S. Levin

multilingualcorpuspretrainingDOI DBLP

泛读EMNLP 2024

Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP

Omer Goldman,Alon Jacovi,Aviv Slobodkin,Aviya Maimon,Ido Dagan,Reut Tsarfaty

long-contextretrievalbenchmarkDOI DBLP

泛读DemoEMNLP 2024

TAIL: A Toolkit for Automatic and Realistic Long-Context Large Language Model Evaluation

这篇论文要解决的问题是：长上下文评测缺少既自动化又足够真实的测试框架，导致很多结果高估了模型在真实长文档场景里的能力。过去常见做法要么是人工构造少量任务，要么是 needle-in-a-haystack 这类过于单一的 synthetic 测试；这些设置能测到一部分检索能力，但测不到信息干扰、任务切换和文档结构复杂度带来的真实压力。

Gefei Gu,Yilun Zhao,Ruoxi Ning,Yanan Zheng,Arman Cohan

long-contextbenchmarkevaluationDOI DBLP

泛读EMNLP 2024

Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment

这篇论文要解决的问题是：现有 preference optimization 往往把对齐目标压成单一标量，难以同时、可控地满足多个目标，比如 helpfulness、harmlessness、style 和长度。过去常见做法是混合数据或调 prompt，但这些手段控制粒度粗，而且目标一冲突就容易互相覆盖。

Yiju Guo,Ganqu Cui,Lifan Yuan,Ning Ding,Zexu Sun,Bowen Sun ... 省略 2 位作者 ... ,Jie Zhou,Yankai Lin,Zhiyuan Liu,Maosong Sun

dpoalignmentmulti-objectiveDOI DBLP

精读FindingsEMNLP 2024

On the token distance modeling ability of higher RoPE attention dimension

这篇论文关注的问题是：提高 RoPE 中用于注意力的位置维度，是否真的能改善模型对 token 距离的建模能力。这个问题值得研究，因为长上下文扩展里大家常调 RoPE 频率、缩放和外推，但较少直接分析“更高 attention dimension 的 RoPE”为何会影响距离分辨率，以及这种收益的边界在哪里。

Xiangyu Hong,Che Jiang,Biqing Qi,Fandong Meng,Mo Yu,Bowen Zhou,Jie Zhou

ropepositional-encodingattentionDOI DBLP

泛读EMNLP 2024

Dissecting Fine-Tuning Unlearning in Large Language Models

Yihuai Hong,Yuelin Zou,Lijie Hu,Ziqian Zeng,Di Wang,Haiqin Yang

unlearningfine-tuningalignmentDOI DBLP

泛读FindingsEMNLP 2024

FactAlign: Long-form Factuality Alignment of Large Language Models

这篇工作聚焦于长文本生成里的事实一致性对齐问题。现有对齐方法大多围绕短答或局部偏好展开，能减少显性有害输出，但对长篇回答中跨句依赖、细节漂移和后段幻觉控制较弱，因此长文本 factuality 仍然是对齐体系里的薄弱环节。

Chao-Wei Huang,Yun-Nung Chen

factualityalignmentlong-formDOI DBLP

泛读FindingsEMNLP 2024

How Far Can In-Context Alignment Go? Exploring the State of In-Context Alignment

这篇工作要回答的核心问题是：仅靠 in-context alignment，模型行为到底能被“临时对齐”到什么程度。过去很多结果表明提示词、系统消息和少量示例能显著改写输出风格，但它们能否替代参数层面的对齐、在哪些任务和风险边界上失效，一直缺少系统刻画。

Heyan Huang,Yinghao Li,Huashan Sun,Yu Bai,Yang Gao

in-context-learningalignmentpromptingDOI DBLP

泛读EMNLP 2024

Enhancing Language Model Alignment: A Confidence-Based Approach to Label Smoothing

这篇工作针对对齐训练中过硬标签带来的过度自信问题，提出用基于置信度的 label smoothing 改善 alignment。很多对齐数据本身噪声不低，偏好标签和拒答标签也常有歧义，如果仍按 one-hot 强推，模型容易学到不必要的尖锐决策边界，表现为过度拒答、过度肯定或泛化不稳。

Baihe Huang,Hiteshi Sharma,Yi Mao

alignmentlabel-smoothingconfidenceDOI DBLP

泛读EMNLP 2024

Instruction Fine-Tuning: Does Prompt Loss Matter?

这篇工作要回答的核心问题是：做 instruction tuning 时，是否应该把提示词部分也计入训练损失。很多实现默认只对 assistant 回复算 loss，把 user prompt mask 掉，理由是“提示词不是要生成的目标”；但这个做法更多是工程习惯，不是被系统验证过的设计选择，因此值得单独检验。

Mathew Huerta-Enochian,Seung Ko

instruction-tuningsftloss-designDOI DBLP

泛读FindingsEMNLP 2024

Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets

这篇工作关注的核心问题是：多语指令微调数据不仅要覆盖语言，还要在语言学上自然、在表达上多样，否则模型会学到翻译腔和模板化响应，而不是真正的多语能力。很多现有 multilingual instruction tuning 数据是从英语翻译扩展来的，覆盖面看似广，但语言分布和句法风格都不够自然。

Sathish Reddy Indurthi,Wenxuan Zhou,Shamil Chollampatt,Ravi Agrawal,Kaiqiang Song,Lingxiao Zhao,Chenguang Zhu

instruction-tuningmultilingualdata-qualityDOI DBLP

泛读EMNLP 2024

On the In-context Generation of Language Models

语言模型的 in-context generation（上下文内生成）能力——即模型在给定少量示例后生成符合示例分布的新文本——的机制尚不清楚。这与 in-context learning（ICL）相关但不同：ICL 关注分类/预测，而 in-context generation 关注开放式生成。

Zhongtao Jiang,Yuanzhe Zhang,Kun Luo,Xiaowei Yuan,Jun Zhao,Kang Liu

Institute of Automation, Chinese Academy of Sciencesin-context-learninggenerationdecodingDOI DBLP

泛读IndustryEMNLP 2024

DL-QAT: Weight-Decomposed Low-Rank Quantization-Aware Training for Large Language Models

这篇工作要解决的是：怎样把大语言模型量化到更低比特，同时尽量保住生成质量，并且让训练开销可控。已有 PTQ（后训练量化）往往在低比特下掉点明显，尤其对生成模型更敏感；常规 QAT（量化感知训练）又训练成本高、参数更新重。作者聚焦的是低比特量化的精度—成本矛盾。

Wenjing Ke,Zhe Li,Dong Li,Lu Tian,Emad Barsoum

quantizationqatlow-rankDOI DBLP

泛读FindingsEMNLP 2024

Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?

这篇工作要回答的是：把英语中心的大模型改造成多语模型，到底需要多少多语数据或多语训练比例。过去常见做法是继续预训练加一点非英语数据，或者直接训平衡多语模型，但两者成本都不低，而且缺少关于“最低有效 multilinguality”的系统量化。作者针对的是英语能力保留、非英语迁移提升和训练预算之间的临界点问题。

Tannon Kew,Florian Schottmann,Rico Sennrich

multilingualcontinual-pretraindata-mixtureDOI DBLP

精读EMNLP 2024

Rethinking the Role of Proxy Rewards in Language Model Alignment

这篇论文要回答的核心问题是：语言模型对齐里广泛使用的 proxy reward 到底在多大程度上真的代表人类偏好，以及它什么时候会把训练带偏。过去很多对齐工作默认把 reward model 分数、规则打分或 benchmark 代理指标当作可优化目标，但这类信号往往比真实用户偏好更窄、更易被投机利用，因此值得单独拆开检验其作用边界。

Sungdong Kim,Minjoon Seo

alignmentreward-modelrlhfDOI DBLP

泛读FindingsEMNLP 2024

Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback

这篇论文要解决的是：现有偏好优化方法通常只利用二元偏好标签，忽略了‘偏好强度’这类更细粒度反馈，导致模型更新方向过粗，样本利用率也不高。换句话说，chosen 比 rejected 好多少，在大多数 DPO 类方法里没有被显式建模。

Kyuyoung Kim,Ah Jeong Seo,Hao Liu,Jinwoo Shin,Kimin Lee

preference-optimizationalignmentdpoDOI DBLP

泛读EMNLP 2024

KNN-Instruct: Automatic Instruction Construction with K Nearest Neighbor Deduction

这篇论文解决的是：SFT 数据自动构造虽然便宜，但现有 Self-Instruct 风格方法容易生成陈旧、重复、只是对已有指令做浅层改写的数据，难以同时保证质量、覆盖度和可扩展性。问题不在于能不能生成新指令，而在于生成的‘新’是否真的带来新的任务结构。

Jianshang Kou,Benfeng Xu,Chiwei Zhu,Zhendong Mao

instruction-tuningsynthetic-datadata-qualityDOI DBLP

泛读EMNLP 2024

GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets

Oh Joon Kwon,Daiki E. Matsunaga,Kee-Eung Kim

preference-optimizationgflownetalignmentDOI DBLP

精读EMNLP 2024

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

Sander Land,Max Bartolo

training-dynamicstokenizationdata-qualityDOI DBLP

精读FindingsEMNLP 2024

Towards Pareto-Efficient RLHF: Paying Attention to a Few High-Reward Samples with Reward Dropout

这篇工作要解决的是：RLHF 训练里高奖励样本很少但很关键，而常规做法对所有样本近似同权，导致训练信号被大量普通样本稀释，最终在 helpfulness、harmlessness 和稳定性之间很难同时做好。过去提升 RLHF 效果通常靠更强 reward model、更大 batch 或更复杂目标，但很少直接处理“高价值样本在梯度里占比过低”这个问题。

Changhun Lee,Chiehyeon Lim

rlhfreward-modelingalignmentDOI DBLP

精读FindingsEMNLP 2024

Revisiting Catastrophic Forgetting in Large Language Model Tuning

这篇工作要重新审视的是：大语言模型调优中的灾难性遗忘是否被过度简化了，现有结论往往混淆了任务切换、评测设置和知识覆盖变化。过去很多工作沿用小模型时代的 continual learning 叙事，但在 LLM 上，预训练知识冗余、指令调优分布和评测口径都变了，遗忘现象未必表现为同一种机制。

Hongyu Li,Liang Ding,Meng Fang,Dacheng Tao

catastrophic-forgettingfine-tuningalignmentDOI DBLP

精读EMNLP 2024

A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives

这篇工作直接比较两类多语预训练目标：语言建模和机器翻译，想回答哪个目标更能学到可迁移的多语言表示。这个问题一直存在，但常被数据规模和模型差异掩盖，导致大家默认“都混一点”而不清楚真正的收益来源。

Zihao Li,Shaoxiong Ji,Timothee Mickus,Vincent Segonne,Jörg Tiedemann

multilingualpretrain-objectivelanguage-modelingDOI DBLP

精读EMNLP 2024

EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

这篇工作要解决的是大模型推理加速里的核心瓶颈：如何在不明显损伤输出质量的前提下，把 speculative decoding 的接受率和并行收益做高。已有方法的问题通常是 draft 模型提议太保守时加速有限，太激进时又会被 target 模型大量拒收。

Yuhui Li,Fangyun Wei,Chao Zhang,Hongyang Zhang

speculative-decodinginferencedraft-treeDOI DBLP

泛读EMNLP 2024

Lexically Grounded Subword Segmentation

当前主流的BPE等子词切分算法仅基于字符频率统计，不考虑词汇语义，导致同根词被切分到不同子词，语义表示一致性差。过往的语义感知切分方案要么推理速度慢，要么需要大量标注数据。

Jindrich Libovický,Jindrich Helcl

tokenizersubwordsegmentationDOI arXiv DBLP

泛读EMNLP 2024

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

领域特定的奖励模型需要大量专家标注的偏好数据，标注成本极高。过往的方案要么直接在通用奖励模型上微调领域数据，要么从零训练领域奖励模型，数据效率都很低。

Tzu-Han Lin,Chen-An Li,Hung-yi Lee,Yun-Nung Chen

reward-modelrlhfmodel-mergingDOI arXiv DBLP

泛读FindingsEMNLP 2024

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization

Yong Lin,Skyler Seto,Maartje ter Hoeve,Katherine Metcalf,Barry-John Theobald,Xuan Wang,Yizhe Zhang,Chen Huang,Tong Zhang

dpoimplicit-rewardgeneralizationDOI DBLP

泛读EMNLP 2024

Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations

这篇工作要解决的是：标准语言建模目标对句法结构的监督太弱，模型学到大量表层统计规律，却未必形成稳定的结构归纳偏置。以往提升句法能力常靠显式语法标注、多任务训练或更大数据规模绕过去；作者选择反过来问，能否通过“做句法变换”这种预训练任务，把结构信息更直接地压进模型里。

Matthias Lindemann,Alexander Koller,Ivan Titov

pretrainingsyntactic-biasinductive-biasDOI DBLP

泛读EMNLP 2024

LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law

这篇工作要回答的是：LLM 到底能不能在上下文中学到动力系统的 governing principles，而不只是拟合时间序列模式。过去关于 in-context learning 的讨论很多停留在语言任务或简单回归设定；作者把问题推进到动力系统，是因为这里能更清楚地区分“记住轨迹形状”和“掌握演化规律”。

Toni J. B. Liu,Nicolas Boullé,Raphaël Sarfati,Christopher J. Earls

in-context-learningscaling-lawdynamical-systemsDOI DBLP

泛读EMNLP 2024

Generation with Dynamic Vocabulary

这篇工作要解决的是：标准生成模型在每一步都对全词表打分，计算成本高，而且大量 token 在当前上下文下其实不可能是合理候选。过去大家主要从 softmax 加速、近似采样或词表裁剪角度优化，但这些方法往往是静态的，不能根据上下文动态缩小可选空间。

Yanting Liu,Tao Ji,Changzhi Sun,Yuanbin Wu,Xiaoling Wang

decodingvocabularygenerationDOI DBLP

泛读EMNLP 2024

Gold Panning in Vocabulary: An Adaptive Method for Vocabulary Expansion of Domain-Specific LLMs

这篇工作要解决的是领域 LLM 扩词表时“加多少、加哪些 token”这个常被粗糙处理的问题。过去做 domain adaptation 时，常见做法是直接沿用原 tokenizer，或者简单追加高频词片段；前者会让专业术语被过度切碎，后者则容易引入大量低价值 token，增加嵌入参数和训练不稳定性。

Chengyuan Liu,Shihang Wang,Lizhi Qing,Kun Kuang,Yangyang Kang,Changlong Sun,Fei Wu

tokenizervocabularydomain-adaptationDOI DBLP

泛读EMNLP 2024

Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence

Junru Lu,Jiazheng Li,Siyu An,Meng Zhao,Yulan He,Di Yin,Xing Sun

dpoalignmentpreference-optimizationDOI DBLP

精读FindingsEMNLP 2024

LongHeads: Multi-Head Attention is Secretly a Long Context Processor

Yi Lu,Xin Zhou,Wei He,Jun Zhao,Tao Ji,Tao Gui,Qi Zhang,Xuanjing Huang

long-contextattentionmulti-head-attentionDOI DBLP

精读FindingsEMNLP 2024

Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens

Weiyao Luo,Suncong Zheng,Heming Xia,Weikang Wang,Yan Lei,Tianyu Liu,Shuang Chen,Zhifang Sui

sentinel-tokenslanguage-modelingarchitectureDOI DBLP

精读EMNLP 2024

An Analysis and Mitigation of the Reversal Curse

这篇论文聚焦于“reversal curse”：模型学会了 A→B，却不会稳定地反推出 B→A。这个问题过去常被当成数据覆盖不足或提示方式问题处理，但它实际上暴露了自回归语言建模对关系对称性和事实双向泛化的系统性缺陷，因此值得单独分析和干预。

Ang Lv,Kaiyi Zhang,Shufang Xie,Quan Tu,Yuhan Chen,Ji-Rong Wen,Rui Yan

reversal-curseknowledgepretrain-dynamicsDOI DBLP

泛读EMNLP 2024

Don't Forget Your Reward Values: Language Model Alignment via Value-based Calibration

这篇论文关注对齐训练里的一个常见缺口：模型在 RLHF 或偏好优化后学会了迎合奖励，但不一定保留对“奖励值大小”的校准能力。换句话说，模型可能知道哪条回答更好，却不知道好多少，导致选择和生成行为在不同风险偏好下不稳定。

Xin Mao,Feng-Lin Li,Huimin Xu,Wei Zhang,Wang Chen,Anh Tuan Luu

alignmentreward-modelcalibrationDOI DBLP

泛读EMNLP 2024

Subword Segmentation in LLMs: Looking at Inflection and Consistency

这篇论文关注 tokenizer 设计里一个被长期低估的问题：subword segmentation 对词形变化语言是否一致、是否保留形态边界。过去 BPE 一类方法主要为压缩率和频率优化，在英语上问题不显著，但对屈折丰富语言，切分不一致会直接影响样本效率、泛化和跨词形共享。

Marion Di Marco,Alexander Fraser

tokenizersubwordmorphologyDOI DBLP

泛读EMNLP 2024

Language Models Learn Rare Phenomena from Less Rare Phenomena: The Case of the Missing AANNs

大语言模型对罕见语法现象的学习来自记忆还是泛化一直没有明确结论。过往的研究要么无法控制训练数据的分布，要么没有量化泛化的贡献。

Kanishka Misra,Kyle Mahowald

generalizationrare-phenomenatraining-dataDOI arXiv DBLP

泛读IndustryEMNLP 2024

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

当前多模态大模型大多仅支持2-3种输入模态，扩展新模态的成本极高，且无法继承通用大模型的完整推理能力。过往的方案要么修改LLM的底层架构，要么重新预训练，开销极大。

Seungwhan Moon,Andrea Madotto,Zhaojiang Lin,Tushar Nagarajan,Matt Smith,Shashank Jain ... 省略 3 位作者 ... ,Yue Liu,Kavya Srinet,Babak Damavandi,Anuj Kumar

multimodalunified-modelmodality-bridgingDOI arXiv DBLP

泛读EMNLP 2024

Filtered Direct Preference Optimization

这篇论文要解决的应当是：DPO 直接用偏好对训练时，会把低质量、噪声大或冲突的 preference 数据一并吸收，导致优化信号被污染。这个问题之所以值得重新处理，是因为 DPO 已经成为 RLHF 的轻量替代，但实践里数据质量波动很大，很多性能和稳定性问题并不是目标函数本身，而是样本筛选不足。

Tetsuro Morimura,Mitsuki Sakamoto,Yuu Jinnai,Kenshi Abe,Kaito Ariu

dpopreference-learningalignmentDOI DBLP

精读EMNLP 2024

Scalable Data Ablation Approximations for Language Models through Modular Training and Merging

这篇工作要解决的是：语言模型的数据消融太贵，无法直接逐份数据重训来估计每个数据模块的价值。传统 data ablation 最准确，但代价接近重新做一遍预训练，因此研究和工业实践都只能做很粗的近似。论文标题说明作者想通过 modular training 和 merging，把数据价值评估做成可扩展近似。

Clara Na,Ian Magnusson,Ananya Harsh Jha,Tom Sherborne,Emma Strubell,Jesse Dodge,Pradeep Dasigi

data-ablationmodel-mergingmodular-trainingDOI DBLP

泛读FindingsEMNLP 2024

Better Alignment with Instruction Back-and-Forth Translation

这篇论文试图解决的核心问题是：如何用更稳定、成本更低的数据构造方式提升指令对齐，而不是继续依赖昂贵且噪声较大的人工偏好标注。过去很多对齐方法把重点放在 reward model 或 preference optimization 上，但如果指令数据本身表达单一、覆盖窄、风格固化，模型的对齐上限会很快被数据分布卡住。

Thao Nguyen,Jeffrey Li,Sewoong Oh,Ludwig Schmidt,Jason Weston,Luke Zettlemoyer,Xian Li

instruction-tuningdata-synthesisback-translationDOI DBLP

精读EMNLP 2024

Transformers are Multi-State RNNs

这篇论文的核心问题是：能否把 Transformer 重新理解为一种多状态 RNN，从而用更统一的递归视角解释它的计算和记忆机制。过去 Transformer 常被拿来和 RNN 对立起来讲：前者是并行自注意力，后者是顺序递归；但这种二分法会掩盖 Transformer 里沿层传播、沿位置更新的隐式状态结构。

Matanel Oren,Michael Hassid,Yarden Nir,Yossi Adi,Roy Schwartz

transformerrnnmulti-stateDOI DBLP

泛读FindingsEMNLP 2024

Enhancing Alignment using Curriculum Learning & Ranked Preferences

Pulkit Pattnaik,Rishabh Maheshwary,Kelechi Ogueji,Vikas Yadav,Sathwik Tejaswi Madhusudhan

alignmentcurriculum-learningpreference-optimizationDOI DBLP

泛读FindingsEMNLP 2024

Eigen Attention: Attention in Low-Rank Space for KV Cache Compression

Utkarsh Saxena,Gobinda Saha,Sakshi Choudhary,Kaushik Roy

kv-cacheattentionlow-rankDOI DBLP

精读EMNLP 2024

Tokenization Is More Than Compression

Craig W. Schmidt,Varshini Reddy,Haoran Zhang,Alec Alameddine,Omri Uzan,Yuval Pinter,Chris Tanner

tokenizertokenizationcompressionDOI DBLP

泛读EMNLP 2024

Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models

这篇工作想解决的是：LLM 自对齐通常要么依赖人工偏好数据和额外 reward model，要么依赖一套固定 prompt 让模型自评，但这两条路都容易受提示词脆弱性影响。作者关注的核心问题不是再训练一个更强 judge，而是能否通过动态奖励和 prompt 优化，在不微调模型权重的前提下做更稳的自对齐。

Somanshu Singla,Zhen Wang,Tianyang Liu,Abdullah Ashfaq,Zhiting Hu,Eric P. Xing

self-alignmentprompt-optimizationrewardDOI DBLP

精读EMNLP 2024

Can Transformers Learn n-gram Language Models?

这篇论文要回答的核心问题很直接：Transformer 到底能不能真正学会 n-gram 语言模型，而不只是表面上在有限样本里拟合出类似行为。这个问题过去常被默认成“容量足够就能学到”，但对预训练研究来说，能否稳定恢复这种最基础的局部条件分布，其实关系到我们怎么理解 Transformer 的归纳偏置、训练动态和它对简单统计结构的学习边界。

Anej Svete,Nadav Borenstein,Mike Zhou,Isabelle Augenstein,Ryan Cotterell

transformern-gramexpressivenessDOI DBLP

精读FindingsEMNLP 2024

Inference and Verbalization Functions During In-Context Learning

这篇论文的核心问题是：in-context learning 里，模型到底是在做真正的任务推断，还是只是把已经形成的内部结论 verbalize 出来，这两步是否可以区分。过去很多 ICL 工作把输入示例到输出答案视为单一过程，但如果 inference function 和 verbalization function 可以拆开，我们对 few-shot 提示、生成人类可读解释以及格式约束影响的理解都会更细。

Junyi Tao,Xiaoyin Chen,Nelson F. Liu

in-context-learninginferenceverbalizationDOI DBLP

精读FindingsEMNLP 2024

Exploring Design Choices for Building Language-Specific LLMs

这篇论文的核心问题是：构建语言特定 LLM 时，哪些设计选择真正重要，哪些只是高资源英语经验的机械迁移。很多团队做 language-specific LLM 时会直接沿用通用配方，但不同语言在文字系统、形态复杂度、语料稀缺度和混码现象上差异很大，导致 tokenizer、数据配比和训练策略的最优点并不一样。

Atula Tejaswi,Nilesh Gupta,Eunsol Choi

language-specific-llmdesign-choicespretrainDOI DBLP

泛读FindingsEMNLP 2024

STTATTS: Unified Speech-To-Text And Text-To-Speech Model

这篇工作尝试把语音转文本和文本转语音统一到一个模型里。传统做法通常是 ASR 和 TTS 分开建模，接口清晰但表示不共享，导致参数冗余、跨任务迁移弱，也限制了把语音当作统一序列建模对象的可能性。

Hawau Olamide Toyin,Hao Li,Hanan Aldarmaki

speech-lmunified-modelspeechDOI DBLP

泛读EMNLP 2024

Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance?

这篇工作直接问了一个 pretrain 问题：预训练阶段接触哪种编程语言、以及代码的哪些特征，会影响下游逻辑推理能力。过去很多结论只说‘代码预训练有帮助’，但很少拆开看这种帮助到底来自语言语法、结构化控制流，还是变量约束等更细粒度因素。

Fumiya Uchiyama,Takeshi Kojima,Andrew Gambardella,Qi Cao,Yusuke Iwasawa,Yutaka Matsuo

pretraining-datacodelogical-reasoningDOI DBLP

泛读EMNLP 2024

Investigating Mysteries of CoT-Augmented Distillation

用大模型生成的 Chain-of-Thought (CoT) 推理链来蒸馏小模型已成为常见做法，但为什么 CoT 蒸馏有效、哪些因素真正起作用，仍然不清楚。这篇工作系统性地拆解 CoT 蒸馏中的关键变量。

Somin Wadhwa,Silvio Amir,Byron C. Wallace

Northeastern UniversitycotdistillationreasoningDOI DBLP

精读EMNLP 2024

BLSP-Emo: Towards Empathetic Large Speech-Language Models

这篇工作研究的是如何把语音理解、语言生成和情感共情结合进同一个 large speech-language model。传统语音系统通常把情感处理拆成识别分类或规则化回复，流水线长、风格不自然，而且情感线索在离散标签里损失很大；作者显然想做更统一的 empathetic speech-language 建模。

Chen Wang,Minpeng Liao,Zhongqiang Huang,Junhong Wu,Chengqing Zong,Jiajun Zhang

speech-lmaudiomultimodalDOI DBLP

泛读EMNLP 2024

A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language Models

这篇工作解决的是大模型版本升级时训练路径不稳定、容易遗忘或收益不足的问题。实际中从旧版本继续训练到新版本，直接沿用单一路径学习率调度常常会在保留旧能力、吸收新数据和稳定收敛之间发生冲突，作者试图通过学习率路径切换来改善这个过程。

Zhihao Wang,Shiyu Liu,Jianheng Huang,Wang Zheng,Yixuan Liao,Xiaoxin Chen,Junfeng Yao,Jinsong Su

continual-pretrainoptimizationlearning-rateDOI DBLP

泛读EMNLP 2024

Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training

这篇论文要解决的是：自回归语言模型推理天然串行，如何在不大改模型结构的前提下，把多个 token 的预测并行化。以往并行解码通常依赖 speculative decoding、非自回归蒸馏或额外 draft model，但这些方法要么系统复杂，要么质量损失明显，因此“训练时显式让模型适应 noisy context”是一个值得重新检验的方向。

Yixuan Wang,Xianzhen Luo,Fuxuan Wei,Yijun Liu,Qingfu Zhu,Xuanyu Zhang,Qing Yang,Dongliang Xu,Wanxiang Che

parallel-decodingnoisy-traininginferenceDOI DBLP

精读FindingsEMNLP 2024

Knowledge Mechanisms in Large Language Models: A Survey and Perspective

这不是方法论文，而是一篇关于 LLM 知识机制的综述与观点文章。它要解决的问题是：当前关于“模型如何存知识、如何调用知识、如何遗忘或编辑知识”的研究分散在 probing、editing、hallucination、retrieval、mechanistic interpretability 等多个社区，缺少统一框架来组织这些结论。

Mengru Wang,Yunzhi Yao,Ziwen Xu,Shuofei Qiao,Shumin Deng,Peng Wang ... 省略 3 位作者 ... ,Pengjun Xie,Fei Huang,Huajun Chen,Ningyu Zhang

knowledge-mechanismssurveyinterpretabilityDOI DBLP

精读FindingsEMNLP 2024

Reward Modeling Requires Automatic Adjustment Based on Data Quality

Reward model 训练时，不同质量的偏好数据对模型的贡献差异很大，但现有方法对所有样本一视同仁地优化，导致噪声数据拖累 RM 质量。问题的根源是人工标注的偏好对存在大量模糊或错误标注，直接用 Bradley-Terry loss 等标准损失训练会让模型拟合噪声。

Binghai Wang,Rui Zheng,Lu Chen,Zhiheng Xi,Wei Shen,Yuhao Zhou,Dong Yan,Tao Gui,Qi Zhang,Xuanjing Huang

Harbin Institute of Technologyreward-modeldata-qualityrlhfDOI DBLP

泛读EMNLP 2024

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

跨语言对齐（alignment）的核心瓶颈是非英语语言缺乏高质量偏好数据。能否直接复用英文训练好的 reward model 做零样本跨语言对齐，而不需要为每种语言单独收集偏好数据？

Zhaofeng Wu,Ananth Balashankar,Yoon Kim,Jacob Eisenstein,Ahmad Beirami

Googlereward-modelcross-lingualalignmentDOI DBLP

泛读EMNLP 2024

Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models

这篇工作关心的是微调阶段如何更有效地使用异质数据，而不是默认所有样本同权。过去常见做法是人工设数据配比，或者用简单 curriculum / filtering，但这类策略很难适应任务迁移、样本质量差异和训练阶段变化。

Minghao Wu,Thuy-Trang Vu,Lizhen Qu,Reza Haf

data-selectionfine-tuningcurriculumDOI DBLP

泛读EMNLP 2024

Rethinking Pragmatics in Large Language Models: Towards Open-Ended Evaluation and Preference Tuning

这篇工作认为当前 LLM 语用学评测太封闭，导致模型是否真正理解言外之意、礼貌、暗示和语境适配被高估。过去不少工作把 pragmatics 简化成多选题或少量规则化案例，这更像测模板匹配，而不是测开放环境中的语用能力。

Shengguang Wu,Shusheng Yang,Zhenglun Chen,Qi Su

preference-tuningevaluationpragmaticsDOI DBLP

泛读EMNLP 2024

Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language Models

这篇工作直指一个很实际的对齐冲突：模型越强调 instruction following，往往越容易牺牲 faithfulness。常见现象是模型为了配合用户格式、风格或结论要求，会生成更顺从但证据不一致、推理不忠实甚至编造的信息，而现有训练往往没有把两者明确拆开优化。

Zhengxuan Wu,Yuhao Zhang,Peng Qi,Yumo Xu,Rujun Han,Yian Zhang,Jifan Chen,Bonan Min,Zhiheng Huang

instruction-followingfaithfulnessalignmentDOI DBLP

泛读FindingsEMNLP 2024

Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment

这篇工作要解决的是多语预训练模型里的 script barrier：同一种或相近语言因为书写系统不同，表示空间被人为割裂。现有 multilingual PLM 往往依赖共享 tokenizer 和参数去获得跨语迁移，但当语言脚本差异大、共享词形少时，这种对齐会明显变弱。

Orgest Xhelili,Yihong Liu,Hinrich Schütze

multilingualpost-trainingalignmentDOI DBLP

泛读EMNLP 2024

How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective

这篇工作讨论的是在 LLM alignment 中如何更好利用 demonstration data，而不是把示范样本只当作普通 SFT 监督。传统做法通常直接最大化示范答案似然，但这没有显式利用‘这些轨迹是模型应该模仿的优质行为’这一强化学习视角，也难以处理示范质量不均和策略偏移。

Teng Xiao,Mingxiao Li,Yige Yuan,Huaisheng Zhu,Chao Cui,Vasant G. Honavar

alignmentself-imitationdemonstration-dataDOI DBLP

泛读EMNLP 2024

UNICORN: A Unified Causal Video-Oriented Language-Modeling Framework for Temporal Video-Language Tasks

这篇工作的核心问题是：时间相关的视频-语言任务被长期拆成理解、定位、描述等多个子任务分别做，导致模型目标不统一、时序信息难共享，也很难借到语言模型的成熟训练范式。作者试图把这类任务统一到一个因果式语言建模框架里，让视频时序建模和文本生成落在同一训练接口上。

Yuanhao Xiong,Yixin Nie,Haotian Liu,Boxin Wang,Jun Chen,Rong Jin,Cho-Jui Hsieh,Lorenzo Torresani,Jie Lei

video-languagecausal-lmunified-modelingDOI DBLP

泛读EMNLP 2024

BPO: Staying Close to the Behavior LLM Creates Better Online LLM Alignment

这篇工作的结论从标题就很明确：在线对齐时不要让策略模型偏离行为模型太远，否则训练会变得不稳定且样本效率差。过去在线 RLHF/DPO 类方法常追求更激进的策略改进，但在奖励噪声、偏好模型偏差和分布移位同时存在时，过大的策略步长往往会放大奖励黑客和退化。

Wenda Xu,Jiachen Li,William Yang Wang,Lei Li

online-alignmentbehavior-regularizationrlhfDOI DBLP

泛读FindingsEMNLP 2024

MoE-I²: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition

Cheng Yang,Yang Sui,Jinqi Xiao,Lingyi Huang,Yu Gong,Yuanlin Duan,Wenqi Jia,Miao Yin,Yu Cheng,Bo Yuan

moepruninglow-rankDOI DBLP

精读EMNLP 2024

How do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads are Two Towers for Metric Learning

这篇工作要回答的是：LLM 是如何学会 in-context learning 的，尤其是 ICL 头里的 query/key 矩阵到底在做什么。以往解释 ICL 常停在功能描述，比如“复制示例模式”或“做隐式贝叶斯更新”，但如果能把 Q/K 明确解释成类似双塔度量学习，那就把一个模糊现象变成了可分析、可验证的机制假说。

Zeping Yu,Sophia Ananiadou

iclattentionmetric-learningDOI DBLP

精读EMNLP 2024

LIONs: An Empirically Optimized Approach to Align Language Models

这篇工作关注的核心问题是：现有 LLM alignment 配方往往流程重、超参敏感、复现成本高，而很多增益来自经验性细节组合，缺少一个经过系统优化的简洁方案。过去常见路线是 SFT+DPO/RLHF 的多阶段堆叠，但不同阶段之间经常互相牵制。

Xiao Yu,Qingyang Wu,Yu Li,Zhou Yu

alignmentrlhfpreference-optimizationDOI DBLP

泛读EMNLP 2024

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

Weichao Zhang,Ruqing Zhang,Jiafeng Guo,Maarten de Rijke,Yixing Fan,Xueqi Cheng

data-contaminationpretraining-datacalibrationDOI DBLP

泛读EMNLP 2024

Order of Magnitude Speedups for LLM Membership Inference

这篇工作要解决的核心问题很明确：把大模型成员推断从‘能做但太贵’变成‘可以常态化评估’。现有高质量 MIA 往往依赖训练多个 shadow models 去近似训练分布，这在 LLM 上成本高到难以用于日常隐私审计，所以真正卡住的不只是攻击效果，而是评估成本。

Rongting Zhang,Martín Bertrán,Aaron Roth

membership-inferenceprivacydata-contaminationDOI arXiv DBLP

泛读EMNLP 2024

Synthetic Knowledge Ingestion: Towards Knowledge Refinement and Injection for Enhancing Large Language Models

这篇工作要解决的是：LLM 已有知识的校正和外部新知识的注入，为什么总是效果不稳定。现有方案通常在 RAG、SFT、CPT 三条路里各自优化，但真正卡点往往不是‘注入方式’本身，而是原始知识源如何被转成适合模型学习的数据表示；如果表示粗糙，RAG 检索不到、SFT 学不牢、CPT 又容易代价过高或引入副作用。

Jiaxin Zhang,Wendi Cui,Yiran Huang,Kamalika Das,Kumar Sricharan

knowledge-editingsynthetic-datacontinual-learningDOI arXiv DBLP

泛读FindingsEMNLP 2024

PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models

这篇工作要解决的是 benchmark contamination detection 里一个常见但没处理好的问题：怎样在不知道训练集细节的情况下，可靠地区分‘模型真的泛化了’和‘模型见过题了’。现有检测方法常依赖启发式相似度、人工改写或少量 prompt probing，问题是统计显著性弱、分布控制不严，容易把能力强误判为污染，或把轻度污染漏掉。

Huixuan Zhang,Yun Lin,Xiaojun Wan

data-contaminationbenchmarkevaluationDOI arXiv DBLP

泛读FindingsEMNLP 2024

OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

这篇论文要解决的是：生成和检索在 LLM 体系里通常被分开训练、分开执行，导致需要两套模型或两次前向，系统复杂且效率低。很多实际任务并不是“先检索再生成”这么干净，而是要求模型一边生成答案，一边给出可用于检索的表示或标识；现有做法把这两件事拆开，既浪费计算，也让训练目标彼此脱节。

Jintian Zhang,Cheng Peng,Mengshu Sun,Xiang Chen,Lei Liang,Zhiqiang Zhang,Jun Zhou,Huajun Chen,Ningyu Zhang

retrievalgenerationunified-modelingDOI arXiv DBLP

泛读EMNLP 2024

Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism

这篇论文想解决的是 ICL 机制研究里一个长期存在的混乱：大家都在讨论 in-context learning 为什么有效，但经常把不同因素混在一起，导致结论彼此难比较。作者提出一个“坐标系”来理解 ICL，说明他们的目标不是再给一个局部解释，而是整理出一套能区分不同工作机制的分析框架。

Anhao Zhao,Fanghua Ye,Jinlan Fu,Xiaoyu Shen

in-context-learningmechanisminterpretabilityDOI DBLP

泛读EMNLP 2024

Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding

这篇论文要解决的是 speculative decoding 的一个效率瓶颈：草稿模型虽然能并行生成候选 token，但草稿通常还是按 token 粒度推进，导致可验证的前瞻长度有限。作者提出 phrase by phrase 生成更长 drafts，目标是在不破坏验证正确性的前提下，把 speculative decoding 的吞吐再往上推。

Weilin Zhao,Yuxiang Huang,Xu Han,Wang Xu,Chaojun Xiao,Xinrong Zhang,Yewei Fang,Kaihuo Zhang,Zhiyuan Liu,Maosong Sun

speculative-decodinginference-accelerationdraft-generationDOI DBLP

泛读EMNLP 2024

DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models

Ranchi Zhao,Zhen Leng Thai,Yifan Zhang,Shengding Hu,Jie Zhou,Yunqi Ba,Jie Cai,Zhiyuan Liu,Maosong Sun

data-qualitydata-engineeringcorpus-curationDOI DBLP

精读EMNLP 2024

Breaking Language Barriers: Cross-Lingual Continual Pre-Training at Scale

Wenzhen Zheng,Wenbo Pan,Xu Xu,Libo Qin,Li Yue,Ming Zhou

continual-pretrainingcross-lingualmultilingualDOI DBLP

泛读FindingsEMNLP 2024

SCA: Selective Compression Attention for Efficiently Extending the Context Window of Large Language Models

Huanran Zheng,Wei Zhu,Xiaoling Wang

long-contextattentioncompressionDOI DBLP

泛读EMNLP 2024

WPO: Enhancing RLHF with Weighted Preference Optimization

Wenxuan Zhou,Ravi Agrawal,Shujian Zhang,Sathish Reddy Indurthi,Sanqiang Zhao,Kaiqiang Song,Silei Xu,Chenguang Zhu

rlhfpreference-optimizationalignmentDOI DBLP

泛读FindingsEMNLP 2024

Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia

Zhejian Zhou,Jiayu Wang,Dahua Lin,Kai Chen

scaling-lawnumeracypythiaDOI DBLP

泛读EMNLP 2024

PSC: Extending Context Window of Large Language Models via Phase Shift Calibration

这篇论文关注长上下文扩展里的一个具体难点：把 RoPE 或类似位置编码直接外推到更长序列时，模型往往会出现注意力错位和性能崩塌。过去社区常用插值、NTK scaling、位置重标定等方法延长上下文窗口，但这些方法在超长区间经常需要重新训练或在局部/全局位置精度之间做痛苦权衡；PSC 试图用 phase shift calibration 来更稳地校准这种外推误差。

Wenqiao Zhu,Chao Xu,Lulu Wang,Jun Wu

long-contextcontext-extensionpositional-encodingDOI DBLP

泛读FindingsEMNLP 2024

Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective

这篇工作要解决的是 MLLM 在 VQA 中过度依赖单模态偏置的问题，也就是模型看起来在做多模态推理，实际上可能只是顺着语言先验或视觉捷径在猜答案。过去这类问题通常靠构造对抗样本或错误案例分析来讨论，但缺少一个能量化“语言偏置/视觉偏置到底对结果贡献了多少”的框架。

Meiqi Chen,Yixin Cao,Yan Zhang,Chaochao Lu

multimodalhallucinationcausal-analysisDOI arXiv DBLP

泛读EMNLP 2024

Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment

这篇工作要解决的是 LLM 对齐训练里的参数冗余问题：SFT 或偏好优化时，并不是全模型参数都需要被强烈更新，盲目全量优化容易把模型往训练集里的表面风格和偶然模式上拉过去。作者的出发点很直接：如果只有一小部分参数真正承载与人类偏好相关的更新，全量对齐既低效，也更容易过拟合。

Zhipeng Chen,Kun Zhou,Xin Zhao,Jingyuan Wang,Ji-Rong Wen

alignmentfine-tuningparameter-efficiencyDOI arXiv DBLP

泛读EMNLP 2024

Unlocking Memorization in Large Language Models with Dynamic Soft Prompting

这篇工作要解决的是如何更准确地测量 LLM 的训练数据记忆，而不是只靠固定前缀或固定 soft prompt 去碰运气。已有方法的共同问题是提示是静态的，无法根据不同前缀动态调整，因此容易低估模型在特定上下文下被激活的记忆强度。

Zhepeng Wang,Runxue Bao,Yawen Wu,Jackson Taylor,Cao Xiao,Feng Zheng,Weiwen Jiang,Shangqian Gao,Yanfu Zhang

memorizationprivacysoft-promptDOI arXiv DBLP

泛读FindingsEMNLP 2024

An Open-Source Data Contamination Report for Large Language Models

这篇工作要解决的是 LLM 评测中的数据污染分析缺乏公开、统一且可复现的工具链，导致很多 benchmark 结果可能混杂了记忆效应，但外部研究者难以独立核查。过去污染分析多数掌握在模型开发方内部，方法和覆盖范围都不透明，因此“模型到底会不会做题”与“模型是不是见过题”经常分不开。

Yucheng Li,Yunhao Guo,Frank Guerin,Chenghua Lin

data-contaminationevaluationmemorizationDOI arXiv DBLP

泛读EMNLP 2024

Rethinking Token Reduction for State Space Models

这篇工作要解决的是现有 token reduction 方法直接套到 SSM，尤其是 Mamba 类模型上时效果明显失效的问题。虽然 token reduction 是后训练提效的直接手段，但 SSM 的状态传播机制与 Transformer 不同，简单删 token 往往会破坏时序状态累积，因此精度下降比在 Transformer 上更严重。

Zheng Zhan,Yushu Wu,Zhenglun Kong,Changdi Yang,Yifan Gong,Xuan Shen,Xue Lin,Pu Zhao,Yanzhi Wang

ssmlong-contextefficiencyDOI arXiv DBLP

FindingsEMNLP 2024

Private prediction for large-scale synthetic text generation

此前基于LLM的差分隐私合成文本生成要么需要训练隐私友好的生成模型（成本高），要么同隐私预算下仅能生成不足10条有效样本，不足以支撑下游预训练等需要大规模数据的场景。

Kareem Amin,Alex Bie,Weiwei Kong,Alexey Kurakin,Natalia Ponomareva,Umar Syed,Andreas Terzis,Sergei Vassilvitskii

privacysynthetic-datatext-generationDOI arXiv DBLP

泛读EMNLP 2024

Concept Space Alignment in Multilingual LLMs

多语言LLM的跨语言泛化机制缺乏明确量化解释，此前研究未系统对比不同模型、语言类型、概念类型下的语义对齐效果差异。

Qiwei Peng,Anders Søgaard

multilingualrepresentationgeneralizationDOI arXiv DBLP

泛读FindingsEMNLP 2024

Efficiently Computing Susceptibility to Context in Language Models

Tianyu Liu,Kevin Du,Mrinmaya Sachan,Ryan Cotterell

contextevaluationrobustnessDOI DBLP

泛读EMNLP 2024

When Context Leads but Parametric Memory Follows in Large Language Models

LLM在知识一致场景（上下文信息与参数记忆无冲突）下的知识调用权重分配缺乏系统量化结论，此前研究多关注知识冲突场景的优先级选择。

Yufei Tao,Adam Hiatt,Erik Haake,Antonie J. Jetter,Ameeta Agrawal

parametric-memorycontextknowledgeDOI arXiv DBLP

泛读EMNLP 2024

Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models

这篇论文的核心问题是：instruction tuning 之后，多任务能力究竟被写进了模型的哪些层，哪些任务是预训练已经会的，哪些任务是真正靠指令微调补进去的。过去大家更多看最终 benchmark，很少系统分析任务特定信息在层间如何分布，因此难以判断多任务泛化到底来自共享表示，还是来自少数层的任务适配。

Zheng Zhao,Yftah Ziser,Shay B. Cohen

multi-taskinstruction-tuningrepresentationDOI arXiv DBLP

泛读EMNLP 2024

From RAG to Riches: Retrieval Interlaced with Sequence Generation

这篇论文要解决的是：传统 RAG 把检索器和生成器拆成两个模块，适配新任务时往往要改检索器或重新训练，而这会引入级联误差和工程复杂度。作者想证明，检索可以直接变成受语料约束的生成过程，从而把 retrieval 和 reasoning/planning 合并到一次解码里完成。

Palak Jain,Livio Baldini Soares,Tom Kwiatkowski

ragretrievalgenerationDOI arXiv DBLP

泛读FindingsEMNLP 2024

Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models

这篇论文关注的是 synthetic data 并不天然等于高质量数据：大模型生成的数据会带来哪些缺陷，这些缺陷如何伤害后续模型训练，以及该怎么缓解。过去大家常把合成数据当作扩大 instruction / reasoning 数据规模的低成本手段，但真实问题是，模型会复制自身偏差、放大模式坍塌，并产生看似流畅但信息贫乏的训练样本。

Jie Chen,Yupeng Zhang,Bingning Wang,Xin Zhao,Ji-Rong Wen,Weipeng Chen

synthetic-datadata-qualityinstruction-tuningDOI DBLP

泛读EMNLP 2024

CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling

Yu Bai,Xiyuan Zou,Heyan Huang,Sanxing Chen,Marc-Antoine Rondeau,Yang Gao,Jackie C. K. Cheung

long-contextstate-evictionmemoryDOI DBLP

泛读FindingsEMNLP 2024

TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models

Chen Zhang,Chengguang Tang,Dading Chong,Ke Shi,Guohua Tang,Feng Jiang,Haizhou Li

teacher-studentiterative-finetuningdistillationDOI DBLP

泛读EMNLP 2024

ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models

Yash Akhauri,Ahmed F. AbouElhamayed,Jordan Dotzel,Zhiru Zhang,Alexander M. Rush,Safeen Huda,Mohamed S. Abdelfattah

sparsityinference-efficiencycontextual-pruningDOI DBLP

泛读EMNLP 2024

QUIK: Towards End-to-end 4-Bit Inference on Generative Large Language Models

Saleh Ashkboos,Ilia Markov,Elias Frantar,Tingxuan Zhong,Xincheng Wang,Jie Ren,Torsten Hoefler,Dan Alistarh

quantization4-bitinference-efficiencyDOI DBLP

泛读FindingsEMNLP 2024

Auto-Evolve: Enhancing Large Language Model's Performance via Self-Reasoning Framework

Krishna Aswani,Huilin Lu,Pranav Patankar,Priya Dhalwani,Xue Tan,Jayant Ganeshmohan,Simon Lacasse

self-improvementreasoningpost-trainingDOI DBLP

泛读FindingsEMNLP 2024

LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation

Seyedarmin Azizi,Souvik Kundu,Massoud Pedram

peftfine-tuninglow-rankDOI DBLP

泛读EMNLP 2024

Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning

Abhinav Bandari,Lu Yin,Cheng-Yu Hsieh,Ajay Jaiswal,Tianlong Chen,Li Shen,Ranjay Krishna,Shiwei Liu

pruningcalibration-datac4DOI DBLP

泛读FindingsEMNLP 2024

Improving LLM Attributions with Randomized Path-Integration

这篇工作要解决的是：如何给 LLM 的输出做更稳定、更可信的输入归因。现有基于梯度或积分路径的方法在离散 token 空间里常常噪声大、对路径选择敏感，而且容易把 attribution 变成一种看起来合理但不够可复现的事后解释。

Oren Barkan,Yehonatan Elisha,Yonatan Toib,Jonathan Weill,Noam Koenigstein

interpretabilityattributionexplainabilityDOI DBLP

泛读FindingsEMNLP 2024

LLM Explainability via Attributive Masking Learning

这篇工作想解决的是：让 LLM 的解释不只停留在事后打分，而是通过学习式 masking 直接找出真正支撑输出的输入片段。传统 attribution 多依赖梯度或启发式删除，往往缺少一个显式的学习目标去约束“哪些 token 必须保留，哪些可以去掉”。

Oren Barkan,Yonatan Toib,Yehonatan Elisha,Jonathan Weill,Noam Koenigstein

interpretabilitymaskingexplainabilityDOI DBLP

泛读EMNLP 2024

Discovering Knowledge-Critical Subnetworks in Pretrained Language Models

这篇工作关注的是：预训练语言模型里的知识到底分布在全网状参数中，还是存在对特定事实更关键的子网络。过去很多分析停留在 probing 或参数编辑层面，能说明模型会用知识，但不一定能定位‘哪一部分参数更关键’。

Deniz Bayazit,Negar Foroutan,Zeming Chen,Gail Weiss,Antoine Bosselut

subnetworkknowledgeplmDOI DBLP

泛读FindingsEMNLP 2024

InternalInspector I²: Robust Confidence Estimation in LLMs through Internal States

这篇工作要解决的是：LLM 的置信度估计不可靠，尤其在生成式问答里，token 概率往往不能代表答案是否真的对。外部校准信号常常昂贵或不可用，因此作者转向模型内部状态，试图从 hidden states 里直接估计回答可信度。

Mohammad Beigi,Ying Shen,Runing Yang,Zihao Lin,Qifan Wang,Ankith Mohan,Jianfeng He,Ming Jin,Chang-Tien Lu,Lifu Huang

uncertaintyconfidenceinternal-statesDOI DBLP

泛读FindingsEMNLP 2024

CoTAR: Chain-of-Thought Attribution Reasoning with Multi-level Granularity

这篇工作要解决的是：Chain-of-Thought 常被拿来解释模型推理，但现有 attribution 方法很难同时说明‘最终答案依赖了哪些证据’以及‘推理链中间每一步依赖了什么’。如果只给单层粒度解释，往往看不出 CoT 是真推理还是只是事后合理化。

Moshe Berchansky,Daniel Fleischer,Moshe Wasserblat,Peter Izsak

cotattributionreasoningDOI DBLP

泛读EMNLP 2024

Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations

这篇工作要解决的是：小模型在监督微调后往往只学到答案形式，学不到可迁移的推理过程，而直接蒸馏大模型解释又常常代价高、噪声大。作者关注的是一种更便宜的路径：让小模型基于自己的输出做事后解释，再把这些解释反过来用于提升模型能力。

Milan Bhan,Jean-Noël Vittaut,Nicolas Chesneau,Marie-Jeanne Lesot

self-improvementsmall-language-modelexplanationsDOI DBLP

泛读EMNLP 2024

GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation

这篇工作要解决的是当前多模态大模型对几何关系的理解和生成都不够原生：它们能描述物体，却不一定能稳定处理严格的几何约束。作者想把 geometric reasoning 与 geometric image generation 放进同一个多模态框架中，让模型不只会看图说话，还能围绕几何结构进行推理和生成。

Shihao Cai,Keqin Bao,Hangyu Guo,Jizhi Zhang,Jun Song,Bo Zheng

multimodalimage-generationgeometryDOI DBLP

泛读FindingsEMNLP 2024

Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning

LLM 微调几乎只用交叉熵损失，但计算机视觉领域已经发展出大量更优的损失函数（如 focal loss、label smoothing 等），这些损失是否能改善 LLM 微调效果，此前缺乏系统研究。

Daniele Rege Cambrin,Giuseppe Gallipoli,Irene Benedetto,Luca Cagliero,Paolo Garza

Politecnico di Torinofine-tuningloss-functionoptimizationDOI DBLP

泛读EMNLP 2024

Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism

LLM 在面对超出其知识范围的问题时倾向于编造答案（幻觉），而非拒绝回答。如何让模型学会识别自身知识边界并主动拒绝，是提升可靠性的关键问题。

Lang Cao

alignmentrefusalcontrollabilityDOI DBLP

泛读FindingsEMNLP 2024

Pre-trained Language Models Return Distinguishable Probability Distributions to Unfaithfully Hallucinated Texts

LLM 生成幻觉文本时，其输出的概率分布是否与忠实文本有可区分的差异？这篇工作从概率分布的角度分析幻觉检测的可行性，核心假设是幻觉文本对应的 token 概率分布具有可识别的特征。

Taehun Cha,Donghun Lee

hallucinationuncertaintyprobabilityDOI DBLP

泛读FindingsEMNLP 2024

Can Textual Unlearning Solve Cross-Modality Safety Alignment?

多模态 LLM 的安全对齐通常只在文本模态上做（textual unlearning），但攻击者可以通过视觉模态绕过文本层面的安全限制。这篇工作研究文本 unlearning 能否解决跨模态的安全对齐问题。

Trishna Chakraborty,Erfan Shayegani,Zikui Cai,Nael B. Abu-Ghazaleh,M. Salman Asif,Yue Dong,Amit K. Roy-Chowdhury,Chengyu Song

UC RiversidemultimodalunlearningsafetyDOI DBLP

泛读EMNLP 2024

When Parts Are Greater Than Sums: Individual LLM Components Can Outperform Full Models

这篇论文的核心发现是：在 in-context learning 里，完整 LLM 的输出并不总是优于其内部单个组件，一些 attention head 或 MLP 单独做分类甚至能超过整模。过去大家通常把 ICL 视为整体前向过程涌现出的能力，这篇工作则追问能力是否被少数组件承载，以及整模为何会被其他组件拖后腿。

Ting-Yun Chang,Jesse Thomason,Robin Jia

iclinterpretabilityattention-headsDOI arXiv DBLP

泛读FindingsEMNLP 2024

Step-level Value Preference Optimization for Mathematical Reasoning

这篇论文要解决的是：DPO 只用整条回答的偏好标签，在数学推理这类多步任务上监督过粗，无法告诉模型“哪一步错、错得多严重”。过去这类问题要么靠结果级 preference 勉强学，要么回到 RL+过程奖励，但后者标注和训练都更重。

Guoxin Chen,Minpeng Liao,Chengxi Li,Kai Fan

dpomath-reasoningstep-level-rewardDOI arXiv DBLP

泛读FindingsEMNLP 2024

Skills-in-Context: Unlocking Compositionality in Large Language Models

这篇论文要解决的核心问题应该是：LLM 往往能学会单一技能，但把多个技能在上下文中组合起来时表现并不稳定，如何释放 compositionality。以往很多工作用 chain-of-thought 或工具调用绕过组合难题，但模型是否能通过 prompt 中给出的技能示例真正学会“按需拼装能力”，仍是关键问题。

Jiaao Chen,Xiaoman Pan,Dian Yu,Kaiqiang Song,Xiaoyang Wang,Dong Yu,Jianshu Chen

compositionalityiclskills-in-contextDOI DBLP

泛读EMNLP 2024

Speechworthy Instruction-tuned Language Models

Hyundong Cho,Nicolaas Paul Jedema,Leonardo F. R. Ribeiro,Karishma Sharma,Pedro A. Szekely,Alessandro Moschitti,Ruben Janssen,Jonathan May

speechinstruction-tuningaudio-llmDOI DBLP

泛读FindingsEMNLP 2024

TransferCVLM: Transferring Cross-Modal Knowledge for Vision-Language Modeling

Dongha Choi,Jung-Jae Kim,Hyunju Lee

vlmcross-modal-transfermultimodal-pretrainingDOI DBLP

泛读FindingsEMNLP 2024

Beyond Fine-tuning: Unleashing the Potential of Continuous Pretraining for Clinical LLMs

Clément Christophe,Tathagata Raha,Svetlana Maslenkova,Muhammad Umar Salman,Praveen K. Kanithi,Marco AF Pimentel,Shadab Khan

continual-pretrainingdomain-adaptationclinicalDOI DBLP

泛读EMNLP 2024

Distributional Properties of Subword Regularization

Marco Cognetta,Vilém Zouhar,Naoaki Okazaki

tokenizersubword-regularizationdistributionDOI DBLP

泛读FindingsEMNLP 2024

Ada-Instruct: Adapting Instruction Generators for Complex Reasoning

这篇工作解决的是：如何让 instruction generator 生成更适合复杂推理训练的数据，而不是停留在表层改写和简单问答。过去很多指令数据合成方法默认生成器本身就会推理，结果常见问题是题目复杂度不够、解法模式单一、错误链条被直接蒸馏进学生模型。

Wanyun Cui,Qianle Wang

instruction-datadata-synthesisreasoningDOI DBLP

泛读EMNLP 2024

Improve Student's Reasoning Generalizability through Cascading Decomposed CoTs Distillation

这篇工作要解决的是：如何把教师模型的 CoT 蒸馏给学生模型，同时提升学生在新题型上的推理泛化，而不是只学会复述训练集里的思维模板。传统 CoT distillation 常见的问题是学生过拟合教师轨迹表面形式，遇到分布变化时推理步骤会塌。

Chengwei Dai,Kun Li,Wei Zhou,Songlin Hu

cotdistillationreasoningDOI DBLP

泛读FindingsEMNLP 2024

Self-Recognition in Language Models

这篇工作研究的是：语言模型是否具备 self-recognition，也就是能否识别关于自身身份、来源、能力或生成内容的相关信息。这个问题过去常被拿来做趣味演示，但如果严肃分析，它涉及模型是否形成了稳定的自我表征，还是只是从训练语料中拼接出高频自述模板。

Tim R. Davidson,Viacheslav Surkov,Veniamin Veselovsky,Giuseppe Russo,Robert West,Caglar Gulcehre

self-referencellm-behaviorgeneralizationDOI DBLP

泛读EMNLP 2024

Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations

这篇工作关注的是：当模型不知道答案时，如何不只是机械地说'I don't know'，而是给出带解释的、对用户有用的未知响应。现有拒答对齐通常把'不知道'当成单一模板，结果要么过度保守，要么解释不充分，用户体验和校准都不理想。

Yang Deng,Yong Zhao,Moxin Li,See-Kiong Ng,Tat-Seng Chua

self-alignmentuncertaintyhallucinationDOI DBLP

泛读EMNLP 2024

A Simple and Effective L_2 Norm-Based Strategy for KV Cache Compression

这篇工作解决的是：如何用非常简单的策略压缩 KV cache，同时尽量不伤害生成质量。长上下文推理和 serving 的主要瓶颈之一就是 KV cache 占用，而很多压缩方法要么需要额外训练，要么实现复杂，不利于真实部署。

Alessio Devoto,Yu Zhao,Simone Scardapane,Pasquale Minervini

kv-cachecompressioninferenceDOI DBLP

泛读IndustryEMNLP 2024

Can Machine Unlearning Reduce Social Bias in Language Models?

这篇工作研究的核心问题是：machine unlearning 除了删除特定知识，是否还能顺带减少语言模型中的社会偏见。过去 unlearning 主要面向版权、隐私和安全删除，偏见缓解通常走数据再平衡或对齐路线，这两条线很少被系统地放到一起讨论。

Omkar Dige,Diljot Arneja,Tsz Fung Yau,Qixuan Zhang,Mohammad Bolandraftar,Xiaodan Zhu,Faiza Khan Khattak

unlearningbiasalignmentDOI DBLP

泛读FindingsEMNLP 2024

RoQLlama: A Lightweight Romanian Adapted Language Model

这篇工作解决的是：如何以较低成本构建一个适配罗马尼亚语的轻量语言模型，而不是简单依赖英语中心模型的零样本迁移。对中小语种来说，通用大模型往往覆盖不足、tokenization 低效、语法和词形变化处理不理想，因此需要本地化适配方案。

George-Andrei Dima,Andrei-Marius Avram,Cristian-George Craciun,Dumitru-Clementin Cercel

open-llmmultilingualadaptationDOI DBLP

泛读EMNLP 2024

SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

这篇工作要解决的是：如何用检索增强的方式自动合成既多样又有任务价值的数据集。现有数据合成常见的问题是模式坍塌，模型会反复生成高频模板；而纯人工构造又太慢、太贵，难以覆盖长尾现象，所以作者把重点放在“生成时就显式拉开样本分布”。

Abhishek Divekar,Greg Durrett

University of Texas at Austinsynthetic-dataretrieval-augmentationdata-generationDOI DBLP

泛读EMNLP 2024

Re-ReST: Reflection-Reinforced Self-Training for Language Agents

这篇工作要解决的是：如何让语言 agent 在缺少高质量人工轨迹的情况下，通过自训练持续变强。普通 self-training 往往会把 agent 早期错误反复放大，尤其在多步决策任务里，一旦中间步骤错了，后续数据就全是带偏的；因此关键不是单纯生成更多轨迹，而是生成前后都有质量控制。

Zi-Yi Dou,Cheng-Fu Yang,Xueqing Wu,Kai-Wei Chang,Nanyun Peng

self-trainingreflectionlanguage-agentsDOI DBLP

泛读FindingsEMNLP 2024

Exploring the Relationship between In-Context Learning and Instruction Tuning

Hanyu Duan,Yixuan Tang,Yi Yang,Ahmed Abbasi,Kar Yan Tam

in-context-learninginstruction-tuningicl-mechanismDOI DBLP

泛读EMNLP 2024

CUTE: Measuring LLMs' Understanding of Their Tokens

Lukas Edman,Helmut Schmid,Alexander Fraser

tokenizertoken-understandingllm-evaluationDOI DBLP

泛读EMNLP 2024

Chain and Causal Attention for Efficient Entity Tracking

Erwan Fagnou,Paul Caillon,Blaise Delattre,Alexandre Allauzen

attention-mechanismentity-trackingcausal-attentionDOI DBLP

泛读FindingsEMNLP 2024

Reformatted Alignment

Run-Ze Fan,Xuefeng Li,Haoyang Zou,Junlong Li,Shwai He,Ethan Chern,Jiewen Hu,Pengfei Liu

alignmentdata-formattinginstruction-dataDOI DBLP

泛读EMNLP 2024

Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models

Mehrdad Farahani,Richard Johansson

ragparametric-memorynon-parametric-memoryDOI DBLP

泛读FindingsEMNLP 2024

On the Similarity of Circuits across Languages: a Case Study on the Subject-verb Agreement Task

这篇工作研究的是：语言模型内部用于完成同一语法功能的 circuit，跨语言到底有多相似。以主谓一致任务为例，过去 mechanistic interpretability 更多在英语里找电路、找头、找 MLP，但很少验证这些机制是否能迁移到其他语言，因此我们并不清楚模型学到的是语言无关算法，还是语言特定启发式。

Javier Ferrando,Marta R. Costa-jussà

circuitscross-lingualsubject-verb-agreementDOI DBLP

泛读FindingsEMNLP 2024

Learning to Paraphrase for Alignment with LLM Preference

这篇工作想解决的是：偏好对齐里，模型往往知道用户更喜欢哪种表达，但不擅长把同一语义改写成更符合偏好的表述。传统 alignment 多直接优化 response selection 或奖励最大化，默认生成空间已经足够好；作者则把问题转成‘学会改写’，用 paraphrase 去贴近 LLM preference。

Junbo Fu,Guoshuai Zhao,Yimin Deng,Yunqi Mi,Xueming Qian

alignmentpreferencesparaphraseDOI DBLP

泛读FindingsEMNLP 2024

ATQ: Activation Transformation forWeight-Activation Quantization of Large Language Models

这篇工作解决的是 LLM 量化里一个核心痛点：weight-activation 共同量化时，激活分布往往比权重更难处理，少数异常值会显著放大量化误差，导致低比特部署质量快速下降。很多方法通过逐层校准或只量化权重绕开这个问题，但那会牺牲吞吐、内存收益或适用范围，因此作者提出用激活变换先把分布整理到更适合量化的形状。

Yundong Gai,Ping Li

quantizationw4a4inferenceDOI DBLP

泛读FindingsEMNLP 2024

Local and Global Decoding in Text Generation

这篇工作讨论的是文本生成里一个经典但一直没解决好的矛盾：局部解码策略优化的是每一步 token 选择，全局质量却取决于整段文本的结构、连贯性和约束满足。过去大家通常在 greedy、beam、sampling 之间做工程折中，但这些方法大多把目标函数近似成局部决策，因而会出现局部看起来合理、全局却跑偏的问题。

Daniel Gareev,Thomas Hofmann,Ezhilmathi Krishnasamy,Tiago Pimentel

decodinggenerationinferenceDOI DBLP

泛读EMNLP 2024

Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation

这篇工作要解决的是指令数据筛选中的一个常见失衡：只按质量打分做 top-k selection，往往会把数据集压成少数高频模式，导致多样性下降、覆盖面变窄。过去很多工作把 instruction tuning 数据选择当成单目标排序问题处理，但高质量和高多样性并不天然一致，因此作者试图把两者同时保住。

Yuan Ge,Yilun Liu,Chi Hu,Weibin Meng,Shimin Tao,Xiaofeng Zhao ... 省略 3 位作者 ... ,Hao Yang,Bei Li,Tong Xiao,JingBo Zhu

instruction-datadata-selectionalignmentDOI DBLP

泛读EMNLP 2024

Can Large Language Models Learn Independent Causal Mechanisms?

这篇工作要回答的是：LLM 能不能学到独立因果机制，而不是只记住表面相关性。过去大家常用 benchmark 分数证明模型‘会推理’，但很多任务允许靠统计捷径过关；真正更难的问题是，当环境组合变化、机制重组时，模型是否还能保持泛化，这正是独立因果机制假说关心的点。

Gaël Gendron,Bao Trung Nguyen,Alex Yuxuan Peng,Michael J. Witbrock,Gillian Dobbie

causalitygeneralizationmechanistic-understandingDOI DBLP

泛读FindingsEMNLP 2024

Compare without Despair: Reliable Preference Evaluation with Generation Separability

这篇工作关注偏好评测中的一个实际问题：当两个候选回答非常相近时，评委模型的比较结果会变得不稳定，导致 preference evaluation 噪声很大。过去常见做法是假设任意两段输出都能可靠比较，但现实里很多 pair 的差异小到接近随机，因此作者提出要先考虑 generation separability，再谈偏好判断的可信度。

Sayan Ghosh,Tejas Srinivasan,Swabha Swayamdipta

preference-evaluationalignmentreward-modelDOI DBLP

泛读EMNLP 2024

A Morphology-Based Investigation of Positional Encodings

Poulami Ghosh,Shikhar Vashishth,Raj Dabre,Pushpak Bhattacharyya

positional-encodingtokenizationmorphologyDOI DBLP

泛读IndustryEMNLP 2024

Arcee's MergeKit: A Toolkit for Merging Large Language Models

Charles Goddard,Shamane Siriwardhana,Malikeh Ehghaghi,Luke Meyers,Vladimir Karpukhin,Brian Benedict,Mark McQuade,Jacob Solawetz

model-mergingcheckpointalignmentDOI DBLP

泛读IndustryEMNLP 2024

LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit

Ruihao Gong,Yang Yong,Shiqiao Gu,Yushi Huang,Chengtao Lv,Yunchen Zhang,Dacheng Tao,Xianglong Liu

quantizationbenchmarkcompressionDOI DBLP

泛读EMNLP 2024

Estimating Knowledge in Large Language Models Without Generating a Single Token

这篇论文要解决的问题是：能不能不让模型真正生成答案，只靠前向打分就估计它是否“知道”某个事实。传统做法通常把“是否知道”近似成“能不能在生成时说出来”，但生成会混入解码策略、表述习惯和长度偏置，导致知识表征与输出行为缠在一起；作者想把这两件事拆开，直接测模型内部对候选知识的偏好。

Daniela Gottesman,Mor Geva

knowledge-probingevaluationrepresentationDOI DBLP

泛读EMNLP 2024

Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue

这篇论文要解决的问题是：模型编辑虽然能快速修正特定事实，但经常伤害模型的一般能力，尤其是邻域知识和原有语言能力。过去不少编辑工作把重点放在 edit success 和 locality 上，却较少系统处理“改对一个点，别处别坏掉”这个更难的稳定性问题。

Jia-Chen Gu,Hao-Xiang Xu,Jun-Yu Ma,Pan Lu,Zhen-Hua Ling,Kai-Wei Chang,Nanyun Peng

model-editingregularizationcatastrophic-forgettingDOI DBLP

泛读EMNLP 2024

RWKV-CLIP: A Robust Vision-Language Representation Learner

这篇论文要解决的问题是：在视觉-语言表示学习里，Transformer 并不是唯一选择，RWKV 这类线性时间架构能否在保持鲁棒性的同时获得有竞争力的跨模态表示。过去 VLM 表征学习几乎默认建立在自注意力之上，但长序列成本和鲁棒性问题一直存在，尤其在大规模检索或高分辨率设置下更明显。

Tiancheng Gu,Kaicheng Yang,Xiang An,Ziyong Feng,Dongnan Liu,Weidong Cai,Jiankang Deng

vlmrepresentation-learningrwkvDOI DBLP

泛读EMNLP 2024

CoGen: Learning from Feedback with Coupled Comprehension and Generation

这篇论文要解决的问题是：从反馈学习时，理解反馈和据此生成改进输出通常被拆成两个弱耦合步骤，导致学习信号利用不足。以往做法常把反馈当作额外监督文本或偏好标签，但模型未必真正学会‘读懂反馈并把它转成可执行修改’。

Mustafa Omer Gul,Yoav Artzi

learning-from-feedbackgenerationcomprehensionDOI DBLP

泛读EMNLP 2024

Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction: Value Also Matters

这篇论文要解决的问题是：KV cache 压缩时只看 attention score 来判断 token 重要性是不够的，因为 value 向量本身携带的信息量也会决定删掉 token 的损失。很多现有方法默认‘被 attend 得多就重要’，但这只反映 query-key 匹配强弱，不反映该 token 一旦参与聚合后到底贡献了多少有效内容。

Zhiyu Guo,Hidetaka Kamigaito,Taro Watanabe

kv-cacheattentioninferenceDOI DBLP

泛读FindingsEMNLP 2024

A Unified Framework for Model Editing

这篇论文的核心结论是：ROME 和 MEMIT 并不是两套本质不同的模型编辑算法，而是在同一个 preservation-memorization 目标下采用了不同约束形式。过去社区通常把两者视为单点编辑与批量编辑的两条路线，但作者指出它们优化的是同一类问题，差异主要来自等式约束与最小二乘约束的选择。

Akshat Gupta,Dev Sajnani,Gopala Anumanchipalli

model-editingunificationmemoryDOI arXiv DBLP

泛读FindingsEMNLP 2024

Semi-Supervised Reward Modeling via Iterative Self-Training

这篇工作解决的是：奖励模型训练过度依赖人工偏好标注，成本高且扩展性差，而大量未标注比较数据没有被有效利用。过去常见做法要么只做全监督 RM，要么把半监督信号用得很浅，导致对齐流水线的瓶颈长期卡在标签获取上。

Yifei He,Haoxiang Wang,Ziyan Jiang,Alexandros Papangelis,Han Zhao

reward-modelsemi-supervisedrlhfDOI arXiv DBLP

泛读EMNLP 2024

SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models

这篇工作解决的是：LLM 持续学习里常见的数据回放虽然有效，但仍需要较多旧任务样本来抑制遗忘，因为现有方法没有充分利用模型内部已经保存的旧知识。作者的切入点是注意力权重：如果某些注意力模式承载了关键旧知识，只靠少量 replay token 未必能把它们保住。

Jinghan He,Haiyun Guo,Kuan Zhu,Zihan Zhao,Ming Tang,Jinqiao Wang

continual-learningknowledge-retentiondistillationDOI arXiv DBLP

泛读EMNLP 2024

CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification

这篇工作解决的是：边缘设备部署 LLM 时，激活稀疏化能省算力和内存，但现有基于阈值的做法只看激活统计，不显式建模稀疏化对性能的影响，所以常常在精度和速度之间取不到好点。过去的方法更像启发式裁剪，缺少“裁掉哪个通道最不伤性能”的目标化设计。

Junhui He,Shangyu Wu,Weidong Wen,Chun Jason Xue,Qingan Li

activation-sparsityinference-efficiencyquantizationDOI arXiv DBLP

泛读FindingsEMNLP 2024

Editing the Mind of Giants: An In-Depth Exploration of Pitfalls of Knowledge Editing in Large Language Models

Cheng-Hsun Hsueh,Paul Kuo-Ming Huang,Tzu-Han Lin,Che-Wei Liao,Hung-Chieh Fang,Chao-Wei Huang,Yun-Nung Chen

knowledge-editingmodel-editingreliabilityDOI DBLP

泛读FindingsEMNLP 2024

Large Language Models are Limited in Out-of-Context Knowledge Reasoning

Peng Hu,Changjiang Gao,Ruiqi Gao,Jiajun Chen,Shujian Huang

reasoningknowledgegeneralizationDOI DBLP

泛读EMNLP 2024

MOSEL: Inference Serving Using Dynamic Modality Selection

Bodun Hu,Le Xu,Jeongyoon Moon,Neeraja J. Yadwadkar,Aditya Akella

servingmultimodalinferenceDOI DBLP

泛读FindingsEMNLP 2024

mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

Anwen Hu,Haiyang Xu,Jiabo Ye,Ming Yan,Liang Zhang,Bo Zhang,Ji Zhang,Qin Jin,Fei Huang,Jingren Zhou

document-understandingocr-freemultimodalDOI DBLP

泛读FindingsEMNLP 2024

Enhancing Temporal Modeling of Video LLMs via Time Gating

Zi-Yuan Hu,Yiwu Zhong,Shijia Huang,Michael R. Lyu,Liwei Wang

video-llmtemporal-modelingarchitectureDOI DBLP

泛读FindingsEMNLP 2024

Calibrating Long-form Generations From Large Language Models

Yukun Huang,Yixin Liu,Raghuveer Thirukovalluru,Arman Cohan,Bhuwan Dhingra

calibrationlong-formgenerationDOI DBLP

泛读FindingsEMNLP 2024

RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization

这篇工作解决的是量化友好微调与 LoRA 适配之间的冲突，尤其是权重-激活联合量化时由离群值带来的误差放大。传统 PTQ/QAT 常能通过旋转或重参数化减弱 outlier，但一旦再加 LoRA 微调，分布会重新变坏，导致低比特量化精度掉得很快。

Xijie Huang,Zechun Liu,Shih-Yang Liu,Kwang-Ting Cheng

quantizationloraweight-activationDOI DBLP

泛读EMNLP 2024

Uncertainty in Language Models: Assessment through Rank-Calibration

这篇工作关注语言模型不确定性的评估方式，核心是用 rank-calibration 而不是只看概率校准。传统校准常假设模型给出的概率本身可直接解释，但在开放词表生成里，概率质量分散、候选集巨大，单纯比较置信度与准确率往往不能真实反映生成分布是否可靠。

Xinmeng Huang,Shuo Li,Mengxin Yu,Matteo Sesia,Hamed Hassani,Insup Lee,Osbert Bastani,Edgar Dobriban

uncertaintycalibrationrank-basedDOI DBLP

泛读EMNLP 2024

Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models

这篇工作解决的是 speculative decoding 或 assistant-based acceleration 里的一个实际瓶颈：不同输入最适合的 assistant 模型并不一样，固定选一个小模型做代理会导致有些样本加速明显，有些样本反而因拒绝率高而收益很差。问题不在于有没有 assistant，而在于如何按上下文动态选对 assistant。

Jerry Huang,Prasanna Parthasarathi,Mehdi Rezagholizadeh,Sarath Chandar

inferenceaccelerationassistant-modelDOI DBLP

泛读EMNLP 2024

Commonsense Knowledge Editing Based on Free-Text in LLMs

这篇工作关注常识知识编辑，但编辑信号来自 free-text，而不是结构化三元组或标准问答对。现有知识编辑方法常依赖格式化 supervision，因此在真实场景下很受限；用户通常给的是自然语言说明、纠错或补充，模型需要从这类非结构化文本中抽取并写入新知识。

Xiusheng Huang,Yequan Wang,Jun Zhao,Kang Liu

knowledge-editingfree-textmodel-editingDOI DBLP

泛读EMNLP 2024

MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model

这篇工作关注的核心问题是：多模态大模型里是否存在可定位、可解释的“领域特异神经元”，以及如何在神经元级别识别它们。以往多模态解释通常停在 attention map、样例归因或概念级分析，难以回答模型到底把某类领域知识存在哪些内部单元里。

Jiahao Huo,Yibo Yan,Boren Hu,Yutao Yue,Xuming Hu

multimodalinterpretabilityneuronsDOI DBLP

泛读EMNLP 2024

Standardize: Aligning Language Models with Expert-Defined Standards for Content Generation

这篇工作要解决的是：如何让语言模型生成内容时对齐到由专家明确定义的标准，而不是只靠通用偏好数据或模糊的人类反馈。很多对齐方法学到的是‘大众觉得像好回答’，但在教育、专业写作、政策文本等场景，真正重要的是是否满足可审计、可复用的明确规范。

Joseph Marvin Imperial,Gail Forey,Harish Tayyar Madabushi

alignmentcontent-generationstandardsDOI DBLP

泛读FindingsEMNLP 2024

SpeciaLex: A Benchmark for In-Context Specialized Lexicon Learning

这篇工作的核心问题是：语言模型能否仅通过上下文，在专业场景里快速学会新的术语词表及其用法。通用 benchmark 往往默认词汇已在预训练里出现，但真实专业任务常常恰恰难在新术语、新缩写和领域特定义项，这类能力以前缺少专门、干净的评测集。

Joseph Marvin Imperial,Harish Tayyar Madabushi

in-context-learningbenchmarklexiconDOI DBLP

泛读EMNLP 2024

Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs

这篇工作要解决的是：给 tool-using LLM 造合成数据时，真正决定效果的是数据量，还是数据质量。很多工具调用训练都依赖大量 synthetic traces，但业界常见做法是先堆规模，较少系统分析这些样本是否真的教会了模型正确的 API 选择、参数填充和错误恢复。

Shadi Iskander,Sofia Tolmach,Ori Shapira,Nachshon Cohen,Zohar S. Karnin

synthetic-datatool-usedata-qualityDOI DBLP

泛读EMNLP 2024

FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping

这篇工作的核心问题是：自回归解码时，除了常见的 attention/KV-cache 优化，前馈网络（FFN）能不能按 token 自适应跳过，从而进一步降延迟。现有推理加速大多盯着 attention，因为它和上下文长度强相关；但在很多实际设置里，FFN 仍占据大量计算，却较少被动态利用。

Ajay Jaiswal,Bodun Hu,Lu Yin,Yeonju Ro,Tianlong Chen,Shiwei Liu,Aditya Akella

decodinginferenceefficiencyDOI DBLP

泛读EMNLP 2024

SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning

这篇工作的核心问题是：大模型遗忘（unlearning）为什么往往效果差、代价高，以及二阶优化能否更有效地移除指定知识或数据影响。现有 unlearning 方法常用一阶近似、再训练或简单对抗更新，问题是更新方向粗糙，既可能遗忘不彻底，也容易破坏无关能力。

Jinghan Jia,Yihua Zhang,Yimeng Zhang,Jiancheng Liu,Bharat Runwal,James Diffenderfer,Bhavya Kailkhura,Sijia Liu

unlearningoptimizationsecond-orderDOI DBLP

泛读EMNLP 2024

Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision

跨语言开放域问答（ODQA）缺乏大规模标注数据，尤其是非英语语言的监督信号极度稀缺，以往工作要么依赖机器翻译、要么只在英语上预训练再零样本迁移，效果有限。

Fan Jiang,Tom Drummond,Trevor Cohn

University of Melbournesynthetic-datacross-lingualqaDOI DBLP

泛读FindingsEMNLP 2024

Scaling Sentence Embeddings with Large Language Models

句子嵌入模型的质量长期受限于编码器规模和训练方法，LLM 时代如何利用大语言模型的表示能力来提升句子嵌入，是一个尚未充分探索的问题。以往句子嵌入主要基于 BERT 级别模型，规模受限。

Ting Jiang,Shaohan Huang,Zhongzhi Luan,Deqing Wang,Fuzhen Zhuang

Microsoft ResearchBeihang Universitysentence-embeddingscalingllmDOI DBLP

泛读EMNLP 2024

A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners

LLM 在推理任务上的表现可能被 token 偏置（token bias）所夸大——模型并非真正在做逻辑推理，而是利用了选项标签、位置等表面线索。这个问题以前被部分注意到但缺乏系统性验证。

Bowen Jiang,Yangxinyu Xie,Zhuoqun Hao,Xiaomeng Wang,Tanwi Mallick,Weijie Su,Camillo J. Taylor,Dan Roth

reasoningtoken-biasmechanistic-analysisDOI DBLP

泛读FindingsEMNLP 2024

In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models

指令微调（instruction finetuning）的数据选择问题：从大规模指令数据中选出最有价值的子集（coreset），以降低训练成本同时保持甚至提升模型质量。以往的 coreset 选择方法多基于启发式或简单的多样性指标，缺乏理论指导。

Ayrton San Joaquin,Bin Wang,Zhengyuan Liu,Philippe Muller,Nicholas Asher,Brian Lim,Nancy F. Chen

Salesforce ResearchIRIT, Université de Toulousecoreset-selectioninstruction-tuninginfluence-functionsDOI DBLP

泛读FindingsEMNLP 2024

Evolutionary Contrastive Distillation for Language Model Alignment

LLM 对齐（alignment）中，如何高效地从偏好数据中蒸馏出更好的对齐信号？现有的对比蒸馏方法（如 DPO）在数据利用效率和训练稳定性上仍有改进空间。

Julian Katz-Samuels,Zheng Li,Hyokun Yun,Priyanka Nigam,Yi Xu,Vaclav Petricek,Bing Yin,Trishul Chilimbi

Amazonalignmentcontrastive-distillationevolutionaryDOI DBLP

泛读EMNLP 2024

Backward Lens: Projecting Language Model Gradients into the Vocabulary Space

这篇工作要解决的是：怎样把语言模型参数梯度解释成“词表层面”的可读信号。以往分析训练动态时，大家通常看参数梯度范数、层间分布或 loss 变化，但这些量很难直接回答“模型此时到底在把哪些词推高、把哪些词压低”。作者试图把反向传播重新投影回 vocabulary space，让梯度分析从参数空间转到 token 语义空间。

Shahar Katz,Yonatan Belinkov,Mor Geva,Lior Wolf

interpretabilitygradient-projectionvocabulary-spaceDOI DBLP

泛读FindingsEMNLP 2024

Pruning Multilingual Large Language Models for Multilingual Inference

这篇工作要解决的是：多语大模型虽然有较强翻译和跨语对齐能力，但非英语 zero-shot 推理仍明显弱于英语，能否利用模型内部的跨语对齐机制来缩小这个差距。传统改进路径通常靠更多多语数据或指令微调，但作者认为模型已经学到了一部分语言对齐，只是推理时没有被有效利用。

Hwichan Kim,Jun Suzuki,Tosho Hirasawa,Mamoru Komachi

pruningmultilingualllm-compressionDOI arXiv DBLP

泛读FindingsEMNLP 2024

PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning

这篇工作要解决的是：生成式语言模型的知识蒸馏为什么一直不够好，尤其学生模型往往学不到“对自己可学”的教师知识。过去在分类模型里，student-friendly knowledge distillation 已经证明有用，但在生成式 LM 上很少有人系统做，因为直接改教师模型成本高，而且 token 级生成分布比分类 logits 更难蒸馏。作者想把这条路线带到 generative LM 上。

Gyeongman Kim,Doohyuk Jang,Eunho Yang

knowledge-distillationprompt-tuningllm-compressionDOI arXiv DBLP

泛读EMNLP 2024

Aligning Language Models to Explicitly Handle Ambiguity

这篇工作要解决的是：现有语言模型对用户输入中的歧义处理不够显式，常常在本该澄清时直接假设一种解释继续回答。过去的对齐训练大多强调 helpfulness 和 harmlessness，但很少把“识别并处理 ambiguity”单独作为训练目标，因此模型面对省略、指代不清或背景依赖强的输入时，容易输出看似流畅但前提错误的回答。

Hyuhng Joon Kim,Youna Kim,Cheonbok Park,Junyeob Kim,Choonghyun Park,Kang Min Yoo,Sang-goo Lee,Taeuk Kim

alignmentambiguityinstruction-tuningDOI arXiv DBLP

泛读FindingsEMNLP 2024

MELT: Materials-aware Continued Pre-training for Language Model Adaptation to Materials Science

这篇工作要解决的是：材料科学领域的 continued pretraining 不能只靠堆领域语料，因为材料文本的术语结构和知识组织方式与一般科学文本差异很大。过去做领域适配时，常见做法是直接拿 domain corpus 继续训，但这会把训练信号平均化，模型不一定按由浅入深的方式吸收材料概念，导致适配效率不高。

Junho Kim,Yeachan Kim,Jun-Hyung Park,Yerim Oh,Suho Kim,SangKeun Lee

continued-pretrainingdomain-adaptationdata-mixtureDOI arXiv DBLP

泛读FindingsEMNLP 2024

Towards Efficient Visual-Language Alignment of the Q-Former for Visual Reasoning Tasks

这篇工作要解决的是：Q-Former 已经是连接视觉编码器和 LLM 的常用对齐模块，但它到底需要怎样训练、哪些部分值得训练、能否用更低成本完成视觉—语言对齐，现有研究并不充分。很多工作直接全量微调，代价高，也不清楚模块内部哪些参数真正决定视觉推理效果。

Sungkyung Kim,Adam Lee,Junyoung Park,Andrew Chung,Jusang Oh,Jay-Yoon Lee

q-formervision-language-alignmentmultimodalDOI arXiv DBLP

泛读EMNLP 2024

InfiniPot: Infinite Context Processing on Memory-Constrained LLMs

这篇论文解决的是：在固定内存、尤其是移动端这类受限环境里，预训练 LLM 如何处理远超 KV cache 容量的超长上下文。现有办法通常要么直接截断、要么依赖长上下文再训练、要么用粗糙的缓存淘汰策略，因此不是效果差，就是部署成本高。

Minsoo Kim,Kyuhong Shim,Jungwook Choi,Simyung Chang

long-contextkv-cachememoryDOI arXiv DBLP

泛读EMNLP 2024

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

这篇论文关注的核心问题是：如何训练一个专门用于评估其他语言模型的开源 judge model，并让它在稳定性、可解释性和与人类偏好的一致性上比通用聊天模型更可靠。过去很多评测依赖 GPT-4 这类闭源裁判，复现性和成本都受限，而通用开源模型又往往缺乏专门的评估能力。

Seungone Kim,Juyoung Suk,Shayne Longpre,Bill Yuchen Lin,Jamin Shin,Sean Welleck,Graham Neubig,Moontae Lee,Kyungjae Lee,Minjoon Seo

evaluationjudge-modelalignmentDOI DBLP

泛读FindingsEMNLP 2024

LongForm: Effective Instruction Tuning with Reverse Instructions

这篇论文要解决的是：指令微调数据往往短、模板化、信息密度低，导致模型对长输出、复杂约束和多段组织的学习不足。常规 instruction tuning 多从输入生成答案，但很少反过来利用现成长回答去构造更高质量的指令。

Abdullatif Köksal,Timo Schick,Anna Korhonen,Hinrich Schütze

instruction-tuningsynthetic-datadata-qualityDOI DBLP

泛读EMNLP 2024

Where am I? Large Language Models Wandering between Semantics and Structures in Long Contexts

这篇论文的核心结论是：在长上下文开放域问答里，LLM 的‘答对’和‘找对证据’是两种可明显脱钩的能力，单看答案正确率会高估模型真正的 grounded understanding。过去 ODQA 评测通常只判最终答案，这默认模型会基于正确证据作答，但在长上下文里这个假设并不成立。

Seonmin Koo,Jinsung Kim,YoungJoon Jang,Chanjun Park,Heuiseok Lim

long-contextevaluationstructureDOI DBLP

泛读EMNLP 2024

CorrSynth - A Correlated Sampling Method for Diverse Dataset Generation from LLMs

这篇论文要解决的是：用 LLM 合成训练数据时，常见采样方法在多样性、指令遵循和偏差控制之间很难兼得，生成的数据往往又像、又窄、还会把生成器的偏见直接传给学生模型。已有改进方法虽然能做解码时引导，但复杂度常常过高，不适合大规模造数。

Suhas S. Kowshik,Abhishek Divekar,Vijit Malik

synthetic-datasamplingdiversityDOI arXiv DBLP

泛读EMNLP 2024

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

Philippe Laban,Alexander R. Fabbri,Caiming Xiong,Chien-Sheng Wu

long-contextragbenchmarkDOI DBLP

泛读EMNLP 2024

Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models

Michael Lan,Philip Torr,Fazl Barez

interpretabilitycircuitssequence-modelingDOI DBLP

泛读EMNLP 2024

TroL: Traversal of Layers for Large Language and Vision Models

Byung-Kwan Lee,Sangyun Chung,Chae Won Kim,Beomchan Park,Yong Man Ro

interpretabilityvision-language-modellayer-analysisDOI DBLP

泛读EMNLP 2024

Instruction Matters: A Simple yet Effective Task Selection for Optimized Instruction Tuning of Specific Tasks

Changho Lee,Janghoon Han,Seonghyeon Ye,Stanley Jungkyu Choi,Honglak Lee,Kyunghoon Bae

instruction-tuningdata-selectiontask-selectionDOI DBLP

泛读FindingsEMNLP 2024

QEFT: Quantization for Efficient Fine-Tuning of LLMs

Changhun Lee,Jungyu Jin,Younghyun Cho,Eunhyeok Park

quantizationfine-tuningefficiencyDOI DBLP

泛读FindingsEMNLP 2024

BAPO: Base-Anchored Preference Optimization for Overcoming Forgetting in Large Language Models Personalization

Gihun Lee,Minchan Jeong,Yujin Kim,Hojung Jung,Jaehoon Oh,SangMook Kim,Se-Young Yun

preference-optimizationforgettingpersonalizationDOI DBLP

泛读EMNLP 2024

Concept-skill Transferability-based Data Selection for Large Vision-Language Models

这篇工作关注的核心问题是：给大视觉语言模型挑训练数据时，单看图文相似度或任务标签相近度不够，因为模型真正迁移的是“概念”和“技能”，而不是表面分布相似。过去的数据选择方法常把样本价值看成静态相关性，结果容易保留看起来像、但对目标能力提升不大的数据。

Jaewoo Lee,Boyang Li,Sung Ju Hwang

vlmdata-selectiontransferabilityDOI DBLP

泛读IndustryEMNLP 2024

Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

这篇工作要解决的是：面对知识密集任务，到底应该用 RAG 还是长上下文 LLM，没有统一、细致且公平的比较，导致很多系统设计靠经验拍脑袋。过去两派常各举成功案例，但缺少对成本、准确率、上下文噪声容忍度和知识时效性的系统拆解。

Zhuowan Li,Cheng Li,Mingyang Zhang,Qiaozhu Mei,Michael Bendersky

raglong-contextbenchmarkDOI DBLP

泛读EMNLP 2024

VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment

这篇工作解决的是：大视觉语言模型的对齐训练缺少大规模、高质量、可直接用于偏好学习的 AI feedback 数据。过去 LVLM alignment 多依赖人工标注或从文本偏好数据迁移，但视觉场景下错误类型更复杂，单纯复用文本反馈很难覆盖感知错误、细节遗漏和多模态幻觉。

Lei Li,Zhihui Xie,Mukai Li,Shunian Chen,Peiyi Wang,Liang Chen,Yazheng Yang,Benyou Wang,Lingpeng Kong,Qi Liu

vlmalignmentfeedback-dataDOI DBLP

泛读EMNLP 2024

Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training

这篇工作要解决的是：视觉文本生成任务里，通用 backbone 往往在文字细节、字形结构和不同粒度输入之间兼顾得不好，导致生成结果要么语义对了但字形差，要么能画出字但整体布局和语义不稳。过去方法通常在字符级、词级或图像级输入里固定一种粒度，训练时也很少显式利用 glyph 信息。

Wenbo Li,Guohao Li,Zhibin Lan,Xue Xu,Wanru Zhuang,Jiachen Liu,Xinyan Xiao,Jinsong Su

visual-text-generationglyphtrainingDOI DBLP

泛读EMNLP 2024

PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment

这篇工作要解决的是：跨语言迁移为什么常常在训练后期才慢慢形成，导致低资源语言对齐慢、迁移弱，而且很依赖语料规模和语言相似度。作者的判断是，多语言对齐如果不能尽早建立，后续继续堆训练往往只会强化语言内建模，而不是把不同语言拉到共享表示空间里。

Jiahuan Li,Shujian Huang,Aarron Ching,Xinyu Dai,Jiajun Chen

cross-lingualmultilingualalignmentDOI DBLP

泛读FindingsEMNLP 2024

Generative Deduplication For Socia Media Data Selection

这篇工作关注社交媒体数据选择中的去重问题，但切入点不是传统近重复检测，而是“生成式去重”。社交媒体文本改写多、噪声大、模板化强，单靠 n-gram 或 embedding 相似度往往只能抓字面重复，难以识别语义近重复，从而让训练集有效信息密度偏低。

Xianming Li,Jing Li

data-qualitydeduplicationdata-selectionDOI DBLP

泛读FindingsEMNLP 2024

Preference Tuning For Toxicity Mitigation Generalizes Across Languages

这篇工作要解决的是：毒性缓解通常在英语上做得较多，但跨语言泛化很差，导致对齐后的安全能力高度依赖目标语言数据。作者关注的是，基于 preference tuning 的毒性抑制是否能学到更语言无关的行为边界，而不是只记住英语表面模式。

Xiaochen Li,Zheng Xin Yong,Stephen H. Bach

preference-tuningtoxicitymultilingualDOI DBLP

泛读FindingsEMNLP 2024

Scalable Fine-tuning from Multiple Data Sources: A First-Order Approximation Approach

Dongyue Li,Ziniu Zhang,Lu Wang,Hongyang Zhang

fine-tuningdata-mixturemulti-sourceDOI DBLP

泛读EMNLP 2024

ApiQ: Finetuning of 2-Bit Quantized Large Language Model

Baohao Liao,Christian Herold,Shahram Khadivi,Christof Monz

quantizationfine-tuninglow-bitDOI DBLP

泛读EMNLP 2024

To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language Models

外部融合架构的多模态LLM中，不同类型连接器对不同粒度任务的效果影响缺乏系统对比结论，此前选型多依赖经验判断。

Junyan Lin,Haoran Chen,Dawei Zhu,Xiaoyu Shen

mllmconnectorarchitectureDOI arXiv DBLP

泛读EMNLP 2024

Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis

不同越狱攻击的成功机制缺乏统一解释，无法量化攻击的有效性边界，也难以设计通用的防御方案。

Yuping Lin,Pengfei He,Han Xu,Yue Xing,Makoto Yamada,Hui Liu,Jiliang Tang

jailbreakrepresentationsafetyDOI arXiv DBLP

泛读FindingsEMNLP 2024

Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models

用LLM替代人类做RLHF反馈源时，LLM的幻觉会导致奖励信号噪声大，训练出的策略效果差，此前没有有效利用噪声LLM反馈的方法。

Muhan Lin,Shuyang Shi,Yue Guo,Behdad Chalaki,Vaishnav Tadiparthi,Ehsan Moradi-Pari,Simon Stepputtis,Joseph Campbell,Katia P. Sycara

reinforcement-learningreward-modelnoisy-feedbackDOI arXiv DBLP

泛读EMNLP 2024

Contextualized Sequence Likelihood: Enhanced Confidence Scores for Natural Language Generation

现有LLM生成序列的置信度得分使用平均token似然，混淆了语义正确性和句法流畅性，会给句法不流畅但语义正确的答案打低分，无法准确反映生成内容的质量。

Zhen Lin,Shubhendu Trivedi,Jimeng Sun

confidencelikelihoodgenerationDOI arXiv DBLP

泛读EMNLP 2024

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

这篇工作要解决的是：如何让图像和视频共享一套真正统一的视觉表征，而不是像常见做法那样为视频单独加时序模块或单独训练视频分支。过去多模态模型往往把 image understanding 和 video understanding 分开处理，短期内能提分，但代价是表示空间割裂、训练和扩展成本更高；作者认为如果先把两种视觉输入在编码空间对齐，再接入 LLM，统一建模会更自然也更省。

Bin Lin,Yang Ye,Bin Zhu,Jiaxi Cui,Munan Ning,Peng Jin,Li Yuan

videovlmalignmentDOI DBLP

泛读EMNLP 2024

On the Universal Truthfulness Hyperplane Inside LLMs

这篇工作要回答的是：LLM 内部是否存在一个相对普适、线性的 truthfulness 方向或超平面，可以把真实和虚假陈述在表征空间里稳定分开。过去关于 truthfulness 的改进大多依赖数据对齐、拒答策略或外部验证；如果内部真有这种几何结构，那说明模型可能已经‘知道’更多真假信息，只是默认生成机制没有稳定调用出来。

Junteng Liu,Shiqi Chen,Yu Cheng,Junxian He

truthfulnessrepresentationinterpretabilityDOI DBLP

泛读FindingsEMNLP 2024

LongGenBench: Long-context Generation Benchmark

这篇工作要解决的是：现有 long-context 评测大多偏向检索、定位或选择题，不能充分测模型在超长输入下的真实生成能力。很多模型在“找到针”类任务上表现不错，但一到需要综合、压缩、重写或跨段推理的生成任务就暴露问题；作者因此提出 LongGenBench，专门测 long-context generation，而不是只测 long-context reading。

Xiang Liu,Peijie Dong,Xuming Hu,Xiaowen Chu

long-contextbenchmarkgenerationDOI DBLP

泛读EMNLP 2024

Making Large Language Models Better Reasoners with Orchestrated Streaming Experiences

这篇工作要解决的是：仅靠静态监督数据，LLM 的推理能力提升有限，尤其难学到多步决策中的过程控制。过去常见做法是用 CoT 标注、拒绝采样、过程奖励模型等离线方法增强 reasoning，但这些方法的经验往往是碎片化的、一次性的，模型很难在持续交互中积累可复用的推理策略。

Xiangyang Liu,Junliang He,Xipeng Qiu

reasoningcurriculumcontinual-learningDOI DBLP

泛读EMNLP 2024

More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs

这篇工作要解决的是：做领域专用 LLM 时，问题不只是 catastrophic forgetting，还包括如何把通用能力和领域能力真正整合起来。很多 domain-specific LLM 要么在继续预训练后丢掉通用能力，要么为了保通用能力而领域收益有限；作者的立场从题目就很明确——遗忘只是表象，更难的是能力整合。

Chengyuan Liu,Yangyang Kang,Shihang Wang,Lizhi Qing,Fubang Zhao,Chao Wu,Changlong Sun,Kun Kuang,Fei Wu

domain-adaptationcontinual-learningcatastrophic-forgettingDOI DBLP

泛读FindingsEMNLP 2024

LongWanjuan: Towards Systematic Measurement for Long Text Quality

这篇工作要解决的是：长文本质量一直缺少系统性测量标准，导致长文数据构建、过滤和模型评估都较为粗糙。过去大家常用困惑度、人工抽检或短文本代理指标来判断长文质量，但这些方法很难覆盖长文特有的问题，比如结构松散、信息重复、主题漂移、事实前后不一致等。

Xiaoran Liu,Kai Lv,Qipeng Guo,Hang Yan,Conghui He,Xipeng Qiu,Dahua Lin

data-qualitylong-contextevaluationDOI DBLP

泛读EMNLP 2024

Take Off the Training Wheels! Progressive In-Context Learning for Effective Alignment

这篇工作要解决的是：怎样在不依赖昂贵人工标注或强外部监督的情况下，让模型通过 in-context learning 更稳定地学会对齐行为。以往对齐更多依赖 SFT、RLHF 或直接给定强演示，但这类方法把“会做题”和“会按人类偏好做题”混在一起，且对上下文示例的依赖通常是静态的，没有显式考虑从强提示过渡到弱提示的训练过程。

Zhenyu Liu,Dongfang Li,Xinshuo Hu,Xinping Zhao,Yibin Chen,Baotian Hu,Min Zhang

in-context-learningalignmentpost-trainingDOI DBLP

泛读EMNLP 2024

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

这篇工作要解决的是：如何把 LLM 做到极低比特的 PTQ（post-training quantization），同时尽量守住质量。传统低比特量化在 4-bit 以下通常会迅速失真，原因不是只有权重幅值误差，更在于高维权重空间里的方向信息和异常值难以被标量量化保留。

Yifei Liu,Jicheng Wen,Yang Wang,Shengyu Ye,Li Lyna Zhang,Ting Cao,Cheng Li,Mao Yang

quantizationlow-bitcompressionDOI DBLP

泛读EMNLP 2024

Unraveling Babel: Exploring Multilingual Activation Patterns of LLMs and Their Applications

这篇工作要解决的是：LLM 的多语言能力在内部激活层面到底如何组织，以及这种结构能否被利用。过去多语言研究多看行为指标，如 cross-lingual transfer 或 benchmark 分数，但这只能看到结果，看不到模型是在共享抽象语义空间，还是为不同语言维护彼此分离的子回路。

Weize Liu,Yinlong Xu,Hongxia Xu,Jintai Chen,Xuming Hu,Jian Wu

multilingualactivationinterpretabilityDOI DBLP

泛读EMNLP 2024

Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-Context Models

这篇工作要解决的是长上下文模型的 memorization 评估不可靠：现有方法常只看能否复述长文本片段，却难以区分真实记忆能力、位置偏置和检索式近似。长上下文模型越来越多，但我们缺少一个能稳定刻画“记住了多少、随距离如何衰减”的评测方法。

Xinyu Liu,Runsong Zhao,Pengcheng Huang,Chunyang Xiao,Bei Li,Jingang Wang,Tong Xiao,JingBo Zhu

long-contextmemorizationevaluationDOI DBLP

泛读FindingsEMNLP 2024

Inference-Time Language Model Alignment via Integrated Value Guidance

Zhixuan Liu,Zhanhui Zhou,Yuanfu Wang,Chao Yang,Yu Qiao

inference-timealignmentvalue-guidanceDOI DBLP

泛读EMNLP 2024

Towards Aligning Language Models with Textual Feedback

Saüc Abadal Lloret,Shehzaad Dhuliawala,Keerthiram Murugesan,Mrinmaya Sachan

alignmenttextual-feedbackrlhfDOI DBLP

泛读EMNLP 2024

Rethinking the Reversal Curse of LLMs: a Prescription from Human Knowledge Reversal

Zhicong Lu,Li Jin,Peiguang Li,Yu Tian,Linhao Zhang,Sirui Wang,Guangluan Xu,Changyuan Tian,Xunliang Cai

reversal-curseknowledgegeneralizationDOI DBLP

泛读FindingsEMNLP 2024

LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

Yinquan Lu,Wenhao Zhu,Lei Li,Yu Qiao,Fei Yuan

multilingualcontinual-pretraintranslationDOI DBLP

泛读FindingsEMNLP 2024

How Does Quantization Affect Multilingual LLMs?

这篇论文要回答一个非常实际但常被简化的问题：量化对多语言 LLM 的影响并不均匀，哪些语言掉得更多、为什么掉。过去很多量化工作默认英文结果能代表整体，但多语言模型的词表分布、脚本差异和低资源语言表示更脆弱，这个假设并不成立。

Kelly Marchisio,Saurabh Dash,Hongyu Chen,Dennis Aumiller,Ahmet Üstün,Sara Hooker,Sebastian Ruder

quantizationmultilingualcompressionDOI DBLP

泛读EMNLP 2024

Understanding and Mitigating Language Confusion in LLMs

这篇论文讨论多语言 LLM 的 language confusion：模型该用一种语言回答时，却混入另一种语言，或在语言切换、翻译和多语对话中出现不受控漂移。这个问题以前常被归到指令跟随失败，但对多语模型来说，它更像是预训练分布、词表共享和对齐信号混杂后的结构性副作用。

Kelly Marchisio,Wei-Yin Ko,Alexandre Berard,Théo Dehaze,Sebastian Ruder

multilinguallanguage-confusionevaluationDOI DBLP

泛读FindingsEMNLP 2024

DYNAMICQA: Tracing Internal Knowledge Conflicts in Language Models

这篇论文要解决的是语言模型内部知识冲突难以追踪的问题：模型对同一事实上下文切换后会给出相互矛盾的答案，但我们通常只能看到最终输出，看不到冲突在内部哪里形成、何时被激活。作者试图把这种动态冲突显式化，而不是只把它记作 hallucination 或不稳定性。

Sara Marjanovic,Haeun Yu,Pepa Atanasova,Maria Maistro,Christina Lioma,Isabelle Augenstein

knowledge-conflictinterpretabilityfactualityDOI DBLP

泛读FindingsEMNLP 2024

“Vorbești Românește?” A Recipe to Train Powerful Romanian LLMs with English Instructions

这篇论文要解决的是中小语种 instruction-tuned LLM 的一个现实问题：高质量本地指令数据稀缺，直接照搬英文对齐 recipe 往往不够。作者以罗马尼亚语为例，探索是否可以主要依赖英文指令，再结合本地语料和训练策略，做出足够强的本地模型。

Mihai Masala,Denis C. Ilie-Ablachim,Alexandru Dima,Dragos-Georgian Corlatescu,Miruna-Andreea Zavelca,Ovio Olaru ... 省略 3 位作者 ... ,Horia Velicu,Marius Popescu,Mihai Dascalu,Traian Rebedea

multilingualinstruction-tuningdata-mixtureDOI DBLP

泛读EMNLP 2024

CoverICL: Selective Annotation for In-Context Learning via Active Graph Coverage

这篇工作要解决的是：如何为 in-context learning 选择少量但覆盖性强的标注样本，而不是继续依赖随机采样、相似度检索或人工挑例。现有 ICL 示例选择方法通常只优化局部相似性，容易把示例集中在一个狭窄区域，导致上下文看起来相关但覆盖不足，尤其在标签不平衡、数据簇分散或推理模式多样时效果不稳。

Costas Mavromatis,Balasubramaniam Srinivasan,Zhengyuan Shen,Jiani Zhang,Huzefa Rangwala,Christos Faloutsos,George Karypis

iclactive-learningpromptingDOI DBLP

泛读FindingsEMNLP 2024

Learning to Ask Informative Questions: Enhancing LLMs with Preference Optimization and Expected Information Gain

这篇工作要解决的是：让 LLM 学会提出真正有信息增益的问题，而不是提出表面自然但对消除不确定性帮助不大的问题。过去问句生成常用监督微调或偏好优化学“像人类会问什么”，但没有显式建模“问完之后能带来多少信息”，因此容易得到礼貌、流畅、却不够有辨别力的问题。

Davide Mazzaccara,Alberto Testoni,Raffaella Bernardi

preference-optimizationquestion-askingalignmentDOI DBLP

泛读EMNLP 2024

FLIRT: Feedback Loop In-context Red Teaming

这篇工作要解决的是：如何用更低成本、更持续的方式做 LLM red teaming，而不是一次性人工写攻击样本。传统红队流程依赖人工专家设计 prompt，覆盖面有限、迭代慢，而且很难随着模型更新同步扩展，因此很难发现长尾风险和上下文诱导型失效。

Ninareh Mehrabi,Palash Goyal,Christophe Dupuy,Qian Hu,Shalini Ghosh,Richard S. Zemel,Kai-Wei Chang,Aram Galstyan,Rahul Gupta

red-teamingin-context-learningsafetyDOI DBLP

泛读EMNLP 2024

Unlocking the Future: Exploring Look-Ahead Planning Mechanistic Interpretability in Large Language Models

这篇工作要研究的是：LLM 在生成前是否存在 look-ahead planning，以及这种机制能否被 mechanistic interpretability 方法识别出来。过去很多关于“模型会规划”的说法停留在行为层，看到输出像计划不等于内部真的先模拟了未来状态，因此需要更细粒度的机制证据。

Tianyi Men,Pengfei Cao,Zhuoran Jin,Yubo Chen,Kang Liu,Jun Zhao

mechanistic-interpretabilityplanningreasoningDOI DBLP

泛读EMNLP 2024

Language models and brains align due to more than next-word prediction and word-level information

Gabriele Merlin,Mariya Toneva

next-token-predictionrepresentationcognitive-modelingDOI DBLP

泛读EMNLP 2024

Evaluating n-Gram Novelty of Language Models Using Rusty-DAWG

现有评估LLM生成文本新颖性的方法仅支持短n-gram（n≤4）统计，无法衡量长n-gram的抄袭情况，也无法在超大规模训练语料上做快速检索。

William Merrill,Noah A. Smith,Yanai Elazar

memorizationnoveltyevaluationDOI arXiv DBLP

FindingsEMNLP 2024

Draft on the Fly: Adaptive Self-Speculative Decoding using Cosine Similarity

现有自推测解码方法需要微调或者黑盒优化得到固定草稿模型，无法适配不同输入上下文，部署灵活性差。

Michael R. Metel,Peng Lu,Boxing Chen,Mehdi Rezagholizadeh,Ivan Kobyzev

speculative-decodinginferenceservingDOI arXiv DBLP

泛读FindingsEMNLP 2024

Merge to Learn: Efficiently Adding Skills to Language Models with Model Merging

这篇工作要解决的是：如何在不重新全量训练模型的前提下，把新技能高效加到已有 LLM 上。传统做法要么继续微调整个模型，算力和存储代价高；要么做 LoRA/adapter，部署时会引入额外组件和组合复杂度。论文从标题看主张用 model merging 来学技能，目标是把“训练多个专长模型”和“部署一个统一模型”连接起来。

Jacob Morrison,Noah A. Smith,Hannaneh Hajishirzi,Pang Wei Koh,Jesse Dodge,Pradeep Dasigi

model-mergingadaptationskill-transferDOI DBLP

泛读EMNLP 2024

Revealing the Parallel Multilingual Learning within Large Language Models

这篇论文要研究的是：多语言学习在 LLM 内部是否真的是共享的、竞争的，还是并行分工的。过去大家常从外部指标讨论 multilingual transfer，但对模型内部表示和参数更新如何承载不同语言的学习机制了解并不充分。标题里的 'parallel multilingual learning' 表明作者想揭示语言之间在模型内部可能并行形成、部分解耦的结构。

Yongyu Mu,Peinan Feng,Zhiquan Cao,Yuzhang Wu,Bei Li,Chenglong Wang ... 省略 1 位作者 ... ,Kai Song,Tongran Liu,Chunliang Zhang,JingBo Zhu

multilingualrepresentationtransferDOI DBLP

泛读FindingsEMNLP 2024

SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models

这篇论文关注一个越来越实际的问题：当基础模型本身已经是低精度和稀疏化形态时，如何继续低成本做适配。常规 PEFT 多数默认 dense、较高精度权重；但工业部署越来越依赖低比特和稀疏模型，这使得“训练方便的方法”和“部署高效的模型形态”之间出现接口断裂。SQFT 试图弥合这个断层。

Juan Pablo Muñoz,Jinjie Yuan,Nilesh Jain

adaptationlow-precisionsparsityDOI DBLP

泛读EMNLP 2024

Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions

这篇论文要解决的是：写作反馈生成通常只评估反馈文本本身，却很少看学生收到反馈后是否真的能据此修订得更好。已有方法容易停留在“像老师的反馈”，但这不等于“能引导有效修改”。标题里的 'Closing the Loop' 指向一个更完整的训练信号——用模型模拟学生修订，把反馈质量和后续改写结果连起来。

Inderjeet Nair,Jiaye Tan,Xiaotian Su,Anne Gere,Xu Wang,Lu Wang

synthetic-datafeedback-generationself-improvementDOI DBLP

泛读EMNLP 2024

Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions

这篇论文要回答的核心问题是：Transformer 里被称为“context look-up”的行为，到底主要由注意力完成，还是依赖注意力与 MLP 的联合作用。以往很多解释工作把检索、拷贝和上下文匹配几乎都归因给注意力头，但这种看法往往把后续 MLP 对表示的改写忽略掉了，因此会高估单个注意力头的功能边界。

Clement Neo,Shay B. Cohen,Fazl Barez

interpretabilityattentionmlpDOI DBLP

泛读FindingsEMNLP 2024

Aligners: Decoupling LLMs and Alignment

这篇论文的核心问题是：能不能把“模型能力”和“对齐行为”更明确地解耦，而不是每次都对整个 LLM 做重型对齐微调。现有主流做法默认把安全性、风格、帮助性等都写回主模型参数里，但这会带来能力遗忘、部署成本高和多对齐目标难共存的问题。

Lilian Ngweta,Mayank Agarwal,Subha Maity,Alex Gittens,Yuekai Sun,Mikhail Yurochkin

alignmentdecouplingmodularityDOI DBLP

泛读EMNLP 2024

Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities

这篇论文指出了一个很具体但常被忽略的问题：很多 subword tokenizer 把前导空格编码进 token，导致我们计算“词概率”时会被 tokenization 细节系统性干扰。过去不少工作直接把某个词对应 token 序列的概率相乘，当成该词的语言模型概率，但如果词首是否带空格会改变 token 切分，这个比较本身就不干净。

Byung-Doh Oh,William Schuler

tokenizersubwordword-probabilityDOI DBLP

泛读FindingsEMNLP 2024

Temperature-Centric Investigation of Speculative Decoding with Knowledge Distillation

这篇论文研究的核心问题是：在 speculative decoding 结合知识蒸馏时，temperature 到底如何影响速度与质量的平衡。实践里大家通常关注 draft model 大小、acceptance rate 和 distillation loss，但温度会直接改变候选分布的尖锐程度，从而影响提议 token 的可接受性，这个变量过去往往没有被系统拆开分析。

Siru Ouyang,Shuohang Wang,Minhao Jiang,Ming Zhong,Donghan Yu,Jiawei Han,Yelong Shen

speculative-decodingknowledge-distillationtemperatureDOI DBLP

泛读EMNLP 2024

Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling

这篇论文关注的核心问题是：在 vision-language modeling 里，Transformer 和 structured state space models 到底谁更合适，差异体现在哪。当前多模态模型几乎默认用 Transformer，但 SSM 在长序列效率和状态建模上有潜力，因此值得问一句：在图文联合建模场景里，这种潜力能不能真正转化成性能或效率收益。

Georgios Pantazopoulos,Malvina Nikandrou,Alessandro Suglia,Oliver Lemon,Arash Eshghi

vlmssmtransformerDOI DBLP

泛读EMNLP 2024

What Are the Odds? Language Models Are Capable of Probabilistic Reasoning

Akshay Paruchuri,Jake Garrison,Shun Liao,John Hernandez,Jacob E. Sunshine,Tim Althoff,Xin Liu,Daniel McDuff

probabilistic-reasoningreasoningevaluationDOI DBLP

泛读FindingsEMNLP 2024

Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning

Debjit Paul,Robert West,Antoine Bosselut,Boi Faltings

chain-of-thoughtfaithfulnessreasoningDOI DBLP

泛读EMNLP 2024

Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective

Van-Cuong Pham,Thien Nguyen

activation-editinginterpretabilitysteeringDOI DBLP

泛读EMNLP 2024

How to Compute the Probability of a Word

这篇论文要解决的核心问题是：语言模型如何给“词”而不是给 token 序列分配严格、可比较的概率。现有做法通常把一个词拆成若干 subword token 后直接相乘，但这个定义会受分词方式和词边界处理影响，在比较词概率、做词级分析或跨 tokenizer 评估时并不稳健。

Tiago Pimentel,Clara Meister

language-modelingprobabilitytokenizationDOI DBLP

泛读EMNLP 2024

Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach

这篇论文要解决的是：spoken language modeling 往往只靠离散语音单元做下一个单元预测，但没有显式利用音系层面的监督，导致模型对发音结构的利用不充分。过去这类改进通常需要改架构或重训，作者想验证一个更轻量的路线：只做简单微调，加入音素分类信号，能不能稳定提升语音语言建模。

Maxime Poli,Emmanuel Chemla,Emmanuel Dupoux

speech-lmspoken-language-modelingphonemeDOI DBLP

泛读FindingsEMNLP 2024

Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning

这篇论文要回答的核心问题是：Chain-of-Thought 为什么有时有效、有时无效，真正起作用的是概率偏置、训练记忆，还是推理链里引入了噪声。过去很多工作只看 CoT 是否提升最终准确率，但没有拆开它到底在帮模型调用已有解、复制见过的模板，还是在增加中间步骤时反而放大错误。

Akshara Prabhakar,Thomas L. Griffiths,R. Thomas McCoy

chain-of-thoughtreasoningmemorizationDOI DBLP

泛读EMNLP 2024

Do Large Language Models Know How Much They Know?

这篇论文关注的核心问题是：大语言模型给出的置信表达，是否真的对应它知道多少，也就是是否具备可用的自知之明。现有系统经常能产出流畅答案，却难以稳定地区分“知道但没说清”和“根本不知道”，这直接影响检索增强、工具调用和安全拒答。

Gabriele Prato,Jerry Huang,Prasanna Parthasarathi,Shagun Sodhani,Sarath Chandar

calibrationuncertaintyself-knowledgeDOI DBLP

泛读EMNLP 2024

Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs

这篇论文要解决的是：text+code LLM 的条件推理能力，是否可以通过代码形式的提示被更稳定地激发出来。以往同一个模型在自然语言提示下未必能做对条件分支、多步状态更新这类任务，但代码语境可能给出更清晰的执行结构和更强的先验。

Haritz Puerto,Martin Tutek,Somak Aditya,Xiaodan Zhu,Iryna Gurevych

code-llmreasoningpromptingDOI DBLP

泛读FindingsEMNLP 2024

In-Context Learning with Iterative Demonstration Selection

这篇论文解决的是：ICL 中一次性选 demonstrations 往往不够，因为模型对当前样例的需求会随着已给示例而变化，静态检索容易选到冗余或误导的样本。作者想验证迭代式示例选择能否更好地匹配模型在上下文中的真实需求。

Chengwei Qin,Aston Zhang,Chen Chen,Anirudh Dagar,Wenming Ye

icldemonstration-selectionin-context-learningDOI DBLP

泛读EMNLP 2024

Why Does New Knowledge Create Messy Ripple Effects in LLMs?

这篇论文关注的核心问题是：给 LLM 注入一条新知识后，为什么常会引发一串混乱的连带影响，包括相邻知识被误改、相关推理链失衡，甚至无关问答也受扰动。过去知识编辑工作多关注局部成功率，但对这种 ripple effects 的成因分析不够细。

Jiaxin Qin,Zixuan Zhang,Chi Han,Pengfei Yu,Manling Li,Heng Ji

knowledge-editinggeneralizationmodel-behaviorDOI DBLP

泛读EMNLP 2024

Simultaneous Masking, Not Prompting Optimization: A Paradigm Shift in Fine-tuning LLMs for Simultaneous Translation

这篇工作要解决的是同声传译微调范式不合任务结构的问题：传统做法把 simultaneous translation 仍当成普通 prompting 或全序列生成来训，但这会让模型在训练和推理时都承受不必要的因果约束，难以学到边听边译的延迟-质量权衡。这个问题现在值得重做，因为大模型已经具备强翻译能力，瓶颈更多变成如何用合适的训练目标把能力约束到在线场景。

Matthew Raffel,Victor Agostinelli,Lizhong Chen

fine-tuningmasked-modelingsimultaneous-translationDOI DBLP

泛读EMNLP 2024

DEM: Distribution Edited Model for Training with Mixed Data Distributions

这篇工作解决的是混合数据分布训练时的目标冲突：当训练数据来自多个来源、质量层级或任务分布时，单一模型往往在共享参数里折中，结果是谁都没学好，或者强分布压制弱分布。过去常见做法是调采样比例、做 mixture weighting 或直接分模型，但这些方法要么需要大量调参，要么牺牲参数共享带来的迁移收益。

Dhananjay Ram,Aditya Rawal,Momchil Hardalov,Nikolaos Pappas,Sheng Zha

data-mixturedistribution-shifttraining-dynamicsDOI DBLP

泛读EMNLP 2024

Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models

这篇工作要解决的是 instruction tuning 往往把答案风格对齐了，却没有把推理过程对齐好，导致模型看起来会解释，但 reasoning trace 经常浅、乱或者不自洽。过去常见做法是直接喂 teacher CoT 或人工构造推理数据，但高质量推理标注稀缺，而且 teacher trace 可能把错误模式一并蒸馏进去。

Leonardo Ranaldi,André Freitas

self-traininginstruction-tuningreasoningDOI DBLP

泛读EMNLP 2024

CommonIT: Commonality-Aware Instruction Tuning for Large Language Models via Data Partitions

这篇工作关注 instruction tuning 数据内部的结构问题：不同指令数据之间既有共性能力，也有分区特有模式，直接混在一起训会让模型学到平均化行为，既浪费冗余数据，也放大冲突样本的干扰。过去常见做法是统一混训或按任务簇做粗粒度采样，但很少显式建模“哪些能力是所有分区共享的，哪些是局部特有的”。

Jun Rao,Xuebo Liu,Lian Lian,Shengjun Cheng,Yunjie Liao,Min Zhang

instruction-tuningdata-mixturedata-qualityDOI DBLP

泛读EMNLP 2024

I Learn Better If You Speak My Language: Understanding the Superior Performance of Fine-Tuning Large Language Models with LLM-Generated Responses

这篇工作研究一个很实际但经常被误解的问题：为什么用 LLM 生成的响应来微调，常常比直接用人工标注响应效果更好。过去大家常把这归因于“模型更像模型”或“风格更一致”，但如果不拆开分析，就不知道收益来自格式规范、难度控制、噪声过滤，还是 teacher response 在目标分布上更接近 student 的可学习区域。

Xuan Ren,Biao Wu,Lingqiao Liu

synthetic-datafine-tuningdata-qualityDOI DBLP

泛读FindingsEMNLP 2024

LaRA: Large Rank Adaptation for Speech and Text Cross-Modal Learning in Large Language Models

Zuhair Hasan Shaik,Pradyoth Hegde,Prashant Bannulmath,Deepak K. T.

speechmultimodaladapterDOI DBLP

泛读FindingsEMNLP 2024

Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

Aditya Sharma,Michael Saxon,William Yang Wang

vlmlong-contextevaluationDOI DBLP

泛读EMNLP 2024

Unsupervised Human Preference Learning

Sumuk Shashidhar,Abhinav Chinta,Vaibhav Sahai,Dilek Hakkani-Tür

preference-learningalignmentreward-modelDOI DBLP

泛读EMNLP 2024

SEGMENT+: Long Text Processing with Short-Context Language Models

这篇工作要解决的是：如何用短上下文模型处理长文本，而不把成本直接推到长上下文训练和推理上。现有路线要么扩窗口，代价是训练和 KV cache 成本上升；要么做检索/摘要，代价是丢失跨段依赖，因此“分段但尽量不断链”是实际系统里很有价值的问题。

Wei Shi,Shuang Li,Kerun Yu,Jinglei Chen,Zujie Liang,Xinhui Wu ... 省略 2 位作者 ... ,Bo Zheng,Jiaqing Liang,Jiangjie Chen,Yanghua Xiao

long-contextsegmentationcontext-extensionDOI DBLP

泛读IndustryEMNLP 2024

ULMR: Unlearning Large Language Models via Negative Response and Model Parameter Average

这篇工作要解决的是：在尽量保留通用能力的前提下，让大模型忘掉不该保留的知识或行为。现有 unlearning 常见问题是遗忘不彻底，或者对通用能力破坏太大，因此需要更稳的“删掉目标行为、保住其余分布”的办法。

Shaojie Shi,Xiaoyu Tan,Xihe Qiu,Chao Qu,Kexin Nie,Yuan Cheng,Wei Chu,Yinghui Xu,Yuan Qi

unlearningalignmentfine-tuningDOI DBLP

泛读EMNLP 2024

A Thorough Examination of Decoding Methods in the Era of LLMs

这篇工作要解决的是：在 LLM 时代，传统 decoding 经验是否还成立，哪些采样策略真的影响质量、事实性、长度和多样性。过去很多结论来自较小模型或较旧任务，迁移到现代 instruction-tuned LLM 后未必可靠，因此需要一次系统复查。

Chufan Shi,Haoran Yang,Deng Cai,Zhisong Zhang,Yifan Wang,Yujiu Yang,Wai Lam

decodingsamplinggenerationDOI DBLP

泛读EMNLP 2024

Direct Multi-Turn Preference Optimization for Language Agents

这篇工作要解决的是：语言智能体的偏好优化不应只看单轮回复，而要直接优化多轮交互轨迹。现有 DPO/偏好学习大多把样本切成单轮响应，忽略前后轮的策略一致性和长期回报，这对 agent 场景是明显错配。

Wentao Shi,Mengqi Yuan,Junkang Wu,Qifan Wang,Fuli Feng

preference-optimizationagentmulti-turnDOI DBLP

泛读EMNLP 2024

Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization

这篇工作要解决的是：用 reconstruction error 最小化来指导 LLM 剪枝到底可靠不可靠。当前很多 pruning 方法默认“重建激活或权重误差越小，最终性能越好”，但在大语言模型里这个代理目标可能并不等价于语言建模损失或指令能力。

Sungbin Shin,Wonpyo Park,Jaeho Lee,Namhoon Lee

pruningllmcompressionDOI DBLP

泛读EMNLP 2024

FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation

这篇工作要解决的是：如何更高效地把“可信”行为蒸馏到大模型里，让模型在可靠性上提升，但不必付出昂贵的人类标注或超大教师推理成本。现有安全/可靠性蒸馏常见问题是数据构建重、覆盖窄，而且教师本身也未必稳定。

KaShun Shum,Minrui Xu,Jianshu Zhang,Zixin Chen,Shizhe Diao,Hanze Dong,Jipeng Zhang,Muhammad Omer Raza

distillationalignmenttrustworthinessDOI DBLP

泛读EMNLP 2024

Scaling Synthetic Logical Reasoning Datasets with Context-Sensitive Declarative Grammars

这篇工作要解决的是：如何大规模生成高质量、可控且具有组合性的逻辑推理数据集。现有合成推理数据常见问题是语法模板太死、难度扩展性差、上下文与结论脱节，导致模型容易学到表面模式而不是逻辑泛化。

Damien Sileo

synthetic-datareasoningdata-generationDOI DBLP

泛读EMNLP 2024

Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization

这篇工作解决的是激活量化里最难啃的一块：少数异常激活会把整张量量化范围拉得很大，导致 per-tensor activation quantization 精度掉得明显。以往补救通常是按通道混合精度或识别离群通道单独处理，但这样会增加 kernel 复杂度和部署开销；作者改走另一条路，不去追着离群值修补，而是尽量避免生成会触发离群激活的前缀状态。

Seungwoo Son,Wonpyo Park,Woohyun Han,Kyuyeun Kim,Jaeho Lee

quantizationactivation-outliersattentionDOI arXiv DBLP

泛读EMNLP 2024

Does Large Language Model Contain Task-Specific Neurons?

这篇工作要回答一个机制层面的关键问题：LLM 处理不同任务时，是否会稳定地调用一组任务特异神经元，而不是仅靠同一套通用表征完成所有任务。过去关于 neuron 的研究更多聚焦语言现象或知识记忆，但“任务”本身更抽象，跨任务边界也更模糊，所以一直缺少可靠判定方法。

Ran Song,Shizhu He,Shuting Jiang,Yantuan Xian,Shengxiang Gao,Kang Liu,Zhengtao Yu

interpretabilityneuronstask-specificityDOI DBLP

泛读FindingsEMNLP 2024

Student Data Paradox and Curious Case of Single Student-Tutor Model: Regressive Side Effects of Training LLMs for Personalized Learning

这篇工作指出一个很容易被忽略的问题：如果把学生-导师对话数据拿来继续训练 LLM，模型虽然更会“像学生一样思考”或更懂学习者常见误区，但自身事实知识和推理能力可能同步退化。过去教育场景里通常默认更多学生数据会带来更好个性化，作者则发现这里存在明显的训练目标冲突，即所谓 Student Data Paradox。

Shashank Sonkar,Naiming Liu,Richard G. Baraniuk

Rice Universitypersonalizationstudent-modelingfine-tuningDOI arXiv DBLP

泛读EMNLP 2024

Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together

这篇工作要解决的是复合式 NLP 系统很难端到端优化：像 RAG、多跳 QA 或模块化推理流水线里，每个模块既有 LM 权重，又有 prompt 模板，但中间通常没有标注也没有梯度能顺畅传过去。过去常见做法是只调 prompt 或只调模型参数，两者各修一半问题，导致整体最优经常达不到。

Dilara Soylu,Christopher Potts,Omar Khattab

Stanford Universityfine-tuningprompt-optimizationmodularDOI arXiv DBLP

泛读FindingsEMNLP 2024

Activation Scaling for Steering and Interpreting Language Models

这篇工作要解决的是一个解释性研究中的老问题：很多“干预”方法能改模型输出，但常常改得太多、太散，最后很难说清到底碰到了哪一部分机制。作者提出更严格的问题定义：如果一个解释是真的可操作，它应该能用很少的局部激活缩放，既翻转目标 token 偏好，又尽量不影响其他 token 分布。

Niklas Stoehr,Kevin Du,Vésteinn Snæbjarnarson,Robert West,Ryan Cotterell,Aaron Schein

ETH ZürichinterpretabilitysteeringactivationDOI arXiv DBLP

泛读EMNLP 2024

SpecHub: Provable Acceleration to Multi-Draft Speculative Decoding

Ryan Sun,Tianyi Zhou,Xun Chen,Lichao Sun

speculative-decodinginferenceaccelerationDOI DBLP

泛读FindingsEMNLP 2024

Unleashing the Potential of Large Language Models through Spectral Modulation

Peng Sun,Yao Zhu,Yunjian Zhang,Xiu Yan,Zizhe Wang,Xiangyang Ji

spectral-analysisllm-capabilityactivationDOI DBLP

泛读EMNLP 2024

LLoCO: Learning Long Contexts Offline

这篇论文的核心问题是：长上下文能力能否离线学出来，而不是每次都靠昂贵的在线 RL、蒸馏或超长序列继续训练去硬凿。过去长上下文扩展常被做成位置插值、RoPE scaling 或长样本继续预训练，但这类方法不是泛化不稳，就是训练成本高、数据构造难，导致“会不会读长文本”和“值不值得付代价”之间一直有张力。

Sijun Tan,Xiuyu Li,Shishir G. Patil,Ziyang Wu,Tianjun Zhang,Kurt Keutzer,Joseph Gonzalez,Raluca A. Popa

long-contextcontext-compressionofflineDOI DBLP

泛读EMNLP 2024

A Probability-Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors

这篇论文的核心问题是：对齐后的语言模型里，token 概率高并不总意味着回答质量高，这种 probability-quality trade-off 是怎么来的，以及采样适配器在其中扮演什么角色。过去很多工作默认把更好的 calibrated likelihood 与更好的输出质量绑定起来，但对齐训练、拒答行为和偏好优化会改变分布形状，使最大概率解未必是人更喜欢的解。

Naaman Tan,Josef Valvoda,Tianyu Liu,Anej Svete,Yanxia Qin,Min-Yen Kan,Ryan Cotterell

alignmentsamplingprobability-qualityDOI DBLP

泛读IndustryEMNLP 2024

Structured Object Language Modeling (SO-LM): Native Structured Objects Generation Conforming to Complex Schemas with Self-Supervised Denoising

这篇论文的核心问题是：如何让模型原生生成复杂结构化对象，并严格满足 schema 约束，而不是先生成自然语言再靠后处理修修补补。传统 LLM 做结构化输出通常依赖 constrained decoding、JSON repair 或任务特定模板，这些方法在 schema 复杂、字段依赖强、嵌套层次深时容易脆弱，因为模型本身并没有真正学会对象级分布。

Amir Tavanaei,Kee Kiat Koo,Hayreddin Çeker,Shaobai Jiang,Qi Li,Julien Han,Karim Bouyarmane

structured-generationdenoisingself-supervisedDOI DBLP

泛读FindingsEMNLP 2024

To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models

这篇工作聚焦于让大语言模型在不彻底重训的前提下忘掉指定知识。现有 unlearning 方法往往在“忘得干净”和“通用能力别掉太多”之间失衡，要么代价接近重训，要么只是在表面行为上回避答案，缺少可部署的折中方案。

Bozhong Tian,Xiaozhuan Liang,Siyuan Cheng,Qingbin Liu,Mengru Wang,Dianbo Sui,Xi Chen,Huajun Chen,Ningyu Zhang

unlearningalignmentsafetyDOI DBLP

泛读FindingsEMNLP 2024

Information Parity: Measuring and Predicting the Multilingual Capabilities of Language Models

这篇工作关注一个很实际的问题：怎样测量并预测语言模型的多语言能力，而不是每种语言都逐一跑完整基准。过去多语言评估高度碎片化，覆盖语言有限、成本高，而且很难提前判断一个模型对低资源语言到底会不会工作。

Alexander Tsvetkov,Alon Kipnis

multilingualevaluationscalingDOI DBLP

泛读FindingsEMNLP 2024

AfriInstruct: Instruction Tuning of African Languages for Diverse Tasks

这篇工作要解决的是非洲语言 instruction tuning 数据和能力覆盖不足的问题。现有指令微调资源高度偏向英语和少数高资源语言，导致模型即使具备一定多语预训练能力，也很难在非洲语言上稳定遵循指令、跨任务泛化。

Kosei Uemura,Mahe Chen,Alex Pejovic,Chika Maduabuchi,Yifei Sun,En-Shiun Lee

instruction-tuningmultilinguallow-resourceDOI DBLP

泛读EMNLP 2024

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

用 LLM 做自动评估（autorater）已成为标准做法，但现有方法要么依赖闭源 API（如 GPT-4-as-judge），要么需要针对每个任务单独训练评估模型，泛化性差。需要一个通用的、开放的基础评估模型。

Tu Vu,Kalpesh Krishna,Salaheddin Alzubi,Chris Tar,Manaal Faruqui,Yun-Hsuan Sung

GoogleUMass Amherstevaluationautoraterreward-modelDOI DBLP

泛读FindingsEMNLP 2024

Learning to Refine with Fine-Grained Natural Language Feedback

让模型根据自然语言反馈来修正自身输出（refinement）是提升生成质量的重要手段，但现有方法要么只用粗粒度的对/错信号，要么依赖人工编写反馈。如何让模型有效利用细粒度自然语言反馈来迭代改进，仍是开放问题。

Manya Wadhwa,Xinyu Zhao,Junyi Jessy Li,Greg Durrett

UT AustinfeedbackrefinementalignmentDOI DBLP

泛读EMNLP 2024

CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models

语言模型为 token 序列分配的概率应该满足一些基本的一致性约束（例如一个 span 的概率应等于其所有可能续写的概率之和），但现有模型是否真的满足这些约束缺乏系统检验。这篇工作提出了一个框架来测试 LM span 概率的一致性。

Eitan Wagner,Yuli Slavutsky,Omri Abend

Hebrew University of Jerusalemlanguage-modelingcalibrationconsistencyDOI DBLP

泛读FindingsEMNLP 2024

LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference

多模态 LLM 在处理长上下文时，KV cache 的显存占用成为推理瓶颈，尤其是图像 token 数量远超文本 token。现有 KV cache 压缩方法主要针对纯文本设计，未考虑多模态场景中视觉 token 的特殊性。

Zhongwei Wan,Ziang Wu,Che Liu,Jinfa Huang,Zhihong Zhu,Peng Jin,Longyue Wang,Li Yuan

kv-cachemultimodallong-contextDOI DBLP

泛读EMNLP 2024

How Do Your Code LLMs perform? Empowering Code Instruction Tuning with Really Good Data

代码 LLM 的指令微调效果高度依赖训练数据质量，但现有代码指令数据集质量参差不齐，缺乏系统的数据质量评估和筛选方法。核心问题是如何构建高质量的代码指令微调数据。

Yejie Wang,Keqing He,Dayuan Fu,Zhuoma Gongque,Heyang Xu,Yanxu Chen ... 省略 4 位作者 ... ,Jingang Wang,Mengdi Zhang,Xunliang Cai,Weiran Xu

code-llminstruction-tuningdata-qualityDOI DBLP

泛读EMNLP 2024

FAC²E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition

这篇工作要解决的问题是：现有 LLM 能力评测把语言能力和认知能力混在一起，导致我们很难判断模型到底是“会推理”，还是只是“会顺着语言模式答题”。过去很多 benchmark 默认把答对题等同于具备某种认知能力，但题目通常高度依赖语言理解、表述习惯和数据记忆，因此对能力归因并不干净；作者试图把这两部分拆开评估。

Xiaoqiang Wang,Lingfei Wu,Tengfei Ma,Bang Liu

capabilityreasoningevaluationDOI DBLP

泛读EMNLP 2024

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

这篇工作解决的是稀疏架构 LLM，尤其是 MoE 模型，在微调时经常把所有专家一起拉着改，既浪费参数效率，也容易破坏专家分工。问题的关键在于：既然 MoE 预训练已经形成了某种专家 specialization，后续适配是否应该尽量顺着这个结构，而不是把它抹平。

Zihan Wang,Deli Chen,Damai Dai,Runxin Xu,Zhuoshu Li,Yu Wu

moefine-tuningspecializationDOI DBLP

泛读EMNLP 2024

Unveiling Factual Recall Behaviors of Large Language Models through Knowledge Neurons

这篇工作研究的是 LLM 事实性召回时内部神经元到底起什么作用，尤其是知识神经元是否真的对应可定位、可干预的事实记忆单元。过去知识编辑和机制解释常把“某些神经元承载某个事实”当作工作假设，但模型召回知识往往是分布式的，这个假设到底成立到什么程度需要更细的实证。

Yifei Wang,Yuheng Chen,Wanting Wen,Yu Sheng,Linjing Li,Daniel Zeng

knowledge-neuronsfactualityinterpretabilityDOI DBLP

泛读FindingsEMNLP 2024

PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

这篇工作要解决的是标准自回归 LLM 对显式位置的建模不够可控，因此在长度控制、精确复制、copy-paste 这类任务上表现并不稳定。模型虽然隐式使用位置编码，但这种位置信息通常只服务于一般语言建模，不会自然转化成对“第几个 token”“复制哪一段”的显式操作能力。

Noah Wang,Feiyu Duan,Yibo Zhang,Wangchunshu Zhou,Ke Xu,Wenhao Huang,Jie Fu

position-encodinglength-controlcopyingDOI DBLP

泛读FindingsEMNLP 2024

Conditional Language Policy: A General Framework For Steerable Multi-Objective Finetuning

这篇工作要解决的是多目标微调中的可控性问题：模型往往需要同时满足 helpfulness、harmlessness、style、brevity 等多个目标，但现有做法通常为每个目标权重单独训练一个模型，或者事后靠 prompt 调节，既低效也不稳定。作者想要一个统一框架，让同一个模型在推理时按条件切换目标偏好。

Kaiwen Wang,Rahul Kidambi,Ryan Sullivan,Alekh Agarwal,Christoph Dann,Andrea Michi ... 省略 10 位作者 ... ,Aranyak Mehta,Léonard Hussenot,Olivier Bachem,Edouard Leurent

multi-objectivefinetuningsteeringDOI DBLP

泛读FindingsEMNLP 2024

Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision

这篇论文聚焦一个很具体但现在很关键的问题：让 verifier 给出的过程级监督，是否真的能稳定提升多步推理，而不是只在少数构造好的 setting 里看起来有效。过去大量工作默认“有 verifier 就能带来更好的 process supervision”，但 verifier 往往只评估最终轨迹的局部合理性，误判、奖励稀疏和分布偏移都会让它学到表面步骤而不是真正的解题过程。

Zihan Wang,Yunxuan Li,Yuexin Wu,Liangchen Luo,Le Hou,Hongkun Yu,Jingbo Shang

process-supervisionverifierreasoningDOI DBLP

泛读EMNLP 2024

Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models

这篇论文解决的是安全对齐里一个经常被低估的问题：训练数据不是越多越好，关键是当前模型最需要什么数据。现有 safety alignment 往往用静态数据池做 SFT 或 preference training，但模型在训练过程中薄弱点会变化，静态配比容易把算力浪费在已学会样本上，真正困难和高风险样本却覆盖不足。

Fei Wang,Ninareh Mehrabi,Palash Goyal,Rahul Gupta,Kai-Wei Chang,Aram Galstyan

safety-alignmentdata-curationsftDOI DBLP

泛读EMNLP 2024

Bayesian Example Selection Improves In-Context Learning for Speech, Text and Visual Modalities

这篇论文解决的是 ICL 里一个跨模态但共通的问题：示例选择经常靠 embedding 相似度或启发式检索，既不稳也不一定和真正的预测不确定性对齐。尤其在语音、文本、视觉这些模态混合时，单一相似度度量更容易失真，因此需要一种能显式处理不确定性的 example selection 方法。

Siyin Wang,Chao-Han Huck Yang,Ji Wu,Chao Zhang

in-context-learningbayesianmultimodalDOI DBLP

泛读EMNLP 2024

mDPO: Conditional Preference Optimization for Multimodal Large Language Models

多模态大语言模型（MLLM）在做 DPO 对齐时，标准 DPO 只考虑整体偏好，无法区分语言和视觉两个模态各自的偏好信号，导致对齐效果次优，尤其在幻觉抑制方面。

Fei Wang,Wenxuan Zhou,James Y. Huang,Nan Xu,Sheng Zhang,Hoifung Poon,Muhao Chen

dpomultimodal-llmpreference-optimizationDOI DBLP

泛读EMNLP 2024

Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions?

多语言指令微调时，是否必须用目标语言的指令数据？还是英文指令数据就够了？这个问题之前缺乏系统性实验验证，实践中大家要么全用英文、要么费力收集多语言指令，但没有清晰的指导原则。

Alexander Arno Weber,Klaudia Thellmann,Jan Ebert,Nicolas Flores-Herr,Jens Lehmann,Michael Fromm,Mehdi Ali

Fraunhofer IAISUniversity of Bonnmultilingualinstruction-tuningsftDOI DBLP

泛读EMNLP 2024

Structured Optimal Brain Pruning for Large Language Models

LLM 剪枝（pruning）大多是非结构化的（逐权重），虽然压缩率高但难以获得实际加速；结构化剪枝能直接减少计算量，但在 LLM 上效果往往大幅退化。本文要解决的是如何在 LLM 上做高质量的结构化剪枝。

Jiateng Wei,Quan Lu,Ning Jiang,Siqi Li,Jingyang Xiang,Jun Chen,Yong Liu

pruningstructured-pruningcompressionDOI DBLP

泛读FindingsEMNLP 2024

MACAROON: Training Vision-Language Models To Be Your Engaged Partners

现有 VLM 在对话中倾向于给出简短、被动的回答，缺乏主动参与（engagement）能力——比如主动提问、引导话题、表达好奇心。这限制了 VLM 作为交互伙伴的实用性。

Shujin Wu,Yi Fung,Sha Li,Yixin Wan,Kai-Wei Chang,Heng Ji

UCLAvlminstruction-tuningmultimodalDOI DBLP

泛读FindingsEMNLP 2024

Updating Large Language Models' Memories with Time Constraints

LLM 的知识更新（knowledge editing）在引入时间约束时变得更难：模型需要理解某个事实在特定时间段内有效，而不是简单地替换旧事实。之前的知识编辑方法大多不考虑时间维度，导致更新后的知识在时间推理场景中出错。

Xin Wu,Yuqi Bu,Yi Cai,Tao Wang

knowledge-editingmemorycontinual-learningDOI DBLP

泛读FindingsEMNLP 2024

Representational Isomorphism and Alignment of Multilingual Large Language Models

多语言 LLM 的不同语言表示之间是否存在同构性（isomorphism）？如果存在，这种对齐是如何形成的，又如何影响跨语言能力？之前的工作多在小模型或静态 embedding 上研究，对 LLM 规模的多语言表示对齐缺乏深入分析。

Di Wu,Yibin Lei,Andrew Yates,Christof Monz

University of AmsterdammultilingualrepresentationalignmentDOI DBLP

泛读EMNLP 2024

Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration

这篇工作聚焦于把 LLM 的训练数据归因做得更可信，核心是纠正现有方法把“影响大”误判为“有益大”的问题。已有归因方法通常只看某个训练样本对目标样本损失或表示的影响，却很少区分这种影响是帮助拟合还是放大误差，因此在噪声、错标或分布外样本存在时，归因结果容易失真。

Kangxi Wu,Liang Pang,Huawei Shen,Xueqi Cheng

data-attributiontraining-datamemorizationDOI DBLP

泛读EMNLP 2024

AKEW: Assessing Knowledge Editing in the Wild

这篇工作要解决的是知识编辑评测过于理想化，不能反映真实开放环境中的编辑质量。以往多数工作在封闭模板、少量关系和受控问法上测编辑是否生效，但这会高估方法表现，因为真实使用时模型会遇到开放式提问、改写、干扰知识和多跳语境。

Xiaobao Wu,Liangming Pan,William Yang Wang,Anh Tuan Luu

knowledge-editingbenchmarkevaluationDOI DBLP

泛读EMNLP 2024

Mixture-of-Subspaces in Low-Rank Adaptation

这篇工作针对 LoRA 的一个核心限制：单一低秩子空间表达能力不足，尤其当任务更新方向本身是多模态或分段结构时。传统 LoRA 假设少量 rank 就能覆盖主要适配方向，这在简单任务上常够用，但面对多领域、多风格或复杂指令分布时容易欠拟合。

Taiqiang Wu,Jiahao Wang,Zhe Zhao,Ngai Wong

loralow-rankparameter-efficientDOI DBLP

泛读EMNLP 2024

Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks

这篇工作想解决的是：如何在 instruction tuning 中把 dense 模型参数高效地稀疏化成 MoE，而不是从头训练或全量改造。过去 MoE 的优势主要来自预训练阶段，但把一个已经训练好的 dense LLM 低成本转成专家结构并稳定微调，一直是系统和方法上的难点。

Haoyuan Wu,Haisheng Zheng,Zhuolun He,Bei Yu

moesparsityinstruction-tuningDOI DBLP

泛读FindingsEMNLP 2024

V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization

这篇工作聚焦于大视觉语言模型的幻觉问题，核心矛盾是：现有 DPO 类偏好优化大多只看文本偏好信号，不能保证回答真正受图像约束。以往方法要么靠监督微调堆更多图文数据，要么用通用偏好对优化回答风格，但这两类方法都容易把“像样的回答”误当成“看图后的正确回答”。

Yuxi Xie,Guanzhen Li,Xiao Xu,Min-Yen Kan

National University of SingaporedpohallucinationvlmDOI DBLP

泛读IndustryEMNLP 2024

Course-Correction: Safety Alignment Using Synthetic Preferences

这篇工作要解决的是安全对齐数据贵、慢且覆盖有限的问题，尤其是人工偏好数据很难覆盖长尾风险场景。过去做法依赖人工红队和人工偏好标注，质量高但扩展性差；而纯规则过滤又太粗，常把有用能力一起压掉。

Rongwu Xu,Yishuo Cai,Zhenhong Zhou,Renjie Gu,Haiqin Weng,Liu Yan,Tianwei Zhang,Wei Xu,Han Qiu

safetyalignmentsynthetic-dataDOI DBLP

泛读FindingsEMNLP 2024

LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning

Zifan Xu,Haozhu Wang,Dmitriy Bespalov,Xian Wu,Peter Stone,Yanjun Qi

latent-reasoningcotreasoningDOI DBLP

泛读FindingsEMNLP 2024

An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Language Model Inference

Atsuki Yamaguchi,Aline Villavicencio,Nikolaos Aletras

tokenizermultilingualvocabularyDOI DBLP

泛读EMNLP 2024

Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective

Hanqi Yan,Yanzheng Xiang,Guangyi Chen,Yifei Wang,Lin Gui,Yulan He

monosemanticityinterpretabilityfeature-learningDOI DBLP

泛读FindingsEMNLP 2024

The Fall of ROME: Understanding the Collapse of LLMs in Model Editing

Wanli Yang,Fei Sun,Jiajun Tan,Xinyu Ma,Du Su,Dawei Yin,Huawei Shen

model-editingknowledgefailure-analysisDOI DBLP

泛读FindingsEMNLP 2024

LaCo: Large Language Model Pruning via Layer Collapse

Yifei Yang,Zouying Cao,Hai Zhao

pruninglayer-collapsemodel-compressionDOI DBLP

泛读EMNLP 2024

Data Contamination Can Cross Language Barriers

Feng Yao,Yufan Zhuang,Zihao Sun,Sunan Xu,Animesh Kumar,Jingbo Shang

data-contaminationcross-lingualbenchmarkDOI DBLP

泛读EMNLP 2024

Preference-Guided Reflective Sampling for Aligning Language Models

这篇工作要解决的是：在不重训或少重训模型的前提下，如何用偏好信号改进采样阶段的对齐质量。现有做法大多把偏好学习放在参数更新里，例如 RLHF 或 DPO，但这类方法成本高、反馈滞后，而且一旦训练目标写错会把偏差固化进模型；因此，直接在推理时把偏好引入采样，是一个值得重新认真做的问题。

Hai Ye,Hwee Tou Ng

alignmentpreferencesamplingDOI DBLP

泛读EMNLP 2024

Semantic Training Signals Promote Hierarchical Syntactic Generalization in Transformers

这篇工作要回答的是：Transformer 的层级句法泛化，是否需要显式句法监督，还是语义训练信号本身就能把这种结构学出来。过去很多工作把句法泛化问题孤立成语法任务来研究，但真实语言建模里模型学到的往往是语义、统计和表面模式的混合，因此重新拆分“语义信号”和“句法泛化”的关系是有价值的。

Aditya Yedetore,Najoung Kim

training-signalsyntaxgeneralizationDOI DBLP

泛读EMNLP 2024

Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

这篇工作要解决的是：多语言 LLM 推理很慢，而现有 speculative decoding 在跨语言场景下不一定稳定，因为不同语言的 token 分布、脚本和长度模式差异很大。单一 drafter 在英文上有效，不代表在多语言上同样高接受率；因此需要更贴合语言特性的推测解码方案。

Euiin Yi,Taehyeon Kim,Hongseok Jeung,Du-Seong Chang,Se-Young Yun

speculative-decodingmultilingualinferenceDOI DBLP

泛读FindingsEMNLP 2024

Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning

这篇工作要回答的是：在某些任务上，为什么不更新参数的 in-context learning 反而能比 fine-tuning 给出更深的推理或更稳的泛化。过去社区常把 fine-tuning 当作默认更强的适配方式，但实际中它经常过拟合格式、破坏原有能力或引入 shortcut，因此“只靠上下文示例”何时更优，值得系统分析。

Qingyu Yin,Xuzheng He,Chak Tou Leong,Fan Wang,Yanzhao Yan,Xiaoyu Shen,Qiang Zhang

in-context-learningfine-tuningcomparisonDOI DBLP

泛读EMNLP 2024

Neuron-Level Knowledge Attribution in Large Language Models

这篇工作要解决的是：LLM 的知识到底可以细化归因到哪些神经元层面，而不是只停留在参数块、attention head 或训练样本层面的粗粒度解释。过去知识定位研究往往停在较大模块，因为 neuron-level attribution 噪声高、可重复性差，但如果能稳定做到这一层，解释和定向编辑都会更精确。

Zeping Yu,Sophia Ananiadou

interpretabilityknowledgeneuronsDOI DBLP

泛读FindingsEMNLP 2024

Mechanistic Understanding and Mitigation of Language Model Non-Factual Hallucinations

这篇工作聚焦的核心问题是：LLM 的非事实性幻觉不仅是数据缺失问题，还可能对应可定位的生成机制，因此需要同时解释“为什么会编”和“怎么稳妥地减轻”。过去很多方法把 hallucination 当作对齐或检索问题处理，但对内部生成动力学的解释不足，导致缓解方法常常有效但不稳。

Lei Yu,Meng Cao,Jackie C. K. Cheung,Yue Dong

hallucinationmechanistic-interpretabilityfactualityDOI DBLP

泛读EMNLP 2024

Rethinking the Evaluation of In-Context Learning for LLMs

这篇工作要解决的是：当前对 ICL（in-context learning）的评测方式可能混淆了真正的上下文学习能力和其他因素，比如模板敏感性、标签偏置、预训练记忆或解码技巧。过去很多论文直接比较 few-shot 分数，但如果评测协议本身不稳，得到的“ICL 强弱”结论就不可靠。

Guoxin Yu,Lemao Liu,Mo Yu,Yue Yu,Xiang Ao

iclevaluationbenchmarkDOI DBLP

泛读EMNLP 2024

Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties

这篇工作要解决的是：视频 VLM 的 in-context learning 往往不稳定，不只是模型不够大，也和训练数据的分布属性不匹配有关。过去很多工作直接堆模型或堆指令数据，但如果数据里缺少能诱发 ICL 的结构，模型即便有容量也未必学会在上下文中快速适配。

Keunwoo Peter Yu,Zheyuan Zhang,Fengyuan Hu,Shane Storks,Joyce Chai

University of MichiganvlmiclvideoDOI DBLP

泛读EMNLP 2024

Whispers that Shake Foundations: Analyzing and Mitigating False Premise Hallucinations in Large Language Models

这篇工作聚焦 false premise hallucination：当用户问题包含错误前提时，LLM 往往顺着错前提继续编，而不是先识别并拒绝。过去很多 factuality 工作把重点放在知识正确率上，但 false-premise 场景更像是推理和校验失灵，它能暴露模型在对话中的迎合偏置。

Hongbang Yuan,Pengfei Cao,Zhuoran Jin,Yubo Chen,Daojian Zeng,Kang Liu,Jun Zhao

hallucinationreasoningevaluationDOI DBLP

泛读EMNLP 2024

Focused Large Language Models are Stable Many-Shot Learners

这篇工作讨论的核心问题是：为什么 LLM 在 many-shot ICL 下常常不稳定，而某些“focused”模型却更稳。传统观点往往把 many-shot 失败归结为上下文太长或噪声太多，但题目暗示作者认为模型注意力分配或任务聚焦能力才是关键差异。

Peiwen Yuan,Shaoxiong Feng,Yiwei Li,Xinglin Wang,Yueqi Zhang,Chuyi Tan,Boyuan Pan,Heda Wang,Yao Hu,Kan Li

in-context-learningmany-shotgeneralizationDOI DBLP

泛读EMNLP 2024

Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model

这篇工作要解决的问题是：如果希望在推理时用 reward 信号干预 LLM 生成，通常要么额外跑 reward model、要么大改模型结构，推理成本和部署复杂度都很高。作者想做的是把 token 预测和 reward 预测尽量合并，而且不破坏原模型行为。

Chenhan Yuan,Fei Huang,Ru Peng,Keming Lu,Bowen Yu,Chang Zhou,Jingren Zhou

reward-modelinferenceinterventionDOI DBLP

泛读FindingsEMNLP 2024

KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches

这篇工作解决的是：KV cache compression 在长上下文推理里很热，但大家往往只报省了多少显存或速度提升，却不系统回答“代价是什么、在什么任务上退化、哪些方法更稳”。现阶段方法很多，包括 token eviction、聚类、低秩、量化、重算等，没有统一 benchmark 时很难做真实比较。

Jiayi Yuan,Hongyi Liu,Shaochen (Henry) Zhong,Yu-Neng Chuang,Songchen Li,Guanchu Wang ... 省略 2 位作者 ... ,Vipin Chaudhary,Zhaozhuo Xu,Zirui Liu,Xia Ben Hu

kv-cachelong-contextbenchmarkDOI DBLP

泛读FindingsEMNLP 2024

Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

这篇工作要解决的问题是：把大模型的 instruction-following 蒸馏到小模型时，若直接混合任务训练，往往会学得慢、忘得快，且难例和易例的顺序会明显影响最终效果。过去常见的指令蒸馏更多关注数据量和 teacher 质量，但对 curriculum 的设计不够系统。

Yuanhao Yue,Chengyu Wang,Jun Huang,Peng Wang

instruction-tuningdistillationcurriculumDOI DBLP

泛读FindingsEMNLP 2024

On Diversified Preferences of Large Language Model Alignment

Dun Zeng,Yong Dai,Pengyu Cheng,Longyue Wang,Tianhao Hu,Wanshun Chen,Nan Du,Zenglin Xu

alignmentpreferencesdiversityDOI DBLP

泛读EMNLP 2024

Memorize Step by Step: Efficient Long-Context Prefilling with Incremental Memory and Decremental Chunk

Zhiyuan Zeng,Qipeng Guo,Xiaoran Liu,Zhangyue Yin,Wentao Shu,Mianqiu Huang ... 省略 1 位作者 ... ,Yunhua Zhou,Linlin Li,Qun Liu,Xipeng Qiu

long-contextprefillmemoryDOI DBLP

泛读EMNLP 2024

Automatic Instruction Evolving for Large Language Models

Weihao Zeng,Can Xu,Yingxiu Zhao,Jian-Guang Lou,Weizhu Chen

instruction-datasynthetic-dataself-improvementDOI DBLP

泛读EMNLP 2024

TEMA: Token Embeddings Mapping for Enriching Low-Resource Language Models

Rodolfo Zevallos,Núria Bel,Mireia Farrús

token-embeddingslow-resourcemultilingualDOI DBLP

泛读FindingsEMNLP 2024

Code Membership Inference for Detecting Unauthorized Data Use in Code Pre-trained Language Models

这篇工作聚焦一个很现实但过去缺少专门工具的问题：如何判断代码预训练模型是否未经授权使用了某段代码数据。通用 membership inference（成员推断）主要在自然语言场景验证过，直接搬到代码上往往忽略了代码的强模式性、重复片段和语义等价改写，因此既难用于版权取证，也难区分真正记忆和仅仅学到语法统计。

Sheng Zhang,Hui Li,Rongrong Ji

membership-inferencecode-llmprivacyDOI DBLP

泛读EMNLP 2024

Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models

这篇工作解决的是传统 turn-based LLM 对话范式无法支持实时双工交互的问题。标准语音助手通常是‘用户说完一句，系统再完整回复’，这和人类对话中的打断、插话、边听边回应差距很大；问题不是语音识别精度，而是语言模型的时序建模单位过粗。

Xinrong Zhang,Yingfa Chen,Shengding Hu,Xu Han,Zihang Xu,Yuanwei Xu,Weilin Zhao,Maosong Sun,Zhiyuan Liu

speechduplexreal-timeDOI arXiv DBLP

泛读EMNLP 2024

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

这篇工作要补的是当前多模态模型在抽象图像和视觉推理上的明显短板。现有 LMM 在自然图像上进步很快，但对图表、地图、流程图、平面布局这类‘视觉上简单、推理上离散’的输入仍然不稳，原因往往不是视觉 backbone 看不见，而是训练数据里缺少这类可组合、带程序结构的 instruction。

Wenqi Zhang,Zhenglin Cheng,Yuanyu He,Mengna Wang,Yongliang Shen,Zeqi Tan ... 省略 1 位作者 ... ,Mingqian He,Yanna Ma,Weiming Lu,Yueting Zhuang

synthetic-dataself-instructmultimodalDOI arXiv DBLP

泛读EMNLP 2024

Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning

这篇工作关注数学推理训练里一个常见但被低估的问题：模型只学最终答案，导致过程质量差、纠错能力弱、泛化也不稳。传统 CoT 或监督微调通常把正确解答当作唯一目标，但推理真正困难的地方是中间状态管理和自我修正，而不是最后那行答案字符。

Zhihan Zhang,Tao Ge,Zhenwen Liang,Wenhao Yu,Dian Yu,Mengzhao Jia,Dong Yu,Meng Jiang

reasoningreflectionmathDOI DBLP

泛读EMNLP 2024

Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners

这篇工作讨论的是一个很值得 pretrain 研究者关心的问题：大语言模型能否在较少显式监督下自发获得多语言能力。传统做法往往依赖大规模平衡多语语料和专门对齐训练，但现实里高资源语言挤占 token 预算、低资源语言标注稀缺，因此‘用更少监督学到更多语言’一直是多语预训练的核心矛盾。

Shimao Zhang,Changjiang Gao,Wenhao Zhu,Jiajun Chen,Xin Huang,Xue Han,Junlan Feng,Chao Deng,Shujian Huang

multilingualgeneralizationlow-resourceDOI DBLP

泛读EMNLP 2024

Working Memory Identifies Reasoning Limits in Language Models

这篇工作试图回答一个比‘模型会不会推理’更具体的问题：语言模型推理的上限是不是受工作记忆约束。很多推理评测把失败归因为缺知识或不会算法，但复杂推理常常先被中间变量维护、状态回溯和多步依赖拖垮，因此把 reasoning limit 拆成 working memory limit 是有价值的研究角度。

Chunhui Zhang,Yiren Jian,Zhongyu Ouyang,Soroush Vosoughi

reasoningworking-memorylimitsDOI DBLP

泛读EMNLP 2024

Extracting Prompts by Inverting LLM Outputs

这篇论文研究的是模型隐私和数据泄露里的一个尖锐问题：能不能仅凭 LLM 的输出，把原始 prompt 反推出去。以往大家更多讨论训练数据抽取或系统 prompt 泄露，但“从输出反演输入”更接近真实部署风险，因为用户往往只能看到模型回复，未必能访问内部状态或训练集。

Collin Zhang,John X. Morris,Vitaly Shmatikov

privacyprompt-leakageinversionDOI DBLP

泛读FindingsEMNLP 2024

MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning

这篇论文关注的是 LoRA 微调的一个老问题：单个低秩适配器便宜，但表达能力有限；把 rank 加大又会很快失去参数高效优势。很多任务需要比单一 LoRA 更灵活的适配结构，尤其在大模型上，固定一个低秩子空间往往不够覆盖不同输入模式。

Jingfan Zhang,Yi Zhao,Dan Chen,Xing Tian,Huanran Zheng,Wei Zhu

loramoeparameter-efficientDOI DBLP

泛读EMNLP 2024

Dual-Space Knowledge Distillation for Large Language Models

这篇论文要解决的是大语言模型蒸馏里的信息损失问题：只在 token logits 空间蒸馏，学生容易学到表面输出分布；只在 hidden states 空间蒸馏，又未必能把教师的最终决策行为传过去。很多 LLM distillation 方法在这两个空间里二选一，导致学生要么模仿得像、要么表现得像，但很难两者兼得。

Songming Zhang,Xue Zhang,Zengkui Sun,Yufeng Chen,Jinan Xu

knowledge-distillationllmdual-spaceDOI DBLP

泛读FindingsEMNLP 2024

Pruning Foundation Models for High Accuracy without Retraining

这篇论文解决的是 foundation model 剪枝里的一个很硬的工程问题：怎样在不重训练的情况下把模型裁小，同时尽量不掉精度。现有高质量剪枝方法常常依赖 retraining 或 recovery finetuning，这在大模型上成本很高，很多部署场景根本承担不起。

Pu Zhao,Fei Sun,Xuan Shen,Pinrui Yu,Zhenglun Kong,Yanzhi Wang,Xue Lin

pruningfoundation-modelcompressionDOI DBLP

泛读EMNLP 2024

The Mystery of In-Context Learning: A Comprehensive Survey on Interpretation and Analysis

Yuxiang Zhou,Jiazheng Li,Yanzheng Xiang,Hanqi Yan,Lin Gui,Yulan He

in-context-learningsurveyinterpretabilityDOI DBLP

泛读FindingsEMNLP 2024

Leveraging Web-Crawled Data for High-Quality Fine-Tuning

Jing Zhou,Chenglin Jiang,Wei Shen,Xiao Zhou,Xiaonan He

web-datafine-tuningdata-qualityDOI DBLP

泛读EMNLP 2024

MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic

Yuyan Zhou,Liang Song,Bingning Wang,Weipeng Chen

model-mergingtask-arithmeticweight-spaceDOI DBLP

泛读EMNLP 2024

Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments

Han Zhou,Xingchen Wan,Yinhong Liu,Nigel Collier,Ivan Vulic,Anna Korhonen

alignmentpreference-dataevaluationDOI DBLP

泛读FindingsEMNLP 2024

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

这篇论文要回答的核心问题是：对齐训练为什么能让模型拒答有害请求，而 jailbreak 为什么又能把这种安全行为绕开。过去安全研究大多停留在输入输出层面的经验观察，例如比较不同提示词或不同拒答模板，但很少直接看中间隐状态里安全行为是如何被表示和被破坏的；这使得很多防御方法只能做表层补丁，难以判断到底是在改模型机制还是只是在改输出风格。

Zhenhong Zhou,Haiyang Yu,Xinghua Zhang,Rongwu Xu,Fei Huang,Yongbin Li

interpretabilityalignmentjailbreakDOI DBLP

泛读FindingsEMNLP 2024

DEFT: Distribution-guided Efficient Fine-Tuning for Human Alignment

这篇论文聚焦一个很实际的问题：做人类对齐时，全量微调成本高，而常见高效微调方法又容易偏离目标分布，导致对齐质量下降。过去 LoRA、adapter 之类方法主要从参数效率出发设计，很少显式约束微调后模型与目标偏好分布的关系；结果是训练便宜了，但安全性、帮助性或风格一致性常常不如全参对齐。

Liang Zhu,Feiteng Fang,Yuelin Bai,Longze Chen,Zhexiang Zhang,Minghuan Tan,Min Yang

fine-tuningalignmentdistribution-shiftDOI DBLP

泛读EMNLP 2024

FlipGuard: Defending Preference Alignment against Update Regression with Constrained Optimization

这篇论文针对 preference alignment 里的一个常见但常被低估的问题：模型在对齐更新后会出现 update regression，也就是新偏好学到了，但旧能力、旧偏好或先前安全边界被意外破坏。过去很多偏好优化方法默认把每轮更新看成局部改进，只关注当前偏好数据上的胜率提升，却没有显式约束‘不要把已有正确行为翻过去’，因此回归问题在多轮对齐和持续更新中尤其突出。

Mingye Zhu,Yi Liu,Quan Wang,Junbo Guo,Zhendong Mao

alignmentpreference-optimizationconstrained-optimizationDOI DBLP

泛读FindingsEMNLP 2024

ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

这篇论文聚焦提示敏感性：同一个任务只改几个词、顺序或格式，LLM 输出质量就可能大幅波动，而我们对这种波动的来源和结构了解还不够。过去多数工作把 prompt sensitivity 当成经验现象，用 prompt engineering 去绕开，但很少系统评估模型到底对哪些扰动敏感、这种敏感性是能力不足、对齐副作用，还是评测方式放大的结果。

Jingming Zhuo,Songyang Zhang,Xinyu Fang,Haodong Duan,Dahua Lin,Kai Chen

prompt-sensitivityrobustnessevaluationDOI DBLP

泛读FindingsEMNLP 2024

PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning

这篇论文解决的是 recurrent prompt 在推理时太贵的问题：有些系统依赖固定的长提示、角色设定、工具协议或任务模板反复附加到每次请求里，效果好但 token 成本和延迟都高。以往常见做法是继续手写短 prompt、做 prompt compression，或把模板硬编码进系统；这些办法要么效果不稳定，要么难泛化，因此作者提出在微调阶段把 recurrent prompt 内化到模型里。

Jiaru Zou,Mengyu Zhou,Tao Li,Shi Han,Dongmei Zhang

Microsoftprompt-compressionfine-tuninginference-efficiencyDOI DBLP

泛读EMNLP 2024

Altogether: Image Captioning via Re-aligning Alt-text

这篇工作要解决的核心问题是：现有图像描述数据合成往往从零写 caption，既浪费图像自带的 alt-text 先验，也把数据质量交给一个训练来源不透明的 captioner，结果是可控性和可追溯性都不够。作者认为很多网页图像本来就带有弱标注文本，真正缺的不是“再生成一遍”，而是把这些 alt-text 与图像内容重新对齐、纠错并补全视觉细节。

Hu Xu,Po-Yao Huang,Xiaoqing Ellen Tan,Ching-Feng Yeh,Jacob Kahn,Christine Jou ... 省略 3 位作者 ... ,Wen-tau Yih,Shang-Wen Li,Saining Xie,Christoph Feichtenhofer

synthetic-datacaptioningdata-qualityDOI arXiv DBLP

泛读DemoEMNLP 2024

FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models

这篇工作要解决的是 LLM 自动评测工具链碎片化、可信性不足且推理成本高的问题。现在评测方法、数据集和打分范式增长很快，但很多系统彼此不兼容；同时污染和偏置会削弱结论可信度，而大规模模型推理又让评测本身变成昂贵流程。

Zhuohao Yu,Chang Gao,Wenjin Yao,Yidong Wang,Zhengran Zeng,Wei Ye,Jindong Wang,Yue Zhang,Shikun Zhang

evaluationdata-contaminationefficiencyDOI arXiv DBLP

泛读EMNLP 2024

LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language Models

这篇工作要解决的是 LLM 终身模型编辑中的持续更新难题。现有单次编辑或批量编辑方法在 lifelong setting 下往往不稳定：要么新知识覆盖旧知识导致灾难性遗忘，要么路由不一致、编辑顺序敏感，导致随着编辑次数增加性能快速退化。

Renzhi Wang,Piji Li

model-editingmoecontinual-learningDOI arXiv DBLP

泛读EMNLP 2024

In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search

这篇工作要解决的是 LLM 在长尾推理知识上的评测与数据缺口。模型在常见分布上表现不错，但对低频、低置信度 yet factual 的推理型知识往往更脆弱；过去缺少系统办法去构造这类样本，因此“长尾泛化差”经常只是经验判断，没有稳定测试集支持。

Huihan Li,Yuting Ning,Zeyi Liao,Siyuan Wang,Xiang Li,Ximing Lu,Wenting Zhao,Faeze Brahman,Yejin Choi,Xiang Ren

long-tailgeneralizationevaluationDOI arXiv DBLP

泛读EMNLP 2024

Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets

这篇工作要解决的是语言模型鲁棒性评测过于分散，尤其缺少对“并发扰动鲁棒性”的系统理解。很多工作只看单一 perturbation，但真实输入往往同时包含多种扰动；模型在一种扰动上更稳，并不代表在多扰动组合下也稳，甚至可能出现对一种鲁棒、对另一种更脆弱的负迁移。

Vatsal Gupta,Pranshu Pandya,Tushar Kataria,Vivek Gupta,Dan Roth

robustnessevaluationhallucinationDOI arXiv DBLP

泛读EMNLP 2024

CELLO: Causal Evaluation of Large Vision-Language Models

这篇工作要解决的是 LVLM 的因果理解能力缺少细粒度、统一且正式化的评测。过去很多所谓 causality benchmark 只考事件常识或动作后果判断，不足以覆盖人与物体交互中的因果结构，也缺少显式因果图支撑，因此很难判断模型到底是在做因果推理，还是在做相关性匹配。

Meiqi Chen,Bo Peng,Yan Zhang,Chaochao Lu

vision-languagecausal-reasoningevaluationDOI arXiv DBLP

泛读FindingsEMNLP 2024

Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

这篇工作要解决的是数学推理 LLM 几乎都围绕单语言优化，跨语言能力缺少数据和训练策略支撑。现有数学推理工作大多默认英语场景，导致模型一旦切换语言，推理质量和解题稳定性都会明显下降，而这并不是数学能力本身应该有的限制。

Nuo Chen,Zinan Zheng,Ning Wu,Ming Gong,Dongmei Zhang,Jia Li

multilingualmath-reasoningtraining-dataDOI arXiv DBLP

泛读FindingsEMNLP 2024

XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference

现有仅解码器LLM的上下文学习需要把参考信息拼入prompt，自注意力的二次开销导致实时处理长参考上下文效率低，提前缓存未知的上下文难度大，缓存的transformer状态存储成本接近模型参数本身。

João Monteiro,Étienne Marcotte,Pierre-André Noël,Valentina Zantedeschi,David Vázquez,Nicolas Chapados,Christopher Pal,Perouz Taslakian

kv-cachelong-contextcross-attentionDOI arXiv DBLP

FindingsEMNLP 2024

Mirror-Consistency: Harnessing Inconsistency in Majority Voting

现有广泛使用的Self-Consistency解码依赖多数投票，仅保留最高频答案，忽略了少数生成结果中的不一致信息，无法利用这些信息反映模型的不确定性或优化推理结果。

Siyuan Huang,Zhiyuan Ma,Jintao Du,Changhua Meng,Weiqiang Wang,Zhouhan Lin

reasoningself-consistencydecodingDOI arXiv DBLP

泛读EMNLP 2024

Can LLMs Learn Uncertainty on Their Own? Expressing Uncertainty Effectively in A Self-Training Manner

现有LLM生成的不确定性表述往往过度、随机、无信息量，无法支撑人机交互中的决策场景，之前的方法需要额外标注数据或外部校准，成本高泛化性差。

Shudong Liu,Zhaocong Li,Xuebo Liu,Runzhe Zhan,Derek F. Wong,Lidia S. Chao,Min Zhang

uncertaintyself-traininginstruction-tuningDOI DBLP

泛读EMNLP 2024

Large Language Models Can Self-Correct with Key Condition Verification

这篇论文关注的是：LLM 的 self-correction 为什么经常无效，以及怎样给它一个真正可执行的纠错条件。以往让模型“再想一遍”常常只是重复原答案，因为模型缺少一个明确的验证目标，无法知道该检查哪一步、用什么标准判错。

Zhenyu Wu,Qingkai Zeng,Zhihan Zhang,Zhaoxuan Tan,Chao Shen,Meng Jiang

self-correctionverificationreasoningDOI DBLP

泛读EMNLP 2024

BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models

这篇论文聚焦 instruction-tuned LLM 的 safety backdoor：模型表面上通过了安全对齐，但在特定触发条件下会恢复有害行为，怎样在不重做整套对齐训练的情况下把这种后门移除。过去常见做法是继续 safety fine-tune 或做输出过滤，但这对隐蔽触发器往往不稳，因为后门可能已经嵌入表示空间，而不只是显式文本模式。

Yi Zeng,Weiyu Sun,Tran Ngoc Huynh,Dawn Song,Bo Li,Ruoxi Jia

safetybackdoorinstruction-tuningDOI DBLP

泛读DemoEMNLP 2024

OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents

这篇论文解决的不是新的多模态模型算法，而是一个长期缺口：开放环境里缺少端到端、可协作、可替换组件的多模态对话系统构建与基准工具。现有像 GPT-4o、Gemini 这样的系统展示了低延迟音视频对话能力，但研究社区很难系统分析其中 latency、accuracy、cost、privacy 的真实 trade-off，因为缺少统一 pipeline 和可复现实验框架。

Qiang Sun,Yuanyi Luo,Sirui Li,Wenxiao Zhang,Wei Liu

multimodalaudioagentDOI arXiv DBLP

泛读EMNLP 2024

On Eliciting Syntax from Language Models via Hashing

这篇论文关心的是：语言模型内部是否已经隐式编码了句法结构，以及能否用 hashing 这样的轻量方法把这种结构稳定地提取出来。过去句法探测通常依赖探针模型、监督树库或较重的分析工具，因此很难区分‘模型真有句法表示’和‘外部探针又学了一遍句法’。

Yiran Wang,Masao Utiyama

syntaxrepresentationprobingDOI DBLP

泛读EMNLP 2024

Global Reward to Local Rewards: Multimodal-Guided Decomposition for Improving Dialogue Agents

这篇论文解决的是长程社交对话中的奖励稀疏问题：用户通常只在整段对话结束时给一个全局评分，但模型生成是逐轮进行的，没有足够密的学习信号去知道哪一句话真的让对话变好。单靠 session-level reward 做 RLHF，信用分配非常粗糙，容易学到不稳定甚至误导性的策略。

Dong Won Lee,Hae Park,Yoon Kim,Cynthia Breazeal,Louis-Philippe Morency

multimodalreward-modelingdialogueDOI DBLP

泛读EMNLP 2024

Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection

这篇论文的核心问题是：instruction-following 越强，模型越容易被 prompt injection 利用；我们需要一个系统 benchmark 去测模型能否分辨‘该听谁的指令、该忽略谁的指令’。过去很多工作只展示攻击案例，但缺少统一评测框架，因此很难比较不同模型是真正更鲁棒，还是只是对特定模板不敏感。

Zekun Li,Baolin Peng,Pengcheng He,Xifeng Yan

instruction-followingprompt-injectionrobustnessDOI arXiv DBLP

泛读FindingsEMNLP 2024

Reference-free Hallucination Detection for Large Vision-Language Models

Qing Li,Jiahui Geng,Chenyang Lyu,Derui Zhu,Maxim Panov,Fakhri Karray

vlmhallucinationevaluationDOI DBLP

泛读FindingsEMNLP 2024

Privacy Evaluation Benchmarks for NLP Models

Wei Huang,Yinggui Wang,Cen Chen

privacybenchmarkmemorizationDOI DBLP

泛读EMNLP 2024

Effective Demonstration Annotation for In-Context Learning via Language Model-Based Determinantal Point Process

Peng Wang,Xiaobin Wang,Chao Lou,Shengyu Mao,Pengjun Xie,Yong Jiang

in-context-learningdemonstration-selectiondata-selectionDOI DBLP

泛读EMNLP 2024

The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm

Aakanksha,Arash Ahmadian,Beyza Ermis,Seraphina Goldfarb-Tarrant,Julia Kreutzer,Marzieh Fadaee,Sara Hooker

alignmentmultilingualpreference-dataDOI DBLP

泛读FindingsEMNLP 2024

Finding the Optimal Byte-Pair Encoding Merge Operations for Neural Machine Translation in a Low-Resource Setting

Kristine Mae M. Adlaon,Nelson Marcos

bpetokenizerlow-resourceDOI DBLP

泛读FindingsEMNLP 2024

Can't Remember Details in Long Documents? You Need Some R&R

Devanshu Agrawal,Shang Gao,Martin Gajek

long-contextreading-comprehensionretrievalDOI DBLP

泛读EMNLP 2024

Unveiling the Role of Pretraining in Direct Speech Translation

Belen Alastruey,Gerard I. Gállego,Marta R. Costa-jussà

speech-translationpretrainingtransfer-learningDOI DBLP

泛读FindingsEMNLP 2024

Mitigating Catastrophic Forgetting in Language Transfer via Model Merging

Anton Alexandrov,Veselin Raychev,Mark Niklas Müller,Ce Zhang,Martin T. Vechev,Kristina Toutanova

model-mergingcontinual-pretraincatastrophic-forgettingDOI DBLP

泛读FindingsEMNLP 2024

Can LLMs Learn From Mistakes? An Empirical Study on Reasoning Tasks

Shengnan An,Zexiong Ma,Siqi Cai,Zeqi Lin,Nanning Zheng,Jian-Guang Lou,Weizhu Chen

learning-from-mistakesreasoningin-context-learningDOI DBLP

泛读EMNLP 2024

First Heuristic Then Rational: Dynamic Use of Heuristics in Language Model Reasoning

Yoichi Aoki,Keito Kudo,Tatsuki Kuribayashi,Shusaku Sone,Masaya Taniguchi,Keisuke Sakaguchi,Kentaro Inui

reasoningheuristicsdual-processDOI DBLP

泛读FindingsEMNLP 2024

Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation

Esteban Garces Arias,Julian Rodemann,Meimingwei Li,Christian Heumann,Matthias Aßenmacher

decodingtext-generationuncertaintyDOI DBLP

泛读FindingsEMNLP 2024

Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets

Israel Abebe Azime,Atnafu Lambebo Tonja,Tadesse Destaw Belay,Mitiku Yohannes Fuge,Aman Kassahun Wassie,Eyasu Shiferaw Jada,Yonas Chanie,Walelign Tewabe Sewunetie,Seid Muhie Yimam

continued-pretraininginstruction-tuninglow-resourceDOI DBLP

泛读EMNLP 2024

Fill In The Gaps: Model Calibration and Generalization with Synthetic Data

Yang Ba,Michelle Mancenido,Rong Pan

synthetic-datacalibrationgeneralizationDOI DBLP

泛读EMNLP 2024

Evaluating Large Language Models along Dimensions of Language Variation: A Systematik Invesdigatiom uv Cross-lingual Generalization

Niyati Bafna,Kenton Murray,David Yarowsky

cross-lingualgeneralizationevaluationDOI DBLP

泛读EMNLP 2024

Temporally Consistent Factuality Probing for Large Language Models

Ashutosh Bajpai,Aaryan Goyal,Atif Anwer,Tanmoy Chakraborty

factualitytemporal-reasoningprobingDOI DBLP

泛读EMNLP 2024

GuardBench: A Large-Scale Benchmark for Guardrail Models

这篇工作要解决的是：Guardrail 模型缺少一个大规模、系统化、可比较的评测基准。过去很多安全评测只覆盖少量 jailbreak 模板或单一风险类别，导致 guard 模型看起来有效，但一旦换分布、换攻击形式就失效。

Elias Bassani,Ignacio Sanchez

guardrailbenchmarksafetyDOI DBLP

泛读EMNLP 2024

Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP

这篇工作的核心问题是：CLIP 这类对比式视觉-语言模型具备不错的检索能力，但在细粒度的视觉推理上往往不够强；而文本到图像模型内部学到了更丰富的组合语义和视觉先验，却很少被反向蒸馏到判别式模型里。作者想把生成模型里的知识转移给 CLIP，提升 visio-linguistic reasoning。

Samyadeep Basu,Shell Xu Hu,Maziar Sanjabi,Daniela Massiceti,Soheil Feizi

text-to-imagedistillationclipDOI DBLP

泛读FindingsEMNLP 2024

To Ask LLMs about English Grammaticality, Prompt Them in a Different Language

这篇工作的结论导向问题很明确：如果你想测 LLM 对英语语法性的判断，直接用英语提问未必是最干净的测法。英语 prompt 会让模型同时调用表面续写习惯、模板偏好和元语言表达能力；作者尝试用另一种语言提问，来隔离其对英语语法现象本身的判断。

Shabnam Behzad,Amir Zeldes,Nathan Schneider

promptingmultilingualgrammaticalityDOI DBLP

泛读EMNLP 2024

Perceptions of Linguistic Uncertainty by Language Models and Humans

这篇工作研究的是：语言模型如何表达和感知 linguistic uncertainty，以及这种不确定性知觉与人类有多一致。很多工作只看 factual uncertainty 或 calibration，但对语言层面的模糊、歧义、犹豫和不完全承诺，模型是否以类似人类的方式处理，证据并不充分。

Catarina G. Belém,Markelle Kelly,Mark Steyvers,Sameer Singh,Padhraic Smyth

uncertaintylinguisticsevaluationDOI DBLP

泛读EMNLP 2024

Mitigating Open-Vocabulary Caption Hallucinations

这篇工作解决的是图像描述中的 open-vocabulary hallucination：模型会生成词表开放、表面流畅、但图中并不存在的实体或属性。相比封闭词表误识别，这个问题更难，因为输出空间几乎无限，传统基于候选词约束或固定类别检测的方法不够用。

Assaf Ben-Kish,Moran Yanuka,Morris Alper,Raja Giryes,Hadar Averbuch-Elor

captioninghallucinationopen-vocabularyDOI DBLP

泛读FindingsEMNLP 2024

Remember This Event That Year? Assessing Temporal Information and Understanding in Large Language Models

这篇工作想测清楚一个经常被混在一起的问题：LLM 到底是在记忆时间相关事实，还是在真正理解事件与年份的关系。过去很多知识评测把 temporal QA 当普通 factual QA 做，结果很难分辨模型是在复述训练语料中的共现，还是具备时间推理能力。

Himanshu Beniwal,Dishant Patel,Kowsik Nandagopan D,Hritik Ladia,Ankit Yadav,Mayank Singh

temporal-reasoningevaluationknowledgeDOI DBLP

泛读EMNLP 2024

A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences

这篇工作研究的是：LLM 作为 soft reasoner 到底能不能稳定处理经典三段论推理。很多模型在自然语言任务上表现不错，但那可能来自统计匹配和语义启发，而不是真正遵守逻辑约束；三段论是一个适合把这两者拆开的最小测试台。

Leonardo Bertolazzi,Albert Gatt,Raffaella Bernardi

reasoningsyllogismevaluationDOI DBLP

泛读FindingsEMNLP 2024

Adaptive Token Biaser: Knowledge Editing via Biasing Key Entities

这篇工作要解决的是知识编辑的副作用问题：现有方法改一条知识时，常常需要改动模型参数或中间表示，容易牵连无关事实，导致 locality 和 specificity 不够好。作者尝试把编辑约束到关键实体 token 上，用偏置而不是大范围参数更新去实现更局部的知识修改。

Baolong Bi,Shenghua Liu,Yiwei Wang,Lingrui Mei,Hongcheng Gao,Yilong Xu,Xueqi Cheng

knowledge-editingentitybiasingDOI DBLP

泛读EMNLP 2024

Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop Queries

这篇工作要解决的是：大语言模型在多跳查询上失败，并不总是因为缺少知识，而可能是推理链条启动得太晚，导致前面已经走偏。过去很多工作把多跳错误笼统归因于“不会推理”，作者更具体地追问模型到底在哪一步掉链子。

Eden Biran,Daniela Gottesman,Sohee Yang,Mor Geva,Amir Globerson

multihopevaluationreasoningDOI DBLP

泛读EMNLP 2024

Let Me Teach You: Pedagogical Foundations of Feedback for Language Models

这篇工作要解决的是反馈训练中的一个基础问题：给语言模型什么样的反馈，模型才真正学会，而不是只记住表面纠错模式。以往很多工作把 feedback 当作统一格式的额外监督，但不同反馈在可学性、泛化性和样本效率上差异很大。

Beatriz Borges,Niket Tandon,Tanja Käser,Antoine Bosselut

feedbacksftalignmentDOI DBLP

泛读EMNLP 2024

Rationalizing Transformer Predictions via End-To-End Differentiable Self-Training

这篇工作要解决的是 rationalization 的老问题：模型给出的解释往往只是事后编造，与真实决策依据脱节。作者想让解释不仅可读，而且真正参与并约束预测过程，从而减少“预测对了但解释是假的”这种现象。

Marc Felix Brinner,Sina Zarrieß

interpretabilityself-trainingtransformerDOI DBLP

泛读EMNLP 2024

Efficient Vision-Language pre-training via domain-specific learning for human activities

这篇工作要解决的是视觉-语言预训练在特定领域上的效率问题：通用 VLP 代价高，而且对 human activities 这类强时空和语义结构的场景，通用数据未必最优。作者试图用 domain-specific learning 提升这一类任务上的预训练效率。

Adrian Bulat,Yassine Ouali,Ricardo Guerrero,Brais Martínez,Georgios Tzimiropoulos

vlmpretrainingdomain-adaptationDOI DBLP

泛读FindingsEMNLP 2024

Measuring the Robustness of NLP Models to Domain Shifts

这篇工作要解决的是 NLP 模型在 domain shift 下的鲁棒性评估不够统一、不够可比的问题。过去很多论文报告某个特定迁移设置上的掉点，但不同任务、不同 shift 类型和不同指标混在一起，很难形成稳定判断。

Nitay Calderon,Naveh Porat,Eyal Ben-David,Alexander Chapanin,Zorik Gekhman,Nadav Oved,Vitaly Shalumov,Roi Reichart

robustnessdomain-shiftevaluationDOI DBLP

泛读EMNLP 2024

Exploring Intrinsic Language-specific Subspaces in Fine-tuning Multilingual Neural Machine Translation

多语言 NMT 模型在微调时，不同语言的表示往往纠缠在一起，导致低资源语言被高资源语言主导、语言间干扰严重。这篇工作探索模型内部是否存在语言特定的子空间，以及如何利用这些子空间改善微调效果。

Zhe Cao,Zhi Qu,Hidetaka Kamigaito,Taro Watanabe

NAISTmultilingualsubspacefine-tuningDOI DBLP

泛读FindingsEMNLP 2024

A Study of Parameter Efficient Fine-tuning by Learning to Efficiently Fine-Tune

PEFT 方法（LoRA、Adapter 等）种类繁多，但针对不同任务和模型选择哪种 PEFT 方法、用什么超参数，目前缺乏系统性指导。这篇工作试图通过 meta-learning 的方式自动学习如何高效微调。

Taha Ceritli,Savas Özkan,Jeongwon Min,Eunchung Noh,Cho Min,Mete Ozay

peftfine-tuningefficiencyDOI DBLP

泛读EMNLP 2024

Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models

LLM 在算法推理（如排序、图遍历等需要精确多步执行的任务）上表现不佳，因为自然语言推理链容易累积错误。这篇工作提出让 LLM 先生成伪代码、再模拟执行伪代码来提升算法推理能力。

Hyungjoo Chae,Yeonghyeon Kim,Seungone Kim,Kai Tzu-iunn Ong,Beong-woo Kwak,Moohyeon Kim ... 省略 1 位作者 ... ,Taeyoon Kwon,Jiwan Chung,Youngjae Yu,Jinyoung Yeo

reasoningcodeexecutionDOI DBLP

泛读EMNLP 2024

Explaining and Improving Contrastive Decoding by Extrapolating the Probabilities of a Huge and Hypothetical LM

这篇论文的核心问题是：contrastive decoding 为什么常常有效、什么时候会失效，以及能否在不训练新模型的前提下做得更好。现有 CD 用大 expert 减去小 amateur 的分布，经验上能改善开放生成，但机理解释一直比较弱，因此也难判断它何时会错杀正确高概率答案。

Haw-Shiuan Chang,Nanyun Peng,Mohit Bansal,Anil Ramakrishna,Tagyoung Chung

decodingcontrastive-decodinglanguage-modelingDOI arXiv DBLP

泛读EMNLP 2024

Efficient Unseen Language Adaptation for Multilingual Pre-Trained Language Models

这篇论文要解决的是：mPLM 遇到预训练没见过的低资源语言时，零样本迁移常常不够，而继续做全参数 MLM 语言适配又太贵，是否存在更便宜的 unseen language adaptation 路径。这个问题以前通常被“再训一下”处理，但对工程来说，全量更新的成本和风险都偏高。

Po-Heng Chen,Yun-Nung Chen

multilingualcontinual-pretrainlow-resourceDOI DBLP

泛读FindingsEMNLP 2024

Self-Evolution Fine-Tuning for Policy Optimization

这篇论文大概率关注策略优化中的一个现实问题：标准 policy optimization 往往依赖固定偏好数据或外部奖励，而模型自身在训练过程中已经能生成更好的轨迹，如何把这种自改进信号纳入 fine-tuning。过去做法通常把“数据生成”和“策略更新”分开，导致新策略带来的更优样本不能被及时吸收。

Ruijun Chen,Jiehao Liang,Shiping Gao,Fanqi Wan,Xiaojun Quan

self-evolutionpolicy-optimizationsftDOI DBLP

泛读FindingsEMNLP 2024

Reconfidencing LLMs from the Grouping Loss Perspective

这篇论文的核心结论是：LLM 的置信度问题不只是 calibration 偏不偏，还涉及 grouping loss，因此即便表面校准过，预测分数也可能系统性偏离真实后验概率。过去很多工作把不确定性控制近似成“让置信度和正确率对齐”，这篇论文指出这个视角不够，尤其在答案空间被分组或聚合时会失真。

Lihu Chen,Alexandre Perez-Lebel,Fabian M. Suchanek,Gaël Varoquaux

calibrationconfidencegrouping-lossDOI arXiv DBLP

泛读EMNLP 2024

ControlMath: Controllable Data Generation Promotes Math Generalist Models

Nuo Chen,Ning Wu,Jianhui Chang,Linjun Shou,Jia Li

math-reasoningdata-generationcontrollableDOI DBLP

泛读FindingsEMNLP 2024

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

Yiming Chen,Xianghu Yue,Xiaoxue Gao,Chen Zhang,Luis Fernando D'Haro,Robby T. Tan,Haizhou Li

audio-llmmulti-audiomultimodalDOI DBLP

泛读EMNLP 2024

Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?

Pinzhen Chen,Simon Yu,Zhicheng Guo,Barry Haddow

multilingualinstruction-tuningevaluationDOI DBLP

泛读EMNLP 2024

Towards Robust Speech Representation Learning for Thousands of Languages

William Chen,Wangyou Zhang,Yifan Peng,Xinjian Li,Jinchuan Tian,Jiatong Shi,Xuankai Chang,Soumi Maiti,Karen Livescu,Shinji Watanabe

speech-representationmultilingualself-supervisedDOI DBLP

泛读EMNLP 2024

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis

多模态大模型的多步视觉推理数据稀缺，现有手工标注成本极高，无法支撑大模型的训练需求，之前的数据合成方法无法生成逻辑连贯的多步推理路径。

Chuanqi Cheng,Jian Guan,Wei Wu,Rui Yan

vlmreasoningdata-synthesisDOI arXiv DBLP

泛读FindingsEMNLP 2024

Precision or Recall? An Analysis of Image Captions for Training Text-to-Image Generation Model

Sheng Cheng,Maitreya Patel,Yezhou Yang

text-to-imagecaption-qualitydata-qualityDOI DBLP

泛读FindingsEMNLP 2024

Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs

Wenhua Cheng,Weiwei Zhang,Haihao Shen,Yiyang Cai,Xin He,Kaokao Lv,Yi Liu

quantizationweight-roundingcompressionDOI DBLP

泛读FindingsEMNLP 2024

Tutor-ICL: Guiding Large Language Models for Improved In-Context Learning Performance

Ikhyun Cho,Gaeul Kwon,Julia Hockenmaier

in-context-learningpromptingreasoningDOI DBLP

泛读FindingsEMNLP 2024

From Reading to Compressing: Exploring the Multi-document Reader for Prompt Compression

Eunseong Choi,Sunkyung Lee,Minjin Choi,June Park,Jongwuk Lee

prompt-compressionlong-contextefficiencyDOI DBLP

泛读EMNLP 2024

Model-based Preference Optimization in Abstractive Summarization without Human Feedback

Jaepill Choi,Kyubyung Chae,Jiwoo Song,Yohan Jo,Taesup Kim

preference-optimizationmodel-basedsummarizationDOI DBLP

泛读FindingsEMNLP 2024

Cross-Lingual Unlearning of Selective Knowledge in Multilingual Language Models

Minseok Choi,Kyunghyun Min,Jaegul Choo

unlearningmultilingualknowledge-editingDOI DBLP

泛读EMNLP 2024

Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation

Juhwan Choi,Jungmin Yun,Kyohoon Jin,Youngbin Kim

data-qualitydataset-cleansingllm-annotationDOI DBLP

泛读EMNLP 2024

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

Yung-Sung Chuang,Linlu Qiu,Cheng-Yu Hsieh,Ranjay Krishna,Yoon Kim,James R. Glass

attentionhallucinationinterpretabilityDOI DBLP

泛读FindingsEMNLP 2024

Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability

Tsz Ting Chung,Leyang Cui,Lemao Liu,Xinting Huang,Shuming Shi,Dit-Yan Yeung

prompt-compressionself-supervisedfaithfulnessDOI DBLP

泛读EMNLP 2024

How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics

这篇工作要解决的问题是：如何不靠人工逐条审阅，就判断一个 NLI 测试集到底在测什么、难点来自哪里。现有 NLI 评测通常只看总体准确率，默认测试集是静态且均匀的，但实际很多样本只是词面启发、标注噪声或分布偏移，导致模型分数高低很难解释。

Adrian Cosma,Stefan Ruseti,Mihai Dascalu,Cornelia Caragea

training-dynamicsevaluationgeneralizationDOI DBLP

泛读EMNLP 2024

Representational Analysis of Binding in Language Models

这篇工作研究的是：语言模型内部到底如何表示 binding，也就是代词、变量、角色等元素之间的指代绑定关系。这个问题以前多靠行为测试间接判断，但行为正确不等于内部真的形成了可复用的结构表示，因此需要更直接的表征分析。

Qin Dai,Benjamin Heinzerling,Kentaro Inui

representationbindinginterpretabilityDOI DBLP

泛读FindingsEMNLP 2024

Textless Speech-to-Speech Translation With Limited Parallel Data

这篇工作要解决的是：在平行语音数据很少的条件下，直接做无文本的 speech-to-speech translation。传统语音翻译大多退回到文本中间层，先 ASR 再 MT 再 TTS，这样更稳但会丢失韵律、说话风格和非文字信息；而真正的 textless S2ST 又严重依赖大规模平行数据，所以低资源设定一直很难做。

Anuj Diwan,Anirudh Srinivasan,David Harwath,Eunsol Choi

speechspeech-to-speechtextlessDOI DBLP

泛读EMNLP 2024

Finding Blind Spots in Evaluator LLMs with Interpretable Checklists

这篇工作要解决的是：如何系统性发现 evaluator LLM 的盲点，而不是只看它和人工评分的总体相关性。现在很多自动评测结论建立在“平均分相关还不错”上，但 evaluator 往往在特定错误类型、风格偏差或安全场景下失真，单一总分会把这些失败模式掩盖掉。

Sumanth Doddapaneni,Mohammed Safi Ur Rahman Khan,Sshubam Verma,Mitesh M. Khapra

Indian Institute of Technology Madrasllm-as-judgeevaluationalignmentDOI DBLP

泛读EMNLP 2024

A Survey on In-context Learning

这篇工作要解决的不是单一技术问题，而是梳理 in-context learning 的研究图景。ICL 已经从“能不能做”转向“为什么会发生、什么时候失效、与参数更新是什么关系”，但相关工作分散在机制解释、prompt 设计、检索、示例选择和 scaling 观察中，缺少一份结构化综述来统一视角。

Qingxiu Dong,Lei Li,Damai Dai,Ce Zheng,Jingyuan Ma,Rui Li ... 省略 3 位作者 ... ,Baobao Chang,Xu Sun,Lei Li,Zhifang Sui

in-context-learningsurveyreasoningDOI DBLP

泛读FindingsEMNLP 2024

How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs?

这篇工作要回答的是：自动评测方法在 instruction-tuned LLM 上到底有多可靠。现在大量工作依赖 LLM-as-a-judge、参考答案相似度或任务指标做模型比较，但指令微调后的输出空间更开放、风格更强、参考答案更不完备，导致自动评测很容易把“像答案”误判成“好答案”。

Ehsan Doostmohammadi,Oskar Holmström,Marco Kuhlmann

evaluationinstruction-tuningllm-as-judgeDOI DBLP

泛读EMNLP 2024

Academics Can Contribute to Domain-Specialized Language Models

这篇工作要解决的是：学术界在 domain-specialized language models 上还能做出什么实质贡献。如今大模型训练越来越资源密集，常见看法是学术团队做不了基础模型，只能做下游应用；这篇论文显然在反驳这种悲观判断，试图说明学术界仍然能在特定领域模型上提供独特价值。

Mark Dredze,Genta Indra Winata,Prabhanjan Kambadur,Shijie Wu,Ozan Irsoy,Steven Lu,Vadim Dabravolski,David S. Rosenberg,Sebastian Gehrmann

Johns Hopkins Universitydomain-llmcontinued-pretrainingdataDOI DBLP

泛读FindingsEMNLP 2024

Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization

Shitong Duan,Xiaoyuan Yi,Peng Zhang,Yan Liu,Zheng Liu,Tun Lu,Xing Xie,Ning Gu

alignmentdponegative-samplesDOI DBLP

泛读FindingsEMNLP 2024

Change Is the Only Constant: Dynamic LLM Slicing based on Layer Redundancy

Razvan-Gabriel Dumitru,Paul-Ioan Clotan,Vikas Yadav,Darius Peteleaza,Mihai Surdeanu

layer-pruningmodel-compressionredundancyDOI DBLP

泛读FindingsEMNLP 2024

MUSCLE: A Model Update Strategy for Compatible LLM Evolution

Jessica Maria Echterhoff,Fartash Faghri,Raviteja Vemulapalli,Ting-Yao Hu,Chun-Liang Li,Oncel Tuzel,Hadi Pouransari

model-updatecontinual-pretraincompatibilityDOI DBLP

泛读FindingsEMNLP 2024

Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals

Yanai Elazar,Bhargavi Paranjape,Hao Peng,Sarah Wiegreffe,Khyathi Raghavi Chandu,Vivek Srikumar,Sameer Singh,Noah A. Smith

counterfactualattention-analysispartial-inputsDOI DBLP

泛读FindingsEMNLP 2024

Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM

SooHwan Eom,Jay Shim,Gwanhyeong Koo,Haebin Na,Mark Hasegawa-Johnson,Sungwoong Kim,Chang Dong Yoo

mambamultimodal-llmcross-modal-projectorDOI DBLP

泛读EMNLP 2024

If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions

Reza Esfandiarpoor,Cristina Menghini,Stephen H. Bach

clipvlm-interpretabilityconcept-descriptionDOI DBLP

泛读EMNLP 2024

VIMI: Grounding Video Generation through Multi-modal Instruction

Yuwei Fang,Willi Menapace,Aliaksandr Siarohin,Tsai-Shien Chen,Kuan-Chieh Wang,Ivan Skorokhodov,Graham Neubig,Sergey Tulyakov

video-generationmultimodal-instructiongroundingDOI DBLP

泛读EMNLP 2024

Fine-grained Pluggable Gradient Ascent for Knowledge Unlearning in Language Models

这篇工作要解决的是：知识遗忘里最常见的副作用不是“忘不掉”，而是“一刀切地伤到无关能力”。现有做法常用全局梯度上升或粗粒度参数更新去抬高目标样本损失，确实能删知识，但很容易把共享参数里的邻近能力一并破坏，因此作者关注的是更细粒度地把“该忘的梯度”限制在局部。

Xiaohua Feng,Chaochao Chen,Yuyuan Li,Zibin Lin

knowledge-unlearninggradient-ascentsafetyDOI DBLP

泛读EMNLP 2024

Precise Model Benchmarking with Only a Few Observations

这篇工作解决的是 benchmark 一个常被低估的统计问题：评估模型时，我们往往默认需要很多样本才能比较两个系统，但在昂贵或低资源评测场景里，这样的成本并不现实。作者关注的是如何只用很少观测就做更精确的模型比较，而不是继续堆更多测试样本。

Riccardo Fogliato,Pratik Patil,Nil-Jana Akpinar,Mathew Monfort

evaluationbenchmarkingsample-efficiencyDOI DBLP

泛读EMNLP 2024

The Mystery of the Pathological Path-star Task for Language Models

这篇工作研究的是一个带有诊断意义的异常现象：语言模型在 Path-star 任务上为什么会表现出病理性失败。很多合成推理任务的意义不在于任务本身，而在于它能暴露模型对组合结构、搜索过程或位置编码的特定短板；作者显然试图把这个“神秘失败”拆开看清楚，而不是只报告模型做不好。

Arvid Frydenlund

reasoninggeneralizationfailure-analysisDOI DBLP

泛读EMNLP 2024

Bayesian Calibration of Win Rate Estimation with LLM Evaluators

这篇工作要解决的是：用 LLM 作为评委估计两个系统的 win rate 时，点估计通常不稳定、偏差也难量化，导致大家把评测结果当成确定事实。过去更常见的是直接取平均偏好分或简单多数投票，但这在样本少、评委噪声大、对局难度不均时都不可靠，因此需要一个能显式建模不确定性的校准方法。

Yicheng Gao,Gonghan Xu,Zhe Wang,Arman Cohan

llm-as-judgeevaluationcalibrationDOI DBLP

泛读FindingsEMNLP 2024

VE-KD: Vocabulary-Expansion Knowledge-Distillation for Training Smaller Domain-Specific Language Models

这篇工作关注一个现实问题：想训练小型领域模型时，目标领域常有大量新词和专业术语，但直接扩词表会打破已有模型的 embedding 结构，小模型也很难从头学会这些新 token。传统做法要么坚持原词表、让专业词被切得很碎，要么重新训练 tokenizer 和模型，代价都高，因此作者试图在不完全重训的前提下把新词汇有效接入小模型。

Pengju Gao,Tomohiro Yamasaki,Kazunori Imoto

distillationvocabularydomain-adaptationDOI DBLP

泛读EMNLP 2024

Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?

这篇工作要检验一个在 VLM 社区很流行但未必成立的假设：给大视觉语言模型加入 object grounding，是否真的能减少 hallucination。过去很多系统把‘看见框/区域并对齐到文本’视为降低幻觉的自然路径，但实际 hallucination 可能来自语言先验过强、训练分布偏差或解码偏置，而不只是缺少对象级定位，因此这个假设值得被严肃拆解。

Gregor Geigle,Radu Timofte,Goran Glavas

vlmhallucinationgroundingDOI DBLP

泛读EMNLP 2024

On the Proper Treatment of Tokenization in Psycholinguistics

Mario Giulianelli,Luca Malagutti,Juan Luis Gastaldi,Brian DuSell,Tim Vieira,Ryan Cotterell

tokenizationpsycholinguisticsevaluationDOI DBLP

泛读EMNLP 2024

Show and Guide: Instructional-Plan Grounded Vision and Language Model

Diogo Glória-Silva,David Semedo,João Magalhães

vlminstruction-followinggroundingDOI DBLP

泛读EMNLP 2024

Analysis of Plan-based Retrieval for Grounded Text Generation

Ameya Godbole,Nicholas Monath,Seungyeon Kim,Ankit Singh Rawat,Andrew McCallum,Manzil Zaheer

retrievalgrounded-generationplanningDOI DBLP

泛读FindingsEMNLP 2024

Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts

Lotem Golany,Filippo Galgani,Maya Mamo,Nimrod Parasol,Omer Vandsburger,Nadav Bar,Ido Dagan

synthetic-datadialogdata-generationDOI DBLP

泛读FindingsEMNLP 2024

Cost-Efficient Subjective Task Annotation and Modeling through Few-Shot Annotator Adaptation

Preni Golazizian,Alireza Salkhordeh Ziabari,Ali Omrani,Morteza Dehghani

annotationfew-shotsubjective-evaluationDOI DBLP

泛读EMNLP 2024

CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models

Zi Gong,Hang Yu,Cong Liao,Bingchang Liu,Chaoyu Chen,Jianguo Li

multitaskfinetuningoptimizationDOI DBLP

泛读EMNLP 2024

ESC: Efficient Speech Coding with Cross-Scale Residual Vector Quantized Transformers

这篇论文要解决的问题是：语音离散编码既要压得足够高效，又要保住生成建模需要的内容和细节，这在 speech LM 里一直是瓶颈。现有 codec 往往在码率、重建质量和语言建模友好性之间三难：码率低了丢韵律和音色，码率高了 token 序列太长，训练和推理都变重。

Yuzhe Gu,Enmao Diao

audio-tokenizerspeech-codingvector-quantizationDOI DBLP

泛读EMNLP 2024

From Bottom to Top: Extending the Potential of Parameter Efficient Fine-Tuning

这篇论文要解决的问题是：现有 PEFT 多数只在高层或旁路适配器上做文章，没有充分挖掘底层参数更新的潜力，因而在参数预算很紧时性能上限受限。过去之所以常偏向顶层，是因为底层特征更通用、改动风险更大；但这也意味着很多任务相关变换其实没有被触达。

Jihao Gu,Zelin Wang,Yibo Zhang,Ziji Zhang,Ping Gong

peftfinetuningadaptationDOI DBLP

泛读FindingsEMNLP 2024

Fast Matrix Multiplications for Lookup Table-Quantized LLMs

这篇论文要解决的问题是：查找表量化（lookup table quantization）可以把 LLM 权重压得很低，但推理时矩阵乘法往往变成瓶颈，导致理论压缩没有变成实际速度。过去很多量化方法压的是存储，却没有真正解决算子层面的高效实现，因此 end-to-end latency 改善有限。

Han Guo,William Brandon,Radostin Cholakov,Jonathan Ragan-Kelley,Eric P. Xing,Yoon Kim

quantizationmatrix-multiplicationinferenceDOI DBLP

泛读EMNLP 2024

LLM Task Interference: An Initial Study on the Impact of Task-Switch in Conversational History

这篇工作要解决的问题是：指令微调后的对话式 LLM 在使用整段历史作为上下文时，遇到任务切换会出现可观的性能干扰，而现有评测基本默认“更多历史总是更好”。过去很多工作把对话历史当作稳定增益项，只测试单任务延续或主题相关场景，较少系统研究“上一轮是不同任务”时模型是否会把旧任务模式错误带入当前任务。

Akash Gupta,Ivaxi Sheth,Vyas Raina,Mark J. F. Gales,Mario Fritz

instruction-tuningtask-interferenceconversationDOI arXiv DBLP

泛读EMNLP 2024

Do LLMs learn a true syntactic universal?

这篇论文要回答的是：多语种 LLM 是否真的学到了跨语言的句法共性，而不只是记住高资源语言里的表层统计。作者选取了语言学里讨论很多的 Final-over-Final Condition 作为检验对象，因为它依赖抽象句法结构，不能靠简单 n-gram 或局部词序模式近似替代。

John T. Hale,Milos Stanojevic

syntaxlinguistic-universalsmultilingualDOI DBLP

泛读FindingsEMNLP 2024

Model Merging and Safety Alignment: One Bad Model Spoils the Bunch

这篇工作解决的是：模型合并能低成本整合多个专家模型，但会把不安全或未对齐的行为一起合并进来，而现有 merging 方法基本忽略了这一点。以前大家更关注能力是否保留、权重空间是否兼容，默认对齐属性能随底座或少量后处理一起保住；这篇论文表明这个假设不成立。

Hasan Hammoud,Umberto Michieli,Fabio Pizzati,Philip Torr,Adel Bibi,Bernard Ghanem,Mete Ozay

model-mergingsafety-alignmentcontinual-pretrainDOI arXiv DBLP

泛读FindingsEMNLP 2024

In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models

这篇论文要研究的问题是：预训练语言模型在 in-context learning 下给出的“推理”并不一定可信，尤其会出现经典的 A-not-B 错误。这个问题以前常被更强的 few-shot 表现掩盖，因为大家更关注最终答案是否对，而不是模型是否在上下文诱导下形成了稳定、可泛化的推理程序。

Pengrui Han,Peiyang Song,Haofei Yu,Jiaxuan You

iclreasoninga-not-b-errorDOI DBLP

泛读EMNLP 2024

Advancing Process Verification for Large Language Models via Tree-Based Preference Learning

这篇论文关注的问题是：如何更好地做大语言模型的过程验证，也就是判断中间推理步骤是否可靠，而不只看最终答案。传统 preference learning 往往把整条推理压成一个结果级偏好信号，这会遗漏步骤级错误，导致 verifier 学到的监督过粗。

Mingqian He,Yongliang Shen,Wenqi Zhang,Zeqi Tan,Weiming Lu

process-rewardtree-searchpreference-learningDOI DBLP

泛读EMNLP 2024

Position Engineering: Boosting Large Language Models through Positional Information Manipulation

这篇论文研究的问题是：除了改模型和改数据，是否可以通过操纵位置编码或位置信息本身来提升 LLM 表现。这个方向以前常被当作长上下文工程细节处理，但如果位置信息直接影响检索、组合和注意力分配，那它就不只是实现问题，而是模型行为控制问题。

Zhiyuan He,Huiqiang Jiang,Zilong Wang,Yuqing Yang,Luna Qiu,Lili Qiu

positional-encodingposition-engineeringlong-contextDOI DBLP

泛读FindingsEMNLP 2024

From Complex to Simple: Enhancing Multi-Constraint Complex Instruction Following Ability of Large Language Models

这篇工作要解决的是：LLM 对多约束复杂指令的遵循能力不足，而现有提升方法没有弄清什么样的训练数据真正有效。过去不少工作把复杂指令跟普通指令混着做 SFT，或者只看单一约束，结果模型对多个约束同时满足、尤其跨域组合时仍然不稳定。

Qianyu He,Jie Zeng,Qianxi He,Jiaqing Liang,Yanghua Xiao

instruction-followingcomplex-constraintssftDOI arXiv DBLP

泛读FindingsEMNLP 2024

Why do LLaVA Vision-Language Models Reply to Images in English?

这篇论文研究的问题是：为什么 LLaVA 这类视觉语言模型即使面对非英语图像内容，也倾向于用英语回复。这个现象不是简单的界面偏好，而是多模态预训练和对齐中的语言偏置问题；如果不搞清来源，VLM 的多语言能力就会长期停留在“能看懂，但默认用英语说”。

Musashi Hinck,Carolin Holtermann,Matthew L. Olson,Florian Schneider,Sungduk Yu,Anahita Bhiwandiwalla,Anne Lauscher,Shao-Yen Tseng,Vasudev Lal

vlmmultilinguallanguage-biasDOI DBLP

泛读FindingsEMNLP 2024

TWBias: A Benchmark for Assessing Social Bias in Traditional Chinese Large Language Models through a Taiwan Cultural Lens

Hsin-Yi Hsieh,Shih-Cheng Huang,Richard Tzong-Han Tsai

benchmarkbiasevaluationDOI DBLP

泛读EMNLP 2024

Embedding and Gradient Say Wrong: A White-Box Method for Hallucination Detection

Xiaomeng Hu,Yiming Zhang,Ru Peng,Haozhe Zhang,Chenwei Wu,Gang Chen,Junbo Zhao

hallucinationwhite-boxgradientsDOI DBLP

泛读FindingsEMNLP 2024

Selective Annotation via Data Allocation: These Data Should Be Triaged to Experts for Annotation Rather Than the Model

Chen Huang,Yang Deng,Wenqiang Lei,Jiancheng Lv,Ido Dagan

data-qualityannotationactive-learningDOI DBLP

泛读EMNLP 2024

1+1\textgreater2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators?

这篇工作讨论 LLM 能否把多语言中的分散知识聚合起来，而不是只把跨语种能力理解为翻译或迁移。过去很多方法默认知识主要存放在高资源语言里，其他语言只是访问接口；这篇论文要检验的是，跨语言参数共享是否真的能形成“1+1>2”的知识增益。

Yue Huang,Chenrui Fan,Yuan Li,Siyuan Wu,Tianyi Zhou,Xiangliang Zhang,Lichao Sun

cross-lingualknowledgeaggregationDOI DBLP

泛读FindingsEMNLP 2024

Self-Evaluation of Large Language Model based on Glass-box Features

这篇工作研究 LLM 能否借助 glass-box features 做自我评估，也就是不用只看最终文本，而利用模型内部可观测信号判断自己答得是否可靠。传统 self-evaluation 多依赖再问一遍模型或外部 verifier，但如果内部表征里已经含有置信与错误模式信息，那么直接读这些信号可能更稳、更便宜。

Hui Huang,Yingqi Qu,Jing Liu,Muyun Yang,Bing Xu,Tiejun Zhao,Wenpeng Lu

self-evaluationglass-boxuncertaintyDOI DBLP

泛读EMNLP 2024

Private Language Models via Truncated Laplacian Mechanism

这篇工作讨论如何用 truncated Laplacian mechanism 构建 private language models，核心是把差分隐私约束下的噪声注入做得更可用。标准 DP 机制往往对大模型训练伤害很大，原因是噪声过重且长尾更新难控制；如果截断处理能在保证隐私边界的同时减小极端噪声影响，就有机会改善隐私-效用折中。

Tianhao Huang,Tao Yang,Ivan Habernal,Lijie Hu,Di Wang

privacylanguage-modelingdifferential-privacyDOI DBLP

泛读EMNLP 2024

Fewer is More: Boosting Math Reasoning with Reinforced Context Pruning

这篇工作研究数学推理中的上下文冗余问题，结论从标题看很明确：更多上下文不一定更好，关键是删掉误导性或低价值上下文。很多 math reasoning 管线喜欢不断追加检索、示例或中间轨迹，但这会抬高注意力负担并引入干扰，最终让模型在关键步骤上分心。

Xijie Huang,Li Lyna Zhang,Kwang-Ting Cheng,Fan Yang,Mao Yang

reasoningcontext-pruningreinforcement-learningDOI DBLP

泛读IndustryEMNLP 2024

Code Representation Pre-training with Complements from Program Executions

这篇工作解决代码表示预训练里一个长期问题：只看源代码文本会丢掉程序执行语义，而很多关键行为只有跑起来才暴露。以往代码预训练主要依赖 token 序列、AST 或静态结构，能学到语法和部分语义，但对动态值流、分支行为和运行时效果的建模仍然不足。

Jiabo Huang,Jianyu Zhao,Yuyang Rong,Yiwen Guo,Yifeng He,Hao Chen

codepretrainingrepresentation-learningDOI DBLP

泛读DemoEMNLP 2024

OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs

这篇工作的核心问题是：如何统一评估大模型的 factuality，而不是把事实性拆成零散、不兼容的 benchmark。现有事实性评测常常任务定义不同、参考答案形式不同、自动打分器也不同，导致系统之间很难公平比较，更难定位模型到底是检索失败、知识缺失还是生成时幻觉。

Hasan Iqbal,Yuxia Wang,Minghan Wang,Georgi Nenkov Georgiev,Jiahui Geng,Iryna Gurevych,Preslav Nakov

factualityevaluationbenchmarkDOI DBLP

泛读FindingsEMNLP 2024

MATE: Meet At The Embedding - Connecting Images with Long Texts

这篇工作的核心问题是：如何把图像与长文本有效对齐，而不是只处理常见的短 caption 场景。传统图文对齐方法多针对单句描述，默认视觉内容和文本在语义上高度局部对应；但长文本包含跨段结构、主题漂移和稀疏视觉关联，直接用短文本式对齐往往会失效。

Young Kyun Jang,Junmo Kang,Yong Jae Lee,Donghyun Kim

multimodalimage-textembeddingDOI DBLP

泛读FindingsEMNLP 2024

Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization

这篇工作要解决的是：压缩大语言模型时，如何更有针对性地决定各层或各模块的低秩配置，而不是用统一 rank 做粗糙压缩。现有低秩压缩常用固定 rank 或简单启发式，方便但不够精细，容易在不重要的地方浪费参数，在敏感层上又压得过狠。

Yixin Ji,Yang Xiang,Juntao Li,Qingrong Xia,Zi Ye,Xinyu Duan,Zhefeng Wang,Kehai Chen,Min Zhang

compressionlow-rankbayesian-optimizationDOI DBLP

泛读EMNLP 2024

SignCLIP: Connecting Text and Sign Language by Contrastive Learning

手语（sign language）与文本之间缺乏有效的对齐表示，现有手语理解模型依赖有限的标注数据，难以泛化。问题的根源是手语是视觉-空间模态，与文本的语义鸿沟比语音更大。

Zifan Jiang,Gerard Sant,Amit Moryossef,Mathias Müller,Rico Sennrich,Sarah Ebling

University of Zurichsign-languagecontrastive-learningmultimodalDOI DBLP

泛读EMNLP 2024

Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging

LLM 微调时存在训练不平衡问题——不同样本或任务对参数更新的贡献不均匀，导致部分能力退化或过拟合。以往的解决方案多是调整数据配比或学习率，缺乏参数层面的直接干预。

Yiming Ju,Ziyi Ni,Xingrun Xing,Zhixiong Zeng,Hanyu Zhao,Siqi Fan,Zheng Zhang

fine-tuningparameter-mergingtraining-imbalanceDOI DBLP

泛读FindingsEMNLP 2024

Self-training Language Models for Arithmetic Reasoning

LLM 的算术推理能力有限，而获取大量高质量算术推理标注数据成本高。问题是：能否通过自训练（self-training）让模型用自己生成的数据来提升算术推理能力？

Marek Kadlcík,Michal Stefánik

self-trainingarithmetic-reasoningdata-synthesisDOI DBLP

泛读FindingsEMNLP 2024

On the Empirical Complexity of Reasoning and Planning in LLMs

LLM 在推理和规划任务上的经验复杂度（empirical complexity）尚不清楚——随着问题规模增大，LLM 的性能如何衰减？这个问题以前多从定性角度讨论，缺乏系统性的经验量化。

Liwei Kang,Zirui Zhao,David Hsu,Wee Sun Lee

National University of SingaporereasoningplanningcomplexityDOI DBLP

泛读EMNLP 2024

One Thousand and One Pairs: A "novel" challenge for long-context language models

长上下文语言模型的评估缺乏高质量、高难度的基准。现有长文本基准多是检索式（needle-in-a-haystack），无法测试模型对长文本的深层理解。本文用小说配对比较构造了一个需要真正理解全文的挑战性基准。

Marzena Karpinska,Katherine Thai,Kyle Lo,Tanya Goyal,Mohit Iyyer

UMass AmherstAllen Institute for AIlong-contextbenchmarkllm-evaluationDOI DBLP

泛读EMNLP 2024

Reverse-Engineering the Reader

这篇工作要解决的是：如果我们真想把语言模型当作人类阅读认知模型，能不能直接用人类心理测量数据去对齐它，而不是事后拿 surprisal 做相关性分析。过去大量工作是在 frozen LM 上检验“语言模型 surprisal 是否解释阅读时长”，但这本质上是被动评估，不保证模型对人类行为的拟合是可优化目标。作者要把这个关系从分析问题改成训练问题。

Samuel Kiegeland,Ethan Wilcox,Afra Amini,David Robert Reich,Ryan Cotterell

cognitive-modelingalignmentpsychometricsDOI arXiv DBLP

泛读EMNLP 2024

An Analysis of Multilingual FActScore

这篇工作要解决的是：FActScore 在英语长文本事实性评估里已经较常用，但它在多语言条件下是否仍可靠并不清楚。过去大家往往默认把英文评测流水线迁移到其他语言即可，但多语环境里事实抽取、检索知识源和事实判分三个环节都会受语言资源差异影响，因此原方法可能系统失真。

Vu Trong Kim,Michael Krumdick,Varshini Reddy,Franck Dernoncourt,Viet Dac Lai

evaluationfactualitymultilingualDOI arXiv DBLP

泛读EMNLP 2024

DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models

这篇工作要解决的是：开放世界文档理解模型通常规模较小、泛化较弱，而直接让 LLM 生成蒸馏数据又经常不够具体、不够有文档结构信息。现有做法的问题不是 LLM 没知识，而是提示给它的信息太扁平，导致生成的 supervision 难以真正教会小模型处理复杂文档布局和跨模态元素。

Sungnyun Kim,Haofu Liao,Srikar Appalaraju,Peng Tang,Zhuowen Tu,Ravi Kumar Satzoda,R. Manmatha,Vijay Mahadevan,Stefano Soatto

document-understandingdistillationmultimodalDOI arXiv DBLP

泛读FindingsEMNLP 2024

Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models

这篇工作要解决的是：为什么在大多模态模型上，prefix-tuning 这类看似更弱的 PEFT 方法有时反而比 LoRA、Adapter 这类参数改写方法更稳。过去大家讨论 PEFT 时重点放在参数效率和显存效率，但较少从“是否破坏预训练表示空间”这个角度分析，尤其在 LMM 里，跨模态对齐本来就脆弱，轻微表示扭曲都可能带来能力损失。

Donghoon Kim,Gusang Lee,Kyuhong Shim,Byonghyo Shim

prefix-tuningmultimodalrepresentationDOI arXiv DBLP

泛读EMNLP 2024

Exploring the Practicality of Generative Retrieval on Dynamic Corpora

这篇论文研究的是：生成式检索在动态语料库上是否真的可用，而不是只在静态 benchmark 上好看。传统 IR 评测默认文档集合固定，但真实系统里文档不断新增和更新，这会直接挑战 generative retrieval 把文档标识或内容压进参数的做法。

Chaeeun Kim,Soyoung Yoon,Hyunji Lee,Joel Jang,Sohee Yang,Minjoon Seo

generative-retrievalretrievaldynamic-corpusDOI arXiv DBLP

泛读FindingsEMNLP 2024

Gender Identity in Pretrained Language Models: An Inclusive Approach to Data Creation and Probing

这篇论文关注的是：预训练语言模型如何表示 gender identity，以及现有关于性别偏见的探测为何常常把身份类别压得过粗，因而遗漏了更具包容性的性别表达。过去相关分析多围绕二元 gender 或少量标签展开，数据构造和 probing 方案本身就带有排除性。

Urban Knuples,Agnieszka Falenska,Filip Miletic

pretrained-modelsbiasprobingDOI DBLP

泛读EMNLP 2024

Hierarchical Deconstruction of LLM Reasoning: A Graph-Based Framework for Analyzing Knowledge Utilization

这篇论文试图回答：LLM 在推理时到底用了哪些知识、这些知识如何组织成多层结构，以及错误是出在知识缺失、检索失败，还是推理组合出了问题。现有 reasoning 分析常只看最终答案或链式思维文本，难以把‘知道’和‘会用’分开。

Miyoung Ko,Sue Hyun Park,Joonsuk Park,Minjoon Seo

reasoninginterpretabilityknowledge-utilizationDOI DBLP

泛读IndustryEMNLP 2024

Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval

这篇论文关注的是：残差量化用于生成式检索时会出现所谓 hourglass phenomenon，进而限制可检索容量和性能上界。也就是说，随着量化层级加深，表示能力并没有持续释放，反而在某些瓶颈处被压缩，导致 generative retrieval 的编码上界受限。

Zhirui Kuai,Zuxu Chen,Huimu Wang,Mingming Li,Dadong Miao,Binbin Wang ... 省略 4 位作者 ... ,Guoyu Tang,Lin Liu,Songlin Wang,Jingwei Zhuo

generative-retrievalresidual-quantizationretrievalDOI DBLP

EMNLP 2024

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models

现有LLM评估基准主要聚焦单轮任务，忽略了真实场景中多轮对话的能力评估，现有多轮评估数据集规模小、类型少、存在数据泄露风险，无法准确衡量LLM的多轮交互能力。

Wai-Chung Kwan,Xingshan Zeng,Yuxin Jiang,Yufei Wang,Liangyou Li,Lifeng Shang,Xin Jiang,Qun Liu,Kam-Fai Wong

benchmarkmulti-turnevaluationDOI arXiv DBLP

泛读EMNLP 2024

Style-Specific Neurons for Steering LLMs in Text Style Transfer

Wen Lai,Viktor Hangya,Alexander Fraser

interpretabilitysteeringneuronsDOI DBLP

泛读EMNLP 2024

CaT-Bench: Benchmarking Language Model Understanding of Causal and Temporal Dependencies in Plans

Yash Kumar Lal,Vanya Cohen,Nathanael Chambers,Niranjan Balasubramanian,Raymond J. Mooney

benchmarkplanningcausal-reasoningDOI DBLP

泛读EMNLP 2024

Cluster-Norm for Unsupervised Probing of Knowledge

Walter Laurito,Sharan Maiya,Grégoire Dhimoïla,Owen Yeung,Kaarel Hänni

probingrepresentationsknowledgeDOI DBLP

泛读EMNLP 2024

Mentor-KD: Making Small Language Models Better Multi-step Reasoners

这篇工作要解决的是：小模型在多步推理上通常不是“不会生成”，而是缺少稳定的过程监督，直接用大模型答案蒸馏往往只学到表面格式，学不到中间决策。过去常见做法是用 chain-of-thought 全量蒸馏或只蒸馏最终答案，但前者噪声大、后者监督稀疏，因此小模型的推理迁移效果一直不稳。

Hojae Lee,Junho Kim,SangKeun Lee

distillationreasoningsmall-language-modelDOI DBLP

泛读FindingsEMNLP 2024

A Psycholinguistic Evaluation of Language Models' Sensitivity to Argument Roles

这篇工作要回答的是：语言模型到底有没有稳定地表示句子里的论元角色，比如谁是施事、谁是受事，而不是只靠词序和高频模式猜答案。这个问题过去常被下游 benchmark 间接测试，但间接任务很难分离模型是真的理解角色关系，还是在利用表面统计捷径。

Eun-Kyoung Rosa Lee,Sathvik Nair,Naomi Feldman

psycholinguisticsevaluationargument-structureDOI DBLP

泛读FindingsEMNLP 2024

CED: Comparing Embedding Differences for Detecting Out-of-Distribution and Hallucinated Text

这篇工作解决的是：如何统一检测文本输入是否分布外，以及生成内容是否在幻觉，而不依赖昂贵的外部校验器或任务特定阈值。过去 OOD 检测和 hallucination 检测往往分开做，前者看输入分布，后者看事实一致性，但二者都可以被理解为“当前文本和模型内部语义表征不协调”。

Hakyung Lee,Keon-Hee Park,Hoyoon Byun,Jeyoon Yeom,Jihee Kim,Gyeong-Moon Park,Kyungwoo Song

hallucinationood-detectionembeddingsDOI DBLP

泛读EMNLP 2024

Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented Generation

这篇工作要解决的是：RAG 失败时，问题常常不在检索器或生成器单独一侧，而在 query 和外部知识是否真正相关这一层没有被建模清楚。过去很多 RAG 系统默认“检索到了文档就该有帮助”，但实际中存在大量弱相关甚至误导性知识，模型反而会被检索内容带偏。

Zhuohang Li,Jiaxin Zhang,Chao Yan,Kamalika Das,Kumar Sricharan,Murat Kantarcioglu,Bradley A. Malin

ragretrievalreliabilityDOI DBLP

泛读EMNLP 2024

Consecutive Batch Model Editing with HooK Layers

这篇工作要解决的是：模型编辑在连续批量执行时容易互相干扰，前一次修改会污染后续修改，最终出现遗忘、冲突和泛化失控。过去很多 editing 方法在单条事实上效果不错，但一旦进入真实场景的连续编辑 setting，稳定性明显下降。

Shuaiyi Li,Yang Deng,Deng Cai,Hongyuan Lu,Liang Chen,Wai Lam

model-editingforgettingsequential-editingDOI DBLP

泛读EMNLP 2024

Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge

这篇工作关注的核心问题是：当训练数据里存在互相冲突的知识时，大语言模型会偏向学哪一种，而作者给出的结论是模型偏好更正式的表达。过去大家更常研究真伪冲突、时间冲突或来源冲突，但很少系统分析语言风格本身会不会影响模型在冲突知识上的记忆选择。

Jiahuan Li,Yiqing Cao,Shujian Huang,Jiajun Chen

data-qualityknowledge-conflictlearning-dynamicsDOI DBLP

泛读FindingsEMNLP 2024

Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search

这篇工作要解决的是：如何更系统地搜索指令合成中的“演化空间”，而不是靠少数启发式改写规则反复采样。现有 instruction synthesis 往往把问题当成局部改写或单轮 self-instruct，能生成很多样本，但很难稳定找到既有难度又有可用性的高价值指令。

Chenglin Li,Qianglong Chen,Zhi Li,Feng Tao,Yicheng Li,Hao Chen,Fei Yu,Yin Zhang

instruction-synthesisdata-qualitytree-searchDOI DBLP

泛读FindingsEMNLP 2024

Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness

这篇工作要解决的是：现有 preference optimization 通常把偏好当成二元胜负信号，丢掉了“偏好强弱”这部分信息，因此优化目标过于粗糙。很多真实偏好并不是简单的 chosen/rejected，强偏好和弱偏好被同等处理，会让训练信号利用率偏低。

Jian Li,Haojing Huang,Yujia Zhang,Pengfei Xu,Xi Chen,Rui Song,Lida Shi,Jingwen Wang,Hao Xu

preference-optimizationself-superviseddpoDOI DBLP

泛读FindingsEMNLP 2024

LoRAN: Improved Low-Rank Adaptation by a Non-Linear Transformation

这篇工作要解决的是：LoRA 用线性低秩更新近似参数变化，训练和部署都便宜，但表达能力受限，尤其在需要较强非线性适配的任务上容易不够用。问题不是 LoRA 不能用，而是它的“低秩+线性”假设太硬，常常用更大 rank 才能补回来。

Yinqiao Li,Linqi Song,Hanxu Hou

loraparameter-efficientfine-tuningDOI DBLP

泛读EMNLP 2024

CoEvol: Constructing Better Responses for Instruction Finetuning through Multi-Agent Cooperation

这篇工作解决的是 instruction tuning 数据构造里的一个老问题：单个模型自举生成回答，容易陷入同质化和局部模式，导致合成 supervision 看起来很多，实际上覆盖面和质量上限都不高。作者试图用多代理协作，让回答构造过程本身更像带讨论和修正的搜索，而不是一次采样。

Renhao Li,Minghuan Tan,Derek F. Wong,Min Yang

instruction-tuningmulti-agentdata-qualityDOI DBLP

泛读EMNLP 2024

Leveraging Large Language Models for NLG Evaluation: Advances and Challenges

这篇工作讨论的是：用大语言模型做 NLG 评测已经很常见，但它到底在哪些地方真的更强，哪些地方仍然不可靠。过去自动评测指标多依赖 n-gram 或浅层语义相似度，和人类偏好相关性有限；LLM-based evaluator 改善了这一点，但也带来了偏见、稳定性和可复现性问题。

Zhen Li,Xiaohan Xu,Tao Shen,Can Xu,Jia-Chen Gu,Yuxuan Lai,Chongyang Tao,Shuai Ma

evaluationllm-as-a-judgenlgDOI DBLP

泛读FindingsEMNLP 2024

LoRASC: Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning

这篇工作针对的是低秩适配的另一个老问题：LoRA 虽然高效，但在跨任务泛化和表达能力上常常受限，尤其当单次快速学习把所有变化都压进一个小低秩空间时，容易学到脆弱更新。作者想解决的是，如何让低秩适配既更有表现力，又更能泛化到复杂任务。

Siwei Li,Yifan Yang,Yifei Shen,Fangyun Wei,Zongqing Lu,Lili Qiu,Yuqing Yang

lorapeftfine-tuningDOI DBLP

泛读EMNLP 2024

Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification

Ming Li,Jike Zhong,Chenxin Li,Liuzhuozheng Li,Nie Lin,Masashi Sugiyama

vlmpeftfine-tuningDOI DBLP

泛读FindingsEMNLP 2024

Fine-Tuning Language Models with Differential Privacy through Adaptive Noise Allocation

Xianzhi Li,Ran Zmigrod,Zhiqiang Ma,Xiaomo Liu,Xiaodan Zhu

fine-tuningdifferential-privacyoptimizationDOI DBLP

泛读EMNLP 2024

Enhancing Language Model Factuality via Activation-Based Confidence Calibration and Guided Decoding

这篇工作要解决的是：语言模型在生成时经常对错误内容表现出过高自信，导致 factuality 不仅取决于知识是否存在，也取决于 decoding 是否会放大错误。过去很多方法用外部检索、额外 verifier 或后处理过滤来补救，但这些方案成本高、延迟大，而且不一定能利用模型内部已经存在的不确定性信号。

Xin Liu,Farima Fatahi Bayat,Lu Wang

factualityconfidencedecodingDOI DBLP

泛读EMNLP 2024

Model Balancing Helps Low-data Training and Fine-tuning

这篇工作要解决的是：在低数据训练和微调场景下，模型常出现参数更新失衡，导致少量数据既学不稳，也容易过拟合或灾难性偏移。过去常见补救是调学习率、加正则、冻结部分层，但这些方法更多是在结果层面修补，没有直接处理不同模块或参数子空间学习强度不均的问题。

Zihang Liu,Yuanzhe Hu,Tianyu Pang,Yefan Zhou,Pu Ren,Yaoqing Yang

low-resourcefine-tuningoptimizationDOI DBLP

泛读EMNLP 2024

Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models

这篇工作要解决的是：预训练视觉-语言模型，尤其是 CLIP 类对比学习模型，会产生 object hallucination，也就是在图像中并不存在的物体被错误激活或联想到。过去大家更多关注生成式 VLM 的幻觉，但其实判别式预训练模型的表征偏差同样会把错误往下游传，作者是在追问这个问题在 CLIP 这种基础表征模型里如何出现、以及能否被缓解。

Yufang Liu,Tao Ji,Changzhi Sun,Yuanbin Wu,Aimin Zhou

cliphallucinationvlmDOI DBLP

泛读EMNLP 2024

Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis

这篇工作要回答的是：LLM 在道德判断或有害内容拒答中的“自我纠正”究竟来自内部稳定机制，还是只是被表层提示形式触发。过去很多工作观察到模型会在二次追问、自我反思或改写提示后表现得更合规，但这类现象常被质疑是 superficial hypothesis——模型只是顺着表面格式走，并没有形成更可靠的内在道德表征。

Guangliang Liu,Haitao Mao,Jiliang Tang,Kristen Marie Johnson

self-correctionalignmentmechanistic-interpretabilityDOI DBLP

泛读EMNLP 2024

Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging

这篇工作要解决的是：怎样在尽量不重新训练的前提下压缩 LLM，而且比传统逐层剪枝更少伤害模型功能。常见剪枝会直接删层或删通道，优点是简单，问题是破坏了层间功能连续性；而大模型相邻层往往存在冗余，但这种冗余不是参数逐点相似，而更像表示流形上的可对齐冗余。

Deyuan Liu,Zhanyue Qin,Hairu Wang,Zhao Yang,Zecheng Wang,Fangying Rong ... 省略 5 位作者 ... ,Zhao Lv,Dianhui Chu,Zhiying Tu,Dianbo Sui

compressionpruninglayer-mergingDOI DBLP

泛读FindingsEMNLP 2024

Monotonic Paraphrasing Improves Generalization of Language Model Prompting

这篇工作要解决的是：为什么 prompt wording 稍微一变，LM 的泛化就会明显波动，以及能否用受约束的改写来提升鲁棒性。过去 prompt engineering 常靠经验找“有效措辞”，但这种收益往往不可迁移；问题不在于模型不会做任务，而在于提示把模型带进了过窄的局部决策模式。

Qin Liu,Fei Wang,Nan Xu,Tianyi Yan,Tao Meng,Muhao Chen

promptinggeneralizationparaphraseDOI DBLP

泛读EMNLP 2024

Holistic Evaluation for Interleaved Text-and-Image Generation

这篇工作要解决的是 interleaved text-and-image generation 缺少统一、完整、可操作的评测框架。现有多模态生成评测大多只看单一模态质量，或者把图像生成和文本生成分开打分，这会回避真正困难的问题：当文本和图像交错出现时，模型是否保持跨模态一致性、叙事连贯性和布局合理性。

Minqian Liu,Zhiyang Xu,Zihao Lin,Trevor Ashby,Joy Rimchala,Jiaxin Zhang,Lifu Huang

interleaved-generationevaluationmultimodalDOI DBLP

泛读EMNLP 2024

EVEDIT: Event-based Knowledge Editing for Deterministic Knowledge Propagation

这篇工作要解决的是知识编辑中的传播不确定性：改对一个事实后，相关事实是否会按预期、可控地一起更新。以往知识编辑方法往往只评估局部 edit success，但对事件型知识尤其不足，因为事件包含时间、参与者、地点和因果关系，改一个节点不等于整个事件图会一致更新。

Jiateng Liu,Pengfei Yu,Yuji Zhang,Sha Li,Zixuan Zhang,Ruhi Sarikaya,Kevin Small,Heng Ji

knowledge-editingmemoryfactualityDOI DBLP

泛读EMNLP 2024

Alignment-Enhanced Decoding: Defending Jailbreaks via Token-Level Adaptive Refining of Probability Distributions

这篇工作要解决的是 jailbreak 防御在解码阶段往往过于粗糙：要么直接拒答，要么靠外部分类器硬拦截，既影响有用性，也容易被绕过。现有很多安全方法把防御放在输入过滤或后训练阶段，但攻击真正生效往往发生在生成过程中的局部 token 决策偏转上。

Quan Liu,Zhenhong Zhou,Longzhu He,Yi Liu,Wei Zhang,Sen Su

decodingalignmentsafetyDOI DBLP

泛读EMNLP 2024

Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective

Yujian Liu,Yang Zhang,Tommi S. Jaakkola,Shiyu Chang

unlearningcausalmemorizationDOI DBLP

泛读EMNLP 2024

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Holy Lovenia,Rahmad Mahendra,Salsabil Maulana Akbar,Lester James V. Miranda,Jennifer Santoso,Elyanah Aco ... 省略 20 位作者 ... ,Maria Khelli,Wenyu Zhang,Lucky Susanto,Reynard Adha Ryanda

datasetmultilingualmultimodalDOI DBLP

泛读IndustryEMNLP 2024

FastAdaSP: Multitask-Adapted Efficient Inference for Large Speech Language Model

Yichen Lu,Jiaqi Song,Chao-Han Huck Yang,Shinji Watanabe

speech-lminference-efficiencymultitaskDOI DBLP

泛读EMNLP 2024

Unifying Multimodal Retrieval via Document Screenshot Embedding

这篇论文要解决的是多模态检索系统长期割裂的问题：文本、图像、PDF 页面、网页截图往往各自建模，导致跨格式检索需要多套表示空间和复杂对齐。作者的判断是，把“文档截图”作为统一输入载体，可以把文本密集页面、图文混排和视觉布局放到一个共同表示里处理。

Xueguang Ma,Sheng-Chieh Lin,Minghan Li,Wenhu Chen,Jimmy Lin

multimodal-retrievaldocument-understandingvisual-embeddingDOI DBLP

泛读DemoEMNLP 2024

ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning

这篇论文要解决的是 embedding 模型与生成式 LLM 长期分家的问题：前者擅长检索相似度，后者擅长条件生成和知识表达，但两者通常各自训练、目标不一致。作者希望用 generation-augmented learning 把两类能力放进统一框架，减少只靠对比学习得到的表示缺口。

Hieu Man,Nghia Trung Ngo,Franck Dernoncourt,Thien Huu Nguyen

embeddingsllm-backbonegeneration-augmentedDOI DBLP

泛读FindingsEMNLP 2024

On Leakage of Code Generation Evaluation Datasets

这篇论文关注代码生成评测中的 dataset leakage：很多 benchmark 看起来在测泛化，实际上测到的是训练记忆或近重复匹配。这个问题过去一直被讨论，但代码领域尤其严重，因为公开仓库高度重复、模板化强，训练集和评测集之间的近邻污染很难仅靠精确去重发现。

Alexandre Matton,Tom Sherborne,Dennis Aumiller,Elena Tommasone,Milad Alizadeh,Jingyi He,Raymond Ma,Maxime Voisin,Ellen Gilsenan-McMahon,Matthias Gallé

code-generationevaluationdata-contaminationDOI DBLP

泛读EMNLP 2024

Toward Compositional Behavior in Neural Models: A Survey of Current Views

这篇论文是一篇综述，核心问题不是提出新方法，而是澄清“神经模型是否具有组合性行为”这个被反复讨论但定义分裂的问题。过去相关工作把 systematic generalization、symbolic structure、rule recombination、OOD 组合测试混在一起讨论，导致不同论文在谈不同东西，结论也很难对齐。

Kate McCurdy,Paul Soulos,Paul Smolensky,Roland Fernandez,Jianfeng Gao

compositionalitysurveygeneralizationDOI DBLP

泛读EMNLP 2024

Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs

这篇工作要回答的是：LLM 在传递性推理任务上的表现，到底体现了真实的关系推理，还是只是在复现表面模式。这个问题值得重查，因为很多“推理能力”结论建立在模板化 benchmark 上，模型可能靠词序、实体频率或答案格式偏置答对，而不是学会了 if A>B, B>C then A>C 这样的关系闭包。

Houman Mehrafarin,Arash Eshghi,Ioannis Konstas

reasoningdiagnostictransitivityDOI DBLP

泛读EMNLP 2024

SLANG: New Concept Comprehension of Large Language Models

这篇工作关注的是：LLM 是否真的能理解新概念，尤其是俚语这类快速演化、训练语料中稀缺且高度语境依赖的词项。现有评测常用常识词汇或百科概念，模型即使表现好，也可能只是记住了定义；而 slang 更接近开放世界中的概念增量学习，能更直接测模型的语义更新能力。

Lingrui Mei,Shenghua Liu,Yiwei Wang,Baolong Bi,Xueqi Cheng

concept-learninggeneralizationevaluationDOI DBLP

泛读EMNLP 2024

Towards a Similarity-adjusted Surprisal Theory

这篇工作试图修正经典 surprisal theory 的一个缺口：人类处理难度不只取决于 token 概率，还取决于候选词之间的相似性结构。标准 surprisal 把所有替代词看成彼此独立的概率质量，因此无法区分“低概率但和高概率候选很相近”和“低概率且语义/形式上都很离群”这两种情况。

Clara Meister,Mario Giulianelli,Tiago Pimentel

surprisalsimilaritylanguage-modelingDOI DBLP

泛读EMNLP 2024

Prompts have evil twins

这篇工作要指出的是：很多 prompt 存在语义接近但行为完全不同的“evil twins”，提示工程的鲁棒性被严重高估。过去 prompt 评估往往默认轻微改写不应改变模型行为，但实际系统里，近义改写、格式变化或局部措辞扰动就可能触发明显输出漂移，这说明模型的指令表征并不稳定。

Rimon Melamed,Lucas H. McCabe,Tanay Wakhare,Yejin Kim,H. Howie Huang,Enric Boix-Adserà

promptingadversarialrobustnessDOI DBLP

泛读FindingsEMNLP 2024

Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models

这篇工作关注的是：LLM 是否真正掌握短语语义，而不是把短语当作词面拼接或高频 n-gram 记忆。像 traffic light 和 light traffic 这类例子说明，短语意义不只取决于词集合，还依赖组合方式和修饰方向；如果模型处理不好，就会在组合语义上出现系统性偏差。

Rui Meng,Ye Liu,Lifu Tu,Daqing He,Yingbo Zhou,Semih Yavuz

semanticsphrasescompositionalityDOI DBLP

泛读FindingsEMNLP 2024

Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification

这篇工作要解决的是：如何在微调 LLM 做 detoxification 时，不只是粗暴压低有害输出，而是按可控属性进行更细粒度调节。传统去毒化常见的问题是副作用大：毒性降了，但帮助性、流畅性或任务完成度也一起掉，原因是训练目标把复杂行为压成了单一安全分数。

Tao Meng,Ninareh Mehrabi,Palash Goyal,Anil Ramakrishna,Aram Galstyan,Richard S. Zemel,Kai-Wei Chang,Rahul Gupta,Charith Peris

fine-tuningdetoxificationalignmentDOI DBLP

泛读EMNLP 2024

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

这篇工作要解决的是：多模态推理中的 step-by-step thinking 往往被限制在文本链路里，视觉证据没有被同样显式地纳入中间推理过程。已有方法常见做法是让模型先看图再输出文字 CoT，但这样视觉信息在中间步骤里容易被压缩丢失，导致推理看起来分步，实际仍是黑盒对齐。

Sachit Menon,Richard S. Zemel,Carl Vondrick

multimodalreasoningchain-of-thoughtDOI DBLP

EMNLP 2024

Evaluating Large Language Models via Linguistic Profiling

现有LLM评估依赖特定任务的基准，无法独立于任务衡量模型的底层语言能力，尤其是在特定语言学约束下的句子生成能力，无法定位模型在语言学层面的缺陷。

Alessio Miaschi,Felice Dell'Orletta,Giulia Venturi

evaluationlinguisticscapability-profilingDOI DBLP

泛读EMNLP 2024

Experimental Contexts Can Facilitate Robust Semantic Property Inference in Language Models, but Inconsistently

之前的零样本评估显示LLM在语义属性继承任务（预测新概念的语义属性）上表现极差，而现有研究知道上下文示例和指令可大幅提升LLM的任务性能，但不清楚这类实验上下文是否能提升LLM在语义属性推理这类意义敏感任务上的鲁棒性。

Kanishka Misra,Allyson Ettinger,Kyle Mahowald

in-context-learningsemanticsinstruction-followingDOI arXiv DBLP

EMNLP 2024

Evaluating the Effectiveness of Large Language Models in Establishing Conversational Grounding

这篇工作要解决的是：如何低成本、可扩展地评估大语言模型的 conversational grounding，而不是继续依赖昂贵且难以批量复现的人评。这个问题过去并非不重要，而是长期被评测成本压住了，导致研究通常只看少量模型、少量样例，也很难跟上新模型迭代速度。作者抓住的切口不是再定义 grounding，而是把“能否系统测”这件事先做出来。

Biswesh Mohapatra,Manav Nitin Kapadnis,Laurent Romary,Justine Cassell

dialoguegroundingevaluationDOI DBLP

泛读EMNLP 2024

Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language Models

Philipp Mondorf,Barbara Plank

reasoningbenchmarklogicDOI DBLP

EMNLP 2024

Virtual Personas for Language Models via an Anthology of Backstories

这篇工作要解决的是：如何让 LLM 稳定地扮演“特定人”，而不是只生成一种泛化的平均人格。过去很多 persona prompting 只能给出浅层属性标签，能控制语气，却很难逼近个体层面的稳定偏好、经历约束和群体差异，因此不适合拿来做行为研究或社会调查模拟。

Suhong Moon,Marwa Abdulhai,Minwoo Kang,Joseph Suh,Widyadewi Soedarmadji,Eran Kohen Behar,David M. Chan

personasteeringsynthetic-dataDOI arXiv DBLP

泛读FindingsEMNLP 2024

The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance

Kyle Moore,Jesse Roberts,Thao Pham,Oseremhen Ewaleifoh,Douglas H. Fisher

benchmarkingevaluationtest-contaminationDOI DBLP

泛读EMNLP 2024

STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions

这篇工作要解决的是：现有 LLM 安全评测过于看单条样本，难以测出模型对同一语境下“冒犯程度逐步升级”时的敏感性变化。以往很多基准把显性和隐性冒犯拆开测，或者只看一次性拒答率，因此看不到模型是在什么强度阈值开始失守、是否对不同群体采用不一致标准。STOP 试图把“连续强度变化”显式建进数据里，让评测从静态点测变成沿着 offensiveness progression 的曲线测量。

Robert Morabito,Sangmitra Madhusudan,Tyler McDonald,Ali Emami

safetybiasbenchmarkDOI arXiv DBLP

泛读FindingsEMNLP 2024

DyKnow: Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs

这篇工作聚焦一个现实问题：LLM 的事实知识会过时，但多数 factuality 方法默认知识是静态的。已有方案常用一次性检索或离线 benchmark 来评估真伪，却没有持续判断“这个陈述在当前时间点是否仍然成立”。DyKnow 从标题看试图把时间敏感事实的动态验证做成一个闭环过程。

Seyed Mahed Mousavi,Simone Alghisi,Giuseppe Riccardi

factualityverificationknowledgeDOI DBLP

泛读FindingsEMNLP 2024

Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models

这篇论文要回答的是：LLM 在几何推理上到底差在哪里，而不仅仅是“分数不高”。过去很多 reasoning 评测集中在线性文字题、算术或符号逻辑，几何常被简化成少量 textbook 风格题目，因此很难分辨模型是缺图形直觉、缺空间关系建模，还是缺多步形式推理。论文标题说明作者在系统揭示 geometric reasoning gap。

Spyridon Mouselinos,Henryk Michalewski,Mateusz Tomasz Malinowski

reasoninggeometrybenchmarkDOI DBLP

泛读EMNLP 2024

Annotation alignment: Comparing LLM and human annotations of conversational safety

这篇工作要解决的是：LLM 生成的安全标注与人工安全标注到底对不对齐，以及不对齐发生在哪些边界案例上。当前很多安全流程都越来越依赖模型辅助标注和数据过滤，但如果模型和人类在风险判断标准上有系统偏差，那么后续训练会把这种偏差固化进对齐数据。

Rajiv Movva,Pang Wei Koh,Emma Pierson

safetyannotationalignmentDOI DBLP

泛读FindingsEMNLP 2024

One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks

这篇工作要解决的是：梵语 NLP 任务长期碎片化、数据稀缺，通常为每个任务单独建模，难以形成统一能力。对于这类形态复杂、资源低的语言，词级或子词级 tokenizer 往往也不稳，因为分词标准和词形变化本身就很复杂。论文用 ByT5-Sanskrit 提出一个统一模型，说明作者认为字节级建模更适合这个场景。

Sebastian Nehrdich,Oliver Hellwig,Kurt Keutzer

byt5tokenizermultitaskDOI DBLP

泛读EMNLP 2024

Can Language Models Induce Grammatical Knowledge from Indirect Evidence?

这篇论文要解决的问题是：语言模型能否仅凭间接证据学到语法知识，而不依赖显式语法标注或直接监督。这个问题之所以重要，是因为当前很多关于“模型懂不懂语法”的讨论，都混杂了训练数据中是否已经显式暴露规则这一因素，导致我们很难判断模型是在归纳结构，还是只是在记共现模式。

Miyu Oba,Yohei Oseki,Akiyo Fukatsu,Akari Haga,Hiroki Ouchi,Taro Watanabe,Saku Sugawara

grammar-inductionindirect-evidencelanguage-acquisitionDOI DBLP

泛读EMNLP 2024

Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

这篇论文关注的核心问题是：在对预训练 VLM 做下游适配时，如何保住它原有的多模态能力，从而真正提升 vision-linguistic compositionality，而不是靠任务微调把通用对齐能力磨掉。现有很多 VLM 在针对单一任务或单一数据分布适配后，会出现跨模态理解变窄、组合关系变差的问题，特别是在需要同时理解对象、属性和关系时更明显。

Youngtaek Oh,Jae-Won Cho,Dong-Jin Kim,In So Kweon,Junmo Kim

vlmcompositionalitymulti-modal-capabilityDOI DBLP

泛读EMNLP 2024

Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs

这篇论文要解决的核心问题是：当我们想把新知识注入 LLM 时，应该优先 fine-tuning，还是 retrieval。过去很多讨论把两者当成不同产品路线，但从模型能力角度看，它们是在回答同一个问题：知识究竟该写进参数，还是放在外部存储里按需读取。

Oded Ovadia,Menachem Brief,Moshik Mishaeli,Oren Elisha

fine-tuningragknowledge-injectionDOI DBLP

泛读EMNLP 2024

Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models

Nisarg Patel,Mohith Kulkarni,Mihir Parmar,Aashna Budhiraja,Mutsumi Nakamura,Neeraj Varshney,Chitta Baral

reasoningbenchmarkevaluationDOI DBLP

泛读EMNLP 2024

An Empirical Study of Multilingual Reasoning Distillation for Question Answering

Patomporn Payoungkhamdee,Peerat Limkonchotiwat,Jinheon Baek,Potsawee Manakul,Can Udomcharoenchaikit,Ekapol Chuangsuwanich,Sarana Nutanong

distillationmultilingualreasoningDOI DBLP

泛读FindingsEMNLP 2024

Fighting Randomness with Randomness: Mitigating Optimisation Instability of Fine-Tuning using Delayed Ensemble and Noisy Interpolation

Branislav Pecher,Ján Cegin,Róbert Belanec,Jakub Simko,Ivan Srba,Mária Bieliková

fine-tuningoptimizationstabilityDOI DBLP

泛读EMNLP 2024

Do LLMs suffer from Multi-Party Hangover? A Diagnostic Approach to Addressee Recognition and Response Selection in Conversations

Nicolò Penzo,Maryam Sajedinia,Bruno Lepri,Sara Tonelli,Marco Guerini

dialoguemulti-turnevaluationDOI DBLP

泛读FindingsEMNLP 2024

Who's Who: Large Language Models Meet Knowledge Conflicts in Practice

Quang Pham,Hoang Ngo,Anh Tuan Luu,Dat Quoc Nguyen

knowledge-conflictfactualityevaluationDOI DBLP

泛读EMNLP 2024

MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance

Renjie Pi,Tianyang Han,Jianshu Zhang,Yueqi Xie,Rui Pan,Qing Lian,Hanze Dong,Jipeng Zhang,Tong Zhang

vlmsafetyalignmentDOI DBLP

泛读EMNLP 2024

UOUO: Uncontextualized Uncommon Objects for Measuring Knowledge Horizons of Vision Language Models

Xinyu Pi,Mingyuan Wu,Jize Jiang,Haozhen Zheng,Beitong Tian,ChengXiang Zhai,Klara Nahrstedt,Zhiting Hu

vlmbenchmarkevaluationDOI DBLP

泛读EMNLP 2024

EXPLORA: Efficient Exemplar Subset Selection for Complex Reasoning

这篇论文解决的是复杂推理场景下 few-shot exemplar 选取成本高、效果又不稳定的问题。现有 ICL 往往依赖随机选例、相似度检索或暴力搜索，但对多步推理任务来说，真正有帮助的示例既要相关，又要在推理结构上互补，导致计算与效果都不理想。

Kiran Purohit,Venktesh V,Raghuram Devalla,Krishna Yerragorla,Sourangshu Bhattacharya,Avishek Anand

in-context-learningreasoningexample-selectionDOI DBLP

泛读EMNLP 2024

ADELIE: Aligning Large Language Models on Information Extraction

这篇论文要解决的是：通用对齐后的 LLM 在信息抽取任务上往往不够稳，输出格式漂移、边界不一致、幻觉补全常见，但传统 IE 模型又缺少生成式模型的泛化和迁移能力。作者想做的是把“大模型对齐”专门拉到 IE 场景里，让模型更像一个可靠抽取器而不只是会聊天。

Yunjia Qi,Hao Peng,Xiaozhi Wang,Bin Xu,Lei Hou,Juanzi Li

alignmentinformation-extractioninstruction-tuningDOI DBLP

泛读FindingsEMNLP 2024

LONG²RAG: Evaluating Long-Context & Long-Form Retrieval-Augmented Generation with Key Point Recall

这篇论文要解决的是：现有 RAG 评测很难同时覆盖长上下文输入和长篇生成输出，尤其缺少对“长答案里关键点是否真的被召回并用上了”的细粒度衡量。很多 benchmark 只看最终答案对不对，容易把检索缺失、生成遗漏和冗长但空洞的回答混在一起。

Zehan Qi,Rongwu Xu,Zhijiang Guo,Cunxiang Wang,Hao Zhang,Wei Xu

raglong-contextevaluationDOI DBLP

泛读EMNLP 2024

Tag-grounded Visual Instruction Tuning with Retrieval Augmentation

这篇论文要解决的是：视觉指令微调常依赖整图描述或问答监督，但模型对具体对象、属性和区域的 grounding 不够强，导致回答看起来合理却对不上图。作者试图用 tag-grounded 的方式把视觉内容离散成可检索、可对齐的标签，再通过 retrieval augmentation 强化指令微调。

Daiqing Qi,Handong Zhao,Zijun Wei,Sheng Li

vlminstruction-tuningretrievalDOI DBLP

泛读FindingsEMNLP 2024

VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation

这篇论文要解决的是：很多语言模型 benchmark 因为题面模板固定、变量表面形式单一，容易被模型记住模式而不是学会规则，导致评测高分但泛化能力被高估。作者提出用动态变量扰动来测试模型是否真的理解变量绑定和结构关系，而不是背下具体词面。

Kun Qian,Shunji Wan,Claudia Tang,Youzhi Wang,Xuanming Zhang,Maximillian Chen,Zhou Yu

benchmarkrobustnessevaluationDOI DBLP

泛读FindingsEMNLP 2024

CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

这篇工作要解决的核心问题是：中文长上下文能力一直缺少像英文长文本评测那样系统、可分解、足够难的基准，导致模型宣称支持 32k/128k context，但真实可用性、退化方式和任务边界并不清楚。过去很多评测要么直接翻译英文 benchmark，要么只看检索式 needle-in-a-haystack，覆盖不到中文文本结构、指代、省略和知识组织方式带来的特殊难点。

Zexuan Qiu,Jingjing Li,Shijue Huang,Xiaoqi Jiao,Wanjun Zhong,Irwin King

benchmarklong-contextevaluationDOI DBLP

泛读EMNLP 2024

Fast Forwarding Low-Rank Training

这篇工作关注 LoRA/低秩训练的一个现实痛点：参数高效微调虽然省显存，但训练速度并不一定快，甚至经常被额外的小矩阵操作、实现细节和优化器开销拖慢。过去社区默认“低秩=更高效”，但这在 wall-clock 维度上并不总成立，所以值得专门研究如何把低秩训练真正做快。

Adir Rahamim,Naomi Saphra,Sara Kangaslahti,Yonatan Belinkov

low-ranktraining-efficiencyoptimizationDOI DBLP

泛读FindingsEMNLP 2024

SSP: Self-Supervised Prompting for Cross-Lingual Transfer to Low-Resource Languages using Large Language Models

这篇工作解决的是低资源语言跨语言迁移常常卡在提示和指令不自然上：大模型可能懂任务，但不懂目标语言中的表达习惯和任务触发方式，结果 zero-shot transfer 很弱。过去方法常依赖机器翻译、平行语料或少量人工标注来桥接，但这些资源在真正低资源语言上往往不可得或质量不稳。

Vipul Kumar Rathore,Aniruddha Deb,Ankish Kumar Chandresh,Parag Singla,Mausam

promptingcross-linguallow-resourceDOI DBLP

泛读FindingsEMNLP 2024

BERGEN: A Benchmarking Library for Retrieval-Augmented Generation

这篇工作要解决的是 RAG 评测和复现长期碎片化：检索器、生成器、索引、数据集、评测指标和管线实现彼此耦合，导致不同论文的结果很难公平比较。过去很多 RAG 工作既改了 retrieval，又改了 prompting 和 generation setting，最后很难判断性能到底来自哪里。

David Rau,Hervé Déjean,Nadezhda Chirkova,Thibault Formal,Shuai Wang,Stéphane Clinchant,Vassilina Nikoulina

ragbenchmarkevaluationDOI DBLP

泛读FindingsEMNLP 2024

Plot Twist: Multimodal Models Don't Comprehend Simple Chart Details

这篇工作的结论从标题就很明确：当前多模态模型对图表的理解比表面成绩显示得更脆弱，连简单 chart details 都经常读错。过去很多 chart QA 或图文理解基准允许模型靠视觉先验、语言模式或数据集偏差蒙对，因此“会做图表题”不等于真的读懂坐标轴、图例、数值对应关系。

Yasaman Razeghi,Ishita Dasgupta,Fangyu Liu,Vinay Ramasesh,Sameer Singh

vlmchart-understandingevaluationDOI DBLP

泛读FindingsEMNLP 2024

Dial BeInfo for Faithfulness: Improving Factuality of Information-Seeking Dialogue via Behavioural Fine-Tuning

这篇工作要解决的是信息寻求型对话中的 factuality 不足，而且问题不只是知识错，更是对话行为本身会诱导模型不忠实：模型常在不确定时过度肯定、过度补全或编造解释。过去提升 factuality 的方法多靠检索增强或事实校验，但如果对话策略本身不改，模型仍会在证据不足时给出看似流畅但不可靠的回答。

Evgeniia Razumovskaia,Ivan Vulic,Pavle Markovic,Tomasz Cichy,Qian Zheng,Tsung-Hsien Wen,Pawel Budzianowski

factualitydialoguebehavioral-finetuningDOI DBLP

泛读FindingsEMNLP 2024

The Effect of Sampling Temperature on Problem Solving in Large Language Models

这篇工作讨论一个看似简单但影响很大的问题：采样温度如何影响大模型的问题求解能力。很多评测默认固定 temperature，却很少系统分析不同题型、不同模型和不同采样策略下，temperature 改变的是探索、随机性，还是直接破坏了推理轨迹的稳定性。

Matthew Renze

samplingreasoningdecodingDOI DBLP

泛读FindingsEMNLP 2024

Immunization against harmful fine-tuning attacks

Domenic Rosati,Jan Wehner,Kai Williams,Lukasz Bartoszcze,Hassan Sajjad,Frank Rudzicz

safetyfine-tuning-attacksalignmentDOI DBLP

泛读EMNLP 2024

NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning

Eli Schwartz,Leshem Choshen,Joseph Shtok,Sivan Doveh,Leonid Karlinsky,Assaf Arbelle

number-encodingnumerical-reasoningtokenizerDOI DBLP

泛读FindingsEMNLP 2024

Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction

Amrit Diggavi Seshadri

early-exittransformerefficiencyDOI DBLP

泛读EMNLP 2024

Development of Cognitive Intelligence in Pre-trained Language Models

Raj Sanjay Shah,Khushi Bhardwaj,Sashank Varma

pretrained-lmreasoningcapabilityDOI DBLP

泛读EMNLP 2024

Detection and Measurement of Syntactic Templates in Generated Text

Chantal Shaib,Yanai Elazar,Junyi Jessy Li,Byron C. Wallace

generated-textsyntaxanalysisDOI DBLP

泛读IndustryEMNLP 2024

SMARTCAL: An Approach to Self-Aware Tool-Use Evaluation and Calibration

Yuanhao Shen,Xiaodan Zhu,Lei Chen

tool-useevaluationcalibrationDOI DBLP

泛读EMNLP 2024

RepEval: Effective Text Evaluation with LLM Representation

这篇工作要解决的是：能不能不用生成式打分，而直接利用 LLM 的表征做更稳定、更便宜的文本评测。传统文本评测要么依赖 n-gram/embedding 指标，和人类偏好常有偏差；要么依赖大模型做 judge，效果强但成本高、方差大、提示词敏感，因此值得重新审视“表示能否直接承载评测信号”。

Shuqian Sheng,Yi Xu,Tianhang Zhang,Zanwei Shen,Luoyi Fu,Jiaxin Ding,Lei Zhou,Xiaoying Gan,Xinbing Wang,Chenghu Zhou

representationevaluationembeddingDOI DBLP

泛读FindingsEMNLP 2024

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

这篇工作要解决的是：多模态大模型在数学推理上明显弱于纯文本数学模型，尤其在图文混合题里既要看懂图，又要走长链条推理。过去常见做法是只补视觉指令数据或只补文本数学数据，二者割裂，导致模型要么会看不会算，要么会算但读图不稳。

Wenhao Shi,Zhiqiang Hu,Yi Bin,Junhua Liu,Yang Yang,See-Kiong Ng,Lidong Bing,Roy Ka-Wei Lee

multimodalreasoningmathDOI DBLP

泛读EMNLP 2024

LLM See, LLM Do: Leveraging Active Inheritance to Target Non-Differentiable Objectives

这篇工作要解决的是：当目标函数不可微、也很难用标准监督信号表达时，怎么让 LLM 仍然朝着该目标优化。很多真实目标——例如规则满足、外部程序打分、复杂偏好——无法直接反传，传统做法要么靠 RL，要么靠启发式筛选，样本效率和稳定性都有限。

Luísa Shimabucoro,Sebastian Ruder,Julia Kreutzer,Marzieh Fadaee,Sara Hooker

optimizationnon-differentiablealignmentDOI DBLP

泛读EMNLP 2024

An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models

这篇工作要解决的是：当前大多模态大模型到底有没有真正的空间推理能力，而不是只会利用数据集偏置或物体共现模式。空间关系看起来基础，但过去常被视觉问答总分掩盖，因此需要专门拆出来做细粒度分析。

Fatemeh Shiri,Xiao-Yu Guo,Mona Far,Xin Yu,Reza Haf,Yuan-Fang Li

vlmspatial-reasoningevaluationDOI DBLP

泛读EMNLP 2024

Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems

这篇工作要解决的是：在因果事件抽取里，生成式模型虽然表达灵活，但很容易被表面相关性和触发词偏置带偏，导致跨模板、跨表述和噪声场景下不稳。过去更常见的做法是靠结构化解码、规则约束或更强监督去补，但这类方法通常任务定制重、迁移性差；作者转而问一个更直接的问题：弱奖励信号能不能把通用生成模型推向更鲁棒的因果抽取行为。

Italo Luis da Silva,Hanqi Yan,Lin Gui,Yulan He

reward-modelweak-supervisioninformation-extractionDOI DBLP

泛读EMNLP 2024

Memory-Efficient Fine-Tuning of Transformers via Token Selection

这篇工作要解决的是：Transformer 微调的显存瓶颈很大一部分来自每层都要保留所有 token 的激活，而很多 token 对参数更新的边际贡献并不相同。过去常见节省显存的方法是 LoRA、梯度检查点或低精度训练，但它们要么仍保留全序列激活，要么引入额外算力开销；作者尝试从 token 维度做选择，直接减少需要反传的 token 数。

Antoine Simoulin,Namyong Park,Xiaoyi Liu,Grey Yang

fine-tuningmemory-efficiencytoken-selectionDOI DBLP

泛读FindingsEMNLP 2024

AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories

这篇工作解决的是开源 LLM agent 能力泛化差、训练数据碎片化的问题。过去 agent 微调常常依赖少量特定环境轨迹，结果是模型在单任务上学到流程，但很难迁移到新工具、新环境和新交互结构；作者的核心判断是，轨迹数据的规模和覆盖面本身就是主要瓶颈。

Yifan Song,Weimin Xiong,Xiutian Zhao,Dawei Zhu,Wenhao Wu,Ke Wang,Cheng Li,Wei Peng,Sujian Li

agenttrajectory-datafine-tuningDOI arXiv DBLP

泛读FindingsEMNLP 2024

Pedagogical Alignment of Large Language Models

这篇工作解决的是教育场景中的一个对齐错位：通用 instruction-tuned LLM 往往直接给答案，而不是像老师那样循序引导学生。过去这类问题常靠 prompt 约束临时修补，但 prompt 很难稳定贯彻教学策略；作者把它明确建模为 pedagogical alignment，并尝试用偏好学习来优化。

Shashank Sonkar,Kangqi Ni,Sapana Chaudhary,Richard G. Baraniuk

Rice Universityalignmentinstruction-tuningeducationDOI arXiv DBLP

泛读FindingsEMNLP 2024

CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues

这篇工作解决的是对话模型很容易被用户带偏话题，尤其在任务型对话中，一旦出现 distractor turn，模型就会偏离原先角色和目标。过去 instruction tuning 数据更强调推理、拒答或安全，却很少专门覆盖“保持话题相关性”这种生产环境里非常关键但不显眼的能力。

Makesh Narsimhan Sreedhar,Traian Rebedea,Shaona Ghosh,Jiaqi Zeng,Christopher Parisien

alignmentdialogueinstruction-tuningDOI arXiv DBLP

泛读EMNLP 2024

Aligning Large Language Models with Diverse Political Viewpoints

这篇工作要解决的是政治观点对齐中的单一化问题：现有 LLM alignment 往往默认一种“中性”或机构偏好的价值立场，却很少系统讨论如何让模型在不同政治视角下保持一致、可控且不失真。过去这个问题常被回避，因为它既敏感又难评估；但随着模型进入公共讨论场景，单一政治校准带来的偏置已经很难忽略。

Dominik Stammbach,Philine Widmer,Eunjung Cho,Caglar Gulcehre,Elliott Ash

alignmentpoliticspreferenceDOI DBLP

泛读FindingsEMNLP 2024

EvoR: Evolving Retrieval for Code Generation

Hongjin Su,Shuyang Jiang,Yuhang Lai,Haoyuan Wu,Boao Shi,Che Liu,Qian Liu,Tao Yu

code-generationretrievalevolutionDOI DBLP

泛读FindingsEMNLP 2024

In Defense of Structural Sparse Adapters for Concurrent LLM Serving

Junda Su,Zirui Liu,Zeju Qiu,Weiyang Liu,Zhaozhuo Xu

adaptersservingsparsityDOI DBLP

FindingsEMNLP 2024

AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding

这篇工作要解决的是：现有 VLM 大多在第三人称图像或视频上训练，难以支撑第一人称、具身场景下的理解与问答。这个问题过去常被数据缺口掩盖——不是大家不知道 egocentric 重要，而是缺少适合训练和评测的高质量数据与模型配套方案。

Alessandro Suglia,Claudio Greco,Katie Baker,Jose L. Part,Ioannis Papaioannou,Arash Eshghi,Ioannis Konstas,Oliver Lemon

vlmfoundation-modelvideoDOI arXiv DBLP

泛读FindingsEMNLP 2024

TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning

Yuan Sui,Jiaru Zou,Mengyu Zhou,Xinyi He,Lun Du,Shi Han,Dongmei Zhang

table-reasoningdata-augmentationpackingDOI DBLP

泛读EMNLP 2024

Towards Verifiable Text Generation with Evolving Memory and Self-Reflection

Hao Sun,Hengyi Cai,Bo Wang,Yingyan Hou,Xiaochi Wei,Shuaiqiang Wang,Yan Zhang,Dawei Yin

verificationmemoryself-reflectionDOI DBLP

泛读EMNLP 2024

Retrieved In-Context Principles from Previous Mistakes

Hao Sun,Yong Jiang,Bo Wang,Yingyan Hou,Yan Zhang,Pengjun Xie,Fei Huang

in-context-learningretrievalself-improvementDOI DBLP

EMNLP 2024

Tools Fail: Detecting Silent Errors in Faulty Tools

这篇工作要解决的是：LLM 用工具时，真正危险的不只是“选错工具”，还包括工具悄悄出错而模型没发现。过去 tool-use 研究常把重点放在 API 选择、调用格式和规划链路上，默认工具返回值可信；但一旦工具 silent failure，模型如果继续把错误结果当真，整个 agent 行为会系统性偏航。

Jimin Sun,So Yeon Min,Yingshan Chang,Yonatan Bisk

tool-useerror-detectionevaluationDOI arXiv DBLP

泛读IndustryEMNLP 2024

Let Me Speak Freely? A Study On The Impact Of Format Restrictions On Large Language Model Performance

这篇论文研究的核心问题是：强行要求 LLM 用特定格式作答，会不会系统性伤害模型能力，而这种伤害到底来自哪里。这个问题过去常被工程上当成“只要 prompt 写清楚就行”，但实际部署里 JSON、选项题、模板化输出几乎无处不在，如果格式约束本身改变了模型的推断路径，那它就不是一个无害的接口层。

Zhi Rui Tam,Cheng-Kuang Wu,Yi-Lin Tsai,Chieh-Yen Lin,Hung-yi Lee,Yun-Nung Chen

format-restrictionllm-evaluationpromptingDOI DBLP

泛读FindingsEMNLP 2024

MobileQuant: Mobile-friendly Quantization for On-device Language Models

这篇论文的核心问题是：如何把语言模型量化到足够低的比特和足够友好的算子形式，使其真正在手机端跑得动，而不是只在论文表格里省显存。过去很多量化工作主要优化 perplexity 或桌面 GPU 吞吐，但移动端真正卡的是内存带宽、算子支持、激活开销和异构硬件适配，所以“通用量化”往往落不到端上。

Fuwen Tan,Royson Lee,Lukasz Dudziak,Shell Xu Hu,Sourav Bhattacharya,Timothy M. Hospedales,Georgios Tzimiropoulos,Brais Martínez

quantizationon-deviceinferenceDOI DBLP

泛读EMNLP 2024

Large Language Models for Data Annotation and Synthesis: A Survey

这是一篇综述，核心问题不是提出新算法，而是系统梳理 LLM 在数据标注与数据合成中的能力、适用边界和风险。这个方向过去发展很快，但方法名和应用场景非常碎，很多工作把“让模型写点数据”与“可控地产生高质量训练信号”混在一起，缺少统一视角。

Zhen Tan,Dawei Li,Song Wang,Alimohammad Beigi,Bohan Jiang,Amrita Bhattacharjee,Mansooreh Karami,Jundong Li,Lu Cheng,Huan Liu

data-annotationdata-synthesissurveyDOI DBLP

泛读EMNLP 2024

Neuron Specialization: Leveraging Intrinsic Task Modularity for Multilingual Machine Translation

这篇论文的核心问题是：多语机器翻译里，不同任务或语言对是否已经在模型内部形成了可利用的神经元模块化结构，以及能否显式利用这种 specialization 提升性能。传统多语 MT 往往靠共享参数吃到迁移红利，但共享过度会造成负迁移，尤其在低资源语言上更明显，所以“哪些参数该共享、哪些该分开”一直是核心矛盾。

Shaomu Tan,Di Wu,Christof Monz

neuron-specializationmultilingualmodularityDOI DBLP

泛读FindingsEMNLP 2024

Unlocking the Potential of Model Merging for Low-Resource Languages

这篇论文的核心问题是：低资源语言模型能否通过 model merging 获得实用提升，而不是只能依赖昂贵的继续预训练或稀缺语料微调。这个问题值得研究，因为低资源场景最缺的就是高质量数据和算力，如果 merging 真能把不同模型里的语言能力拼出来，它会是很便宜的能力迁移路径；但过去 merge 方法大多在英语或相近任务上验证，跨语言是否成立并不清楚。

Mingxu Tao,Chen Zhang,Quzhe Huang,Tianyao Ma,Songfang Huang,Dongyan Zhao,Yansong Feng

model-merginglow-resourcemultilingualDOI DBLP

泛读EMNLP 2024

Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models

这篇论文的核心问题是：pixel-based language model 到底学到了什么，它在语言和视觉两侧分别具备多强的能力，以及这种直接建模像素序列的路线值不值得继续投入。过去视觉生成大多依赖离散视觉 tokenizer 或 latent 表示，直接把像素当 token 的方法很少，因为序列太长、局部冗余太大、优化困难；但如果它能绕开 tokenizer 信息瓶颈，值得认真 probe。

Kushal Tatariya,Vladimir Araujo,Thomas Bauwens,Miryam de Lhoneux

pixel-lmprobingvisual-linguisticDOI DBLP

泛读IndustryEMNLP 2024

FanLoRA: Fantastic LoRAs and Where to Find Them in Large Language Model Fine-tuning

这篇工作讨论的核心问题是：LoRA 微调时，低秩适配器到底应该插在哪些层、哪些模块，才最划算。以往实践大量依赖经验默认配置，比如全层统一插 attention/MLP，但这种做法既未必最优，也掩盖了不同层对任务迁移的真实贡献。

Aaron Xuxiang Tian,Yi Zhao,Congrui Yin,Wei Zhu,Xing Tian,Yi Ge

lorafine-tuningparameter-efficientDOI DBLP

泛读EMNLP 2024

Enhancing AI Assisted Writing with One-Shot Implicit Negative Feedback

这篇工作要解决的是：AI 写作辅助系统怎样利用极少量、且是否定性的用户反馈，快速修正生成方向。过去系统更依赖显式偏好数据、多轮重写或大规模监督信号，但真实写作场景里，用户常常只会给一句‘不要这样写’。

Benjamin Towle,Ke Zhou

feedbackalignmentwritingDOI DBLP

泛读EMNLP 2024

Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse

这篇工作要回答的核心问题是：长篇 discourse 中的 surprisal 变化，是否真的能被“均匀信息密度”单一理论解释。过去不少工作默认文本会局部调节到相对稳定的信息率，但在长文里，话题推进、篇章结构和读者预期会让 surprisal 呈现更复杂的轮廓。

Eleftheria Tsipidi,Franz Nowak,Ryan Cotterell,Ethan Wilcox,Mario Giulianelli,Alex Warstadt

surprisallanguage-modelingdiscourseDOI DBLP

泛读EMNLP 2024

Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding

这篇工作研究的是 anticipatory text generation，也就是模型在解码时提前满足某些未来约束，而不是边生成边被动修补。传统解码通常只优化局部 next-token 概率，遇到格式、关键词或语义目标时容易走到后面才发现无法满足，只能回溯或输出质量下降。

Lifu Tu,Semih Yavuz,Jin Qu,Jiacheng Xu,Rui Meng,Caiming Xiong,Yingbo Zhou

decodingconstrained-decodinggenerationDOI DBLP

泛读EMNLP 2024

Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter?

这篇工作要查清楚的是：LLM 在逐步求解 grid puzzle 时，究竟卡在哪一步。现有 reasoning 评测常只看最终答案对不对，但网格谜题这类结构化任务能把错误暴露得更细，区分是状态表示错、约束传播错，还是长链推理中途漂移。

Nemika Tyagi,Mihir Parmar,Mohith Kulkarni,Aswin RRV,Nisarg Patel,Mutsumi Nakamura,Arindam Mitra,Chitta Baral

reasoningcotevaluationDOI DBLP

泛读EMNLP 2024

Reasoning with Natural Language Explanations

这篇工作研究的是：自然语言解释能否不仅作为可读输出，还真正参与推理。很多系统把 explanation 当作事后说明，但如果解释本身能成为中间表示，就有机会把黑盒预测拆成可检查、可组合的 reasoning 过程。

Marco Valentino,André Freitas

natural-language-explanationsreasoninggeneralizationDOI DBLP

泛读EMNLP 2024

Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents

这篇工作要解决的是 turn-based 界面的根本限制：标准 LLM 对话是你一句我一句，无法像真实对话那样边听边说、实时打断和接话。对语音代理来说，这不是产品细节，而是交互范式问题；如果系统不能全双工，它的响应性和对话自然度就会被架构上限卡住。

Bandhav Veluri,Benjamin N. Peloquin,Bokai Yu,Hongyu Gong,Shyamnath Gollakota

dialoguefull-duplexspeechDOI DBLP

泛读FindingsEMNLP 2024

SocialGaze: Improving the Integration of Human Social Norms in Large Language Models

LLM 在理解和遵循人类社会规范（social norms）方面表现不稳定，缺乏系统性的评估和改进手段。此前工作多关注毒性/偏见等显式安全问题，对更细粒度的社会规范理解（如礼貌、得体、文化敏感性）研究不足。

Anvesh Rao Vijjini,Rakesh R. Menon,Jiayi Fu,Shashank Srivastava,Snigdha Chaturvedi

UNC Chapel Hillalignmentsocial-normssafetyDOI DBLP

泛读EMNLP 2024

Exploring the Learning Capabilities of Language Models using LEVERWORLDS

我们对语言模型到底能学到什么样的知识和规则缺乏系统理解。现有评估多在自然语言任务上进行，混杂了世界知识和语言能力，难以隔离模型的纯学习能力。需要一个可控的合成环境来精确测量 LM 的学习边界。

Eitan Wagner,Amir Feder,Omri Abend

Hebrew University of Jerusalemlearning-dynamicsevaluationgeneralizationDOI DBLP

泛读EMNLP 2024

LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models

LLM 的逻辑推理能力评估缺乏系统性——现有 benchmark 覆盖的逻辑类型有限，且难以区分模型是真正推理还是模式匹配。需要一个更全面、更有诊断性的逻辑推理评估工具。

Yuxuan Wan,Wenxuan Wang,Yiliu Yang,Youliang Yuan,Jen-tse Huang,Pinjia He,Wenxiang Jiao,Michael R. Lyu

logical-reasoningevaluationimprovementDOI DBLP

泛读EMNLP 2024

Knowledge Verification to Nip Hallucination in the Bud

LLM 幻觉（hallucination）的一个重要来源是模型在生成时使用了自身不确定或错误的知识。现有方法多在生成后检测和修正幻觉，代价高且效果有限。这篇工作尝试在生成前/生成中进行知识验证，从源头减少幻觉。

Fanqi Wan,Xinting Huang,Leyang Cui,Xiaojun Quan,Wei Bi,Shuming Shi

Tencent AI LabhallucinationverificationalignmentDOI DBLP

泛读EMNLP 2024

VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models

现有 Video CLIP 模型在处理长视频描述时能力不足——它们主要在短文本-视频对上训练，难以理解和匹配详细的长文本描述。这限制了视频检索和理解在需要细粒度描述匹配场景下的表现。

Jiapeng Wang,Chengyu Wang,Kunzhe Huang,Jun Huang,Lianwen Jin

Alibaba DAMO Academyvideocliplong-contextDOI DBLP

泛读EMNLP 2024

Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies

这篇工作关注的核心问题是：我们通常只看推理准确率，却很少把 token 开销一起纳入评价，导致对 LLM 推理策略的判断偏乐观。随着 test-time scaling 和长 CoT 变得常见，不同方法的真实代价差异迅速放大，因此“同样正确率下谁更省 token”已经是一个必须单独评估的问题。

Junlin Wang,Siddhartha Jain,Dejiao Zhang,Baishakhi Ray,Varun Kumar,Ben Athiwaratkun

reasoningevaluationtoken-budgetDOI DBLP

泛读FindingsEMNLP 2024

In-Context Former: Lightning-fast Compressing Context for Large Language Model

这篇工作要解决的是长上下文输入太贵，很多 token 对当前回答并不都同等重要，但现有方法往往只能粗暴截断、检索或摘要，容易丢信息。问题的关键不是单纯压缩长度，而是在显著减少上下文成本的同时，尽量保住对答案真正有用的条件信息。

Xiangfeng Wang,Zaiyi Chen,Tong Xu,Zheyong Xie,Yongyi He,Enhong Chen

context-compressionlong-contextinferenceDOI DBLP

泛读EMNLP 2024

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

这篇工作要解决的是：现有长上下文评测往往要么过于合成，要么文档数和干扰强度不够，无法真实测出模型在多文档长上下文下的检索、聚合和抗干扰能力。作者希望构建一个更贴近实际的 extended multi-doc QA 基准，逼出长上下文模型真正的失败模式。

Minzheng Wang,Longze Chen,Fu Cheng,Shengyi Liao,Xinghua Zhang,Bingli Wu ... 省略 4 位作者 ... ,Yunshui Li,Min Yang,Fei Huang,Yongbin Li

long-contextbenchmarkevaluationDOI DBLP

泛读FindingsEMNLP 2024

Instance-Level Dynamic LoRAs Composition for Cross-Task Generalization

这篇工作解决的是多任务场景下 LoRA 适配器彼此割裂、泛化差的问题。传统做法通常是每个任务单独训练一个 LoRA，推理时要么选一个、要么简单平均，但不同任务对参数更新方向的需求并不一致，因此固定组合很难对未见任务或混合需求泛化。

Zhiqi Wang,Shizhu He,Kang Liu,Jun Zhao

loraparameter-efficientmulti-taskDOI DBLP

泛读FindingsEMNLP 2024

Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization

这篇工作解决的是语言模型编辑常见的两难：把目标知识改对并不难，难的是改完之后语言流畅性和全局一致性不要明显变差。很多现有编辑方法过于局部，能改掉一个事实，但会引入生硬表达、上下文不一致或无关知识受损。

Mingyang Wang,Lukas Lange,Heike Adel,Jannik Strötgen,Hinrich Schütze

model-editingknowledge-editinggeneration-regularizationDOI DBLP

泛读FindingsEMNLP 2024

Editing Conceptual Knowledge for Large Language Models

这篇论文关注的不是改一个孤立 fact，而是编辑大模型中的概念性知识。已有知识编辑方法大多对“实体-关系-对象”式事实修改有效，但对概念、类别边界、属性归纳这类更分布式的知识效果不稳，因为这类知识不是单点记忆，而是跨多个表述和推理链条共享的表示。

Xiaohan Wang,Shengyu Mao,Shumin Deng,Yunzhi Yao,Yue Shen,Lei Liang,Jinjie Gu,Huajun Chen,Ningyu Zhang

model-editingknowledge-editingfactualityDOI DBLP

泛读FindingsEMNLP 2024

When Compression Meets Model Compression: Memory-Efficient Double Compression for Large Language Models

这篇论文处理的是一个非常工程但很实在的问题：模型压缩和数据/状态压缩往往分开做，导致大模型部署时内存瓶颈没有被联合优化。单独做量化、剪枝或 KV/cache 压缩都能省一部分，但如果参数、激活、缓存和传输开销不一起考虑，最终系统内存还是下不来。

Weilan Wang,Yu Mao,Dongdong Tang,Hongchao Du,Nan Guan,Chun Jason Xue

compressionmemory-efficiencyquantizationDOI DBLP

泛读FindingsEMNLP 2024

Self-Consistency Boosts Calibration for Math Reasoning

这篇论文的核心问题是：self-consistency 不只是提升数学推理正确率，它是否也能改善模型校准。以往工作更多把 self-consistency 当作 test-time voting 技巧，关注 pass@1 或 accuracy，但很少认真看模型给出的置信度是否更可信，这对 verifier、主动学习和风险控制都很关键。

Ante Wang,Linfeng Song,Ye Tian,Baolin Peng,Lifeng Jin,Haitao Mi,Jinsong Su,Dong Yu

self-consistencycalibrationmath-reasoningDOI DBLP

泛读FindingsEMNLP 2024

Variational Language Concepts for Interpreting Foundation Language Models

这篇论文要解决的是可解释性里一个长期难点：如何用更结构化、可组合的概念变量来解释 foundation LM，而不是只看 attention 或单神经元激活。传统解释方法常停留在相关性描述，难以回答模型内部到底编码了哪些“语言概念”，这些概念又如何影响输出。

Hengyi Wang,Shiwei Tan,Zhiqing Hong,Desheng Zhang,Hao Wang

interpretabilityvariationalfoundation-modelsDOI DBLP

泛读EMNLP 2024

Symbolic Working Memory Enhances Language Models for Complex Rule Application

这篇论文针对的是语言模型在复杂规则应用上的典型短板：模型会记住规则描述，但在长链、多变量、需反复覆盖的执行过程中容易丢状态。仅靠隐式上下文记忆时，规则越多、约束越交叉，错误越像是工作记忆失败而不是知识缺失。

Siyuan Wang,Zhongyu Wei,Yejin Choi,Xiang Ren

working-memoryrule-applicationreasoningDOI DBLP

泛读EMNLP 2024

Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge

这篇论文解决的是多模态大模型做时间外推时的效率和对齐问题。现有 MLLM 处理视频时间理解，常靠更长输入、更密采样或更重的时序模块，但这样算力和显存成本很高，而且模型未必真正学会跨时间定位与外推，只是在吃更多帧。

Yuxuan Wang,Yueqian Wang,Pengfei Wu,Jianxin Liang,Dongyan Zhao,Yang Liu,Zilong Zheng

temporal-groundingmllmvideo-understandingDOI DBLP

泛读EMNLP 2024

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering

这篇论文关注的是 code-oriented 多模态数据稀缺：现实世界图像到代码、GUI 到代码、图表到程序这类训练数据难采且质量不稳。过去通常靠人工标注或简单 caption 扩充，但这类方法要么规模上不去，要么描述不够结构化，无法支撑真正有组合性的 world-to-code 学习。

Jiacong Wang,Bohong Wu,Haiyong Jiang,Xun Zhou,Xin Xiao,Haoyuan Guo,Jun Xiao

data-synthesiscaptioningmultimodal-dataDOI DBLP

泛读EMNLP 2024

Belief Revision: The Adaptability of Large Language Models Reasoning

LLM 在面对与其先验知识矛盾的新证据时，能否正确地修正自己的推理结论？即 LLM 的信念修正（belief revision）能力。之前的工作多关注事实知识更新，较少系统研究推理链路中的信念修正。

Bryan Wilie,Samuel Cahyawijaya,Etsuko Ishii,Junxian He,Pascale Fung

HKUSTreasoningbelief-revisionadaptationDOI DBLP

泛读FindingsEMNLP 2024

MINERS: Multilingual Language Models as Semantic Retrievers

多语言 LLM 的内部表示能否直接用作语义检索的向量，而不需要额外训练专门的 embedding 模型？之前多语言检索依赖专门训练的 bi-encoder（如 mE5、LaBSE），但这些模型的语言覆盖和泛化能力受限于训练数据。

Genta Indra Winata,Ruochen Zhang,David Ifeoluwa Adelani

multilingualretrievalrepresentationDOI DBLP

泛读FindingsEMNLP 2024

AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

VLM 幻觉（hallucination）的评估依赖人工构造的 benchmark，成本高且覆盖有限。能否自动生成幻觉测试用例，使评估更全面、更可扩展？

Xiyang Wu,Tianrui Guan,Dianqi Li,Shuaiyi Huang,Xiaoyu Liu,Xijun Wang ... 省略 2 位作者 ... ,Furong Huang,Jordan L. Boyd-Graber,Tianyi Zhou,Dinesh Manocha

vlmhallucinationbenchmarkDOI DBLP

泛读FindingsEMNLP 2024

MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding

这篇工作要解决的是通用 VLM 对移动端 UI 场景理解不够好，尤其对界面内部元素关系和跨界面操作语义把握不足。现有视觉语言模型多在自然图像和网页/文档数据上训练，对按钮层级、布局约束、可交互区域和多页面流程这种 UI 特有结构学得不够。

Qinzhuo Wu,Weikai Xu,Wei Liu,Tao Tan,Jianfeng Liu,Ang Li,Jian Luan,Bin Wang,Shuo Shang

vlmmobileui-understandingDOI DBLP

泛读EMNLP 2024

Retrospex: Language Agent Meets Offline Reinforcement Learning Critic

这篇工作要解决的是语言 agent 的训练反馈太弱、太在线，导致试错成本高且难以稳定优化。现有 agent 往往依赖在线环境交互或规则反馈，但复杂任务里的成功信号稀疏，模型很难从有限轨迹里学到可靠策略。

Yufei Xiang,Yiqun Shen,Yeqin Zhang,Cam-Tu Nguyen

agentoffline-rlcriticDOI DBLP

泛读EMNLP 2024

Calibrating Language Models with Adaptive Temperature Scaling

这篇工作要解决的是：语言模型的置信度校准在不同样本和不同生成阶段上明显失真，而传统固定温度缩放只会做一个全局修正，无法处理局部过度自信与欠自信并存的问题。过去常见做法是训练后用单一温度做后处理，因为实现简单且不改模型参数，但这种办法默认所有 token 的失配形态相同，这个假设在开放生成里通常不成立。

Johnathan Xie,Annie S. Chen,Yoonho Lee,Eric Mitchell,Chelsea Finn

Stanford Universitycalibrationtemperature-scalinguncertaintyDOI DBLP

泛读EMNLP 2024

ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods

这篇工作讨论成员推断攻击，核心问题是：现有方法往往依赖绝对似然或置信度分数，但这些分数强烈受样本长度、频率和模型整体校准状态影响，导致成员与非成员难以稳定区分。作者要解决的是如何构造一个更稳健的判别量，让 membership signal 不被表面概率尺度淹没。

Roy Xie,Junlin Wang,Ruomin Huang,Minxing Zhang,Rong Ge,Jian Pei,Neil Gong,Bhuwan Dhingra

privacymembership-inferencelikelihoodDOI DBLP

泛读EMNLP 2024

Adaption-of-Thought: Learning Question Difficulty Improves Large Language Models for Reasoning

这篇工作关注推理能力训练里的一个被低估问题：模型通常把所有问题一视同仁地学，但不同题目难度对应的思维预算和训练信号质量并不一样。过去常见做法是统一 CoT 或统一采样策略，这会让简单题浪费计算、难题又学不到合适的分解路径。

Mayi Xu,Yongqi Li,Ke Sun,Tieyun Qian

reasoningcurriculumdifficultyDOI DBLP

泛读FindingsEMNLP 2024

Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression

这篇工作指出：压缩 LLM 时只看 perplexity 或下游准确率是不够的，因为压缩会系统性改变安全行为，而这种变化常被传统评测漏掉。过去模型压缩研究更关注保留任务性能和吞吐收益，默认安全性会随能力一起近似保留，这个假设并不可靠。

Zhichao Xu,Ashim Gupta,Tao Li,Oliver Bentham,Vivek Srikumar

University of UtahcompressionsafetyevaluationDOI DBLP

泛读FindingsEMNLP 2024

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

这篇工作针对数学推理提升中的一个核心瓶颈：模型会生成步骤，但缺少稳定的自检能力，导致错误推理被一路放大。过去常见做法是直接用 CoT 或 self-consistency 增加采样，但如果候选解都共享同一错误模式，多采样并不能真正提升正确率。

Yifan Xu,Xiao Liu,Xinghan Liu,Zhenyu Hou,Yueyan Li,Xiaohan Zhang ... 省略 2 位作者 ... ,Zhengxiao Du,Wenyi Zhao,Jie Tang,Yuxiao Dong

mathself-critiquereasoningDOI DBLP

泛读EMNLP 2024

Re-Reading Improves Reasoning in Large Language Models

这篇工作讨论一个非常实际的问题：LLM 推理错误有相当一部分不是不会，而是第一次读题和生成时丢了约束，导致后续推理建立在错误理解上。过去大家更多在‘多想几次’上下功夫，比如 CoT、self-consistency、tree search，但对‘重新读取题目并对齐当前推理状态’这个动作研究得较少。

Xiaohan Xu,Chongyang Tao,Tao Shen,Can Xu,Hongbo Xu,Guodong Long,Jian-Guang Lou,Shuai Ma

reasoninginference-timeself-refinementDOI DBLP

泛读FindingsEMNLP 2024

Position Paper: Data-Centric AI in the Age of Large Language Models

这是一篇立场论文，核心问题不是提出单一新算法，而是指出：在 LLM 时代，社区过度关注模型和参数，却系统性低估了数据构建、筛选、标注、治理和反馈闭环的重要性。过去‘数据中心 AI’更多在传统监督学习里讨论，但大模型把数据问题放大到了预训练、对齐和评测全链路，旧经验已经不够用。

Xinyi Xu,Zhaoxuan Wu,Rui Qiao,Arun Verma,Yao Shu,Jingtan Wang ... 省略 9 位作者 ... ,Wenyang Hu,Zhongxiang Dai,Pang Wei Koh,Bryan Kian Hsiang Low

data-centricdata-qualityllmDOI DBLP

泛读EMNLP 2024

Detecting Subtle Differences between Human and Model Languages Using Spectrum of Relative Likelihood

这篇工作研究如何检测人类语言和模型语言之间那些‘看起来很像、但统计结构不同’的细微差异。过去常见的人机文本鉴别方法依赖表层特征、分类器或单一似然分数，但高质量 LLM 文本已经能绕过很多浅层检测器，因此需要更细致的分布比较工具。

Yang Xu,Yu Wang,Hao An,Zhichen Liu,Yongyuan Li

likelihooddetectiondistribution-shiftDOI DBLP

泛读EMNLP 2024

SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales

Tianyang Xu,Shujin Wu,Shizhe Diao,Xiaoze Liu,Xingyao Wang,Yangyi Chen,Jing Gao

calibrationconfidenceself-reflectionDOI DBLP

泛读FindingsEMNLP 2024

EchoSight: Advancing Visual-Language Models with Wiki Knowledge

Yibin Yan,Weidi Xie

vlmknowledgepretrainingDOI DBLP

泛读EMNLP 2024

Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights

Hao Yang,Lizhen Qu,Ehsan Shareghi,Reza Haf

speech-riskmultimodal-llmbenchmarkDOI DBLP

泛读EMNLP 2024

Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones?

Zhe Yang,Yichang Zhang,Tianyu Liu,Jian Yang,Junyang Lin,Chang Zhou,Zhifang Sui

reasoningdifficultyconsistencyDOI DBLP

泛读IndustryEMNLP 2024

ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency

Yuhang Yao,Han Jin,Alay Dilipbhai Shah,Shanshan Han,Zijian Hu,Dimitris Stripelis,Yide Ran,Zhaozhuo Xu,Salman Avestimehr,Chaoyang He

servinginference-efficiencyend-to-endDOI DBLP

泛读FindingsEMNLP 2024

Self-training Large Language Models through Knowledge Detection

这篇工作要解决的是：如何让 LLM 在自训练时先识别自己真正“知道”的知识，再用这些高置信知识去扩展能力，而不是盲目拿自生成数据继续训自己。传统 self-training 最大的问题不是数据不够，而是伪标签误差会自我放大；对知识型任务尤其如此，因为模型会把似是而非的事实越学越牢。

Wei Jie Yeo,Teddy Ferdinan,Przemyslaw Kazienko,Ranjan Satapathy,Erik Cambria

self-trainingknowledge-detectioncontinual-learningDOI DBLP

泛读FindingsEMNLP 2024

Empirical Prior for Text Autoencoders

这篇工作要解决的是：文本自编码器通常需要给潜变量设先验，但常用的简单先验与真实文本表示分布不匹配，导致重建和生成之间两头都不够好。这个问题过去常被 VAE 里各类正则技巧掩盖，但如果先验本身错得太远，模型不是 posterior collapse，就是生成样本质量差。

Yongjing Yin,Wenyang Gao,Haodong Wu,Jianhao Yan,Yue Zhang

text-autoencoderpriorlatent-spaceDOI DBLP

泛读EMNLP 2024

Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?

这篇工作要解决的是：LLM 在文本里说出的“不确定”到底能不能忠实反映其真实内部置信度，而不是只学会生成一些像“我不确定”的礼貌表达。社区过去更多关注概率校准或 verbalized confidence 的可用性，但“faithfully express”更进一步，问的是语言化后的不确定性是否与模型内部信念一致。

Gal Yona,Roee Aharoni,Mor Geva

uncertaintycalibrationintrinsic-knowledgeDOI DBLP

泛读EMNLP 2024

LLM-Evolve: Evaluation for LLM's Evolving Capability on Benchmarks

这篇工作要解决的是：LLM 能力不是静态的，benchmark 分数会随着模型版本、时间和评测污染共同变化，因此单次评测无法刻画“能力演化”。过去很多 benchmark 把模型当成固定对象，但对快速迭代的大模型来说，真正难的是持续、可比、抗污染地追踪能力变化。

Jiaxuan You,Mingjie Liu,Shrimai Prabhumoye,Mostofa Patwary,Mohammad Shoeybi,Bryan Catanzaro

evaluationbenchmarkcapabilityDOI DBLP

泛读EMNLP 2024

Interpreting Arithmetic Mechanism in Large Language Models through Comparative Neuron Analysis

这篇工作要解决的问题是：LLM 的算术能力到底由哪些具体神经元和子机制承担，而不是停留在行为层面看对错。过去不少工作用 probing、激活可视化或电路级案例分析来讨论 arithmetic，但很难回答“哪些神经元在不同模型里承担了稳定且可比较的功能”，因此可迁移的机制结论较少。

Zeping Yu,Sophia Ananiadou

interpretabilityarithmeticneuronsDOI DBLP

泛读EMNLP 2024

MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts

这篇工作解决的是：多模态模型往往把图像-文本、视频-文本等交互压进单一融合模块，导致不同类型的跨模态关系互相干扰，表达能力不够细。过去常见做法是共享一个 cross-attention 或 projector，但这种统一处理对复杂交互并不总够用。

Haofei Yu,Zhengyang Qi,Lawrence Jang,Russ Salakhutdinov,Louis-Philippe Morency,Paul Pu Liang

Carnegie Mellon UniversitymultimodalmoefusionDOI DBLP

泛读EMNLP 2024

Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models

这篇工作关注的核心问题是：LLM 是否真的克服了 shortcut learning，还是只是把 shortcut 从浅层统计模式升级成了更隐蔽的形式。过去很多 benchmark 默认更大模型会更依赖语义而非捷径，但这一假设缺少系统检验。

Yu Yuan,Lili Zhao,Kai Zhang,Guangting Zheng,Qi Liu

shortcut-learningevaluationgeneralizationDOI DBLP

泛读EMNLP 2024

Fuse to Forget: Bias Reduction and Selective Memorization through Model Fusion

Kerem Zaman,Leshem Choshen,Shashank Srivastava

model-mergingforgettingbiasDOI DBLP

泛读EMNLP 2024

FAME: Towards Factual Multi-Task Model Editing

Zeng Li,Yingyu Shan,Zeming Liu,Jiashu Yao,Yuhang Guo

model-editingfactualitymulti-taskDOI DBLP

泛读FindingsEMNLP 2024

Large Language Models Can Not Perform Well in Understanding and Manipulating Natural Language at Both Character and Word Levels?

Yidan Zhang,Zhenan He

tokenizationcharacter-levelword-levelDOI DBLP

泛读EMNLP 2024

LUQ: Long-text Uncertainty Quantification for LLMs

Caiqi Zhang,Fangyu Liu,Marco Basaldella,Nigel Collier

uncertaintylong-contextevaluationDOI DBLP

泛读FindingsEMNLP 2024

Can LLM Graph Reasoning Generalize beyond Pattern Memorization?

Yizhuo Zhang,Heng Wang,Shangbin Feng,Zhaoxuan Tan,Xiaochuang Han,Tianxing He,Yulia Tsvetkov

reasoninggeneralizationgraphDOI DBLP

泛读EMNLP 2024

Calibrating the Confidence of Large Language Models by Eliciting Fidelity

这篇工作要解决的是 LLM 置信度经常不可信的问题，而且不是简单做后处理校准，而是强调让模型表达更忠实的置信。现有校准方法常把概率映射得更像真实准确率，但如果模型给出的答案和其内部依据并不一致，表面校准可能掩盖而不是修复不可靠性。

Mozhi Zhang,Mianqiu Huang,Rundong Shi,Linsen Guo,Chong Peng,Peng Yan,Yaqian Zhou,Xipeng Qiu

calibrationconfidencefidelityDOI DBLP

泛读EMNLP 2024

TinyChart: Efficient Chart Understanding with Program-of-Thoughts Learning and Visual Token Merging

这篇工作要解决的是图表理解模型‘做得动’和‘做得起’之间的矛盾。现有 MLLM 在 chart understanding 上效果不错，但通常模型很大、视觉 token 很长、数值计算还要靠模型硬记，因此在资源受限环境下既慢又贵；问题不只是压缩模型，而是把不该让参数记住的能力移交给更合适的机制。

Liang Zhang,Anwen Hu,Haiyang Xu,Ming Yan,Yichen Xu,Qin Jin,Ji Zhang,Fei Huang

vlmvisual-token-mergingefficiencyDOI arXiv DBLP

泛读EMNLP 2024

Collaborative Performance Prediction for Large Language Models

这篇工作关注一个越来越重要的问题：能否在不完整跑完所有实验的情况下，预测 LLM 在任务上的表现。随着模型家族、数据配比和 post-train 配方越来越多，完整评测成本快速上升；过去的性能预测通常依赖单模型历史或简单 scaling 拟合，但很难利用‘多个模型、多个任务、多个评测者之间的协同信息’。

Qiyuan Zhang,Fuyuan Lyu,Xue Liu,Chen Ma

scalingperformance-predictionevaluationDOI DBLP

泛读FindingsEMNLP 2024

Intermediate Layer Distillation with the Reused Teacher Classifier: A Study on the Importance of the Classifier of Attention-based Models

这篇论文要解决的是：中间层蒸馏在压缩 BERT 这类注意力模型时，往往把重点放在层表示对齐上，却低估了教师端分类器本身携带的判别信息。以往很多 ILD 方法一边设计复杂的层映射，一边重新训练学生分类头，等于把教师已经学好的决策边界丢掉了一部分；作者认为这会让蒸馏效率和上限都受损，尤其在小模型上更明显。

Hang Zhang,Seyyed Hasan Mozafari,James J. Clark,Brett H. Meyer,Warren J. Gross

distillationmodel-compressionintermediate-layersDOI DBLP

泛读EMNLP 2024

Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation

这篇论文要回答的是一个很具体但长期被默认乐观的问题：文本预训练语言模型的知识和表征，是否真的能帮助自回归式 text-to-image generation。过去很多工作默认“先有强 LLM，再接图像生成”会自然带来收益，但作者的标题已经给出结论：对自回归图像生成来说，PLM 并不自动提供帮助，至少不是大家常期待的那种帮助。

Yuhui Zhang,Brandon McKinzie,Zhe Gan,Vaishaal Shankar,Alexander Toshev

text-to-imageautoregressivepretrainingDOI DBLP

泛读IndustryEMNLP 2024

mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

这篇论文要解决的是多语言检索里的两个现实短板：一是很多 text embedding / reranker 模型对长上下文支持差，二是跨语言泛化常常靠英文迁移，稳定性不够。实际检索场景越来越需要同时处理长文档、多语言和重排，但现有模型往往在这三件事上只能顾两样。

Xin Zhang,Yanzhao Zhang,Dingkun Long,Wen Xie,Ziqi Dai,Jialong Tang ... 省略 3 位作者 ... ,Fei Huang,Meishan Zhang,Wenjie Li,Min Zhang

long-contextmultilingualtext-embeddingDOI DBLP

泛读FindingsEMNLP 2024

What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models

这篇论文关注的是语言模型知识探测中的一个关键盲点：我们常用单一问答或 cloze 任务来测“模型记不记得事实”，但事实记忆和召回其实受多个因素共同影响，单一 benchmark 很难分清模型是没记住、记住了但取不出来，还是只在特定表述下才能取出。作者因此提出 multifaceted benchmarks，目标是把“记忆”和“召回”拆开评估。

Xin Zhao,Naoki Yoshinaga,Daisuke Oba

knowledge-probingfactual-recallbenchmarkDOI DBLP

泛读FindingsEMNLP 2024

Unleashing the Potentials of Likelihood Composition for Multi-modal Language Models

Shitian Zhao,Renrui Zhang,Xu Luo,Yan Wang,Shanghang Zhang,Peng Gao

multimodal-llmlikelihood-compositioninferenceDOI DBLP

泛读EMNLP 2024

Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs

Xin Zhou,Ping Nie,Yiwen Guo,Haojie Wei,Zhanqiu Zhang,Pasquale Minervini,Ruotian Ma,Tao Gui,Qi Zhang,Xuanjing Huang

moeragretrievalDOI DBLP

泛读FindingsEMNLP 2024

Navigating the Shortcut Maze: A Comprehensive Analysis of Shortcut Learning in Text Classification by Language Models

Yuqing Zhou,Ruixiang Tang,Ziyu Yao,Ziwei Zhu

shortcut-learningtext-classificationgeneralizationDOI DBLP

泛读FindingsEMNLP 2024

HyQE: Ranking Contexts with Hypothetical Query Embeddings

这篇论文要解决的是检索阶段的查询表示不够稳健，尤其是在用户问题很短、很模糊或和目标文档表述不一致时，单个 query embedding 往往抓不住真正的检索意图。传统 dense retrieval 通常直接编码原始查询，或者依赖昂贵的重写/生成步骤来扩展查询，但前者语义覆盖窄，后者推理成本高且不稳定，因此作者提出用 hypothetical query embeddings 来给候选上下文打分。

Weichao Zhou,Jiaxin Zhang,Hilaf Hasson,Anu Singh,Wenchao Li

retrievalembeddingsrankingDOI DBLP

泛读FindingsEMNLP 2024

Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation

这篇论文要解决的是：在 benchmark 已经被大模型训练数据污染的现实下，如何继续使用这些泄漏基准做相对可信的评测。过去常见做法要么直接宣布某个测试集失效，要么尝试在训练前做数据去重和清洗；但对闭源模型或已训练完成的模型，这两条路都不现实，因此作者提出 inference-time decontamination，在推理时而不是训练时处理污染问题。

Qin Zhu,Qinyuan Cheng,Runyu Peng,Xiaonan Li,Ru Peng,Tengxiao Liu,Xipeng Qiu,Xuanjing Huang

evaluationdecontaminationbenchmarkDOI DBLP

泛读EMNLP 2024

LongEmbed: Extending Embedding Models for Long Context Retrieval

这篇论文要解决的是 embedding 模型在长文检索上的能力短板：大多数文本向量模型训练时面向短段落或句子，遇到几千 token 的文档时，不是直接截断，就是平均化后丢失关键信息，导致长上下文检索效果显著下降。这个问题以前常靠 chunking 和 reranking 绕过去，但那会引入额外索引成本、边界切分误差和召回-延迟折中，因此值得单独做长上下文 embedding。

Dawei Zhu,Liang Wang,Nan Yang,Yifan Song,Wenhao Wu,Furu Wei,Sujian Li

embeddingslong-contextretrievalDOI DBLP

泛读EMNLP 2024

Updating CLIP to Prefer Descriptions Over Captions

这篇论文要解决的是 CLIP 更偏好 captions 而不是 descriptions 的问题。标准 CLIP 主要用图文配对数据训练，文本侧往往是简短 caption，因此模型更擅长匹配‘图里有什么’的表层描述，而不是更抽象、更组合式、更接近人类语义判断的自然语言描述。这个偏好会限制 CLIP 在细粒度语义检索、概念组合和解释性评估中的表现。

Amir Zur,Elisa Kreiss,Karel D'Oosterlinck,Christopher Potts,Atticus Geiger

Stanford Universityclipvision-languagecontrastive-learningDOI DBLP