NAACL 2024

North American Chapter of the ACL

会议官网

321/ 1342 相关论文

Track

方向

Tier

321 / 321 篇论文

精读FindingsNAACL 2024

Tokenizer Choice For LLM Training: Negligible or Crucial?

这篇工作直接问了一个预训练里很少被认真隔离变量的问题：tokenizer 的选择到底只是边角细节，还是会实质影响 LLM 训练效率和最终能力。过去很多实验默认 tokenizer 差不多，只要 vocab size 在合理范围内就行；但这可能掩盖了跨语言压缩率、形态边界、序列长度和训练动态的系统性差异。

Mehdi Ali,Michael Fromm,Klaudia Thellmann,Richard Rutmann,Max Lübbering,Johannes Leveling ... 省略 11 位作者 ... ,Samuel Weinbach,Rafet Sifa,Stefan Kesselheim,Nicolas Flores-Herr

tokenizerpretrainingdata-efficiencyDOI DBLP

精读LongNAACL 2024

A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity

这篇论文的核心问题是：预训练数据的“量”已经被研究很多，但数据的年龄、领域覆盖、质量和毒性这些更细的属性，到底如何影响模型能力与风险，缺少系统、可比较的实证框架。过去大家常用模糊经验做数据配比，比如“多抓点新网页”“多清洗一点就更好”，但这些决策之间有明显 trade-off，不做受控实验很难知道收益来自哪里、代价又是什么。

Shayne Longpre,Gregory Yauney,Emily Reif,Katherine Lee,Adam Roberts,Barret Zoph ... 省略 1 位作者 ... ,Jason Wei,Kevin Robinson,David Mimno,Daphne Ippolito

data-qualitytraining-datadata-ageDOI DBLP

精读LongNAACL 2024

Effective Long-Context Scaling of Foundation Models

这篇工作要解决的是：基础模型的长上下文能力怎么才能随上下文长度有效扩展，而不是只在训练时把位置上限拉长却在真实使用中迅速退化。过去很多方法靠位置编码外推、少量长文本继续训练或插值技巧把窗口做大，但常见问题是训练不稳定、远距离检索弱、长文性能和短文性能互相牵制。

Wenhan Xiong,Jingyu Liu,Igor Molybog,Hejia Zhang,Prajjwal Bhargava,Rui Hou ... 省略 11 位作者 ... ,Sergey Edunov,Mike Lewis,Sinong Wang,Hao Ma

long-contextcontinual-pretrainscalingDOI DBLP

精读FindingsNAACL 2024

Attention Alignment and Flexible Positional Embeddings Improve Transformer Length Extrapolation

这篇论文要解决的问题很明确：Transformer 的长度外推为什么差，以及怎样在不大改架构的情况下把它拉长。已有方法往往在位置编码上做文章，例如 ALiBi、RoPE scaling、插值外推等，但单改位置编码常常不够，因为长度失效不只来自位置表示，还来自注意力模式在长序列上的退化。

Ta-Chung Chi,Ting-Han Fan,Alexander Rudnicky

positional-embeddinglength-extrapolationattentionDOI DBLP

精读LongNAACL 2024

Empowering Diffusion Models on the Embedding Space for Text Generation

这篇工作聚焦一个非 AR 文本生成问题：如何让 diffusion model 在 embedding space 上更有效地做文本生成。过去文本 diffusion 常受两个限制：离散 token 空间难以直接扩散，连续 embedding 空间虽然可训练，但生成质量、离散映射误差和采样效率常不如自回归模型，因此需要更合适的建模方式来释放 embedding-space diffusion 的潜力。

Zhujin Gao,Junliang Guo,Xu Tan,Yongxin Zhu,Fang Zhang,Jiang Bian,Linli Xu

diffusion-lmtext-generationembedding-spaceDOI DBLP

精读LongNAACL 2024

LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models

Chi Han,Qifan Wang,Hao Peng,Wenhan Xiong,Yu Chen,Heng Ji,Sinong Wang

long-contextlength-generalizationposition-encodingDOI DBLP

精读IndustryNAACL 2024

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

这篇论文要解决的是：在给定已有 checkpoint 的前提下，如何不用从头按更大算力重训，就把模型能力继续往上推。传统 scaling 主要依赖更多 token、更多参数和更长训练，而作者关注的是更便宜的路径——通过增加深度做 up-scaling。

Sanghoon Kim,Dahyun Kim,Chanjun Park,Wonsung Lee,Wonho Song,Yunsu Kim ... 省略 8 位作者 ... ,Gyoungjin Gim,Mikyoung Cha,Hwalsuk Lee,Sunghun Kim

scalingarchitecturedepth-upscalingDOI DBLP

精读LongNAACL 2024

P³Sum: Preserving Author's Perspective in News Summarization with Diffusion Language Models

这篇论文要解决的问题是：新闻摘要常把作者或原文叙事视角抹平，生成出一种“中性但失真”的摘要，而标准自回归摘要模型尤其容易朝高频、平均化表达收缩。过去多数工作默认摘要应尽量客观，因此很少显式建模“作者视角保留”；但在新闻、社论、分析稿等场景里，视角就是信息的一部分，丢掉它会让摘要在语义上不完整。

Yuhan Liu,Shangbin Feng,Xiaochuang Han,Vidhisha Balachandran,Chan Young Park,Sachin Kumar,Yulia Tsvetkov

diffusion-lmsummarizationcontrollable-generationDOI DBLP

精读SRWNAACL 2024

HybridBERT - Making BERT Pretraining More Efficient Through Hybrid Mixture of Attention Mechanisms

Gokul Srinivasagan,Simon Ostermann

bertattentionefficiencyDOI DBLP

精读FindingsNAACL 2024

i-Code V2: An Autoregressive Generation Framework over Vision, Language, and Speech Data

这篇工作要解决的是：能不能用一个统一的自回归框架同时建模视觉、语言和语音数据，而不是为不同模态分别维护不同生成器。过去统一多模态生成常见两条路：要么以文本为中心把其他模态离散化进 LM，要么采用 AR + diffusion 混合体系；前者简洁但常受 tokenizer 表达力限制，后者能力强但系统更复杂。

Ziyi Yang,Mahmoud Khademi,Yichong Xu,Reid Pryzant,Yuwei Fang,Chenguang Zhu ... 省略 9 位作者 ... ,Lu Yuan,Takuya Yoshioka,Michael Zeng,Xuedong Huang

multimodal-pretrainautoregressivevision-language-speechDOI DBLP

精读LongNAACL 2024

Text Diffusion Model with Encoder-Decoder Transformers for Sequence-to-Sequence Generation

Hongyi Yuan,Zheng Yuan,Chuanqi Tan,Fei Huang,Songfang Huang

diffusion-lmseq2seqencoder-decoderDOI DBLP

精读LongNAACL 2024

What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?

Yan Zeng,Hanbo Zhang,Jiani Zheng,Jiangnan Xia,Guoqiang Wei,Yang Wei,Yuchen Zhang,Tao Kong,Ruihua Song

multimodal-pretraininggpt-styledata-mixtureDOI DBLP

精读LongNAACL 2024

LanguageFlow: Advancing Diffusion Language Generation with Probabilistic Flows

这篇工作针对 diffusion LM 的一个核心瓶颈：生成质量、训练稳定性和采样效率往往不如成熟的 AR LM，而很多方法又依赖离散扩散的复杂参数化。作者试图回答的是，能否用 probabilistic flow 重新组织离散文本生成过程，让 diffusion-style 语言建模更可学、更好采样。

Shujian Zhang,Lemeng Wu,Chengyue Gong,Xingchao Liu

diffusion-lmnon-arprobabilistic-flowsDOI DBLP

泛读LongNAACL 2024

DoG-Instruct: Towards Premium Instruction-Tuning Data via Text-Grounded Instruction Wrapping

高质量指令微调数据的构造成本高，且现有方法（如 Self-Instruct）生成的指令常与真实文本脱节，导致模型学到的指令跟随能力泛化性差。如何从已有文本语料中高效地「包装」出高质量指令数据？

Yongrui Chen,Haiyun Jiang,Xinting Huang,Shuming Shi,Guilin Qi

instruction-datadata-qualitysynthetic-dataDOI DBLP

泛读LongNAACL 2024

REST: Retrieval-Based Speculative Decoding

这篇工作要解决的是如何在不训练额外 draft model 的情况下加速大模型解码。传统 speculative decoding 依赖一个更小的草稿模型先生成，再由目标模型验证，但这要求额外训练或部署一套模型；REST 试图用检索替代草稿生成，降低系统成本。

Zhenyu He,Zexuan Zhong,Tianle Cai,Jason D. Lee,Di He

speculative-decodingretrievalinferenceDOI DBLP

泛读LongNAACL 2024

BPE-knockout: Pruning Pre-existing BPE Tokenisers with Backwards-compatible Morphological Semi-supervision

这篇工作要解决的是已有 BPE tokenizer 往往切分出不理想的子词边界，特别是在形态丰富语言中，会破坏词法结构；但完全重训 tokenizer 又会破坏与已有模型和生态的兼容性。BPE-knockout 试图在保持向后兼容的前提下，对既有 BPE 做裁剪和修正。

Thomas Bauwens,Pieter Delobelle

tokenizerbpemorphologyDOI DBLP

泛读ShortNAACL 2024

How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes

这篇论文的核心问题是：多任务训练会怎样改变 Transformer 的 in-context learning 能力，尤其是它学到的是更通用的归纳机制，还是被训练任务绑死的启发式。过去很多 ICL 研究在合成函数族上分析 next-token 学习行为，但较少系统考察“先做多任务预训练”这一训练分布变化会如何影响模型在上下文中快速拟合新函数的能力。

Harmon Bhasin,Timothy Ossowski,Yiqiao Zhong,Junjie Hu

multi-taskin-context-learningtransformerDOI DBLP

精读ShortNAACL 2024

On Retrieval Augmentation and the Limitations of Language Model Training

语言模型在预训练时无法有效记住长尾知识，而检索增强（RAG）能否从根本上弥补这一训练局限？之前的工作多把 RAG 当推理时的补丁，缺少对训练阶段知识获取瓶颈的系统分析。

Ting-Rui Chiang,Xinyan Yu,Joshua Robinson,Ollie Liu,Isabelle Lee,Dani Yogatama

retrieval-augmentedtraining-limitationslanguage-modelDOI DBLP

精读LongNAACL 2024

Investigating Data Contamination in Modern Benchmarks for Large Language Models

现代 LLM 的评测基准可能已被训练数据污染（data contamination），导致 benchmark 分数虚高。如何系统检测和量化这种污染？之前的检测方法多是启发式的，缺乏对多种污染形式的统一分析。

Chunyuan Deng,Yilun Zhao,Xiangru Tang,Mark Gerstein,Arman Cohan

Yale UniversityAllen Institute for AIdata-contaminationbenchmarkevaluationDOI DBLP

泛读FindingsNAACL 2024

Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training

如何让多语言 LLM 理解多语言语音输入？现有语音-语言模型多聚焦英语，多语言场景下的语音理解能力不足。核心挑战是如何在不破坏 LLM 已有语言能力的前提下注入语音理解能力。

Pavel Denisov,Thang Vu

speech-lmmultilingualinstruction-tuningDOI DBLP

精读LongNAACL 2024

In-context Learning and Gradient Descent Revisited

In-context learning (ICL) 与梯度下降之间的类比被广泛讨论，但这个类比的边界在哪？之前的理论工作（如 Akyürek et al., von Oswald et al.）在线性回归设定下建立了 ICL≈GD 的联系，但这个结论在更一般的设定下是否成立需要重新审视。

Gilad Deutch,Nadav Magar,Tomer Bar Natan,Guy Dar

in-context-learninggradient-descentmechanistic-analysisDOI DBLP

精读SRWNAACL 2024

Investigating Web Corpus Filtering Methods for Language Model Development in Japanese

这篇工作关注一个很实际但经常被英文中心研究忽略的问题：日语大规模网页语料到底该怎么过滤，才能更适合语言模型预训练。过去很多过滤策略直接照搬英文经验，但日语在分词、脚本混杂、网页噪声形态和重复模式上都不同，所以“英文有效”的规则未必在日语上成立。

Rintaro Enomoto,Arseny Tolmachev,Takuro Niitsuma,Shuhei Kurita,Daisuke Kawahara

web-corpusfilteringdata-qualityDOI DBLP

精读LongNAACL 2024

AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs

这篇工作要解决的是：如何让 LLM 获得更通用的语音能力，而不是只做 ASR 或语音问答中的单一点功能。过去很多 speech-LLM 系统把语音先压成文本，再交给文本 LLM，这样容易丢失副语言信息、说话人特征和非词汇声学线索，因此无法支撑真正通用的语音交互。

Yassir Fathullah,Chunyang Wu,Egor Lakomkin,Ke Li,Junteng Jia,Yuan Shangguan,Jay Mahadeokar,Ozlem Kalinli,Christian Fuegen,Mike Seltzer

speech-lmaudio-languageinstruction-tuningDOI DBLP

精读FindingsNAACL 2024

The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text

Yanzhu Guo,Guokan Shang,Michalis Vazirgiannis,Chloé Clavel

synthetic-datadata-qualitylinguistic-diversityDOI DBLP

泛读LongNAACL 2024

David helps Goliath: Inference-Time Collaboration Between Small Specialized and Large General Diffusion LMs

Xiaochuang Han,Sachin Kumar,Yulia Tsvetkov,Marjan Ghazvininejad

diffusion-lminferencesmall-lmDOI DBLP

精读FindingsNAACL 2024

Extending Input Contexts of Language Models through Training on Segmented Sequences

扩展 LLM 的输入上下文长度，但不想承担在超长序列上从头 pretrain 的巨大计算成本。以往方法（如位置编码外推、稀疏注意力）各有局限，要么泛化性差，要么需要架构改动。

Petros Karypis,Julian J. McAuley,George Karypis

University of MinnesotaAmazonUC San Diegolong-contexttrainingsequence-modelingDOI DBLP

精读FindingsNAACL 2024

RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models

这篇论文要解决的是：只靠 DPO 做偏好对齐时，模型容易受偏好数据质量和分布偏差影响，而只靠 rejection sampling 又往往样本利用率低、成本高。作者试图把生成筛选和偏好优化串起来，缓解“监督信号稀疏但直接优化又不稳”的问题，尤其针对对齐阶段常见的低质量候选和奖励误导。

Saeed Khaki,JinJin Li,Lan Ma,Liu Yang,Prathap Ramachandra

dpoalignmentrejection-samplingDOI DBLP

精读FindingsNAACL 2024

Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents

这篇论文要解决的是：常规减毒训练往往依赖安全偏好数据，但对 harmful 行为的覆盖不够，结果是在降低 toxicity 时容易伤害对话质量，或者让模型学会更隐蔽地回避。作者关注的是如何显式利用 harmful data，让模型更稳地拒绝有害输出，同时尽量不损失 coherence 和 evasiveness 控制。

San Kim,Gary Geunbae Lee

dpotoxicityalignmentDOI DBLP

精读FindingsNAACL 2024

Teaching Llama a New Language Through Cross-Lingual Knowledge Transfer

这篇论文解决的是：如何以低成本把英文中心的预训练 LLM 适配到新低资源语言，且不只是补词表覆盖，而是真正获得该语言的指令跟随、常识推理和多轮对话能力。过去常见做法要么只做额外单语继续预训练，缺少对齐能力；要么只做跨语种 instruction tuning，但底座对目标语言暴露不足，迁移上限低。

Hele-Andra Kuulmets,Taido Purason,Agnes Luhtaru,Mark Fishel

multilingualcontinued-pretrainingcross-lingual-transferDOI arXiv DBLP

精读LongNAACL 2024

Fine-Tuning Language Models with Reward Learning on Policy

这篇论文的核心问题应当是：如何把 reward learning 更紧密地嵌入语言模型微调过程，并在 on-policy 条件下减少训练信号失真。传统做法里，reward model 往往离线训练、再用于 PPO 或其变体，分布漂移和奖励误差会在微调过程中被放大。

Hao Lang,Fei Huang,Yongbin Li

reward-learningon-policyalignmentDOI DBLP

泛读FindingsNAACL 2024

A Transformer with Stack Attention

Jiaoda Li,Jennifer C. White,Mrinmaya Sachan,Ryan Cotterell

transformerarchitectureattentionDOI DBLP

精读FindingsNAACL 2024

Reinforcement Learning with Token-level Feedback for Controllable Text Generation

Wendi Li,Wei Wei,Kaihe Xu,Wenfeng Xie,Dangyang Chen,Yu Cheng

reinforcement-learningtoken-levelcontrollable-generationDOI DBLP

精读LongNAACL 2024

From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning

Ming Li,Yong Zhang,Zhitao Li,Jiuhai Chen,Lichang Chen,Ning Cheng,Jianzong Wang,Tianyi Zhou,Jing Xiao

instruction-tuningdata-selectionself-trainingDOI DBLP

精读FindingsNAACL 2024

SLiM: Speculative Decoding with Hypothesis Reduction

Chi-Heng Lin,Shikhar Tuli,James Seale Smith,Yen-Chang Hsu,Yilin Shen,Hongxia Jin

speculative-decodinginferenceefficientDOI DBLP

泛读FindingsNAACL 2024

OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining

这篇论文解决的是多语言 continued pretraining 里一个很实际的问题：当你给已有模型加入未见过的新子词时，新增 embedding 如果随机初始化，训练会慢、震荡大，而且容易拖累原有语言能力。过去常见做法要么完全重训 tokenizer 和模型，要么硬着头皮随机加词继续训，两者成本都高，所以“如何高效初始化 unseen subword”一直是被低估但很关键的工程问题。

Yihong Liu,Peiqin Lin,Mingyang Wang,Hinrich Schütze

tokenizermultilingualcontinual-pretrainDOI DBLP

精读FindingsNAACL 2024

UEGP: Unified Expert-Guided Pre-training for Knowledge Rekindle

这篇工作试图解决预训练模型中的知识遗忘或知识失活问题，也就是模型明明在参数里存过相关信息，但在任务中难以稳定激活和使用。过去的做法通常在继续预训练、检索增强或专家蒸馏之间选一条路，各自都有短板：继续预训练成本高，检索依赖外部系统，蒸馏又可能过度约束学生模型。

Yutao Mou,Kexiang Wang,Jianhe Lin,Dehong Ma,Jun Fan,Daiting Shi,Zhicong Cheng,Simiu Gu,Dawei Yin,Weiran Xu

pretrainingknowledgeobjectiveDOI DBLP

精读FindingsNAACL 2024

Emergent Abilities in Reduced-Scale Generative Language Models

这篇工作研究的是一个长期争议问题：生成式语言模型里的 emergent abilities 是否真的只在大模型规模下出现，还是在缩小规模后仍能观察到，只是被评测方式掩盖了。过去很多关于涌现的结论建立在稀疏任务点和非线性指标上，因此“能力突然出现”可能部分是测量产物，而不是机制上的相变。

Sherin Muckatira,Vijeta Deshpande,Vladislav Lialin,Anna Rumshisky

emergencescaling-lawsmall-modelsDOI DBLP

精读LongNAACL 2024

ARM: Alignment with Residual Energy-Based Model

LLM 对齐（alignment）通常用 RLHF 或 DPO 等方法，但这些方法要么训练不稳定，要么对偏好数据的利用效率不高。本文提出用残差 energy-based model (EBM) 来建模人类偏好与 LLM 基础分布之间的差异，从而实现更灵活的对齐。

Bo Pang,Caiming Xiong,Yingbo Zhou

Salesforce Researchalignmentenergy-based-modelobjectiveDOI DBLP

精读LongNAACL 2024

Diffusion Glancing Transformer for Parallel Sequence-to-Sequence Learning

这篇论文要解决的问题是：序列到序列生成想要并行解码，但传统非自回归方法往往质量掉得太多，扩散式方法虽然更稳，却又增加去噪步数和训练难度。作者试图在质量与并行效率之间找到一个更可用的折中。

Lihua Qian,Mingxuan Wang,Yang Liu,Hao Zhou

diffusion-lmnon-autoregressiveseq2seqDOI DBLP

精读LongNAACL 2024

Unlocking Emergent Modularity in Large Language Models

这篇论文要研究的是：大语言模型内部是否会自发形成模块化结构，以及这种 emergent modularity 能否被识别和利用。过去很多模块化设计依赖显式 MoE、专家路由或人工划分功能块，但如果 dense LLM 里已经存在隐式模块，那么我们对表示组织和泛化机制的理解可能需要更新。

Zihan Qiu,Zeyu Huang,Jie Fu

modularityinterpretabilityemergenceDOI DBLP

泛读LongNAACL 2024

Neurocache: Efficient Vector Retrieval for Long-range Language Modeling

这篇论文要解决的是：标准 Transformer 在长上下文上的计算和记忆开销随长度迅速增长，而很多真正需要长期依赖的语言建模问题，并不要求对所有历史 token 做同等精细的注意力。过去常见的稀疏注意力、压缩记忆或检索增强方法，要么牺牲可训练端到端性，要么召回不稳定；作者试图用更像外部神经缓存的向量检索来补这块。

Ali Safaya,Deniz Yuret

long-contextretrieval-augmentedkv-cacheDOI DBLP

泛读LongNAACL 2024

Memory Augmented Language Models through Mixture of Word Experts

这篇论文要解决的是：标准参数化语言模型对稀有词、长尾实体和可更新知识的处理仍然吃力，而直接接外部 memory 往往检索粒度太粗、与 token 级预测耦合不紧。作者想把 memory augmentation 做得更贴近词汇预测本身，用 mixture of word experts 的方式，在生成下一个词时引入更细粒度的记忆专家。

Cícero Nogueira dos Santos,James Lee-Thorp,Isaac Noble,Chung-Ching Chang,David C. Uthus

memory-augmentedmixture-of-expertslanguage-modelingDOI DBLP

泛读LongNAACL 2024

Measuring Cross-lingual Transfer in Bytes

Leandro Rodrigues de Souza,Thales Sales Almeida,Roberto A. Lotufo,Rodrigo Frassetto Nogueira

bytescross-lingualtokenizerDOI DBLP

泛读FindingsNAACL 2024

MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models

这篇工作要解决的是：生成式语言模型在训练时会被“学习难度偏置”带偏，导致容易学的模式被过度拟合、难样本学得不够。传统 token-level 交叉熵默认每个位置同权，但不同 token、不同样本的可学习性和噪声水平差异很大，这会让优化过程倾向于先服务头部模式，而不是整体泛化最优。

Zhenpeng Su,Zijia Lin,Bai Xue,Hui Chen,Guiguang Ding,Wei Zhou,Songlin Hu

loss-functionoptimizationbiasDOI DBLP

泛读LongNAACL 2024

Transformers Can Represent n-gram Language Models

这篇工作要解决的是一个表达能力问题：Transformer 到底能不能表示 n-gram 语言模型，以及需要什么条件。很多经验研究默认 Transformer 至少能包含传统 LM 作为特例，但如果这个命题没有被明确构造或证明，我们对模型归纳偏置和容量下界的理解就不完整。

Anej Svete,Ryan Cotterell

transformerexpressivitylanguage-modelingDOI DBLP

泛读LongNAACL 2024

Curriculum Masking in Vision-Language Pretraining to Maximize Cross Modal Interaction

这篇工作要解决的是 vision-language pretraining 中跨模态交互不足的问题。很多 VLP 配方虽然同时看图和文，但掩码或训练信号设计并没有真正迫使模型深度利用另一模态，结果是模型可能主要依赖语言先验或视觉单模态线索完成任务。

Kraig Tou,Zijun Sun

vlm-pretrainingmaskingcross-modalDOI DBLP

泛读LongNAACL 2024

Revisiting subword tokenization: A case study on affixal negation in large language models

这篇工作重新追问一个基础但常被忽视的问题：subword tokenization 对 LLM 处理 affixal negation 这类形态现象到底有什么影响。过去 tokenizer 常被当成工程预处理步骤，只用压缩率或词表效率评估；但像 un-, in-, non- 这类否定前缀会直接改变语义极性，若切分方式不合理，模型可能更难学到稳健的组合语义。

Thinh Truong,Yulia Otmakhova,Karin Verspoor,Trevor Cohn,Timothy Baldwin

tokenizersubwordmorphologyDOI DBLP

泛读LongNAACL 2024

HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM

Zhilin Wang,Yi Dong,Jiaqi Zeng,Virginia Adams,Makesh Narsimhan Sreedhar,Daniel Egert ... 省略 1 位作者 ... ,Jane Polak Scowcroft,Neel Kant,Aidan Swope,Oleksii Kuchaiev

alignmentinstruction-datareward-modelingDOI DBLP

泛读FindingsNAACL 2024

CodecLM: Aligning Language Models with Tailored Synthetic Data

这篇工作要解决的是：如何用定制化合成数据，把通用语言模型更有效地对齐到代码式、结构化或受约束的生成任务。传统做法通常依赖人工整理instruction数据或直接监督微调，但这类数据覆盖窄、难以系统控制难度，也不容易把“格式正确”和“语义正确”同时教给模型。

Zifeng Wang,Chun-Liang Li,Vincent Perot,Long T. Le,Jin Miao,Zizhao Zhang,Chen-Yu Lee,Tomas Pfister

synthetic-dataalignmentinstruction-dataDOI DBLP

精读LongNAACL 2024

Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks

这篇工作要解决的是：大语言模型在看起来会“推理”的任务上，到底是在进行可迁移的规则推断，还是只是记住了训练分布中的表面模式。这个问题过去常被 benchmark 分数掩盖，因为标准测试往往允许模型靠数据共现、模板记忆或近邻检索拿到高分，而反事实任务更能把“真正推理”和“背诵”拆开。

Zhaofeng Wu,Linlu Qiu,Alexis Ross,Ekin Akyürek,Boyuan Chen,Bailin Wang,Najoung Kim,Jacob Andreas,Yoon Kim

reasoningmemorizationcounterfactualDOI DBLP

精读LongNAACL 2024

From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning

这篇工作要解决的是：LLM 从纯语言建模转向 instruction following 后，行为到底发生了什么变化，以及这些变化来自哪里。这个问题过去常被经验化处理——大家知道 SFT 会让模型更听话、更像助手，但对“哪些能力被增强、哪些先验被压制、为什么会发生行为迁移”缺少细粒度解释。

Xuansheng Wu,Wenlin Yao,Jianshu Chen,Xiaoman Pan,Xiaoyang Wang,Ninghao Liu,Dong Yu

instruction-tuningbehavior-shiftpretrain-posttrainDOI DBLP

精读FindingsNAACL 2024

OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning

Fei Yu,Anningzhe Gao,Benyou Wang

reward-modelreasoningplanningDOI DBLP

精读LongNAACL 2024

Teaching Language Models to Self-Improve through Interactive Demonstrations

Xiao Yu,Baolin Peng,Michel Galley,Jianfeng Gao,Zhou Yu

self-improvementinteractive-learningsynthetic-dataDOI DBLP

精读ShortNAACL 2024

Removing RLHF Protections in GPT-4 via Fine-Tuning

这篇工作直指一个不舒服但重要的问题：RLHF 加上的安全防护，是否会在后续微调里被轻易抹掉。以往很多人默认对齐层是相对稳固的，只讨论 jailbreak 提示攻击；这篇论文把攻击面前移到 fine-tuning 阶段，问的是如果开发者或下游用户继续训练模型，原有防护还能剩下多少。

Qiusi Zhan,Richard Fang,Rohan Bindu,Akul Gupta,Tatsunori Hashimoto,Daniel Kang

rlhfsafetyfine-tuningDOI DBLP

精读LongNAACL 2024

R-Tuning: Instructing Large Language Models to Say 'I Don't Know'

这篇工作要解决的是：LLM 在不知道答案时，往往仍然会生成看起来流畅但实际错误的回答，而不是明确说“I don't know”。过去常见做法是靠后处理阈值、检索增强或置信度打分补救，但这些方法没有真正教会模型在语言层面表达不确定性，因此泛化有限。

Hanning Zhang,Shizhe Diao,Yong Lin,Yi R. Fung,Qing Lian,Xingyao Wang,Yangyi Chen,Heng Ji,Tong Zhang

hallucinationalignmentcalibrationDOI DBLP

泛读NAACL 2024

LG AI Research & KAIST at EHRSQL 2024: Self-Training Large Language Models with Pseudo-Labeled Unanswerable Questions for a Reliable Text-to-SQL System on EHRs

在电子健康记录（EHR）上做 Text-to-SQL 时，模型需要可靠地识别出无法回答的问题并拒绝作答，而非生成错误 SQL。之前的方法在这种 abstention 能力上表现不佳。

Yongrae Jo,Seongyun Lee,Minju Seo,Sung Ju Hwang,Moontae Lee

LG AI ResearchKAISTself-trainingpseudo-labelingtext-to-sqlDOI DBLP

泛读NAACL 2024

DERA: Enhancing Large Language Model Completions with Dialog-Enabled Resolving Agents

LLM 在生成长文本回复时容易遗漏关键信息或产生不完整的输出，尤其在医疗等高风险领域。现有的单轮生成方式缺乏自我纠错机制。

Varun Nair,Elliot Schumacher,Geoffrey J. Tso,Anitha Kannan

agentself-correctiondialogueDOI DBLP

泛读LongNAACL 2024

Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model

机器翻译的 RLHF 缺乏好的 reward model，现有的翻译质量评估（QE）模型能否直接作为 reward model 来指导 RL 训练？之前的工作要么用人工反馈（贵），要么用 BLEU 等自动指标（粗糙）。

Zhiwei He,Xing Wang,Wenxiang Jiao,Zhuosheng Zhang,Rui Wang,Shuming Shi,Zhaopeng Tu

human-feedbackreward-modelmachine-translationDOI DBLP

泛读LongNAACL 2024

Uncertainty Quantification for In-Context Learning of Large Language Models

LLM 的 in-context learning（ICL）缺乏可靠的不确定性量化方法。模型对 ICL 预测的置信度估计不准确，导致用户无法判断何时该信任模型输出。

Chen Ling,Xujiang Zhao,Xuchao Zhang,Wei Cheng,Yanchi Liu,Yiyou Sun ... 省略 3 位作者 ... ,Jie Ji,Guangji Bai,Liang Zhao,Haifeng Chen

icluncertaintycalibrationDOI DBLP

泛读LongNAACL 2024

MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

这篇工作要解决的是当前大模型评测过于碎片化：跨语言、跨模态、跨模型家族、跨任务的结果往往分散在不同 benchmark 里，导致大家难以判断模型能力是真泛化还是只对某一子集过拟合。MEGAVERSE 试图提供一个更统一、更大范围的评测框架。

Sanchit Ahuja,Divyanshu Aggarwal,Varun Gumma,Ishaan Watts,Ashutosh Sathe,Millicent Ochieng ... 省略 1 位作者 ... ,Prachi Jain,Mohamed Ahmed,Kalika Bali,Sunayana Sitaram

benchmarkmultilingualmultimodalDOI DBLP

泛读FindingsNAACL 2024

InstructEval: Systematic Evaluation of Instruction Selection Methods

这篇工作要解决的是 instruction selection 这一常被忽视但影响很大的问题：当预算固定时，选哪些指令数据去训练，结果会差很多，但现有工作对不同选择策略缺少系统评估。过去很多论文默认数据越多越好，或只用启发式去重/打分，没有认真区分'哪些样本真正贡献泛化'。

Anirudh Ajith,Chris Pan,Mengzhou Xia,Ameet Deshpande,Karthik Narasimhan

instruction-tuningevaluationdata-selectionDOI DBLP

泛读LongNAACL 2024

Multilingual Nonce Dependency Treebanks: Understanding how Language Models Represent and Process Syntactic Structure

这篇工作要解决的是：语言模型到底在多大程度上真正表示了句法结构，而不是只记住高频词序和表面相关性。过去分析句法能力常用自然语料，但自然语料里词汇语义和句法线索纠缠太深，容易高估模型的结构泛化；这篇论文用 multilingual nonce dependency treebanks 来更干净地测这个问题。

David Arps,Laura Kallmeyer,Younes Samih,Hassan Sajjad

syntaxmultilingualrepresentationDOI DBLP

泛读LongNAACL 2024

Do Localization Methods Actually Localize Memorized Data in LLMs? A Tale of Two Benchmarks

这篇论文的核心结论很可能是：很多用于“定位”LLM 记忆数据的解释方法，并没有在真正需要的基准上可靠地定位到被记住的数据。以往关于 memorization localization 的工作常默认，只要某种 attribution、influence 或 probing 方法能在一个 benchmark 上表现不错，就说明它捕捉到了记忆来源；这篇论文通过两个 benchmark 的对照，质疑这个结论是否被基准本身误导。

Ting-Yun Chang,Jesse Thomason,Robin Jia

memorizationlocalizationinterpretabilityDOI DBLP

泛读LongNAACL 2024

Identifying Linear Relational Concepts in Large Language Models

这篇论文要解决的问题是：大语言模型里是否存在可线性分离、可稳定提取的 relational concepts，而不仅仅是单个实体特征或词义方向。过去很多表示分析工作擅长找 sentiment、toxicity、gender 之类相对局部的线性概念，但“关系”更难，因为它依赖实体间组合与上下文结构，未必能像属性一样落在简单方向上。

David Chanin,Anthony Hunter,Oana-Maria Camburu

interpretabilitylinear-relationalknowledge-representationDOI DBLP

泛读ShortNAACL 2024

Control-DAG: Constrained Decoding for Non-Autoregressive Directed Acyclic T5 using Weighted Finite State Automata

这篇论文的核心问题是：如何对非自回归的 Directed Acyclic T5 做受约束解码，而不破坏它并行生成带来的效率优势。传统 constrained decoding 大多围绕左到右自回归模型设计，因为状态转移和前缀约束天然匹配；但在 DAG 式非自回归生成里，输出不是单一路径按 token 逐步展开，现成方法很难直接套用。

Jinghong Chen,Weizhe Lin,Jingbiao Mei,Bill Byrne

non-autoregressiveconstrained-decodingdagDOI DBLP

泛读LongNAACL 2024

IterAlign: Iterative Constitutional Alignment of Large Language Models

这篇论文要解决的问题是：如何让大模型的 constitutional alignment 不停留在一次性规则注入，而能通过迭代过程持续改进。已有 CAI/constitution-style 方法通常先给一套原则，再做一次监督或偏好优化，但如果初始 constitution 不完备、模型自我批改能力有限，单轮对齐很容易停在局部最优，留下系统性盲区。

Xiusi Chen,Hongzhi Wen,Sreyashi Nag,Chen Luo,Qingyu Yin,Ruirui Li,Zheng Li,Wei Wang

alignmentconstitutional-aiiterativeDOI DBLP

泛读LongNAACL 2024

AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition

这篇论文的核心问题是：多步推理需要过程监督，但人工写步骤标签很贵，如何自动化地产生足够可靠的 procedural supervision。过去 PRM（process reward model）或 step-level supervision 的效果已经被反复证明，但瓶颈一直是标注成本高、覆盖窄、质量波动大，因此难以扩展到大规模推理训练。

Zhaorun Chen,Zhuokai Zhao,Zhihong Zhu,Ruiqi Zhang,Xiang Li,Bhiksha Raj,Huaxiu Yao

process-rewardreasoningquestion-decompositionDOI DBLP

泛读FindingsNAACL 2024

Examining Modularity in Multilingual LMs via Language-Specialized Subnetworks

多语言 LM 内部是否存在语言专属的子网络（language-specialized subnetworks）？如果存在，这种模块化结构对理解多语言表示和跨语言迁移有什么意义？之前的探针研究多从表示层面分析，缺少对网络结构层面模块化的直接检验。

Rochelle Choenni,Ekaterina Shutova,Dan Garrette

Google DeepMindUniversity of AmsterdammultilingualmodularitysubnetworkDOI DBLP

泛读FindingsNAACL 2024

Incorporating Exponential Smoothing into MLP: a Simple but Effective Sequence Model

MLP 在序列建模中缺乏对时序依赖的显式建模能力，能否通过引入指数平滑（exponential smoothing）这一经典信号处理技巧来弥补？这是在 Transformer 替代架构方向上的一次轻量尝试。

Jiqun Chu,Zuoquan Lin

sequence-modelingmlparchitectureDOI DBLP

泛读LongNAACL 2024

Divergent Token Metrics: Measuring degradation to prune away LLM components - and optimize quantization

LLM 剪枝和量化需要判断哪些组件（层、注意力头、通道）可以安全移除或低精度化，现有方法多依赖权重大小或梯度，能否用 token 级别的输出分布变化（divergent token metrics）来更准确地衡量组件重要性？

Björn Deiseroth,Max Meuer,Nikolas Gritsch,Constantin Eichenberg,Patrick Schramowski,Matthias Aßenmacher,Kristian Kersting

pruningquantizationcompressionDOI DBLP

泛读ShortNAACL 2024

Improving Factuality in Clinical Abstractive Multi-Document Summarization by Guided Continued Pre-training

这篇工作要解决的是：临床多文档抽象摘要很容易产生事实错误，而通用摘要训练通常只优化流畅性和表面 ROUGE，无法约束医学事实一致性。这个问题过去常靠检索、模板或后处理校验缓解，但这些办法要么牺牲生成能力，要么不能从参数层面改掉模型的事实偏差，因此作者转向 guided continued pre-training，试图在继续预训练阶段把“临床事实忠实”直接写进模型。

Ahmed Elhady,Khaled Mostafa Elsayed,Eneko Agirre,Mikel Artetxe

continued-pretrainingfactualitydomain-adaptationDOI DBLP

泛读ShortNAACL 2024

Do Multilingual Language Models Think Better in English?

这篇工作要回答的核心问题是：多语语言模型在推理时是否真的“更会用英语思考”，以及这种现象到底是能力差异还是表达通道差异。过去大家常观察到 multilingual LM 在英语 CoT 或英语提示下表现更好，但这到底因为英语训练数据更多、推理模板更成熟，还是模型内部表征本来就偏英语，一直缺少系统拆解。

Julen Etxaniz,Gorka Azkune,Aitor Soroa,Oier Lopez de Lacalle,Mikel Artetxe

multilingualreasoninglanguage-transferDOI DBLP

泛读ShortNAACL 2024

Advancing Regular Language Reasoning in Linear Recurrent Neural Networks

这篇工作关注的是：线性递归神经网络能否更好地进行 regular language reasoning，也就是对形式语言和自动机型规则的识别与泛化。这个问题之所以重要，是因为 Transformer 之外的新序列架构正在回归，而形式语言任务是检验架构归纳偏置是否真的适合规则推理的低噪声试金石。

Ting-Han Fan,Ta-Chung Chi,Alexander Rudnicky

linear-rnnreasoningformal-languagesDOI DBLP

泛读FindingsNAACL 2024

Language Models can be Deductive Solvers

这篇工作试图回答：语言模型能否被用作 deductive solver，也就是稳定执行演绎推理，而不只是做相关性匹配或链式解释生成。这个问题之所以重要，是因为很多 LLM 的“推理”结果其实混杂了模式记忆和语言先验；要让模型像求解器一样工作，需要更强的可组合性和错误可控性。

Jiazhan Feng,Ruochen Xu,Junheng Hao,Hiteshi Sharma,Yelong Shen,Dongyan Zhao,Weizhu Chen

deductive-reasoningsolverlanguage-modelsDOI DBLP

泛读ShortNAACL 2024

MuLan: A Study of Fact Mutability in Language Models

这篇工作研究的是：语言模型内部的事实到底有多“可变”，也就是一个事实被写进参数后，哪些更容易被修改，哪些会顽固保留。过去模型编辑研究多关注能不能把单个事实改掉，但较少系统研究 fact mutability——事实本身因为频率、关联度、冲突结构不同，修改难度可能天然不同。

Constanza Fierro,Nicolas Garneau,Emanuele Bugliarello,Yova Kementchedjhieva,Anders Søgaard

knowledge-editingfactualitymodel-memoryDOI DBLP

泛读LongNAACL 2024

Differentially Private Next-Token Prediction of Large Language Models

这篇工作要解决的是：如何在 differential privacy 约束下做大语言模型的 next-token prediction 训练。这个问题过去常被认为在大模型上代价过高，因为 DP-SGD 需要梯度裁剪和噪声注入，训练会明显变慢、变不稳，而且语言模型对优化细节极其敏感。

James Flemings,Meisam Razaviyayn,Murali Annavaram

differential-privacynext-tokentraining-objectiveDOI DBLP

泛读LongNAACL 2024

Multilingual Pretraining and Instruction Tuning Improve Cross-Lingual Knowledge Alignment, But Only Shallowly

这篇工作要回答的是：多语预训练和指令微调确实能改善 cross-lingual knowledge alignment，但这种改善是否只是浅层的。题目已经给出结论：有提升，但只是在表层。这说明当前多语模型虽然能把不同语言的知识回答得更像，但未必真的学到了深层共享知识结构或稳健的跨语种推理对齐。

Changjiang Gao,Hongda Hu,Peng Hu,Jiajun Chen,Jixing Li,Shujian Huang

multilingualinstruction-tuningcross-lingualDOI DBLP

泛读LongNAACL 2024

MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

Suyu Ge,Chunting Zhou,Rui Hou,Madian Khabsa,Yi-Chia Wang,Qifan Wang,Jiawei Han,Yuning Mao

safetyred-teamingalignmentDOI DBLP

泛读FindingsNAACL 2024

GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation

Mohsen Gholami,Mohammad Akbari,Tianxi Hu,Vaden Masrani,Z. Wang,Yong Zhang

distillationsynthetic-dataoodDOI DBLP

泛读LongNAACL 2024

Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning

Kazuma Hashimoto,Karthik Raman,Michael Bendersky

in-context-learningdemonstrationsrerankingDOI DBLP

泛读FindingsNAACL 2024

Self-Demos: Eliciting Out-of-Demonstration Generalizability in Large Language Models

LLM 的 in-context learning 在遇到与给定 demonstration 分布差异较大的测试样本时泛化能力下降。以往工作主要关注 demo 的选择和排列，但对 OOD（out-of-demonstration）场景的泛化机制研究不足。

Wei He,Shichun Liu,Jun Zhao,Yiwen Ding,Yi Lu,Zhiheng Xi,Tao Gui,Qi Zhang,Xuanjing Huang

in-context-learningdemonstrationsgeneralizationDOI DBLP

泛读FindingsNAACL 2024

mOthello: When Do Cross-Lingual Representation Alignment and Cross-Lingual Transfer Emerge in Multilingual Models?

多语言模型中跨语言表示对齐和跨语言迁移到底在什么条件下涌现？以往工作在自然语言上观察到这些现象，但无法控制变量（语言结构、词汇重叠、数据量等），难以归因。

Tianze Hua,Tian Yun,Ellie Pavlick

Brown UniversityGoogle DeepMindcross-lingualrepresentation-alignmentmultilingualDOI DBLP

泛读FindingsNAACL 2024

Human-in-the-Loop Synthetic Text Data Inspection with Provenance Tracking

合成文本数据（由 LLM 生成的训练数据）的质量检查缺乏系统工具。人工检查成本高且不可扩展，而自动化指标又不够可靠。需要一种人机协作的检查框架，同时提供数据溯源（provenance）能力。

Hong Jin Kang,Fabrice Harel-Canada,Muhammad Ali Gulzar,Nanyun Peng,Miryung Kim

UCLAsynthetic-datadata-qualityhuman-in-the-loopDOI DBLP

泛读LongNAACL 2024

DeMuX: Data-efficient Multilingual Learning

这篇论文要解决的是：多语言学习通常依赖大规模多语数据和高训练成本，低资源语言往往被高资源语言淹没，导致“会很多语言”与“每种语言都学得够好”之间存在张力。作者关注的是如何用更少数据和更合理的训练组织，提升 multilingual transfer 的效率。

Simran Khanuja,Srinivas Gowriraj,Lucio M. Dery,Graham Neubig

multilingualdata-efficiencytransfer-learningDOI DBLP

泛读LongNAACL 2024

PEMA: An Offsite-Tunable Plug-in External Memory Adaptation for Language Models

这篇论文要解决的是：大模型参数适配虽然有效，但部署、更新和隐私约束常常要求“离线、不改主模型、可外接”的轻量化适配方式。作者针对的是传统参数高效微调仍需改权重、以及检索增强依赖在线系统的问题，尝试用外部记忆做更可控的适配。

HyunJin Kim,Young Jin Kim,JinYeong Bak

memoryadaptationparameter-efficientDOI DBLP

泛读LongNAACL 2024

Carpe diem: On the Evaluation of World Knowledge in Lifelong Language Models

这篇论文要解决的是：终身学习语言模型的“世界知识评测”并不透明，很多基准并不能区分模型是真的持续更新了知识，还是只是利用了时间泄漏、记忆残留或评测设计漏洞。作者重新审视的是 lifelong LM 在知识更新场景下到底该怎么测，尤其是时间性知识与持续训练交互带来的评测偏差。

Yujin Kim,Jaehong Yoon,Seonghyeon Ye,Sangmin Bae,Namgyu Ho,Sung Ju Hwang,Se-Young Yun

continual-learningworld-knowledgeevaluationDOI DBLP

泛读LongNAACL 2024

On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons

这篇论文要解决的是：decoder-only 多语预训练模型的多语言能力到底储存在什么内部机制里，尤其是是否存在可识别、可操控的语言特异神经元。过去多语能力常从整体性能讨论，但缺少对参数内部语言分工的细粒度分析，也缺少可控干预证据。

Takeshi Kojima,Itsuki Okimura,Yusuke Iwasawa,Hitomi Yanaka,Yutaka Matsuo

multilingualneuronsinterpretabilityDOI DBLP

泛读LongNAACL 2024

Benchmark Transparency: Measuring the Impact of Data on Evaluation

这篇论文要解决的是：NLP benchmark 的分数常被当成模型能力代理，但评测结果本身高度依赖测试数据构成，而这一点通常缺乏透明披露。作者关心的是如何量化‘数据本身’对评测结论的影响，从而判断 benchmark 到底测到了什么。

Venelin Kovatchev,Matthew Lease

benchmarkevaluationdata-contaminationDOI DBLP

泛读FindingsNAACL 2024

An End-to-End Submodular Framework for Data-Efficient In-Context Learning

这篇论文要解决的是：ICL 的效果高度依赖 exemplar 的选择与排序，但现实里可用标注少、上下文预算紧，盲目塞例子既浪费 token，也未必最优。过去很多工作只在已标注集合上做检索式选择，回避了一个更实际的问题：如果连标注都贵，怎样端到端地以更少数据构造更有效的 ICL 提示。

Lilly Kumari,Shengjie Wang,Arnav Das,Tianyi Zhou,Jeff A. Bilmes

in-context-learningdata-selectionpromptingDOI DBLP

泛读IndustryNAACL 2024

Efficiently Distilling LLMs for Edge Applications

这篇论文要解决的是：LLM 蒸馏到边缘设备时，常规 teacher-student 压缩容易在能力、延迟和内存之间顾此失彼。简单缩小模型往往损失太大，而复杂蒸馏流程又不一定适合 edge 部署。作者关注的是怎样把大模型能力更高效地迁移到可落地的小模型上。

Achintya Kundu,Fabian Lim,Aaron Chew,Laura Wynter,Penny Chong,Rhui Dih Lee

distillationcompressionedge-deploymentDOI DBLP

泛读LongNAACL 2024

Toward Interactive Regional Understanding in Vision-Large Language Models

这篇论文要解决的是：现有 VLM 主要靠图文对做全局对齐，导致对用户指定局部区域的理解能力明显不足。过去很多模型能回答“这张图是什么”，但一旦要求理解框选区域、局部关系或区域级问答，性能会掉，因为训练信号里几乎没有精确到区域的语言监督。

Jungbeom Lee,Sanghyuk Chun,Sangdoo Yun

vlmregion-understandingvision-language-pretrainingDOI arXiv DBLP

泛读FindingsNAACL 2024

Instruction Tuning with Human Curriculum

从题目看，论文关注的是：instruction tuning 数据并非越混越好，样本顺序和难度课程可能显著影响最终模型。过去大多数指令微调默认随机混洗，等价于假设所有样本同质、训练过程路径无关，但在人类学习和 curriculum learning 经验里，这通常不是最优假设。

Bruce W. Lee,Hyunsoo Cho,Kang Min Yoo

instruction-tuningcurriculumalignmentDOI DBLP

泛读FindingsNAACL 2024

COMMIT: Code-Mixing English-Centric Large Language Model for Multilingual Instruction Tuning

这篇论文解决的是：英语中心的大模型在低资源语言问答上表现差，不只是因为指令数据少，还因为预训练数据失衡和 instruction tuning 数据也偏英语，导致模型在能力和对齐两端都向英语倾斜。以往常见做法是直接翻译指令数据或做普通 code-mixing，但这些方法容易把英文模板当支架保留下来，目标语言真正获得的监督仍然有限。

Jaeseong Lee,YeonJoon Jung,Seung-won Hwang

multilingualinstruction-tuningcode-mixingDOI DBLP

泛读LongNAACL 2024

Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision

这篇论文解决的是：多模态大模型的 hallucination 往往来自视觉 grounding 不够，模型会沿着语言先验把答案补全，而不是老实受图像约束。过去常见做法是改视觉编码器、加外部检测器或做拒答约束，但这些方法要么系统复杂，要么不能直接在生成后纠偏。

Seongyun Lee,Sue Hyun Park,Yongrae Jo,Minjoon Seo

multimodalhallucinationself-feedbackDOI arXiv DBLP

泛读LongNAACL 2024

S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Model

从题目看，这篇论文要解决的是：大模型评测往往不系统、不可扩展、容易受数据泄漏和人工构造成本约束，因此很难稳定测出模型能力边界。现有 benchmark 常常样本量小、任务覆盖有限，或者随着模型变强很快饱和。

Fangyu Lei,Qian Liu,Yiming Huang,Shizhu He,Jun Zhao,Kang Liu

benchmarkevaluationsynthetic-dataDOI DBLP

泛读LongNAACL 2024

Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment

Chong Li,Shaonan Wang,Jiajun Zhang,Chengqing Zong

in-context-learningmultilingualalignmentDOI DBLP

泛读LongNAACL 2024

Dissecting Paraphrases: The Impact of Prompt Syntax and supplementary Information on Knowledge Retrieval from Pretrained Language Models

Stephan Linzbach,Dimitar Dimitrov,Laura Kallmeyer,Kilian Evang,Hajira Jabeen,Stefan Dietze

knowledge-retrievalpromptingparaphraseDOI DBLP

泛读IndustryNAACL 2024

HPipe: Large Language Model Pipeline Parallelism for Long Context on Heterogeneous Cost-effective Devices

这篇论文解决的是长上下文 LLM 在异构、低成本设备上的流水并行问题：长上下文使显存、带宽和跨设备通信压力急剧上升，而现有 pipeline parallel 方案通常假设设备同构、链路稳定，这在真实低成本部署里并不成立。过去要么牺牲上下文长度，要么依赖昂贵均质集群，因此“如何在便宜但不整齐的硬件上跑长上下文模型”是很现实的系统瓶颈。

Ruilong Ma,Xiang Yang,Jingyu Wang,Qi Qi,Haifeng Sun,Jing Wang,Zirui Zhuang,Jianxin Liao

pipeline-parallelismlong-contextheterogeneousDOI DBLP

泛读LongNAACL 2024

Anisotropy is Not Inherent to Transformers

这篇论文要解决的问题是 Transformer 表征各向异性是否是结构固有缺陷。很多工作观察到 sentence embedding 或 token representation 分布高度集中，于是默认“Transformer 天生 anisotropic”，并把后处理白化、对比学习矫正当成必要步骤。但如果各向异性不是架构决定，而是训练目标、优化动态或归一化细节导致，那么很多解释和修复方向都需要重写。

Anemily Machina,Robert E. Mercer

anisotropyrepresentationtransformerDOI DBLP

泛读LongNAACL 2024

Language Models Implement Simple Word2Vec-style Vector Arithmetic

这篇工作讨论的核心问题是：语言模型里常见的“向量算术”现象，到底反映了复杂推理机制，还是只是更简单的 Word2Vec 式线性结构在更大模型中的延续。过去很多解释会把 embedding arithmetic 当作深层语义操作的证据，但这类现象也可能仅由共现统计和线性表示几何导致，因此需要拆清楚机制层级。

Jack Merullo,Carsten Eickhoff,Ellie Pavlick

interpretabilityrepresentationword-embeddingsDOI DBLP

泛读LongNAACL 2024

In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax

这篇工作要回答的是：大模型的 in-context learning 确实能泛化，但这种泛化在句法任务上并不稳健，问题出在哪里。过去很多 ICL 成功案例集中在分类、映射或语义归纳上，而 syntax 对结构敏感、对表面扰动脆弱，因此更适合检验模型到底学到规则还是仅学到提示模式。

Aaron Mueller,Albert Webson,Jackson Petty,Tal Linzen

in-context-learningsyntaxrobustnessDOI DBLP

泛读ShortNAACL 2024

Order-Based Pre-training Strategies for Procedural Text Understanding

程序性文本（如菜谱、实验步骤）的理解需要模型捕捉步骤间的顺序依赖，但标准预训练目标（MLM 等）并未显式建模这种顺序结构，导致下游任务（步骤排序、实体追踪等）表现不佳。

Abhilash Nandy,Yash Kulkarni,Pawan Goyal,Niloy Ganguly

IIT KharagpurpretrainingobjectiveorderDOI DBLP

泛读IndustryNAACL 2024

Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding

LLM 自回归解码的逐 token 生成方式导致推理延迟高，尤其在长序列生成时。已有的并行解码方法（如 speculative decoding）需要额外的 draft 模型，本文探索一种无需额外模型的加速方案。

Jie Ou,Yueming Chen,Wenhong Tian

decodinginferencen-gramDOI DBLP

泛读FindingsNAACL 2024

Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies

现有 tokenizer 在处理性别包容性语言（如非二元代词 ze/hir、新造词等）时表现很差——这些词往往被拆成无意义的子词碎片，导致下游模型对这类语言的理解和生成质量显著下降。问题根源在于 tokenizer 训练数据中这类语言极度稀缺。

Anaelia Ovalle,Ninareh Mehrabi,Palash Goyal,Jwala Dhamala,Kai-Wei Chang,Richard S. Zemel,Aram Galstyan,Yuval Pinter,Rahul Gupta

UCLAAmazontokenizerdata-scarceinclusive-languageDOI DBLP

泛读LongNAACL 2024

PELMS: Pre-training for Effective Low-Shot Multi-Document Summarization

多文档摘要（MDS）的标注数据稀缺且昂贵，现有预训练模型在 low-shot MDS 场景下表现不佳。问题是如何设计预训练策略，让模型在极少标注数据下就能做好多文档摘要。

Joseph Peper,Wenzhao Qiu,Lu Wang

pretrainingsummarizationlow-shotDOI DBLP

泛读LongNAACL 2024

Efficient Benchmarking (of Language Models)

评估 LLM 的基准测试越来越多，但跑完所有 benchmark 的计算成本很高。问题是：能否用更少的 benchmark 或更少的样本就得到可靠的模型排名？即如何高效地做 LLM benchmarking。

Yotam Perlitz,Elron Bandel,Ariel Gera,Ofir Arviv,Liat Ein-Dor,Eyal Shnarch,Noam Slonim,Michal Shmueli-Scheuer,Leshem Choshen

IBM ResearchbenchmarkevaluationefficiencyDOI DBLP

泛读LongNAACL 2024

The Impact of Depth on Compositional Generalization in Transformer Language Models

Transformer 语言模型的组合泛化（compositional generalization）能力——即从已见过的组件组合出未见过的结构——与模型深度之间的关系尚不清楚。浅层模型和深层模型在组合泛化上是否有质的差异？

Jackson Petty,Sjoerd van Steenkiste,Ishita Dasgupta,Fei Sha,Dan Garrette,Tal Linzen

Google DeepMindtransformerdepthcompositionalityDOI DBLP

泛读FindingsNAACL 2024

When Quantization Affects Confidence of Large Language Models?

这篇论文关注一个很实际但常被忽略的问题：量化不仅会影响 LLM 的准确率，还会不会系统性地扭曲模型置信度。过去量化研究多盯着 perplexity、下游分数和吞吐，但在部署里，置信度同样重要，因为它直接影响拒答、路由、self-consistency 采样和工具调用决策。

Irina Proskurina,Luc Brun,Guillaume Metzler,Julien Velcin

quantizationcalibrationconfidenceDOI DBLP

泛读LongNAACL 2024

Making Language Models Better Tool Learners with Execution Feedback

这篇论文要解决的是：语言模型学会工具调用时，经常只学到表面格式，真正执行后却暴露出参数错误、调用顺序错误或结果解释错误，单靠监督答案并不能覆盖这些失败模式。问题的关键不是让模型“看起来会用工具”，而是让它从执行结果里修正行为。

Shuofei Qiao,Honghao Gui,Chengfei Lv,Qianghuai Jia,Huajun Chen,Ningyu Zhang

tool-useexecution-feedbackpost-trainingDOI DBLP

泛读LongNAACL 2024

mEdIT: Multilingual Text Editing via Instruction Tuning

这篇论文要解决的是多语言文本编辑能力不足的问题。现有编辑模型或指令微调体系通常以英语为中心，扩展到多语言时容易出现编辑意图保持不稳、低资源语言泛化差、内容改动范围失控等问题。

Vipul Raheja,Dimitris Alikaniotis,Vivek Kulkarni,Bashar Alhafni,Dhruv Kumar

instruction-tuningmultilingualtext-editingDOI DBLP

泛读LongNAACL 2024

Beyond Performance: Quantifying and Mitigating Label Bias in LLMs

这篇论文要解决的是：如何把 LLM 的 label bias 从一个泛泛而谈的现象，变成可量化、可对比、可缓解的问题。以往大家更多在分类或 prompt 选择里零散观察到模型会偏向某些标签表面形式，但缺少一套能跨模型、跨任务衡量这种偏置强度的方法，因此很难判断问题到底来自知识不足、校准失真，还是标签词本身的先验概率污染。

Yuval Reif,Roy Schwartz

biaslabel-biasllm-evaluationDOI DBLP

泛读LongNAACL 2024

Safer-Instruct: Aligning Language Models with Automated Preference Data

这篇论文要解决的是：安全对齐高度依赖人工偏好数据，但人工标注昂贵、慢，而且覆盖面经常落后于新风险场景，能不能用自动化 preference data 把安全对齐做得更可扩展。过去自动偏好数据的问题在于噪声大、偏置强，容易把安全训练变成表面拒答模板学习；作者的目标显然是让自动生成的偏好标签足够可靠，能直接用于 safer instruct alignment。

Taiwei Shi,Kai Chen,Jieyu Zhao

alignmentpreference-datasafetyDOI DBLP

泛读LongNAACL 2024

REPLUG: Retrieval-Augmented Black-Box Language Models

Weijia Shi,Sewon Min,Michihiro Yasunaga,Minjoon Seo,Richard James,Mike Lewis,Luke Zettlemoyer,Wen-tau Yih

retrieval-augmentedlanguage-modelingblack-box-lmDOI DBLP

泛读LongNAACL 2024

Generalizable and Stable Finetuning of Pretrained Language Models on Low-Resource Texts

Sai Ashish Somayajula,Youwei Liang,Li Zhang,Abhishek Singh,Pengtao Xie

finetuninglow-resourcestabilityDOI DBLP

泛读LongNAACL 2024

Know When To Stop: A Study of Semantic Drift in Text Generation

Ava Spataru,Eric Hambro,Elena Voita,Nicola Cancedda

generationsemantic-driftdecodingDOI DBLP

泛读LongNAACL 2024

Dial-MAE: ConTextual Masked Auto-Encoder for Retrieval-based Dialogue Systems

Zhenpeng Su,Xing Wu,Wei Zhou,Guangyuan Ma,Songlin Hu

masked-lmdialogueretrievalDOI DBLP

泛读LongNAACL 2024

Naive Bayes-based Context Extension for Large Language Models

这篇工作要解决的是：在不改模型参数、也不重训长上下文模型的前提下，把大语言模型的有效上下文窗口向外扩。过去主流做法要么依赖位置编码外推或长上下文继续训练，要么做检索和摘要压缩，前者成本高且容易失稳，后者会丢失原始上下文细节，因此作者尝试用朴素贝叶斯式的外部记忆建模来补足超窗信息。

Jianlin Su,Murtadha H. M. Ahmed,Bo Wen,Luo Ao,Mingren Zhu,Yunfeng Liu

long-contextcontext-extensioninferenceDOI DBLP

泛读LongNAACL 2024

Semi-Structured Chain-of-Thought: Integrating Multiple Sources of Knowledge for Improved Language Model Reasoning

这篇工作要解决的是：让链式思维推理同时利用多种知识来源，但又不把推理过程写成完全自由文本。以往 CoT 往往只有自然语言步骤，优点是灵活，缺点是结构松散、容易遗漏外部知识或引入无关内容，因此作者提出“半结构化”推理表示来提高可控性和知识整合能力。

Xin Su,Tiep Le,Steven Bethard,Phillip Howard

chain-of-thoughtreasoningknowledge-integrationDOI DBLP

泛读FindingsNAACL 2024

Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models

这篇工作要解决的是：普通 Chain-of-Thought 提示虽然能提升推理，但推理样例质量很不稳定，错误示范还会被模型放大。过去常见做法是人工写 few-shot CoT 或直接让模型自生成，但前者贵且覆盖窄，后者容易自举出错误轨迹，因此作者引入迭代式 bootstrapping 来持续筛选和改进推理示例。

Jiashuo Sun,Yi Luo,Yeyun Gong,Chen Lin,Yelong Shen,Jian Guo,Nan Duan

chain-of-thoughtbootstrappingreasoningDOI DBLP

泛读LongNAACL 2024

Lower Bounds on the Expressivity of Recurrent Neural Language Models

这篇工作要解决的是：循环神经语言模型的表达能力下界到底在哪里，也就是它们至少能表示多复杂的语言分布。RNN 在大模型时代已不是主流，但如果没有清楚的 expressivity lower bound，我们就很难把它和 Transformer、n-gram 或其他序列模型做干净比较。

Anej Svete,Franz Nowak,Anisha Mohamed Sahabdeen,Ryan Cotterell

rnnexpressivitylanguage-modelingDOI DBLP

泛读FindingsNAACL 2024

Efficient Citer: Tuning Large Language Models for Enhanced Answer Quality and Verification

这篇工作要解决的是：如何让 LLM 的回答不仅更好，而且更容易被验证，尤其是在需要引用或可核查证据的场景。传统做法常把“回答质量”和“可验证性”分开优化，结果要么答案流畅但难核实，要么引用存在但和论断绑定不紧，因此作者尝试联合建模这两件事。

Marzieh S. Tahaei,Aref Jafari,Ahmad Rashid,David Alfonso-Hermelo,Khalil Bibi,Yimeng Wu,Ali Ghodsi,Boxing Chen,Mehdi Rezagholizadeh

finetuningverificationcitationDOI DBLP

泛读DemoNAACL 2024

RedCoast: A Lightweight Tool to Automate Distributed Training of LLMs on Any GPU/TPUs

这篇工作要解决的核心问题是：分布式大模型训练的工程门槛仍然过高，尤其是在异构 GPU/TPU 和不同集群环境下，研究者往往需要为训练脚本、并行策略、容错和资源适配付出大量非研究性的工程成本。过去社区通常依赖 DeepSpeed、Megatron-LM、PJRT/XLA 或各云厂商私有栈分别处理，但这些方案往往绑定硬件或框架，迁移成本高，导致很多中小团队很难把实验真正跑起来。

Bowen Tan,Yun Zhu,Lijuan Liu,Hongyi Wang,Yonghao Zhuang,Jindong Chen,Eric P. Xing,Zhiting Hu

distributed-traininginfrastructurellmDOI DBLP

泛读FindingsNAACL 2024

DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder Transformer Models

这篇工作要解决的是 encoder-decoder Transformer 推理速度慢、且解码阶段存在明显冗余计算的问题。过去加速通常依赖蒸馏、量化或静态层裁剪，但这些方法要么需要额外训练成本，要么对所有 token 一刀切，无法利用不同生成位置难度不同这一事实。

Peng Tang,Pengkai Zhu,Tian Li,Srikar Appalaraju,Vijay Mahadevan,R. Manmatha

early-exitdecoderaccelerationDOI DBLP

泛读LongNAACL 2024

What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases

这篇工作要解决的是：我们在评测大型视觉语言模型时，很多 benchmark 分数混杂了潜在因子和系统性偏置，导致“高分”未必代表真正更强的多模态理解。过去 LVLM 评测常把多个任务分数直接当能力排名，但这些分数可能同时受到语言先验、答案分布、图像难度和数据泄漏等因素影响。

Anthony Meng Huat Tiong,Junqi Zhao,Boyang Li,Junnan Li,Steven C. H. Hoi,Caiming Xiong

vlmevaluationbiasDOI DBLP

泛读ShortNAACL 2024

The Unreasonable Effectiveness of Random Target Embeddings for Continuous-Output Neural Machine Translation

这篇工作要解决的是 continuous-output NMT 里一个很具体的问题：如果不通过固定词表 softmax，而是直接预测连续向量，目标嵌入到底应该怎么选？常见直觉是需要语义上训练良好的词向量，否则连续输出很难对齐到正确 token；但这也让模型设计和训练变得复杂。

Evgeniia Tokarchuk,Vlad Niculae

continuous-outputmachine-translationembeddingsDOI DBLP

泛读SRWNAACL 2024

Unknown Script: Impact of Script on Cross-Lingual Transfer

Wondimagegnhue Tufa,Ilia Markov,Piek Vossen

cross-lingualscripttokenizerDOI DBLP

泛读LongNAACL 2024

DynaMo: Accelerating Language Model Inference with Dynamic Multi-Token Sampling

Shikhar Tuli,Chi-Heng Lin,Yen-Chang Hsu,Niraj K. Jha,Yilin Shen,Hongxia Jin

inferencedecodingsamplingDOI DBLP

泛读FindingsNAACL 2024

Investigating Acceleration of LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with 'LITE'

Neeraj Varshney,Agneet Chatterjee,Mihir Parmar,Chitta Baral

inferenceearly-exitinstruction-tuningDOI DBLP

泛读LongNAACL 2024

Metacognitive Prompting Improves Understanding in Large Language Models

Yuqing Wang,Yun Zhao

promptingreasoningmetacognitionDOI DBLP

泛读ShortNAACL 2024

Rehearsal-Free Modular and Compositional Continual Learning for Language Models

Mingyang Wang,Heike Adel,Lukas Lange,Jannik Strötgen,Hinrich Schütze

continual-learningmodularitycatastrophic-forgettingDOI DBLP

泛读LongNAACL 2024

Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks

Chonghua Wang,Haodong Duan,Songyang Zhang,Dahua Lin,Kai Chen

long-contextbenchmarkevaluationDOI DBLP

泛读FindingsNAACL 2024

Learning Mutually Informed Representations for Characters and Subwords

Yilin Wang,Xinyi Hu,Matthew Gormley

tokenizersubwordcharacterDOI DBLP

泛读LongNAACL 2024

InsCL: A Data-efficient Continual Learning Paradigm for Fine-tuning Large Language Models with Instructions

这篇工作要解决的是：在持续到来的指令数据流上微调LLM时，怎样减少遗忘并降低数据需求。现有continual fine-tuning常见两难是：全量回放成本高，不回放又容易丢失旧能力；而instruction tuning的数据分布漂移通常比分类任务更复杂，因为任务格式、风格和目标都在变。

Yifan Wang,Yafei Liu,Chufan Shi,Haoling Li,Chen Chen,Haonan Lu,Yujiu Yang

continual-learninginstruction-tuningdata-efficiencyDOI DBLP

泛读SRWNAACL 2024

Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation

这篇工作解决的是编辑式非自回归机器翻译中的训练信号错位问题。传统NAR翻译虽然推理快，但因为独立预测或固定步编辑与最终序列质量不完全对齐，往往在流畅性和充分性上落后于自回归模型；单纯用token级监督很难优化到真正关心的句级质量。

Hao Wang,Tetsuro Morimura,Ukyo Honda,Daisuke Kawahara

non-autoregressivereinforcement-learningtranslationDOI DBLP

泛读FindingsNAACL 2024

LETI: Learning to Generate from Textual Interactions

这篇工作解决的是：如何从文本交互中学习生成行为，而不是只从静态输入输出对中学习。传统SFT把每个样本视为一次性映射，弱化了交互过程中的反馈、修正和用户意图澄清；这对真实助手场景是不够的，因为模型需要根据多轮文字互动逐步更新生成策略。

Xingyao Wang,Hao Peng,Reyhaneh Jabbarvand,Heng Ji

interactive-learningfeedbackalignmentDOI DBLP

泛读LongNAACL 2024

LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation?

这篇工作直接挑战一个常见判断：在图像到文本生成里，扩散模型是否真的天然不如自回归模型。过去大家更习惯用AR做caption或image-to-text，因为文本是离散序列、评测和解码都更成熟；扩散式文本生成往往被认为慢、难训练、质量也不占优，所以这个方向长期处于边缘。

Yuchi Wang,Shuhuai Ren,Rundong Gao,Linli Yao,Qingyan Guo,Kaikai An,Jianhong Bai,Xu Sun

diffusionimage-to-textautoregressiveDOI DBLP

泛读LongNAACL 2024

Fake Alignment: Are LLMs Really Aligned Well?

这篇工作想回答的是：很多LLM在对齐评测上看起来表现不错，但这种‘对齐’是否只是表面服从，而不是真正稳定的价值一致。过去大量安全评估依赖静态指令集或显式有害请求，模型只要学会识别明显触发词并给出拒答模板，就可能拿到不错分数，却在更隐蔽、上下文化或对抗式场景里失守。

Yixu Wang,Yan Teng,Kexin Huang,Chengqi Lyu,Songyang Zhang,Wenwei Zhang,Xingjun Ma,Yu-Gang Jiang,Yu Qiao,Yingchun Wang

alignmentevaluationsafetyDOI DBLP

泛读DemoNAACL 2024

pyvene: A Library for Understanding and Improving PyTorch Models via Interventions

这篇工作要解决的是：机制可解释性和因果干预研究缺少一个统一、工程上可复用的 PyTorch 工具层，导致很多结果难复现、难比较、也难直接转成模型改进手段。过去这类工作通常依赖一次性脚本或针对单一架构手搓 hook，能做演示，但不适合系统研究，更不适合把“理解模型”真正接到“修改模型行为”上。

Zhengxuan Wu,Atticus Geiger,Aryaman Arora,Jing Huang,Zheng Wang,Noah D. Goodman,Christopher D. Manning,Christopher Potts

interpretabilityinterventioncausal-analysisDOI DBLP

泛读LongNAACL 2024

Unveiling the Generalization Power of Fine-Tuned Large Language Models

Haoran Yang,Yumeng Zhang,Jiaqi Xu,Hongyuan Lu,Pheng-Ann Heng,Wai Lam

fine-tuninggeneralizationllmDOI DBLP

泛读FindingsNAACL 2024

How Interpretable are Reasoning Explanations from Prompting Large Language Models?

Wei Jie Yeo,Ranjan Satapathy,Rich Siow Mong Goh,Erik Cambria

cotinterpretabilityreasoningDOI DBLP

泛读ShortNAACL 2024

MEMORY-VQ: Compression for Tractable Internet-Scale Memory

结论：MEMORY-VQ 解决的是“memory-augmented LM 推理很快但存储爆炸”的工程瓶颈，把原本需要海量磁盘/内存的预计算 token 表征压到可在互联网规模上落地。以 LUMEN 这类方法为代表，先把检索到的 passage 做编码并缓存，能显著减少在线计算，但代价是要为每个 token 存一条高维向量，存储成本往往比算力更先成为不可扩展点。

Yury Zemlyanskiy,Michiel de Jong,Luke Vilnis,Santiago Ontañón,William W. Cohen,Sumit Sanghai,Joshua Ainslie

ragmemorycompressionDOI arXiv DBLP

泛读FindingsNAACL 2024

AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback

这篇工作关注的是一个常见但被低估的问题：LLM 的首次决策常常接近正确，却因为局部偏差或信息遗漏停在次优答案。传统 self-refine 或 reflection 方法通常给固定反馈模板，让模型反思一次或多次，但反馈强度和时机不区分样本难度，容易造成无效迭代甚至越改越差。

Wanpeng Zhang,Zongqing Lu

feedbackself-correctionreasoningDOI DBLP

泛读FindingsNAACL 2024

Structured Pruning for Large Language Models Using Coupled Components Elimination and Minor Fine-tuning

这篇工作解决的是 LLM 结构化剪枝常见的两难：非结构化剪枝压得狠但不容易加速，结构化剪枝容易部署但一剪就伤性能。很多现有方法按层或按模块独立删参数，忽略了 Transformer 组件之间是耦合的，所以删掉一个局部维度往往会连带破坏上下游表示流。

Honghe Zhang,Xiaolong Shi,Jingwei Sun,Guangzhong Sun

pruningcompressionllmDOI DBLP

泛读LongNAACL 2024

TableLlama: Towards Open Large Generalist Models for Tables

这篇工作要解决的是表格能力长期被通用 LLM 边缘化的问题。现有大模型对自然语言很强，但遇到结构复杂、类型混合、行列推理明显的表格时，经常依赖脆弱的线性化输入；过去常见做法是为特定表格任务单独做模型或管线，缺少一个开放的通用 table generalist。

Tianshu Zhang,Xiang Yue,Yifei Li,Huan Sun

tablegeneralist-modelpretrainingDOI DBLP

泛读FindingsNAACL 2024

Evaluating Step-by-Step Reasoning through Symbolic Verification

这篇工作要解决的是 step-by-step reasoning 评估长期缺少可靠判据的问题。现有做法大多用最终答案对错来代替过程质量，或用另一个 LLM 当 judge；前者无法定位中间错误，后者又会把评估建立在同类模型的主观偏好上，因此很难真正判断 reasoning trace 到底哪里错、错得多早。

Yifan Zhang,Hanlin Zhang,Li Li,Eric P. Xing

reasoningevaluationverificationDOI DBLP

泛读LongNAACL 2024

A Study on the Calibration of In-context Learning

这篇工作研究的是 in-context learning 的校准问题：模型给出的概率或置信度，是否真正反映了其在 few-shot 提示下的正确性。过去很多 ICL 工作只看 accuracy，把提示当成黑箱增益来源；但实际部署里，ICL 常常出现随着示例顺序、标签偏置、表面格式变化而置信度失真，这使得它很难被安全地用于决策。

Hanlin Zhang,Yifan Zhang,Yaodong Yu,Dhruv Madeka,Dean P. Foster,Eric P. Xing,Himabindu Lakkaraju,Sham M. Kakade

iclcalibrationuncertaintyDOI DBLP

泛读LongNAACL 2024

Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation

这篇工作要解决的是多语言预训练模型在不同语言上的性能落差长期过大，而现有做法通常只在数据配比或继续预训练上做粗粒度调整，难以真正回答“该向哪种教师语言学、如何把强语言的能力迁移给弱语言”。这个问题现在值得重做，是因为 mPLM 的主矛盾已经不只是平均分不够高，而是高资源语言和低资源语言之间的能力分化会直接限制模型作为统一底座的可用性。

Haozhe Zhao,Zefan Cai,Shuzheng Si,Liang Chen,Yufeng He,Kaikai An,Baobao Chang

multilingualself-distillationdata-mixtureDOI DBLP

泛读FindingsNAACL 2024

Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue

这篇工作要解决的是 LLM 在沟通任务上常常“会答题但不会说话”，也就是内容可能正确，但表达策略、礼貌性、说服结构和互动感不足。过去很多工作把沟通能力当成提示模板问题，或者用 SFT 直接喂高质量回复，却较少显式建模回答前的内部规划；这篇论文的切入点是让模型先进行 inner monologue，再输出面向用户的外显表达。

Junkai Zhou,Liang Pang,Huawei Shen,Xueqi Cheng

reasoninginner-monologuesftDOI DBLP

泛读LongNAACL 2024

Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models

这篇工作要解决的是数学推理对表面形式异常敏感：题意不变，只是改写措辞，模型的解题成功率就会明显波动。过去很多工作把数学能力差异归因于推理深度或训练数据不足，但较少系统研究表述方式本身对推理路径的触发作用；这篇论文既分析这种现象，也尝试利用它提升解题效果。

Yue Zhou,Yada Zhu,Diego Antognini,Yoon Kim,Yang Zhang

math-reasoningsurface-formrobustnessDOI DBLP

泛读FindingsNAACL 2024

CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models

这篇工作要解决的是在大模型广泛被预训练语料污染的现实下，如何做更干净、更可信的评测。很多 benchmark 上的高分已经很难区分是真泛化还是见过题，导致模型比较和方法判断失真；CLEAN-EVAL 关注的正是 contamination 下的 clean evaluation，而不是再造一个普通题库。

Wenhong Zhu,Hongkun Hao,Zhiwei He,Yunze Song,Jiao Yueyang,Yumeng Zhang,Hanxu Hu,Yiran Wei,Rui Wang,Hongyuan Lu

evaluationcontaminationbenchmarkDOI DBLP

泛读LongNAACL 2024

PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning

这篇工作要解决的是小模型学推理时，直接用 chain-of-thought 监督微调并不总是高效，甚至会把大模型的冗长表述噪声一起蒸进去。过去大家默认“把 CoT 喂给小模型”就是蒸馏 reasoning 的主路子，但这篇论文质疑了这一点：程序辅助蒸馏可能比直接 CoT fine-tuning 更适合教小模型真正学会做题。

Xuekai Zhu,Biqing Qi,Kaiyan Zhang,Xinwei Long,Zhouhan Lin,Bowen Zhou

distillationreasoningprogram-aidedDOI DBLP

泛读LongNAACL 2024

MaCSC: Towards Multimodal-augmented Pre-trained Language Models via Conceptual Prototypes and Self-balancing Calibration

Xianwei Zhuang,Zhichang Wang,Xuxin Cheng,Yuxin Xie,Liming Liang,Yuexian Zou

multimodal-pretrainingcontrastive-learningcalibrationDOI DBLP

泛读NAACL 2024

SemEval-2024 Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes

这篇任务综述要解决的是：如何把“幻觉”从一个模糊概念落成可评测、可复现、跨系统比较的共享任务。过去很多工作把 hallucination 当成开放定义，数据集、标注标准和任务边界都不一致，导致不同论文结果很难横向比较，尤其在 MT、摘要、对话和数据到文本之间更是如此。

Timothee Mickus,Elaine Zosa,Raúl Vázquez,Teemu Vahtola,Jörg Tiedemann,Vincent Segonne,Alessandro Raganato,Marianna Apidianaki

hallucinationovergenerationbenchmarkDOI DBLP

泛读NAACL 2024

Team NP_PROBLEM at SemEval-2024 Task 7: Numerical Reasoning in Headline Generation with Preference Optimization

这篇工作要解决的是：标题生成里涉及数字推理时，模型为什么经常生成语法正确但数值错误的结果，以及是否能用 preference optimization 改善这一点。这个问题以前常被当成一般文本生成误差处理，但数字错误和普通措辞错误不同，它对 token 概率很敏感，却未必能从标准交叉熵训练里自然学到。

Pawan Rajpoot,Nut Chukamphaeng

preference-optimizationnumerical-reasoningheadline-generationDOI DBLP

泛读NAACL 2024

Do large language models and humans have similar behaviours in causal inference with script knowledge?

这篇论文的核心问题是：LLM 在基于脚本知识的因果推断上，行为模式是否真的接近人类，而不是只在最终答案上看起来像会做因果推理。这个问题重要，因为近年来很多零样本推理结果显示 LLM 能答对因果题，但答对不等于加工过程相似；如果行为机制不同，那么把表面准确率当成人类式理解的证据就不够。

Xudong Hong,Margarita Ryzhova,Daniel Adrian Biondi,Vera Demberg

causal-reasoninghuman-evalbehaviorDOI arXiv DBLP

泛读NAACL 2024

Exploring Semantics in Pretrained Language Model Attention

这篇工作关注的是：预训练语言模型里的 attention 是否真的编码了语义信息，以及这种语义信号能否被系统分析，而不是停留在可视化层面的直觉判断。这个问题长期存在争议，因为 attention 既被过度解释，也常被批评为不等于 explanation，但对于理解预训练表征到底学到了什么，它仍然值得被更严格地检验。

Frederic Charpentier,Jairo Cugliari,Adrien Guille

attentionsemanticsinterpretabilityDOI DBLP

泛读NAACL 2024

HANS, are you clever? Clever Hans Effect Analysis of Neural Systems

这篇工作要解决的是：很多多项选择推理基准可能高估了 LLM 的社会推理或认知推理能力，因为模型会利用选项顺序、格式等表面线索作答，也就是典型的 Clever Hans 效应。过去这类 benchmark 常默认题目形式是中性的，但如果换一下选项顺序就显著掉点，那么评测到的就不主要是推理能力。

Leonardo Ranaldi,Fabio Massimo Zanzotto

evaluationreasoningshortcut-learningDOI arXiv DBLP

泛读NAACL 2024

A Multilevel Analysis of PubMed-only BERT-based Biomedical Models

生物医学领域的 PubMed-only BERT 模型（如 PubMedBERT）在不同层级的 NLP 任务上表现差异较大，但缺乏系统性的多层级分析来揭示这些模型在词级、句级、文档级任务上的优劣规律。

Vicente Iván Sánchez Carmona,Shanshan Jiang,Bin Dong

bertdomain-adaptationbiomedicalDOI DBLP

泛读NAACL 2024

LLM-Based Section Identifiers Excel on Open Source but Stumble in Real World Applications

LLM 在开源数据集上做文档章节识别（section identification）表现很好，但在真实应用场景中性能大幅下降，揭示了开源 benchmark 与实际部署之间的 gap。

Saranya Krishnamoorthy,Ayush Singh,Shabnam Tafreshi

robustnessdistribution-shiftevaluationDOI DBLP

泛读NAACL 2024

LTRC-IIITH at EHRSQL 2024: Enhancing Reliability of Text-to-SQL Systems through Abstention and Confidence Thresholding

与上面 EHRSQL 2024 共享任务相同的问题：Text-to-SQL 系统在 EHR 场景下需要可靠地拒绝无法回答的问题，避免生成错误 SQL 造成医疗风险。

Jerrin Thomas,Pruthwik Mishra,Dipti Misra Sharma,Parameswari Krishnamurthy

IIIT HyderabadabstentionconfidencecalibrationDOI DBLP

泛读LongNAACL 2024

UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback

LLM 生成 UI 代码的质量不稳定，缺乏有效的自动化反馈机制来迭代改进生成结果。人工标注 UI 代码质量成本高且难以规模化。

Jason Wu,Eldon Schoop,Alan Leung,Titus Barik,Jeffrey P. Bigham,Jeffrey Nichols

code-generationautomated-feedbackfine-tuningDOI DBLP

泛读LongNAACL 2024

Language Models Hallucinate, but May Excel at Fact Verification

LLM 在生成时容易产生幻觉（hallucination），但它们在事实验证（fact verification）任务上是否也同样不可靠？这篇工作探索了一个反直觉的假设：LLM 虽然会生成错误事实，但可能擅长判断给定陈述的真假。

Jian Guan,Jesse Dodge,David Wadden,Minlie Huang,Hao Peng

Allen Institute for AITsinghua Universityhallucinationfact-verificationevaluationDOI DBLP

泛读LongNAACL 2024

Explaining Text Similarity in Transformer Models

Transformer 模型计算文本相似度时，内部到底在比较什么？现有的可解释性方法难以解释 Transformer 在相似度任务中的行为机制。

Alexandros Vasileiou,Oliver Eberle

interpretabilitytransformersimilarityDOI DBLP

泛读LongNAACL 2024

Instructing Large Language Models to Identify and Ignore Irrelevant Conditions

LLM 在推理时容易被问题中的无关条件（irrelevant conditions）干扰，导致推理错误。之前的工作主要关注推理能力本身，较少关注模型识别和忽略干扰信息的能力。

Zhenyu Wu,Chao Shen,Meng Jiang

instruction-tuningrobustnessreasoningDOI DBLP

泛读LongNAACL 2024

SELF-GUARD: Empower the LLM to Safeguard Itself

这篇工作要解决的是：能不能让大语言模型在不依赖外部安全分类器或额外审查模型的情况下，自己识别并拒绝有害请求。过去常见做法是外挂一个 safety filter 或再训练一个 reward/safety model，但这会带来系统复杂度、级联误判和部署成本；SELF-GUARD 试图把安全判断内化到生成过程本身。

Zezhong Wang,Fangkai Yang,Lu Wang,Pu Zhao,Hongru Wang,Liang Chen,Qingwei Lin,Kam-Fai Wong

safetyself-reflectionalignmentDOI DBLP

泛读LongNAACL 2024

kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest Neighbor In-Context Learning

这篇工作要解决的是组合泛化下的任务导向语义解析：当测试样例是训练中没见过的新组合时，单靠参数记忆往往不够，能否用最近邻示例来提升 in-context learning。过去这类问题通常靠专门设计的语法约束、数据增强或更大模型硬扛，但在 compositional split 上泛化仍然脆弱。

Wenting Zhao,Ye Liu,Yao Wan,Yibo Wang,Qingyang Wu,Zhongfen Deng,Jiangshu Du,Shuaiqi Liu,Yunlong Xu,Philip S. Yu

iclknngeneralizationDOI DBLP

泛读LongNAACL 2024

MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

这篇工作要解决的是多模态数据集构建成本高、覆盖窄且难以快速迭代的问题，尤其是图文类任务常常缺少成规模、带控制属性的训练数据。过去做法要么人工标注昂贵，要么直接抓取网络数据但噪声大、任务适配差；MAGID 试图把合成数据生产流程自动化。

Hossein Aboutalebi,Hwanjun Song,Yusheng Xie,Arshit Gupta,Lijia Sun,Hang Su,Igor Shalyminov,Nikolaos Pappas,Siffi Singh,Saab Mansour

synthetic-datamultimodaldata-generationDOI DBLP

泛读LongNAACL 2024

SlimFit: Memory-Efficient Fine-Tuning of Transformer-based Models Using Training Dynamics

这篇工作要解决的是 Transformer 微调的显存成本过高，尤其是全参数或大规模 adapter 微调时，优化器状态、激活和梯度都会占掉大量内存。现有 PEFT 方法虽然降参，但常常牺牲效果或限制更新空间；SlimFit 试图利用训练动态，在尽量不伤性能的前提下降低微调内存。

Arash Ardakani,Altan Haan,Shangyin Tan,Doru-Thom Popovici,Alvin Cheung,Costin Iancu,Koushik Sen

fine-tuningmemory-efficiencytraining-dynamicsDOI DBLP

泛读LongNAACL 2024

BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer

这篇工作要解决的是 few-shot cross-lingual transfer 评测缺少系统性，尤其是大模型在少样本条件下是否真的具备跨语言迁移能力，常被零散实验和英语中心 benchmark 高估。BUFFET 试图建立一个专门针对这一能力的评测基准。

Akari Asai,Sneha Kudugunta,Xinyan Yu,Terra Blevins,Hila Gonen,Machel Reid,Yulia Tsvetkov,Sebastian Ruder,Hannaneh Hajishirzi

benchmarkfew-shotcross-lingualDOI DBLP

泛读DemoNAACL 2024

Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI

这篇工作要解决的是生成式 AI 的数据准备和评测流程过于分散：不同任务有不同模板、后处理、指标和数据格式，导致实验难复现、难共享，也让训练—评测接口非常脆弱。Unitxt 试图把这些流程抽象成可复用、可组合的统一框架。

Elron Bandel,Yotam Perlitz,Elad Venezian,Roni Friedman,Ofir Arviv,Matan Orbach ... 省略 2 位作者 ... ,Ariel Gera,Leshem Choshen,Michal Shmueli-Scheuer,Yoav Katz

data-pipelineevaluationgenerative-aiDOI DBLP

泛读LongNAACL 2024

When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale

这篇论文要回答的核心问题是：单语数据什么时候真的能帮助多语机器翻译，而不只是作为一个经验上“可能有用”的补充。以往工作通常默认回译、语言模型预训练或辅助单语目标整体上有益，但对“域是否匹配”和“模型规模是否足够”这两个条件缺少系统拆解，因此很难判断单语数据收益来自数据量本身，还是来自更好的域覆盖与更强模型容量。

Christos Baziotis,Biao Zhang,Alexandra Birch,Barry Haddow

multilingualdata-qualityscalingDOI DBLP

泛读LongNAACL 2024

LLMs Are Few-Shot In-Context Low-Resource Language Learners

这篇论文的核心判断很明确：LLM 对低资源语言并非完全不会学，而是可以在 few-shot in-context 设置下表现出可用的学习能力。过去低资源语言通常依赖继续预训练、翻译桥接或专门监督数据，原因是大家默认主流 LLM 的语言覆盖不够、上下文学习又太脆弱；这篇工作试图检验这个假设是否过于悲观。

Samuel Cahyawijaya,Holy Lovenia,Pascale Fung

in-context-learninglow-resourcemultilingualDOI DBLP

泛读LongNAACL 2024

Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections

这篇论文要解决的问题是：如何通过后门注入，让一个看似对齐良好的大模型出现隐蔽且持久的 unalignment。过去关于 LLM 安全的很多工作关注越狱提示或显式有害微调，但这类攻击往往可见、可测，也容易被后续对齐修补；作者关心的是更难防的情况——攻击被埋在模型里，只在特定触发条件下释放，而且能跨过后续安全训练。

Yuanpu Cao,Bochuan Cao,Jinghui Chen

alignmentbackdoorsafetyDOI DBLP

泛读FindingsNAACL 2024

Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

这篇论文的核心问题是：能否把 LLM 已有的图表推理能力有效迁移到 VLM，而不是从头让视觉语言模型自己学完整套 reasoning。图表理解是个典型的跨模态瓶颈：文本侧推理链常常已经够强，但视觉侧的表示和对齐不足，导致 VLM 在 chart QA 上不是不会推理，而是拿不到可推理的中间表示。

Victor Carbune,Hassan Mansoor,Fangyu Liu,Rahul Aralikatte,Gilles Baechler,Jindong Chen,Abhanshu Sharma

vlmchart-reasoningtransferDOI DBLP

泛读LongNAACL 2024

Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models

这篇论文关注的核心问题是：当前 VLM 的 chain-of-thought 推理到底有多真实、怎么测、又该如何提升。过去很多视觉语言模型在最终答案上可能看起来不错，但中间推理链往往不稳定、不可解释，甚至只是事后生成的合理化文本；如果没有专门的评测框架，就很难知道模型到底是在看图推理，还是在语言先验上猜。

Yangyi Chen,Karan Sikka,Michael Cogswell,Heng Ji,Ajay Divakaran

vlmchain-of-thoughtreasoningDOI DBLP

泛读LongNAACL 2024

Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks

在生成式任务中，零样本跨语言迁移效果不稳定，哪些因素真正决定了迁移质量？以往研究多聚焦于分类任务，对生成任务（如摘要、QA）的跨语言迁移关键要素缺乏系统梳理。

Nadezhda Chirkova,Vassilina Nikoulina

cross-lingualzero-shottransferDOI DBLP

泛读LongNAACL 2024

Learning to Compress Prompt in Natural Language Formats

长 prompt 导致 LLM 推理成本高且可能超出上下文窗口，能否学习将 prompt 压缩为更短的自然语言格式，同时保持任务性能？之前的 prompt 压缩方法多生成 soft token 或不可读的压缩表示，缺乏可解释性和跨模型迁移性。

Yu-Neng Chuang,Tianwei Xing,Chia-Yuan Chang,Zirui Liu,Xun Chen,Xia Ben Hu

prompt-compressioncontext-compressioninferenceDOI DBLP

泛读FindingsNAACL 2024

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

音乐理解（captioning 和 query response）需要同时处理音频信号和自然语言，现有方法要么只做 captioning 要么缺乏对音乐语义的深度理解。能否用预训练语言模型作为桥梁，统一音乐描述和问答？

Zihao Deng,Yinghao Ma,Yudong Liu,Rongchen Guo,Ge Zhang,Wenhu Chen,Wenhao Huang,Emmanouil Benetos

musictextpretrained-lmDOI DBLP

泛读LongNAACL 2024

A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily

LLM 的安全对齐可以被嵌套式越狱 prompt（nested jailbreak prompts）轻易绕过。之前的越狱攻击多是特定模板，缺乏泛化性；这项工作提出了一种更通用的嵌套结构攻击方法。

Peng Ding,Jun Kuang,Dan Ma,Xuezhi Cao,Yunsen Xian,Jiajun Chen,Shujian Huang

jailbreaksafetyalignmentDOI DBLP

泛读LongNAACL 2024

A Systematic Comparison of Syllogistic Reasoning in Humans and Language Models

语言模型在三段论推理（syllogistic reasoning）上的表现与人类相比如何？之前的工作零散地测试了 LLM 的逻辑推理能力，缺乏与人类认知心理学数据的系统对比。

Tiwalayo Eisape,Michael Henry Tessler,Ishita Dasgupta,Fei Sha,Sjoerd van Steenkiste,Tal Linzen

Google DeepMindreasoningsyllogistichuman-comparisonDOI DBLP

泛读LongNAACL 2024

Adjusting Interpretable Dimensions in Embedding Space with Human Judgments

这篇工作要解决的是：embedding space 里常被认为“可解释”的维度，怎样才能真正对齐人类判断，而不是只在几何上看起来好看。过去很多表示学习工作会事后给某些方向贴语义标签，但这些方向是否对应人真正稳定感知的属性，证据并不强。

Katrin Erk,Marianna Apidianaki

embedding-spaceinterpretabilityhuman-judgmentsDOI DBLP

泛读LongNAACL 2024

GPTScore: Evaluate as You Desire

这篇工作要解决的是：文本生成评价往往缺少统一且可定制的标准，现有自动指标要么和人类判断偏差大，要么只能覆盖单一维度，因此作者提出 GPTScore，想让评价目标可以按需求定义。过去 BLEU、ROUGE、甚至一些学习式指标都受限于固定参考或固定打分头，难以灵活表达“我到底想评什么”。

Jinlan Fu,See-Kiong Ng,Zhengbao Jiang,Pengfei Liu

evaluationllm-as-judgemetricsDOI DBLP

泛读LongNAACL 2024

Adaptive Rank Selections for Low-Rank Approximation of Language Models

Shangqian Gao,Ting Hua,Yen-Chang Hsu,Yilin Shen,Hongxia Jin

low-rankcompressionmodel-efficiencyDOI DBLP

泛读FindingsNAACL 2024

Ethos: Rectifying Language Models in Orthogonal Parameter Space

Lei Gao,Yue Niu,Tingting Tang,Salman Avestimehr,Murali Annavaram

alignmentmodel-editingsafetyDOI DBLP

泛读FindingsNAACL 2024

Compensate Quantization Errors: Make Weights Hierarchical to Compensate Each Other

Yifei Gao,Jie Ou,Lei Wang,Yuting Xiao,Xiangzhiyuan Xiangzhiyuan,Ruiting Dai,Jun Cheng

quantizationcompressioninferenceDOI DBLP

泛读LongNAACL 2024

A Survey of Confidence Estimation and Calibration in Large Language Models

Jiahui Geng,Fengyu Cai,Yuxia Wang,Heinz Koeppl,Preslav Nakov,Iryna Gurevych

calibrationuncertaintyevaluationDOI DBLP

泛读LongNAACL 2024

HumanRankEval: Automatic Evaluation of LMs as Conversational Assistants

Milan Gritta,Gerasimos Lampouras,Ignacio Iacobacci

evaluationconversationalllm-as-judgeDOI DBLP

泛读DemoNAACL 2024

OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs

Patrick Haller,Ansar Aynetdinov,Alan Akbik

biasinstruction-tuningalignmentDOI DBLP

泛读IndustryNAACL 2024

AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

用 LLM 替代众包标注员做数据标注，但直接 prompt 的标注质量不稳定、一致性差。以往做法要么依赖大量人工 few-shot 示例，要么需要针对每个任务精心设计 prompt，成本并未真正降低。

Xingwei He,Zhenghao Lin,Yeyun Gong,A-Long Jin,Hang Zhang,Chen Lin,Jian Jiao,Siu Ming Yiu,Nan Duan,Weizhu Chen

Microsoft Researchsynthetic-dataannotationdata-qualityDOI DBLP

泛读SRWNAACL 2024

Systematic Analysis for Pretrained Language Model Priming for Parameter-Efficient Fine-tuning

参数高效微调（PEFT）方法（如 Adapter、LoRA、Prefix-tuning 等）的效果受 pretrained LM 初始化（priming）方式影响，但这种影响缺乏系统性分析。以往工作各自报告不同 PEFT 方法的结果，但没有统一框架来理解 priming 策略与 PEFT 性能之间的关系。

Shih-Cheng Huang,Shih-Heng Wang,Min-Han Shih,Saurav Sahay,Hung-yi Lee

National Taiwan Universitypeftprimingfine-tuningDOI DBLP

泛读LongNAACL 2024

AceGPT, Localizing Large Language Models in Arabic

阿拉伯语 LLM 的本地化：通用英文 LLM 在阿拉伯语上的表现显著弱于英文，而从头训练阿拉伯语大模型成本过高。需要一种高效的本地化方案，在保持通用能力的同时大幅提升阿拉伯语理解和生成质量。

Huang Huang,Fei Yu,Jianqing Zhu,Xuening Sun,Hao Cheng,Dingjie Song ... 省略 9 位作者 ... ,Ruoyu Sun,Xiang Wan,Haizhou Li,Jinchao Xu

arabiclocalizationcontinual-pretrainDOI DBLP

泛读FindingsNAACL 2024

Ignore Me But Don't Replace Me: Utilizing Non-Linguistic Elements for Pretraining on the Cybersecurity Domain

网络安全领域的文本包含大量非语言元素（如 IP 地址、哈希值、代码片段等），标准 pretrain 策略（如 MLM）会花大量计算在这些低语义密度的 token 上，导致领域 pretrain 效率低下。

Eugene Jang,Jian Cui,Dayeon Yim,Youngjin Jin,Jin-Woo Chung,Seungwon Shin,Yongjae Lee

domain-pretraincybersecuritynon-linguistic-elementsDOI DBLP

泛读LongNAACL 2024

Rectifying Demonstration Shortcut in In-Context Learning

ICL 中存在 demonstration shortcut 问题：模型倾向于利用 demo 中的表面统计捷径（如标签分布偏差、输入-标签的虚假相关）而非真正学习任务模式，导致 ICL 性能不稳定且对 demo 选择过度敏感。

Joonwon Jang,Sanghwan Jang,Wonbin Kweon,Minjin Jeon,Hwanjo Yu

in-context-learningdemonstrationshortcutDOI DBLP

泛读LongNAACL 2024

Exploring Self-supervised Logic-enhanced Training for Large Language Models

LLM 的逻辑推理能力仍然薄弱，尤其在需要多步推理和形式逻辑的场景。以往主要靠 SFT 在推理数据上微调，但缺乏在 pretrain/self-supervised 阶段直接增强逻辑能力的方法。

Fangkai Jiao,Zhiyang Teng,Bosheng Ding,Zhengyuan Liu,Nancy F. Chen,Shafiq Joty

A*STARself-supervisedlogictrainingDOI DBLP

泛读LongNAACL 2024

Program-Aided Reasoners (Better) Know What They Know

LLM 的自我校准（calibration）——即模型对自己答案正确性的判断能力——在直接生成答案时往往很差。Program-aided reasoning（让模型生成代码来解题）是否能改善这种自我认知？

Anubha Kabra,Sanketh Rangreji,Yash Mathur,Aman Madaan,Emmy Liu,Graham Neubig

Carnegie Mellon Universityreasoningtool-usecalibrationDOI DBLP

泛读FindingsNAACL 2024

Probing the Category of Verbal Aspect in Transformer Language Models

Transformer 语言模型是否内部编码了动词体（verbal aspect，如完成体/未完成体）这一语法范畴？以往的 probing 工作主要关注句法特征（如词性、依存关系），对语义-语法交界的范畴（如体）研究较少。

Anisia Katinskaia,Roman Yangarber

University of HelsinkiprobinglinguisticstransformersDOI DBLP

泛读ShortNAACL 2024

Unveiling Divergent Inductive Biases of LLMs on Temporal Data

这篇论文要解决的是：LLM 在时间相关数据上表现并不统一，不同模型可能依赖完全不同的归纳偏置，但这点通常被平均指标掩盖。作者关心的是模型在 temporal data 上到底学到了什么规则，是记忆局部模式、线性延续、周期结构，还是更抽象的时间机制。

Sindhu Kishore,Hangfeng He

inductive-biastemporal-reasoninggeneralizationDOI DBLP

泛读ShortNAACL 2024

Do Vision-Language Models Understand Compound Nouns?

这篇论文要解决的是：VLM 在开放世界图文任务上表现不错，但对 compound nouns 这种需要组合语义的表达，是否真的理解仍不清楚。作者针对的是一个被大基准掩盖的能力缺口：模型可能记住单词和常见搭配，却未必真正掌握名词复合结构的组合规则。

Sonal Kumar,Sreyan Ghosh,S. Sakshi,Utkarsh Tyagi,Dinesh Manocha

vlmcompositionalityevaluationDOI DBLP

泛读FindingsNAACL 2024

Psychometric Predictive Power of Large Language Models

这篇论文要回答的核心问题是：指令微调后的 LLM 是否更像人类，至少在心理语言学里的阅读行为预测上是否更接近人类。过去很多工作默认“更会对话、更符合偏好”也会带来更好的人类认知拟合，但作者指出这两件事并不等价，尤其 next-word probability 作为阅读时长等心理测量的解释变量时，instruction tuning 可能反而破坏这种拟合能力。

Tatsuki Kuribayashi,Yohei Oseki,Timothy Baldwin

instruction-tuninghuman-alignmentevaluationDOI arXiv DBLP

泛读FindingsNAACL 2024

DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers

这篇论文要解决的是：encoder-decoder Transformer 的中间表示很难直接解释，现有 LogitLens 主要适用于 decoder-only 模型，无法自然看见 encoder 各层到底编码了什么。过去对 encoder-decoder 的解释常依赖探针或注意力可视化，但这些方法要么间接、要么解释粒度不够统一。

Anna Langedijk,Hosein Mohebbi,Gabriele Sarti,Willem H. Zuidema,Jaap Jumelet

interpretabilitylayerwise-analysisencoder-decoderDOI arXiv DBLP

泛读FindingsNAACL 2024

Crafting In-context Examples according to LMs' Parametric Knowledge

从题目看，这篇论文关注的问题是：in-context learning 里的示例应该如何构造，才能更好地匹配模型已有的参数知识，而不是盲目堆相似例子。以往 ICL 示例选择往往依赖表面相似度、随机采样或启发式排序，但这些策略未必考虑模型内部其实“已经知道什么”。

Yoonsang Lee,Pranav Atreya,Xi Ye,Eunsol Choi

in-context-learningparametric-knowledgeexample-selectionDOI DBLP

泛读LongNAACL 2024

How Well Do Large Language Models Truly Ground?

从题目看，这篇论文要追问的是：大语言模型到底在多大程度上实现了真正 grounding，而不是仅靠语言相关性和数据共现做出看似接地的回答。过去很多评测把正确回答当作 grounding 证据，但如果任务可以被文本先验、模板偏差或常识捷径解决，这种判断就不够严谨。

Hyunji Lee,Se June Joo,Chaeeun Kim,Joel Jang,Doyoung Kim,Kyoung-Woon On,Minjoon Seo

groundingevaluationllmDOI DBLP

泛读LongNAACL 2024

MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation

这篇论文解决的是：如何把大语言模型的翻译能力蒸馏到中等规模 MT 模型里，同时避免传统知识蒸馏“重复教学生已会的东西”，导致训练低效且对新知识泛化不足。过去的 distillation 往往默认 teacher 全部输出都值得学，但对已有较强翻译底座的学生模型来说，这会把训练预算浪费在熟悉区域，而难点和新上下文反而学不充分。

Jiahuan Li,Shanbo Cheng,Shujian Huang,Jiajun Chen

distillationmachine-translationllmDOI arXiv DBLP

泛读LongNAACL 2024

BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings

Xianming Li,Jing Li

sentence-embeddingarchitecturedependencyDOI DBLP

泛读FindingsNAACL 2024

Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding

Yanda Li,Dixuan Wang,Jiaqing Liang,Guochao Jiang,Qianyu He,Yanghua Xiao,Deqing Yang

reasoninginstruction-tuninglogical-fallacyDOI DBLP

泛读FindingsNAACL 2024

When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models

Yanhong Li,Chenghao Yang,Allyson Ettinger

reflectionreasoningevaluationDOI DBLP

泛读FindingsNAACL 2024

Instruction-following Evaluation through Verbalizer Manipulation

Shiyang Li,Jun Yan,Hai Wang,Zheng Tang,Xiang Ren,Vijay Srinivasan,Hongxia Jin

instruction-followingevaluationrobustnessDOI DBLP

泛读LongNAACL 2024

Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination?

Bangzheng Li,Ben Zhou,Fei Wang,Xingyu Fu,Dan Roth,Muhao Chen

reasoninghallucinationchain-of-thoughtDOI DBLP

泛读ShortNAACL 2024

Unveiling the Magic: Investigating Attention Distillation in Retrieval-Augmented Generation

Zizhong Li,Haopeng Zhang,Jiawei Zhang

ragdistillationattentionDOI DBLP

泛读FindingsNAACL 2024

Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization

这篇论文要解决的问题是：现有大模型摘要评测大多只看“摘要得像不像参考答案”，却没有系统衡量模型是否真的能遵守长度、立场、覆盖点、风格等指令约束，也没有检验 LLM-as-a-judge 在这类可控摘要里的可靠性。过去这件事常被用单一 ROUGE 或少量人工案例草草带过，因为传统摘要任务默认目标单一；但在 instruction-tuned 时代，摘要越来越像条件生成问题，不把“是否按要求写”单独拿出来测，结论会明显失真。

Yixin Liu,Alexander R. Fabbri,Jiawen Chen,Yilun Zhao,Simeng Han,Shafiq Joty,Pengfei Liu,Dragomir Radev,Chien-Sheng Wu,Arman Cohan

benchmarksummarizationevaluationDOI DBLP

泛读LongNAACL 2024

Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models

这篇论文解决的是一个部署与推理协同问题：单个 LLM 在不同样本上的强弱很不均匀，但直接做多模型集成成本太高，所以如何只在“值得的时候”把请求路由给更合适的专家模型，是提升质量/成本比的关键。过去常见做法要么固定选一个最大模型，要么无差别投票集成，前者浪费样本级异质性，后者则把推理成本放大得过头。

Keming Lu,Hongyi Yuan,Runji Lin,Junyang Lin,Zheng Yuan,Chang Zhou,Jingren Zhou

ensembleroutingreward-modelDOI DBLP

泛读FindingsNAACL 2024

VOLTA: Improving Generative Diversity by Variational Mutual Information Maximizing Autoencoder

这篇论文要解决的问题是生成模型常见的多样性不足：模型虽然能生成高概率、流畅的输出，但容易坍缩到少数安全模式，尤其在开放式文本生成里更明显。过去很多方法通过采样温度、top-k/top-p 或加 latent variable 来缓解，但往往是“多样性上去了，质量掉了”，因为模型没有真正学到保留信息同时鼓励多样化表达的机制。

Yueen Ma,Dafeng Chi,Jingjing Li,Kai Song,Yuzheng Zhuang,Irwin King

vaediversitymutual-informationDOI DBLP

泛读LongNAACL 2024

An Examination of the Compositionality of Large Generative Vision-Language Models

这篇论文关注的是大型生成式视觉语言模型的 compositionality，也就是模型能否把已知概念按新组合正确理解或生成，而不是只记住训练中出现过的常见搭配。过去很多 VLM 在整体 benchmark 上看起来很强，但组合泛化往往被数据共现模式掩盖；模型会识别“红苹果”“蓝天空”，不代表它真能处理少见但合法的组合。

Teli Ma,Rong Li,Junwei Liang

compositionalityvlmevaluationDOI DBLP

泛读LongNAACL 2024

Retrieval Helps or Hurts? A Deeper Dive into the Efficacy of Retrieval Augmentation to Language Models

这篇论文要回答一个很直接但常被简化的问题：RAG 到底什么时候帮忙，什么时候反而伤害语言模型？过去很多工作把 retrieval augmentation 作为默认增益项来介绍，但真实情况更复杂——检索质量、任务类型、上下文整合能力、模型自身知识覆盖和噪声鲁棒性都会决定检索是提供证据还是制造干扰。

Seiji Maekawa,Hayate Iso,Sairam Gurajada,Nikita Bhutani

ragretrieval-augmentationllm-evaluationDOI DBLP

泛读FindingsNAACL 2024

DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation

这篇论文解决的是文本级数据集蒸馏：能不能把一个数据集压缩进一个语言模型里，再由模型生成或表征出足够替代原数据集的信息，用很少的数据支持下游训练。过去 dataset distillation 在图像里更常见，在文本里难做，因为离散 token 不可微、语义组合复杂，而且少量伪样本很容易只记住表面模式而不保留任务结构。

Aru Maekawa,Satoshi Kosugi,Kotaro Funakoshi,Manabu Okumura

dataset-distillationdata-qualitylanguage-modelDOI DBLP

泛读LongNAACL 2024

Visually Guided Generative Text-Layout Pre-training for Document Intelligence

这篇论文解决的是文档智能中的一个核心短板：纯文本预训练忽略了页面布局和视觉线索，纯视觉方法又难以生成式地统一建模文本与结构，因此模型很难真正理解文档里的阅读顺序、区域关系和语义-布局耦合。过去很多方法把 OCR 文本和 bbox 简单拼接，能做分类抽取，但对更复杂的文档生成或结构理解并不够。

Zhiming Mao,Haoli Bai,Lu Hou,Lifeng Shang,Xin Jiang,Qun Liu,Kam-Fai Wong

document-ailayout-pretrainingmultimodalDOI DBLP

泛读LongNAACL 2024

A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers

这篇工作要解决的是：怎样用一个可控、可解释的符号化框架，真正测出 Transformer 的数学推理与泛化能力，而不是只测到模板记忆或表面模式匹配。以往数学推理评测常混杂自然语言歧义、数据泄漏和题型捷径，模型答对并不等于学会了规则，因此作者把问题收缩到可组合的符号任务上，直接检查模型是否掌握算法性结构。

Jordan Meadows,Marco Valentino,Damien Teney,André Freitas

math-reasoninggeneralizationsymbolicDOI DBLP

泛读LongNAACL 2024

Mustango: Toward Controllable Text-to-Music Generation

这篇工作要解决的是：文本到音乐生成里，如何让模型不仅能生成“像音乐”的音频，还能按用户指定属性稳定控制节奏、情绪、配器或结构。过去系统常在生成质量和可控性之间二选一：纯生成模型自由度高但难精确控制，基于标签或规则的方案可控但表达力受限，因此“toward controllable”本身就是核心难点。

Jan Melechovský,Zixun Guo,Deepanway Ghosal,Navonil Majumder,Dorien Herremans,Soujanya Poria

text-to-musiccontrollable-generationaudio-generationDOI DBLP

泛读FindingsNAACL 2024

A Systematic Analysis of Subwords and Cross-Lingual Transfer in Multilingual Translation

这篇工作要回答的是：多语机器翻译里的 subword 切分究竟怎样影响跨语言迁移，以及哪些常见直觉其实并不稳固。以往大家默认“共享子词越多，跨语迁移越好”，但这往往把文字系统相似性、词形结构和训练资源量混在一起，导致 tokenizer 设计更多靠经验而不是证据。

Francois Meyer,Jan Buys

tokenizermultilingualsubwordDOI DBLP

泛读LongNAACL 2024

Leitner-Guided Memory Replay for Cross-lingual Continual Learning

这篇工作解决的是跨语言 continual learning 里的遗忘问题，尤其是新语言持续加入时旧语言能力快速退化。传统经验回放通常按随机或简单启发式挑样本，无法区分哪些语言知识更脆弱、哪些样本更值得反复复习，因此 replay 成本高且效果不稳定。

Meryem M'hamdi,Jonathan May

continual-learningcross-lingualmemoryDOI DBLP

泛读LongNAACL 2024

How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities

这篇工作关注一个很现实的问题：开源 LLM 在 in-context learning 场景下到底有多可信，尤其当提示里的 demonstrations 本身带有恶意误导时，模型会不会被轻易带偏。过去很多安全评测更关注显式越狱或毒化训练，而对“推理时上下文污染”这种更低成本、更接近真实使用的攻击研究不足。

Lingbo Mo,Boshi Wang,Muhao Chen,Huan Sun

alignmentsafetyin-context-learningDOI DBLP

泛读FindingsNAACL 2024

TagDebias: Entity and Concept Tagging for Social Bias Mitigation in Pretrained Language Models

这篇工作要解决的是预训练语言模型中的社会偏见缓解问题，但切入点不是继续做黑盒后处理，而是显式标记与偏见相关的实体和概念。以往 debias 方法常通过对抗训练、重加权或词表替换来弱化偏差，效果往往依赖数据分布且容易伤及语义能力，因为模型并不知道哪些 token 或 span 才是偏见传播的关键载体。

Mehrnaz Moslemi,Amal Zouaq

biasdebiasingpretrained-lmDOI DBLP

泛读IndustryNAACL 2024

Shears: Unstructured Sparsity with Neural Low-rank Adapter Search

这篇工作要解决的是：如何在参数高效微调的同时，引入非结构化稀疏性来进一步压缩计算和存储，但又不牺牲太多性能。传统 LoRA 这类低秩适配器部署简单，但参数仍是稠密的；纯稀疏方法又常难训练、难选结构，因此作者把两者结合起来。

J. Pablo Muñoz,Jinjie Yuan,Nilesh Jain

sparsitycompressionloraDOI DBLP

泛读LongNAACL 2024

QualEval: Qualitative Evaluation for Model Improvement

这篇工作要解决的是：模型改进不能只依赖单一量化指标，因为很多真实失败模式是定性的、结构性的，自动分数看不出来。过去大家习惯用 benchmark leaderboard 驱动迭代，但这种方式对错误类型、数据缺口和可修复性的信息密度很低，因此作者提出 QualEval，把 qualitative evaluation 变成可用于模型改进的流程。

Vishvak Murahari,Ameet Deshpande,Peter Clark,Tanmay Rajpurohit,Ashish Sabharwal,Karthik Narasimhan,Ashwin Kalyan

evaluationhuman-feedbackmodel-improvementDOI DBLP

泛读ShortNAACL 2024

Selective Perception: Learning Concise State Descriptions for Language Model Actors

将 LLM 用作交互式环境中的决策 agent 时，环境状态描述往往冗长且包含大量无关信息，导致 LLM 的上下文被浪费、决策质量下降。问题是如何自动学习一个简洁的状态表示，只保留与当前任务相关的感知信息。

Kolby Nottingham,Yasaman Razeghi,Kyungmin Kim,JB Lanier,Pierre Baldi,Roy Fox,Sameer Singh

UC Irvineagentstate-representationperceptionDOI DBLP

泛读ShortNAACL 2024

On the True Distribution Approximation of Minimum Bayes-Risk Decoding

Minimum Bayes-Risk (MBR) 解码通过在候选集上最小化期望风险来选择输出，理论上优于 beam search，但实践中需要用采样近似真实分布，这个近似的质量直接影响 MBR 的效果。本文研究的是：当前常用的采样策略对真实分布的逼近到底有多好，以及如何改进。

Atsumoto Ohashi,Ukyo Honda,Tetsuro Morimura,Yuu Jinnai

decodingminimum-bayes-riskdistributionDOI DBLP

泛读ShortNAACL 2024

Lost in Space: Probing Fine-grained Spatial Understanding in Vision and Language Resamplers

VLM 中的 resampler 模块（如 Perceiver Resampler、Q-Former）将视觉特征压缩为固定数量的 token 再送入 LLM，但这种压缩是否保留了细粒度空间信息（如物体的相对位置、方向等）尚不清楚。本文通过 probing 实验系统检验这一点。

Georgios Pantazopoulos,Alessandro Suglia,Oliver Lemon,Arash Eshghi

vision-languagespatial-reasoningresamplerDOI DBLP

泛读SRWNAACL 2024

Improving Multi-lingual Alignment Through Soft Contrastive Learning

多语言模型中不同语言的表示空间往往没有很好地对齐，导致跨语言迁移效果差。已有的对齐方法（如硬对比学习）容易过度约束表示空间，损害单语言性能。本文用软对比学习来改进多语言对齐。

Minsu Park,Seyeon Choi,Chanyeol Choi,Jun-Seong Kim,Jy-yong Sohn

multilingualalignmentcontrastive-learningDOI DBLP

泛读LongNAACL 2024

Evaluating In-Context Learning of Libraries for Code Generation

LLM 在代码生成时经常需要调用外部库（library），但 in-context learning 能否有效地让模型学会使用新的或不熟悉的库 API？已有评估大多聚焦于标准库，对 ICL 在库级代码生成上的能力缺乏系统研究。

Arkil Patel,Siva Reddy,Dzmitry Bahdanau,Pradeep Dasigi

McGill UniversityMilaServiceNow Research+1in-context-learningcode-generationevaluationDOI DBLP

泛读FindingsNAACL 2024

Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions

这篇论文要回答的核心问题是：大语言模型做多项选择题时，答案选项的排列顺序会不会系统性地改变结果。这个问题过去常被当作评测噪声处理，默认模型只看语义不看位置，但如果顺序本身会影响预测，那么大量基于 MCQ 的能力结论都会被高估或误读。

Pouya Pezeshkpour,Estevam Hruschka

llm-evaluationbiasmultiple-choiceDOI DBLP

泛读FindingsNAACL 2024

ADaPT: As-Needed Decomposition and Planning with Language Models

这篇论文要解决的问题是：语言模型在复杂任务上并不总是需要完整的分解与规划，但不分解又容易在长链推理中失误，如何按需决定何时拆解、何时直接作答。过去很多方法默认对所有样本一刀切地使用 CoT、planner 或 task decomposition，这会带来额外成本，也常在简单样本上引入不必要的误差传播。

Archiki Prasad,Alexander Koller,Mareike Hartmann,Peter Clark,Ashish Sabharwal,Mohit Bansal,Tushar Khot

planningdecompositionreasoningDOI DBLP

泛读FindingsNAACL 2024

COMEM: In-Context Retrieval-Augmented Mass-Editing Memory in Large Language Models

这篇论文关注的问题是：大语言模型在上下文学习里可以临时记住新信息，但当需要对已有知识做大规模一致性编辑时，单点编辑方法不够，直接 RAG 又常把检索和记忆更新割裂开。作者想解决的是如何在不改模型参数的前提下，用上下文机制完成可扩展的“批量编辑记忆”。

Shanbao Qiao,Xuebing Liu,Seung-Hoon Na

in-context-learningretrievalmemory-editingDOI DBLP

泛读LongNAACL 2024

Are Large Language Model Temporally Grounded?

这篇论文要回答的是：大语言模型到底有没有时间锚定能力，能否区分知识在不同时间点是否成立。过去很多知识评测默认世界状态静态不变，但现实中的事实会过期、更新或依赖时间上下文，如果模型缺乏 temporal grounding，就很容易把训练时记忆误当成当前事实。

Yifu Qiu,Zheng Zhao,Yftah Ziser,Anna Korhonen,Edoardo Maria Ponti,Shay B. Cohen

temporal-reasoningevaluationllm-behaviorDOI DBLP

泛读FindingsNAACL 2024

Think While You Write: Hypothesis Verification Promotes Faithful Knowledge-to-Text Generation

这篇论文解决的是知识到文本生成中的忠实性问题：模型会写得流畅，但容易把输入知识改写错、补出不存在的事实，尤其在长文本生成时更严重。过去常见做法是事后校验或更强约束解码，但这些方法要么纠错太晚，要么牺牲表达能力。

Yifu Qiu,Varun Embar,Shay B. Cohen,Benjamin Han

faithfulnessknowledge-to-textverificationDOI DBLP

泛读LongNAACL 2024

ContraSim - Analyzing Neural Representations Based on Contrastive Learning

这篇论文关注的是如何更可靠地分析神经网络表征。传统表示分析方法，比如相似度矩阵或 probing，往往容易受尺度、任务头和浅层统计结构干扰，作者试图用 contrastive learning 的视角更稳健地比较和解释表示空间。

Adir Rahamim,Yonatan Belinkov

representationscontrastive-learninganalysisDOI DBLP

泛读FindingsNAACL 2024

A Tree-of-Thoughts to Broaden Multi-step Reasoning across Languages

这篇论文要解决的问题是：多步推理增强方法通常主要在英语里有效，换到其他语言后，思维链质量、搜索分支质量和最终答案稳定性都会下降。作者想知道 ToT 这类搜索式推理能不能被改造成跨语言更稳的框架。

Leonardo Ranaldi,Giulia Pucci,Federico Ranaldi,Elena Sofia Ruzzetti,Fabio Massimo Zanzotto

tree-of-thoughtreasoningmultilingualDOI DBLP

泛读LongNAACL 2024

Tied-LoRA: Enhancing parameter efficiency of LoRA with Weight Tying

这篇论文要解决的是：LoRA 已经很省参数了，但在更大模型或更多适配层上，额外参数和状态开销仍然不小，能不能继续压缩而不明显掉性能。过去常见做法是减少 rank 或减少插入层数，但这会直接削弱表示能力；作者改走另一条路：保留 LoRA 的低秩更新形式，同时通过 weight tying 复用参数。

Adithya Renduchintala,Tugrul Konuk,Oleksii Kuchaiev

loraparameter-efficientweight-tyingDOI DBLP

泛读LongNAACL 2024

XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models

这篇论文要解决的是：现有安全评测更容易发现“该拒绝却没拒绝”的问题，但不擅长系统性识别“本来可以正常回答却被模型过度拒绝”的 exaggerated safety。随着 RLHF 和安全微调变重，这类过拒问题已经不再是边角案例；如果没有专门测试集，模型会在安全分数好看的同时，实用性和校准悄悄变差。

Paul Röttger,Hannah Kirk,Bertie Vidgen,Giuseppe Attanasio,Federico Bianchi,Dirk Hovy

safetyalignmentover-refusalDOI DBLP

泛读ShortNAACL 2024

More room for language: Investigating the effect of retrieval on language models

这篇论文要回答的不是“检索能不能提升任务分数”，而是更根本的问题：引入 retrieval 之后，语言模型自身的语言建模能力到底发生了什么变化。过去很多 RAG 工作默认把检索视为免费增益，但它可能让模型把一部分建模负担外包给外部证据，从而改变参数内知识、上下文利用方式和训练动态；这个问题一直缺少系统拆解。

David Samuel,Lucas Georges Gabriel Charpentier,Sondre Wold

retrieval-augmentedlanguage-modelinganalysisDOI DBLP

泛读LongNAACL 2024

First Tragedy, then Parse: History Repeats Itself in the New Era of Large Language Models

这篇论文要讨论的是：在大模型时代，句法能力的获得路径是否真的和过去神经网络时代不同，还是“先记叙事/语义，再学可泛化句法”这类旧规律仍然在重复。标题“First Tragedy, then Parse”明显是在说，LLM 的很多能力增长并没有完全改写学习顺序，而是沿着更早研究中观察到的轨迹再次出现。

Naomi Saphra,Eve Fleisig,Kyunghyun Cho,Adam Lopez

llm-historynlp-paradigmposition-paperDOI DBLP

泛读LongNAACL 2024

Accurate Knowledge Distillation via n-best Reranking

这篇论文要解决的是：知识蒸馏里，teacher 给出的 1-best 输出常常不够可靠，既可能包含搜索误差，也会把不确定性压扁，导致 student 学到的是 teacher 的偶然决策而不是更稳健的偏好结构。作者提出用 n-best reranking 来提高蒸馏标签质量，核心是在蒸馏前先把候选输出重新排序，而不是直接照抄 teacher 首选答案。

Hendra Setiawan

knowledge-distillationrerankingcompressionDOI DBLP

泛读FindingsNAACL 2024

Laying Anchors: Semantically Priming Numerals in Language Modeling

这篇论文要解决的是：语言模型对数字的处理长期偏弱，因为数字既不像普通词那样有稳定离散语义，也很难仅靠 subword 频率学到大小关系和尺度感。过去方法往往把 numeral 当普通 token 处理，或者做专门数值模块但难以融入通用 LM；作者尝试通过 semantic priming 给数字建立“锚点”，让模型对数值空间有更稳定的参照。

Mandar Sharma,Rutuja Murlidhar Taware,Pravesh Koirala,Nikhil Muralidhar,Naren Ramakrishnan

numeracylanguage-modelingembeddingDOI DBLP

泛读LongNAACL 2024

Encoding of lexical tone in self-supervised models of spoken language

这篇论文要解决的是：自监督语音模型到底有没有学到 lexical tone，也就是能区分同一音段在不同声调下的词汇差异。这个问题以前常被更粗的语音指标掩盖，因为模型可能在 ASR 或语义任务上表现不错，但并不代表它把声调作为词汇信息编码好了；对 tonal languages，这个缺口会直接限制统一语音 LM 的表示质量。

Gaofei Shen,Michaela Watkins,Afra Alishahi,Arianna Bisazza,Grzegorz Chrupala

speech-ssllexical-tonerepresentation-learningDOI DBLP

泛读LongNAACL 2024

When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad Responses into Good Labels

这篇论文要解决的是：人类反馈或自动反馈里，大量信号是“这个回答不好”，但真正可训练的高质量正例往往稀缺；能不能把对坏回答的批评，系统地转成好回答标签。过去训练通常直接丢弃 bad responses，或者只把它们当 ranking 负例，这会浪费大量局部、可操作的修正信息；作者要做的是把负反馈转译成建设性监督。

Weiyan Shi,Emily Dinan,Kurt Shuster,Jason Weston,Jing Xu

feedbackdata-synthesisalignmentDOI DBLP

泛读ShortNAACL 2024

Trusting Your Evidence: Hallucinate Less with Context-aware Decoding

Weijia Shi,Xiaochuang Han,Mike Lewis,Yulia Tsvetkov,Luke Zettlemoyer,Wen-tau Yih

hallucinationdecodingcontext-awarenessDOI DBLP

泛读FindingsNAACL 2024

X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment

Dongjae Shin,HyeonSeok Lim,Inho Won,ChangSu Choi,Minjun Kim,Seungwoo Song,Hangyeol Yoo,Sangmin Kim,Kyungtae Lim

vlmbilingualvision-language-alignmentDOI DBLP

泛读ShortNAACL 2024

Language-Independent Representations Improve Zero-Shot Summarization

Vladimir Solovyev,Danni Liu,Jan Niehues

cross-lingualrepresentationzero-shotDOI DBLP

泛读FindingsNAACL 2024

What Makes Math Word Problems Challenging for LLMs?

KV Aditya Srivatsa,Ekaterina Kochmar

reasoningmathevaluationDOI DBLP

泛读SRWNAACL 2024

LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues

Joe Stacey,Jianpeng Cheng,John Torr,Tristan Guigue,Joris Driesen,Alexandru Coca,Mark Gaynor,Anders Johannsen

synthetic-datadialoguedata-generationDOI DBLP

泛读FindingsNAACL 2024

Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study

Alessandro Stolfo

raggroundednesslong-formDOI DBLP

泛读FindingsNAACL 2024

Unlocking Parameter-Efficient Fine-Tuning for Low-Resource Language Translation

这篇工作要解决的是：低资源机器翻译里，参数高效微调经常没有想象中稳定，尤其在语言资源极少或语言差异较大时。过去 PEFT 在英语中心任务上很成功，但直接迁到低资源翻译常常出现容量不够、适配位置不对、或训练信号过稀的问题，因此作者试图把 PEFT 真正“解锁”到低资源 MT。

Tong Su,Xin Peng,Sarubi Thillainathan,David Guzmán,Surangika Ranathunga,En-Shiun Annie Lee

peftlow-resourcetranslationDOI DBLP

泛读LongNAACL 2024

Toward Informal Language Processing: Knowledge of Slang in Large Language Models

这篇工作要解决的是：大语言模型对俚语和非正式语言到底懂多少，以及这种能力缺口在哪里。现有 LLM 主要在标准书面语上预训练和评测，非正式表达通常被当成噪声绕开，但真实交互里俚语携带强语境、群体身份和快速演化的语义，不能靠普通词义匹配替代。

Zhewei Sun,Qian Hu,Rahul Gupta,Richard S. Zemel,Yang Xu

informal-languageslangevaluationDOI DBLP

泛读LongNAACL 2024

CONSCENDI: A Contrastive and Scenario-Guided Distillation Approach to Guardrail Models for Virtual Assistants

这篇工作要解决的是：虚拟助手的 guardrail 模型如何既守住安全边界，又不要把正常请求误杀太多。以往安全过滤常靠规则或粗粒度分类器，容易覆盖不足；直接用大模型判别又成本高、行为不稳定，因此作者提出对 guardrail 模型做对比式、场景引导的蒸馏。

Albert Yu Sun,Varun Nair,Elliot Schumacher,Anitha Kannan

distillationguardrailalignmentDOI DBLP

泛读LongNAACL 2024

Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs?

这篇工作要解决的是：LLM 的知识覆盖与可访问性究竟有多强，强到什么程度会替代知识图谱，弱到什么程度又离不开显式知识库。过去很多讨论把‘模型会回答事实问题’直接等同于‘模型拥有可操作的知识结构’，作者显然想更系统地检验这个等号是否成立。

Kai Sun,Yifan Ethan Xu,Hanwen Zha,Yue Liu,Xin Luna Dong

knowledgeevaluationfactualityDOI DBLP

泛读FindingsNAACL 2024

Narrowing the Gap between Zero- and Few-shot Machine Translation by Matching Styles

这篇工作要解决的是：为什么零样本机器翻译和 few-shot 机器翻译之间常有明显差距，以及能否通过“风格匹配”缩小这个差距。很多时候，few-shot 示例带来的不只是翻译知识本身，还包含目标输出的格式、语气和句法偏好；零样本提示缺少这种风格锚点，所以性能掉得比纯能力差距更大。

Weiting Tan,Haoran Xu,Lingfeng Shen,Shuyue Stella Li,Kenton Murray,Philipp Koehn,Benjamin Van Durme,Yunmo Chen

machine-translationfew-shotstyleDOI DBLP

泛读LongNAACL 2024

Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References

这篇工作要解决的问题是：NLG 评测里很多“指标失效”其实不是指标本身全错，而是参考答案过于单一，导致本来合理的生成被错罚。过去大家常把 BLEU、ROUGE、BERTScore 之类指标表现不稳归因于度量设计本身，但在开放生成任务中，参考覆盖不足本来就会系统性低估模型输出质量。

Tianyi Tang,Hongyuan Lu,Yuchen Jiang,Haoyang Huang,Dongdong Zhang,Wayne Xin Zhao,Tom Kocmi,Furu Wei

evaluationnlgmetricsDOI DBLP

泛读LongNAACL 2024

TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

这篇工作聚焦一个被低估但很实际的问题：LLM 在主题聚焦的对话摘要里会产生幻觉，而现有摘要评测集和指标往往不足以精确测出这种“偏题但流畅”的错误。过去很多摘要评测更偏通用一致性或信息覆盖，但在对话场景中，模型很容易把局部细节编造成看似合理的主题结论，这类错误对真实部署更致命。

Liyan Tang,Igor Shalyminov,Amy Wing-mei Wong,Jon Burnsky,Jake W. Vincent,Yuan Yang ... 省略 4 位作者 ... ,Lijia Sun,Yi Zhang,Saab Mansour,Kathleen McKeown

hallucinationevaluationdialogue-summarizationDOI DBLP

泛读LongNAACL 2024

Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models

这篇工作要解决的是：LLM 做 listwise ranking 时，对候选项的输入顺序很敏感，导致排序结果不稳定，也容易被位置偏置污染。过去很多工作默认把候选列表喂给模型一次就够了，但生成式模型并不是天生的置换不变排序器，候选出现在前、中、后的位置都会影响打分和比较。

Raphael Tang,Xinyu Zhang,Xueguang Ma,Jimmy Lin,Ferhan Ture

self-consistencyrankingreasoningDOI DBLP

泛读LongNAACL 2024

Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval

这篇工作要解决的核心问题是：多语言 dense retrieval 缺少高质量训练数据，尤其是长尾语言，导致检索模型覆盖不全、迁移不稳。过去通常依赖人工标注、机器翻译扩展或从英语迁移，但这些办法要么昂贵，要么语义对齐不够自然，难以同时覆盖很多语言。

Nandan Thakur,Jianmo Ni,Gustavo Hernández Ábrego,John Wieting,Jimmy Lin,Daniel Cer

synthetic-datamultilingualdense-retrievalDOI DBLP

泛读FindingsNAACL 2024

SumCSE: Summary as a transformation for Contrastive Learning

这篇工作要解决的是句向量对比学习中的“正样本构造过于表面化”问题。传统对比学习常用 dropout、回译或轻量文本增强构造正对，但这些变换要么太弱，无法迫使模型学到真正抽象的语义一致性；要么代价较高、噪声较大。

Raghuveer Thirukovalluru,Xiaolan Wang,Jun Chen,Shuyang Li,Jie Lei,Rong Jin,Bhuwan Dhingra

contrastive-learningsummarizationrepresentationDOI DBLP

泛读LongNAACL 2024

MacGyver: Are Large Language Models Creative Problem Solvers?

这篇工作要回答的问题很明确：LLM 到底有没有创造性问题求解能力，尤其是在缺少标准工具、需要临场组合物品和步骤的 MacGyver 式任务上。过去很多 benchmark 测的是知识回忆、推理链或代码生成，但这些都不能很好覆盖“资源受限下的创造性可行方案设计”。

Yufei Tian,Abhilasha Ravichander,Lianhui Qin,Ronan Le Bras,Raja Marjieh,Nanyun Peng,Yejin Choi,Thomas L. Griffiths,Faeze Brahman

reasoningcreativityevaluationDOI DBLP

泛读LongNAACL 2024

Multi-Operational Mathematical Derivations in Latent Space

Marco Valentino,Jordan Meadows,Lan Zhang,André Freitas

reasoninglatent-spacemathematicsDOI DBLP

泛读LongNAACL 2024

Enhancing Large Language Models Against Inductive Instructions with Dual-critique Prompting

Rui Wang,Hongru Wang,Fei Mi,Boyang Xue,Yi Chen,Kam-Fai Wong,Ruifeng Xu

alignmentpromptingrobustnessDOI DBLP

泛读LongNAACL 2024

Assessing Factual Reliability of Large Language Model Knowledge

Weixuan Wang,Barry Haddow,Alexandra Birch,Wei Peng

factualityevaluationknowledgeDOI DBLP

泛读IndustryNAACL 2024

Less is More for Improving Automatic Evaluation of Factual Consistency

Tong Wang,Ninad Kulkarni,Yanjun Qi

factualityevaluationmetricsDOI DBLP

泛读LongNAACL 2024

Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning

这篇工作要解决的是：如何不依赖额外标注对比数据，让大语言模型自己改写与比较生成结果，从而学到更强的句向量。以往句表示学习通常依赖监督式NLI数据、dropout对比学习，或把生成模型和表征模型分开训练；这些做法要么数据成本高，要么训练目标与生成能力脱节，因此作者尝试让LLM直接参与“生成—反思—对比”的闭环。

Huiming Wang,Zhaodonghui Li,Liying Cheng,De Wen Soh,Lidong Bing

sentence-embeddingcontrastive-learningself-refinementDOI DBLP

泛读LongNAACL 2024

SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning

这篇工作要解决的是：现有多语言基础模型评测过于偏向翻译、分类和英语中心指标，难以同时测到跨语言对齐能力与文化推理能力。以前很多基准把“多语言”近似成“多语种词面覆盖”，默认只要跨语种任务分数高就说明模型强，但这会漏掉文化常识、地域语境和价值判断上的失真。

Bin Wang,Zhengyuan Liu,Xin Huang,Fangkai Jiao,Yang Ding,AiTi Aw,Nancy F. Chen

multilingualbenchmarkalignmentDOI DBLP

泛读FindingsNAACL 2024

Role Prompting Guided Domain Adaptation with General Capability Preserve for Large Language Models

这篇工作关注的核心问题是：领域适配时如何增强目标域能力，同时尽量不破坏通用能力。过去常见做法是直接拿领域数据做SFT或继续预训练，但一旦目标域分布过窄，模型容易在专业任务上变强、在开放域问答、指令跟随或安全行为上变差。

Rui Wang,Fei Mi,Yi Chen,Boyang Xue,Hongru Wang,Qi Zhu,Kam-Fai Wong,Ruifeng Xu

domain-adaptationinstruction-tuningcapability-preservationDOI DBLP

泛读FindingsNAACL 2024

AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph

这篇工作要解决的是：现有语言模型评测很少真正测到‘抽象能力’，尤其缺少统一、可分层的评测框架。以前大家常用问答、推理或概括任务做代理，但这些任务往往把知识记忆、表面匹配和抽象概括混在一起，导致很难判断模型到底会不会从具体事实中形成更高层表示。

Zhaowei Wang,Haochen Shi,Weiqi Wang,Tianqing Fang,Hongming Zhang,Sehyun Choi,Xin Liu,Yangqiu Song

benchmarkreasoningabstractionDOI DBLP

泛读LongNAACL 2024

MDR: Model-Specific Demonstration Retrieval at Inference Time for In-Context Learning

这篇工作关注的是：in-context learning中的示例检索不应只看任务相似度，还应考虑‘这个模型本身对哪些示例更吃得下’。现有demonstration retrieval常用语义相似度、标签覆盖或通用编码器打分，但同一组例子对不同模型的作用并不相同，因此通用检索器往往不是最优。

Huazheng Wang,Jinming Wu,Haifeng Sun,Zixuan Xia,Daixuan Cheng,Jingyu Wang,Qi Qi,Jianxin Liao

iclretrievaldemonstrationsDOI DBLP

泛读FindingsNAACL 2024

BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models

这篇工作要解决的是：如何在统一框架下评估因果语言模型和掩码语言模型的关系知识。过去这两类模型常用不同任务、不同提示形式和不同评分方式来测知识，结果很难横向比较，也难判断差异来自模型本身还是评测协议。

Jacek Wiland,Max Ploner,Alan Akbik

knowledge-probingcausal-lmmasked-lmDOI DBLP

泛读FindingsNAACL 2024

Weight-Inherited Distillation for Task-Agnostic BERT Compression

这篇工作要解决的是：如何把 BERT 压缩成更小模型，同时尽量避免为每个下游任务单独蒸馏一次。传统 BERT 压缩通常依赖 task-specific distillation，效果可以不错，但训练成本高、迁移性差，也不适合把压缩模型当通用预训练底座来复用。

Taiqiang Wu,Cheng Hou,Shanshan Lao,Jiayi Li,Ngai Wong,Zhe Zhao,Yujiu Yang

distillationbertcompressionDOI DBLP

泛读LongNAACL 2024

Aligning as Debiasing: Causality-Aware Alignment via Reinforcement Learning with Interventional Feedback

这篇工作要解决的是：对齐训练中的偏见纠正，不能只靠相关性层面的奖励信号，而需要显式区分因果因素与混杂因素。过去很多 alignment 或 debiasing 方法用人类偏好或启发式 reward 直接做 RL，这能改行为，但也容易学到数据中的表面偏置，甚至把“看起来无偏”优化成另一种 shortcut。

Yu Xia,Tong Yu,Zhankui He,Handong Zhao,Julian J. McAuley,Shuai Li

alignmentdebiasingrlhfDOI DBLP

泛读LongNAACL 2024

Bridging the Gap between Different Vocabularies for LLM Ensemble

这篇工作要解决的是：不同 tokenizer / vocabulary 的 LLM 很难直接做高质量 ensemble，因为它们的 token 边界和概率空间不对齐。过去模型集成通常默认共享词表，或者退回到输出层投票；但对现代 LLM 来说，词表差异会让逐步解码时的概率融合变得别扭，最终限制了 ensemble 的增益。

Yangyifan Xu,Jinliang Lu,Jiajun Zhang

llm-ensemblevocabularytokenizerDOI DBLP

泛读FindingsNAACL 2024

Automatic Pair Construction for Contrastive Post-training

这篇工作要解决的是：contrastive post-training 需要高质量正负样本对，但人工构造或启发式挖掘代价高、覆盖窄，限制了这类后训练方法在大模型上的规模化使用。过去很多对比学习式后训练依赖手工模板、BM25 检索或现成标注对，效果受数据工程质量强烈影响。

Canwen Xu,Corby Rosset,Ethan C. Chau,Luciano Del Corro,Shweti Mahajan,Julian J. McAuley,Jennifer Neville,Ahmed Awadallah,Nikhil Rao

contrastive-learningpost-trainingpair-constructionDOI DBLP

泛读LongNAACL 2024

Sequential Compositional Generalization in Multimodal Models

这篇工作要解决的是：多模态模型是否真正具备 sequential compositional generalization，也就是能否按顺序理解并组合多个概念、属性或操作，而不是只记住训练中见过的图文搭配。过去多模态 benchmark 常能测出对齐能力，却较难区分模型是在做组合泛化，还是在依赖视觉共现和文本模板。

Semih Yagcioglu,Osman Batur Ince,Aykut Erdem,Erkut Erdem,Desmond Elliott,Deniz Yuret

compositional-generalizationmultimodalsequentialDOI DBLP

泛读ShortNAACL 2024

Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding

这篇工作要解决的是：在机器翻译里，如何把偏好优化直接用于序列生成质量提升，并和 Minimum Bayes Risk, MBR 解码结合起来。传统 NMT 主要靠 MLE 训练，再用 beam search 或 MBR 在推理时补救目标错配；但训练目标和最终评价指标长期不一致，导致模型概率高的翻译不一定是人偏好的翻译。

Guangyu Yang,Jinghong Chen,Weizhe Lin,Bill Byrne

dponmtmbr-decodingDOI DBLP

泛读SRWNAACL 2024

Exploring Compositional Generalization of Large Language Models

这篇工作要解决的是：大语言模型的 compositional generalization 到底有多强、强在哪里、又在哪些设定下明显失效。过去很多工作把 LLM 的组合泛化能力讲得比较笼统，但真实情况通常更细：模型可能能处理浅层组合，却在变量绑定、规则迁移或深层嵌套上迅速退化。

Haoran Yang,Hongyuan Lu,Wai Lam,Deng Cai

compositional-generalizationllmevaluationDOI DBLP

泛读LongNAACL 2024

LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of Large Language Models

Yifan Yang,Jiajun Zhou,Ngai Wong,Zheng Zhang

loratensor-trainparameter-efficientDOI DBLP

泛读FindingsNAACL 2024

GoT: Effective Graph-of-Thought Reasoning in Language Models

Yao Yao,Zuchao Li,Hai Zhao

reasoningplanningpromptingDOI DBLP

泛读SRWNAACL 2024

Cross-Task Generalization Abilities of Large Language Models

Qinyuan Ye

generalizationtransferevaluationDOI DBLP

泛读FindingsNAACL 2024

MuMath: Multi-perspective Data Augmentation for Mathematical Reasoning in Large Language Models

Weihao You,Shuo Yin,Xudong Zhao,Zhilong Ji,Guoqiang Zhong,Jinfeng Bai

data-augmentationmathreasoningDOI DBLP

泛读FindingsNAACL 2024

ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks

Xiaodong Yu,Hao Cheng,Xiaodong Liu,Dan Roth,Jianfeng Gao

raghallucinationevaluationDOI DBLP

泛读FindingsNAACL 2024

Natural Language Embedded Programs for Hybrid Language Symbolic Reasoning

这篇工作针对的是纯自然语言推理在符号约束、程序执行和多步组合上不稳定的问题。过去通常要么让 LLM 直接 chain-of-thought 硬推，要么把问题全部转成代码再交给执行器；前者容易漂移，后者表达门槛高且不够自然，这篇论文试图在两者之间找一个混合表示。

Tianhua Zhang,Jiaxin Ge,Hongyin Luo,Yung-Sung Chuang,Mingye Gao,Yuan Gong,Yoon Kim,Xixin Wu,Helen Meng,Jim Glass

reasoningsymbolicprogramsDOI DBLP

泛读FindingsNAACL 2024

Pruning as a Domain-specific LLM Extractor

这篇工作想解决的是：如何从一个通用大模型中提取出更适合某个领域的子模型，而不是重新训练一个领域模型。以前常见路线是 continued pretraining、蒸馏或 adapter 微调，但这些方法要么成本高，要么保留了大量与目标领域无关的参数冗余；作者提出把 pruning 反过来当作“领域提取器”。

Nan Zhang,Yanchi Liu,Xujiang Zhao,Wei Cheng,Runxue Bao,Rui Zhang,Prasenjit Mitra,Haifeng Chen

pruningcompressiondomain-adaptationDOI DBLP

泛读LongNAACL 2024

AutoLoRA: Automatically Tuning Matrix Ranks in Low-Rank Adaptation Based on Meta Learning

这篇工作聚焦 LoRA 的一个现实痛点：低秩矩阵的 rank 通常靠手调，而不同层、不同任务所需 rank 差异很大。过去要么全模型统一设一个 rank，要么做昂贵的网格搜索；这两种方式都浪费预算，因为 rank 太小会欠拟合，太大又失去参数高效微调的意义。

Ruiyi Zhang,Rushi Qiang,Sai Ashish Somayajula,Pengtao Xie

loraparameter-efficientmeta-learningDOI DBLP

泛读FindingsNAACL 2024

Towards Better Generalization in Open-Domain Question Answering by Mitigating Context Memorization

这篇工作要解决开放域问答里的一个核心泛化问题：模型很容易记住训练时给过的上下文模式，却没有真正学会从新上下文中提取答案。过去很多方法用更强 retriever、更多数据或更大模型提升分数，但这些提升里混杂了相当多的 context memorization，导致分布一变性能就掉。

Zixuan Zhang,Revanth Gangi Reddy,Kevin Small,Tong Zhang,Heng Ji

open-domain-qamemorizationgeneralizationDOI DBLP

泛读LongNAACL 2024

Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding

这篇工作要解决的是大语言模型在长上下文或干扰信息存在时，虽然表面上“看到了”上下文，但解码阶段未必真正利用了有用证据。以往很多工作通过提示工程或检索增强来补上下文，却较少直接改解码目标本身；这篇论文重新切入的是：能不能在不改模型参数的前提下，让模型在生成时更偏向“由上下文支持”的续写。

Zheng Zhao,Emilio Monti,Jens Lehmann,Haytham Assem

contrastive-decodingdecodingcontextDOI DBLP

泛读LongNAACL 2024

Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method

这篇工作要解决的是让 LLM 知道自己不知道什么，也就是在回答前识别“我没有把握”而不是事后再靠外部校验补救。过去很多方法依赖外部知识库、采样一致性或额外监督信号，成本高且部署复杂；这篇论文强调的是一种简单但有效的自检测方法，目标是直接提升模型的不确定性暴露能力。

Yukun Zhao,Lingyong Yan,Weiwei Sun,Guoliang Xing,Chong Meng,Shuaiqiang Wang,Zhicong Cheng,Zhaochun Ren,Dawei Yin

self-detectionuncertaintyhallucinationDOI DBLP

泛读FindingsNAACL 2024

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

这篇工作要解决的是如何系统刻画不同大模型与 GPT-4 之间的能力差距，并据此推断“向 GPT-4 演化”的技术路径。过去很多 benchmark 只给静态分数排名，难以回答模型到底差在知识、推理、指令遵循还是鲁棒性，也难以从评测结果反推出研发方向；这篇论文更像是在做能力谱系分析，而不只是排行榜。

Shen Zheng,Yuyu Zhang,Yijie Zhu,Chenguang Xi,Pengyang Gao,Zhou Xun,Kevin Chang

benchmarkgpt-4capability-evaluationDOI DBLP

泛读FindingsNAACL 2024

AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models

这篇工作要解决的是 foundation model 评测过度依赖自动化题库和机器指标，导致结果与真实人类能力要求之间存在偏差。以前的 benchmark 往往追求大规模和易打分，却回避了“题目是否真的代表人类通用认知和考试能力”这个更难的问题；AGIEval 重新把评测拉回到人类中心的能力标尺上。

Wanjun Zhong,Ruixiang Cui,Yiduo Guo,Yaobo Liang,Shuai Lu,Yanlin Wang,Amin Saied,Weizhu Chen,Nan Duan

benchmarkfoundation-modelsevaluationDOI DBLP

泛读FindingsNAACL 2024

PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics

这篇工作要解决的是 LLM 幻觉不仅是“最后答案错了”，而是生成过程中状态如何一步步偏离真实约束的问题。过去很多研究只在输出端检测或纠错，较少把 hallucination 当成一个动态演化过程来分析；PoLLMgraph 试图用状态转移视角去拆开这种失真是如何形成和扩散的。

Derui Zhu,Dingfan Chen,Qing Li,Zongxiong Chen,Lei Ma,Jens Grossklags,Mario Fritz

hallucinationstate-dynamicsinterpretabilityDOI DBLP

泛读LongNAACL 2024

VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization

这篇工作要解决的是多模态大模型零样本能力不足，尤其是在图像-语言任务上，模型即使有预训练能力，也未必能从用户指令中激活合适的视觉理解行为。过去很多方法依赖人工写 instruction data 或大规模人工标注，而这篇论文关注的是 autonomous instruction optimization：让系统自动改进用于训练或提示的多模态指令。

Dongsheng Zhu,Daniel Tang,Weidong Han,Jinghui Lu,Yukun Zhao,Guoliang Xing,Junfeng Wang,Dawei Yin

multimodal-llminstruction-tuningdata-synthesisDOI DBLP

泛读LongNAACL 2024

Visual Grounding Helps Learn Word Meanings in Low-Data Regimes

这篇工作要解决的是在低数据条件下，语言模型如何更有效地学会词义。传统纯文本分布式学习在高资源时很强，但在低资源下，词义往往学得不稳、过度依赖共现；这篇论文重新检验一个经典但仍重要的问题：视觉 grounding 是否能在数据稀缺时提供额外的语义锚点，帮助模型更快学到词义。

Chengxu Zhuang,Evelina Fedorenko,Jacob Andreas

visual-groundinglow-resourcemultimodalDOI DBLP

泛读ShortNAACL 2024

Beyond Yes and No: Improving Zero-Shot LLM Rankers via Scoring Fine-Grained Relevance Labels

Honglei Zhuang,Zhen Qin,Kai Hui,Junru Wu,Le Yan,Xuanhui Wang,Michael Bendersky

rankingzero-shotrelevanceDOI DBLP

泛读NAACL 2024

SLPL SHROOM at SemEval2024 Task 06 : A comprehensive study on models ability to detect hallucination

Pouya Fallah,Soroush Gooran,Mohammad Jafarinasab,Pouya Sadeghi,Reza Farnia,Amirreza Tarabkhah,Zeinab Sadat Taghavi,Hossein Sameti

hallucinationevaluationllmDOI DBLP

泛读NAACL 2024

CTYUN-AI at SemEval-2024 Task 7: Boosting Numerical Understanding with Limited Data Through Effective Data Alignment

Yuming Fan,Dongming Yang,Xu He

numerical-reasoningdata-alignmentlimited-dataDOI DBLP

泛读NAACL 2024

ALF at SemEval-2024 Task 9: Exploring Lateral Thinking Capabilities of LMs through Multi-task Fine-tuning

Seyed Ali Farokh,Hossein Zeinali

multi-taskfine-tuningreasoningDOI DBLP

泛读NAACL 2024

NumDecoders at SemEval-2024 Task 7: FlanT5 and GPT enhanced with CoT for Numerical Reasoning

Andres Gonzalez,Md Zobaer Hossain,Jahedul Alam Junaed

cotnumerical-reasoningpromptingDOI DBLP

泛读NAACL 2024

AILS-NTUA at SemEval-2024 Task 6: Efficient model tuning for hallucination detection and analysis

Natalia Grigoriadou,Maria Lymperaiou,George Filandrianos,Giorgos Stamou

hallucinationparameter-efficient-tuningevaluationDOI DBLP

泛读NAACL 2024

DUTh at SemEval-2024 Task 6: Comparing Pre-trained Models on Sentence Similarity Evaluation for Detecting of Hallucinations and Related Observable Overgeneration Mistakes

Ioanna Iordanidou,Ioannis Maslaris,Avi Arampatzis

hallucinationpretrained-modelssentence-similarityDOI DBLP

泛读NAACL 2024

SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense

Yifan Jiang,Filip Ilievski,Kaixin Ma

reasoningbenchmarkbrain-teaserDOI DBLP

泛读NAACL 2024

LMEME at SemEval-2024 Task 4: Teacher Student Fusion - Integrating CLIP with LLMs for Enhanced Persuasion Detection

Shiyi Li,Yike Wang,Liang Yang,Shaowu Zhang,Hongfei Lin

clipteacher-studentllmDOI DBLP

泛读NAACL 2024

CoT-based Data Augmentation Strategy for Persuasion Techniques Detection

Dailin Li,Chuhan Wang,Xin Zou,Junlong Wang,Peng Chen,Jian Wang,Liang Yang,Hongfei Lin

cotdata-augmentationsynthetic-dataDOI DBLP

泛读NAACL 2024

Bit_numeval at SemEval-2024 Task 7: Enhance Numerical Sensitivity and Reasoning Completeness for Quantitative Understanding

Xinyue Liang,Jiawei Li,Yizhe Yang,Yang Gao

numerical-reasoningreasoningdata-augmentationDOI DBLP

泛读NAACL 2024

Halu-NLP at SemEval-2024 Task 6: MetaCheckGPT - A Multi-task Hallucination Detection using LLM uncertainty and meta-models

这篇工作要解决的是：怎样在共享任务设定下更稳地检测 LLM 幻觉与可观察到的过生成错误，而不是只依赖单一生成模型的打分或表面文本特征。这个问题此前常被拆成若干特定子任务分别做，或者直接用黑盒 LLM 判别；这样做迁移性和校准通常都不稳定，尤其在任务定义覆盖事实冲突、无依据补写和不忠实改写时更明显。

Rahul Mehta,Andrew Hoblitzell,Jack O'Keefe,Hyeju Jang,Vasudeva Varma

hallucinationuncertaintymulti-taskDOI DBLP

泛读NAACL 2024

PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text?

这篇工作要回答的是：语言学特征能否稳定捕捉 LLM 生成文本和人类文本之间的差异，而不是只依赖生成器特定水印、困惑度或黑盒分类器。这个问题值得重做，是因为随着生成模型质量提升，早期靠流畅度、重复度和简单句法统计做检测的办法越来越容易失效。

Kseniia Petukhova,Roman Kazakov,Ekaterina Kochmar

machine-generated-textlinguisticsdetectionDOI DBLP

泛读NAACL 2024

TueSents at SemEval-2024 Task 8: Predicting the Shift from Human Authorship to Machine-generated Output in a Mixed Text

这篇工作关注的核心问题是：在一段人机混合文本里，能否定位作者身份从人类切换到机器的边界，而不是只做整段二分类。这个问题比普通 AI 文本检测更难，因为局部风格差异可能很弱，而且边界任务要求模型同时理解篇章连续性和局部突变。

Valentin Pickard,Hoa Do

machine-generated-textboundary-detectionmixed-textDOI DBLP

泛读NAACL 2024

TM-TREK at SemEval-2024 Task 8: Towards LLM-Based Automatic Boundary Detection for Human-Machine Mixed Text

这篇工作要解决的是：能否直接利用 LLM 做人机混合文本的边界检测，从而减少传统特征工程在新生成器上的脆弱性。这个问题之所以值得做，是因为边界定位比整段分类更依赖高层语义和篇章一致性，而这些恰好是大模型相对擅长但传统分类器较弱的部分。

Xiaoyan Qu,Xiangfeng Meng

llmboundary-detectionmachine-generated-textDOI DBLP

泛读NAACL 2024

RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic Features for Distinguishing AI-Generated and Human-Written Texts

这篇工作要解决的是：句法和语义特征在区分 AI 文本与人类文本时各自贡献多大，是否能形成比单一困惑度或词频统计更稳的检测器。这个问题之所以重要，是因为当前生成模型越来越会模仿表层风格，检测若只抓浅层信号，往往对新模型和新领域失效很快。

Mohammad Heydari Rad,Farhan Farsi,Shayan Bali,Romina Etezadi,Mehrnoush Shamsfard

machine-generated-textsyntaxsemanticsDOI DBLP

泛读NAACL 2024

HalluSafe at SemEval-2024 Task 6: An NLI-based Approach to Make LLMs Safer by Better Detecting Hallucinations and Overgeneration Mistakes

这篇工作要解决的是：能否用 NLI，也就是自然语言推断，来更可靠地识别 LLM 幻觉和过生成错误，从而提升系统安全性。这个问题值得做，因为很多 hallucination 实际上都可以改写成“输出是否被输入蕴含、矛盾或无关”的判定，而直接让生成模型自评往往不够稳定。

Zahra Rahimi,Hamidreza Amirzadeh,Alireza Sohrabi,Zeinab Taghavi,Hossein Sameti

hallucinationnlisafetyDOI DBLP

泛读NAACL 2024

DFKI-NLP at SemEval-2024 Task 2: Towards Robust LLMs Using Data Perturbations and MinMax Training

这篇工作要解决的是：如何让 LLM 在扰动输入下更稳健，而不是只在干净分布上表现良好。这个问题一直存在，但在大模型时代更突出，因为 instruction-tuned 模型常在表面改写、拼写噪声、格式变化和对抗提示下迅速退化，说明其泛化有相当一部分依赖脆弱的表层模式。

Bhuvanesh Verma,Lisa Raithel

robustnessdata-augmentationminmax-trainingDOI DBLP

泛读NAACL 2024

SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection

这篇论文的核心结论是：机器生成文本检测不能再被当成单一英语二分类问题，必须同时面对多模型、多领域、多语言以及混合作者边界定位。过去不少检测工作在单一生成器或单域上分数很高，但一旦换模型、换语言或换任务形式，性能就明显下滑，因此需要一个覆盖更真实分布偏移的统一评测。

Yuxia Wang,Jonibek Mansurov,Petar Ivanov,Jinyan Su,Artem Shelmanov,Akim Tsvigun,Osama Mohammed Afzal,Tarek Mahmoud,Giovanni Puccetti,Thomas Arnold

llm-detectionbenchmarkmultilingualDOI arXiv DBLP

泛读NAACL 2024

NCL_NLP at SemEval-2024 Task 7: CoT-NumHG: A CoT-Based SFT Training Strategy with Large Language Models for Number-Focused Headline Generation

这篇工作的结论很明确：标题生成中的数字错误需要显式训练策略来纠正，单靠普通 SFT 不够。作者关注的是 Numeral-Aware Headline Generation，原因是新闻标题里的数字往往承载关键信息，但大模型即使语言流畅，也常在计算、复制或选择数字时出错，导致输出表面自然但事实不对。

Junzhe Zhao,Yingxi Wang,Huizhi Liang,Nicolay Rusnachenko

sftcottraining-strategyDOI DBLP

泛读NAACL 2024

WikiScenes with Descriptions: Aligning Paragraphs and Sentences with Images in Wikipedia Articles

这篇工作解决的是：现有图文模型大多在 caption 级配对数据上训练和评测，几乎不处理 Wikipedia 这类多段落、多图片、跨句隐式对齐的真实长文档，因此我们并不知道模型是否真的会做文档级视觉 grounding。过去这个问题常被回避，因为真实文章里的图文对应关系并不显式，人工标注成本高；但如果想让模型在原生多模态文档里工作，这个缺口不能再靠 caption 数据替代。

Özge Alaçam,Ronja Utescher,Hannes Gröner,Judith Sieker,Sina Zarrieß

multimodalalignmentdatasetDOI DBLP

泛读NAACL 2024

Speedy Gonzales: A Collection of Fast Task-Specific Models for Spanish

这篇工作解决的是：西语场景缺少一套真正可部署的轻量模型，而现有压缩、蒸馏资源主要集中在英语或多语通用模型，导致西语用户在低资源推理条件下往往只能在性能和时延之间做很差的取舍。这个问题以前通常被“直接用大模型”或“沿用英文压缩方案”次优处理，但对西语生态并不够。

José Cañete,Felipe Bravo-Marquez

model-compressiondistillationefficientDOI DBLP

泛读NAACL 2024

Compositional Structured Explanation Generation with Dynamic Modularized Reasoning

这篇工作要解决的是：现有语言模型在推理任务上常能做出正确答案，但它们是否具备对组合结构的泛化能力，尤其是在推理步数和推理树形状超出训练分布时，缺少合适任务来测。过去很多基准更关注最终答案准确率，或者组合性变化不够系统，因此模型到底是在学规则还是在记模板并不清楚。

Xiyan Fu,Anette Frank

Heidelberg UniversityreasoningcompositionalitygeneralizationDOI DBLP

泛读NAACL 2024

A Trip Towards Fairness: Bias and De-Biasing in Large Language Models

这篇工作讨论的是：大语言模型中的偏见如何被识别、量化并缓解，而现有做法常常把公平性当成单一分数，忽略偏见类型、触发条件和去偏代价之间的关系。这个问题持续重要，因为 LLM 已从离线评测进入真实交互场景，偏见不再只是静态分类器上的指标问题。

Leonardo Ranaldi,Elena Sofia Ruzzetti,Davide Venditti,Dario Onorati,Fabio Massimo Zanzotto

biasdebiasingllmDOI DBLP

泛读NAACL 2024

Multilingual and Code-Switched Sentence Ordering

这篇工作解决的是：句子排序这个经典语篇理解任务过去过于依赖英文和较规整的叙事结构，导致我们并不清楚模型在多语言、跨文化叙事以及 code-switch 场景下是否真的会建模篇章连贯性。之前的设置之所以次优，是因为语言多样性和混合语言文本会显著改变时间、因果和 discourse cue 的表达方式。

Alexandre Salle,Shervin Malmasi

sentence-orderingmultilingualcode-switchingDOI DBLP

泛读NAACL 2024

Lexical Substitution as Causal Language Modeling

这篇工作要解决的是：词汇替换任务长期主要依赖 masked LM 或专门排序模型，而因果语言模型虽然更符合当前大模型主流，却很少被直接用于 lexical substitution，因为其自回归解码天然不擅长在句中某个位置生成替换词。作者指出，现有方法常存在预训练目标与下游使用方式不一致的问题，这会限制替换质量。

Ning Shi,Bradley Hauer,Grzegorz Kondrak

causal-lmobjective-mismatchdecodingDOI DBLP

泛读NAACL 2024

A Closer Look at Claim Decomposition

这篇工作解决的是：许多事实支持度评测方法先把生成文本拆成多个子 claim，再逐条验证，但大家往往默认 decomposition 这一步是可靠的，实际上它本身会显著影响最终分数。过去像 FActScore 这类方法更关注验证器质量，而较少追问“拆得对不对”；作者指出，如果分解错了，错误会被错误地归到生成模型头上。

Miriam Wanner,Seth Ebner,Zhengping Jiang,Mark Dredze,Benjamin Van Durme

Johns Hopkins Universityevaluationclaim-decompositionfactualityDOI arXiv DBLP