ACL 2024

Annual Meeting of the Association for Computational Linguistics

会议官网

385/ 2145 相关论文

Track

方向

Tier

385 / 385 篇论文

精读LongACL 2024

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

这篇工作解决的是：开放预训练研究长期缺少一个规模足够大、清洗过程透明、许可边界相对明确的高质量语料库，导致很多预训练结论无法在真正开放条件下复现。过去开源社区常用 The Pile、C4、RedPajama 这类语料，但要么规模偏小，要么质量/去重/文档来源处理不够系统，要么许可和可获得性限制了长期可用性。

Luca Soldaini,Rodney Kinney,Akshita Bhagia,Dustin Schwenk,David Atkinson,Russell Authur ... 省略 20 位作者 ... ,Nishant Subramani,Oyvind Tafjord,Pete Walsh,Luke Zettlemoyer

pretraining-datadata-qualityopen-corpusDOI DBLP

精读LongACL 2024

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

这篇 paper 的核心结论是：传统 top-K MoE 的专家粒度太粗，容易造成专家之间知识重叠，导致参数虽然多、真正的 specialization 却不够。过去 GShard/Switch 一类做法主要解决可扩展性和路由稳定性，但没有把“专家应当学到彼此尽量不重叠的知识”推到设计中心。

Damai Dai,Chengqi Deng,Chenggang Zhao,R. X. Xu,Huazuo Gao,Deli Chen ... 省略 7 位作者 ... ,Fuli Luo,Chong Ruan,Zhifang Sui,Wenfeng Liang

moearchitecturescalingDOI arXiv DBLP

精读LongACL 2024

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

这篇工作要解决的是：Web 预训练语料噪声大、表达差，导致 scaling law 下需要更多数据与算力才能学到同等能力，而高质量数据又越来越稀缺。作者要验证一个直接问题：如果把同一份网页内容“改写得更像高质量语料”，能否用更少 tokens/compute 训练出更强模型。

Pratyush Maini,Skyler Seto,Richard He Bai,David Grangier,Yizhe Zhang,Navdeep Jaitly

data-qualitydata-rewritingscaling-lawDOI arXiv DBLP

精读LongACL 2024

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

Jun Zhan,Junqi Dai,Jiasheng Ye,Yunhua Zhou,Dong Zhang,Zhigeng Liu ... 省略 6 位作者 ... ,Tao Gui,Tianxiang Sun,Yu-Gang Jiang,Xipeng Qiu

unified-multimodaldiscrete-tokenizationany-modalityDOI DBLP

精读LongACL 2024

Back to Basics: Revisiting REINFORCE-Style Optimization for Learning from Human Feedback in LLMs

Arash Ahmadian,Chris Cremer,Matthias Gallé,Marzieh Fadaee,Julia Kreutzer,Olivier Pietquin,Ahmet Üstün,Sara Hooker

rlhfreinforcealignmentDOI DBLP

精读LongACL 2024

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

现有次平方复杂度语言模型架构（如状态空间模型）语言建模性能优于标准Transformer，但上下文学习能力远弱于后者。基于固定泰勒展开核的混合架构Based缓解了该差距，但固定核的强归纳偏置仍限制了上下文学习表现的进一步提升。

Yaroslav Aksenov,Nikita Balagansky,Sofia Maria Lo Cicero Vaina,Boris Shaposhnikov,Alexey Gorbatovski,Daniil Gavrilov

linear-attentionarchitecturein-context-learningDOI arXiv DBLP

泛读FindingsACL 2024

Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability

现有语言模型生成的内容缺乏全局事实一致性，无法形成可编辑的统一世界模型，容易生成错误内容且知识更新成本高。之前的事实增强方法仅依赖外部知识库输入，没有利用模型自身的推理能力校准事实。

Afra Feyza Akyürek,Ekin Akyürek,Leshem Choshen,Derry Wijaya,Jacob Andreas

MIT CSAILtraining-objectiveworld-modelknowledge-consistencyDOI arXiv DBLP

泛读LongACL 2024

NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents

这篇 paper 的核心问题是：长文档建模不一定非要在 token 粒度上硬撑 quadratic attention，能不能直接把更高层的语义块当作建模对象。传统 MLM 在长文档上成本高且容易被局部 token 预测牵着走，对整段语义结构的建模并不高效，因此作者重新定义了 MLM 的预测单位。

Tamara Czinczoll,Christoph Hönes,Maximilian Schall,Gerard de Melo

masked-lmlong-contexthierarchicalDOI arXiv DBLP

精读LongACL 2024

SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

这篇论文解决的是预训练数据重复带来的效率浪费，但不走“硬删除重复样本”这条过于粗糙的路。现有 dedup 常把重复视为二元问题：像就删、不像就留；问题是这样会误删仍有信息量的高频样本，也无法区分“轻微常见”和“严重重复”的程度差异。

Nan He,Weichen Xiong,Hanwen Liu,Yi Liao,Lei Ding,Kai Zhang,Guohua Tang,Xiao Han,Yang Wei

data-qualitydedupdata-reweightingDOI arXiv DBLP

精读FindingsACL 2024

Accelerating Multilingual Language Model for Excessively Tokenized Languages

这篇论文要解决的是英语中心 tokenizer 给非罗马字母语言带来的过度切分问题，它会直接拖慢多语言 LLM 的生成速度。过去通常接受这一代价，或者通过重新训练 tokenizer 和模型整体适配目标语言，但这两条路都很重，特别不适合已经训练好的大模型。

Jimin Hong,Gibbeum Lee,Jaewoong Cho

tokenizermultilingualefficiencyDOI arXiv DBLP

泛读LongACL 2024

Harder Task Needs More Experts: Dynamic Routing in MoE Models

现有MoE模型普遍采用固定TopK路由机制，无论输入样本难度都激活相同数量的专家，简单样本浪费计算资源，复杂样本因专家数量不足性能受限。之前的动态路由方法多聚焦于负载均衡，没有关联样本难度和激活专家数。

Quzhe Huang,Zhenwei An,Nan Zhuang,Mingxu Tao,Chen Zhang,Yang Jin,Kun Xu,Liwei Chen,Songfang Huang,Yansong Feng

moedynamic-routingefficiencyDOI DBLP

精读LongACL 2024

RepCodec: A Speech Representation Codec for Speech Tokenization

现有语音离散tokenizer多基于重构原始音频优化，离散化过程会丢失大量语义信息，导致语音输入大模型后的下游任务性能下降。之前的语义tokenizer没有直接对齐预训练语音编码器的表示空间。

Zhichao Huang,Chutong Meng,Tom Ko

speech-tokenizerspeech-lmdiscrete-representationDOI arXiv DBLP

精读LongACL 2024

Semiparametric Token-Sequence Co-Supervision

这篇论文要解决的是：标准 next-token prediction 只在局部 token 级监督模型，可能不足以让模型学到更强的全局语义泛化；有没有办法在保留 AR 训练主干的同时，引入序列级监督。过去也有 sentence embedding 或 contrastive learning 工作，但它们往往和主 LM 目标分离，没真正和 token 预测形成同一训练闭环。

Hyunji Lee,Doyoung Kim,Jihoon Jun,Se June Joo,Joel Jang,Kyoung-Woon On,Minjoon Seo

language-modelingtraining-objectivenonparametricDOI arXiv DBLP

精读FindingsACL 2024

BranchNorm: Robustly Scaling Extremely Deep Transformers

这篇工作要解决的是：极深 Transformer 虽然有潜力，但训练稳定性很差；DeepNorm 通过固定约束更新幅度改善了早期稳定性，却可能把整个训练过程都压得过于保守，最终模型欠训练。换句话说，问题不只是‘怎么防炸’，还包括‘防炸之后别把收敛速度和最终性能一起压没了’。

Yijin Liu,Xianfeng Zeng,Fandong Meng,Jie Zhou

transformeroptimizationtraining-stabilityDOI arXiv DBLP

精读FindingsACL 2024

Diffusion Guided Language Modeling

可控文本生成中，AR 语言模型的引导方法容易产生级联解码错误导致质量下降，而 text diffusion model 虽然容易引导但 perplexity 显著高于 AR 模型。本文要把两者的优势结合起来。

Justin Lovelace,Varsha Kishore,Yiwei Chen,Kilian Q. Weinberger

Cornell Universitydiffusion-lmcontrolled-generationguidanceDOI arXiv DBLP

精读LongACL 2024

AboutMe: Using Self-Descriptions in Webpages to Document the Effects of English Pretraining Data Filters

Pretrain 数据筛选（质量过滤和语言识别）会隐式地偏向或排斥特定社会群体和地理区域的内容，但这种偏差此前缺乏系统性的量化研究。本文通过网页创建者的自我描述来追踪过滤器对不同社会维度内容的影响。

Li Lucy,Suchin Gururangan,Luca Soldaini,Emma Strubell,David Bamman,Lauren F. Klein,Jesse Dodge

Allen Institute for AIUC Berkeleydata-qualitydata-filteringpretraining-dataDOI arXiv DBLP

精读LongACL 2024

Your Transformer is Secretly Linear

这篇论文的结论是：许多 Transformer decoder 层间表征变换呈现近乎完美的线性关系，这与我们通常把每层都当作强非线性计算单元的直觉不一致，也影响我们如何理解深层堆叠的有效性。

Anton Razzhigaev,Matvey Mikhalchuk,Elizaveta Goncharova,Nikolai Gerasimenko,Ivan V. Oseledets,Denis Dimitrov,Andrey Kuznetsov

transformerlinearityrepresentationDOI arXiv DBLP

泛读LongACL 2024

UniCoder: Scaling Code Large Language Model via Universal Code

现有代码大模型多用自然语言思维链作为中间表示提升生成性能，但自然语言思维链的逻辑结构和表达形式与代码不匹配，在代码翻译、跨语言代码生成等任务上效果受限。之前的中间表示没有统一不同编程语言的逻辑抽象。

Tao Sun,Linzheng Chai,Jian Yang,Yuwei Yin,Hongcheng Guo,Jiaheng Liu,Bing Wang,Liqun Yang,Zhoujun Li

code-llmscalingdataDOI arXiv DBLP

精读LongACL 2024

LLaMA Pro: Progressive LLaMA with Block Expansion

核心问题是如何在不从头预训练的前提下，把已有 LLaMA 这类基座模型“扩容”到更强容量，同时尽量保住原模型能力与训练稳定性；以往要么直接继续预训练大模型成本高，要么做 LoRA/Adapter 容量受限且难以获得“真扩容”的收益。

Chengyue Wu,Yukang Gan,Yixiao Ge,Zeyu Lu,Jiahao Wang,Ye Feng,Ying Shan,Ping Luo

block-expansioncontinual-pretrainprogressive-trainingDOI DBLP

精读FindingsACL 2024

A Meta-Learning Perspective on Transformers for Causal Language Modeling

核心问题是 Transformer 在 causal LM 训练后为何能表现出强泛化与上下文适应能力缺少可解释的训练过程视角；以往多从架构或注意力模式做解释，但对“训练把模型推向了什么样的内在算法”说不清。

Xinbo Wu,Lav R. Varshney

meta-learningtransformer-mechanismcausal-lmDOI arXiv DBLP

精读FindingsACL 2024

XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection

这篇论文的核心问题是：标准 sparse MoE 虽然参数规模大、理论算力低，但实际计算并不够“稀”，很多参数仍被低激活或近零值无效参与。过去 MoE 的主要优化集中在路由均衡和训练稳定性，而对“选了专家后，专家内部还有多少无效计算”处理得不够细，所以推理和训练效率都被浪费。

Yuanhang Yang,Shiyi Qi,Wenchao Gu,Chaozheng Wang,Cuiyun Gao,Zenglin Xu

moesparsityroutingDOI arXiv DBLP

精读SRWACL 2024

STEP: Staged Parameter-Efficient Pre-training for Large Language Models

这篇论文关注的问题是：大语言模型继续预训练成本太高，而常规参数高效方法又常在能力保留和迁移效果之间失衡。过去 PEFT 多用于下游微调，不一定适合 pre-training 场景；如果直接把全量继续预训练替换成轻量适配，往往会遇到容量不足或知识写入不稳定的问题。

Kazuki Yano,Takumi Ito,Jun Suzuki

pretrainingparameter-efficientstaged-trainingDOI DBLP

精读LongACL 2024

SirLLM: Streaming Infinite Retentive LLM

这篇论文的目标是：让 LLM 以流式方式处理近乎无限长的上下文，同时避免标准 Transformer 在注意力和 KV cache 上的线性增长瓶颈。传统长上下文方法要么依赖窗口截断，牺牲远程依赖；要么保留完整缓存，成本随序列长度持续上升，不适合真正的 streaming 场景。

Yao Yao,Zuchao Li,Hai Zhao

long-contextstreamingretentionDOI DBLP

精读FindingsACL 2024

Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning

Yang Zhao,Li Du,Xiao Ding,Kai Xiong,Zhouhao Sun,Shi Jun,Ting Liu,Bing Qin

pretraining-datamachine-unlearningdata-qualityDOI DBLP

精读LongACL 2024

Analysing The Impact of Sequence Composition on Language Model Pre-Training

Yu Zhao,Yuanbin Qu,Konrad Staniszewski,Szymon Tworkowski,Wei Liu,Piotr Milos,Yuxiang Wu,Pasquale Minervini

pretraining-datasequence-packingtraining-dynamicsDOI DBLP

精读LongACL 2024

HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts

Hao Zhao,Zihan Qiu,Huijia Wu,Zili Wang,Zhaofeng He,Jie Fu

moeexpert-transferarchitectureDOI DBLP

精读LongACL 2024

Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer

现有语音语言模型建模神经音频codec输出的长声学序列时计算效率低，高分辨率语音生成效果差。之前的多阶段语音生成方法无法实现端到端统一训练。

Yongxin Zhu,Dan Su,Liqiang He,Linli Xu,Dong Yu

speech-lmhierarchical-transformeraudio-codecDOI arXiv DBLP

泛读FindingsACL 2024

Zero-shot Cross-lingual Alignment for Embedding Initialization

现有多语言模型初始化时跨语言嵌入没有统一的几何结构，零样本跨语言迁移性能差。之前的跨语言对齐方法需要并行语料或点到点的词对齐标注，成本高，不适用于低资源语言。

Xi Ai,Zhiyong Huang

multilingualembeddinginitializationDOI DBLP

泛读FindingsACL 2024

Direct Preference Optimization with an Offset

这篇论文要解决的是：标准 DPO 把所有偏好对看得一样重，但真实偏好强度并不相同，这会让训练信号失真。过去 DPO 的二元偏好设定默认 chosen 胜过 rejected 即可，不区分“略好一点”和“明显更好很多”；在安全、有害内容或高质量差异很大的场景里，这种一刀切会浪费监督信息。

Afra Amini,Tim Vieira,Ryan Cotterell

dpopreference-optimizationalignmentDOI arXiv DBLP

泛读LongACL 2024

L-Eval: Instituting Standardized Evaluation for Long Context Language Models

这篇论文要解决的是：长上下文模型的评测目前缺少标准化，导致不同工作在数据构造、任务形式和打分上难以公平比较。过去很多 long-context 评测要么只测 needle-in-a-haystack 式检索，要么任务单一、样本少，难以区分模型是真正具备长程理解能力，还是仅靠局部启发式或模板适配。

Chenxin An,Shansan Gong,Ming Zhong,Xingjian Zhao,Mukai Li,Jun Zhang,Lingpeng Kong,Xipeng Qiu

long-contextevaluationbenchmarkDOI arXiv DBLP

泛读FindingsACL 2024

Token Alignment via Character Matching for Subword Completion

现有生成模型处理部分子词的提示时会产生错误输出，因为tokenizer的分词机制导致部分子词属于分布外输入。之前的方法多修改tokenizer或模型结构，还会影响正常完整token输入的性能。

Ben Athiwaratkun,Shiqi Wang,Mingyue Shang,Yuchen Tian,Zijian Wang,Sujan Kumar Gonugondla ... 省略 1 位作者 ... ,Robert Kwiatkowski,Ramesh Nallapati,Parminder Bhatia,Bing Xiang

tokenizersubwordinferenceDOI arXiv DBLP

泛读ShortACL 2024

UltraSparseBERT: 99% Conditionally Sparse Language Modelling

现有BERT类模型推理时需要激活全部FFN神经元，此前稀疏化方案要么精度损失过大，要么硬件速度提升有限，无法在保持精度的同时实现99%以上的极高稀疏度。

Peter Belcak,Roger Wattenhofer

ETH Zurichsparsityconditional-computationarchitectureDOI DBLP

泛读LongACL 2024

What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages

现有语言模型可学习性研究要么聚焦理论极限，要么将LM作为形式语言分类器评估，没有从概率正则语言的经验可学习性角度回答“哪些语言更容易被LM建模”的问题，无法解释不同自然语言建模难度的底层差异。

Nadav Borenstein,Anej Svete,Robin Chan,Josef Valvoda,Franz Nowak,Isabelle Augenstein,Eleanor Chodroff,Ryan Cotterell

formal-languageslearnabilitylanguage-modelingDOI arXiv DBLP

泛读FindingsACL 2024

A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task

现有Transformer推理能力研究仅依赖行为基准测试，无法解释内部运行机制，此前没有对多步符号推理任务下Transformer的内部机制做完整的因果验证分析。

Jannik Brinkmann,Abhay Sheshadri,Victor Levoso,Paul Swoboda,Christian Bartelt

mechanistic-interpretabilityreasoningtransformer-circuitsDOI arXiv DBLP

泛读LongACL 2024

Spectral Filters, Dark Signals, and Attention Sinks

现有logit lens解释工具仅能定性分析Transformer中间表示，无法量化解释注意力沉底（attention sink）现象的成因，此前没有从嵌入矩阵谱分解角度解释LLM长上下文注意力偏差。

Nicola Cancedda

interpretabilityspectral-analysisattention-sinkDOI arXiv DBLP

泛读FindingsACL 2024

Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint

现有LLM的RL训练采用实例级奖励，无法对复杂推理任务提供细粒度监督，无法定位导致错误的关键token，容易出现奖励信号模糊的问题。

Zhipeng Chen,Kun Zhou,Xin Zhao,Junchen Wan,Fuzheng Zhang,Di Zhang,Ji-Rong Wen

rlhfalignmenttoken-levelDOI arXiv DBLP

泛读FindingsACL 2024

Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game

Pengyu Cheng,Yifan Yang,Jian Li,Yong Dai,Tianhao Hu,Peixin Cao,Nan Du,Xiaolong Li

dpoalignmentreward-modelDOI DBLP

泛读FindingsACL 2024

Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning

机器翻译模型训练数据量大，现有数据剪枝方法依赖预训练模型或静态特征，无法高效识别对模型泛化最有价值的数据点，剪枝后性能下降明显。

Everlyn Chimoto,Jay Gala,Orevaoghene Ahia,Julia Kreutzer,Bruce A. Bassett,Sara Hooker

data-pruningtraining-dynamicsdata-qualityDOI arXiv DBLP

泛读FindingsACL 2024

Symmetric Dot-Product Attention for Efficient Training of BERT Language Models

这篇 paper 试图解决的是：BERT 类模型训练成本高，而标准 dot-product attention 可能在表示上存在冗余，是否能通过改 compatibility function 在不明显伤害质量的前提下降低训练开销。这个问题值得研究，因为 encoder-only LM 仍广泛用于检索、分类和蒸馏场景，效率改进有现实价值。

Martin Courtois,Malte Ostendorff,Leonhard Hennig,Georg Rehm

attentionberttraining-efficiencyDOI arXiv DBLP

精读LongACL 2024

How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition

SFT 阶段不同能力（数学推理、代码生成、通用对齐）的数据配比如何影响最终模型表现？这个问题之前主要靠经验调参，缺乏系统性研究。

Guanting Dong,Hongyi Yuan,Keming Lu,Chengpeng Li,Mingfeng Xue,Dayiheng Liu,Wei Wang,Zheng Yuan,Chang Zhou,Jingren Zhou

Alibabasftdata-compositioncapability-tradeoffDOI arXiv DBLP

精读LongACL 2024

LoRAMoE: Alleviating World Knowledge Forgetting in Large Language Models via MoE-Style Plugin

大规模指令数据 SFT 会损害 LLM 在 pretrain 阶段学到的世界知识——指令数据量越大，知识遗忘越严重。这是 SFT 的一个根本性 trade-off。

Shihan Dou,Enyu Zhou,Yan Liu,Songyang Gao,Wei Shen,Limao Xiong ... 省略 6 位作者 ... ,Rui Zheng,Tao Gui,Qi Zhang,Xuanjing Huang

moeloraknowledge-forgettingDOI DBLP

精读LongACL 2024

Context versus Prior Knowledge in Language Models

LLM 在回答问题时需要整合 pretrain 学到的先验知识和 context 中的新信息，但这种整合的规律不清楚——模型什么时候更依赖先验、什么时候更容易被 context 说服？

Kevin Du,Vésteinn Snæbjarnarson,Niklas Stoehr,Jennifer C. White,Aaron Schein,Ryan Cotterell

context-vs-priorknowledge-conflicticlDOI arXiv DBLP

精读LongACL 2024

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

LLM 推理加速需要在不增加额外模块的前提下实现 early exit 和 speculative decoding。现有 speculative decoding 需要独立的 draft 模型，增加内存开销；现有 early exit 方法需要额外的辅助层。

Mostafa Elhoushi,Akshat Shrivastava,Diana Liskovich,Basil Hosmer,Bram Wasti,Liangzhen Lai ... 省略 3 位作者 ... ,Ahmed Roman,Ahmed A Aly,Beidi Chen,Carole-Jean Wu

Metaearly-exitspeculative-decodinglayer-dropoutDOI arXiv DBLP

泛读LongACL 2024

Word Embeddings Are Steers for Language Models

现有对输出词嵌入的作用仅被理解为单个词的特征向量，其在生成过程中的作用未被充分探索，此前受控生成方法需要微调大量参数或破坏模型原生能力。

Chi Han,Jialiang Xu,Manling Li,Yi Fung,Chenkai Sun,Nan Jiang,Tarek F. Abdelzaher,Heng Ji

embeddingssteeringgenerationDOI arXiv DBLP

精读LongACL 2024

Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training

这篇论文要解决的是长上下文问答里的经典失败模式：证据放在中间时，模型检索和利用信息的能力明显下降。以往工作常靠位置插值、长上下文继续训练或提示工程缓解，但这些方法并没有直接训练模型“无论证据在前中后都要主动搜索并反思”的能力。

Junqing He,Kunhao Pan,Xiaoqun Dong,Zhuoyang Song,LiuYiBo LiuYiBo,Qianguosun Qianguosun,Yuxin Liang,Hao Wang,Enming Zhang,Jiaxing Zhang

long-contextlost-in-the-middletrainingDOI arXiv DBLP

精读FindingsACL 2024

Found in the middle: Calibrating Positional Attention Bias Improves Long Context Utilization

LLM即使经过长上下文训练，也存在中间信息丢失问题，此前将该问题归因于上下文长度限制，未明确其和注意力位置偏差的关联，没有高效的修正方案。

Cheng-Yu Hsieh,Yung-Sung Chuang,Chun-Liang Li,Zifeng Wang,Long T. Le,Abhishek Kumar ... 省略 1 位作者 ... ,Alexander Ratner,Chen-Yu Lee,Ranjay Krishna,Tomas Pfister

long-contextattention-biaslost-in-the-middleDOI arXiv DBLP

精读LongACL 2024

Generative Pretrained Structured Transformers: Unsupervised Syntactic Language Models at Scale

Xiang Hu,Pengyu Ji,Qingyang Zhu,Wei Wu,Kewei Tu

structured-transformersyntaxunsupervisedDOI DBLP

精读LongACL 2024

Make-A-Voice: Revisiting Voice Large Language Models as Scalable Multilingual and Multitask Learners

Rongjie Huang,Chunlei Zhang,Yongqi Wang,Dongchao Yang,Jinchuan Tian,Zhenhui Ye ... 省略 4 位作者 ... ,Jiatong Shi,Chao Weng,Zhou Zhao,Dong Yu

speech-lmmultilingualmultitaskDOI DBLP

精读FindingsACL 2024

LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback

这篇论文的核心问题是：如何把英文中心的 LLM 扩展到 100 种语言，尤其覆盖低资源语言，同时补上多语言场景下的人类偏好对齐。过去多语言 LLM 的主要瓶颈不是“不会扩展”，而是训练数据和偏好数据在低资源语言上极度稀缺，导致模型往往只有浅层多语能力，缺乏稳定的 instruction following 和跨语言对齐。

Wen Lai,Mohsen Mesgar,Alexander Fraser

multilingualfeedbackalignmentDOI arXiv DBLP

精读FindingsACL 2024

ALaRM: Align Language Models via Hierarchical Rewards Modeling

这篇论文要解决的是：传统 RLHF 把人类偏好压成单一奖励，监督既稀疏又不稳定，难以在开放生成任务里给模型持续而细粒度的对齐信号。过去 reward model 常把“整体更好”学成一个标量，但真实偏好往往由多个维度组成，例如帮助性、无害性、相关性、风格等；单一分数既难解释，也容易彼此抵消。

Yuhang Lai,Siyuan Wang,Shujun Liu,Xuanjing Huang,Zhongyu Wei

rlhfreward-modelhierarchical-rewardDOI arXiv DBLP

精读LongACL 2024

Aligning Large Language Models by On-Policy Self-Judgment

这篇论文要解决的是：现有基于偏好的 on-policy 对齐通常需要单独的 reward model，这在训练和部署上都增加成本，而且策略模型与 RM 分离还会带来目标漂移。过去 DPO 之类方法虽然省掉在线 RM，但通常不是严格的 on-policy；而 PPO-RLHF 虽然是 on-policy，却要额外维护 RM。

Sangkyu Lee,Sungdong Kim,Ashkan Yousefpour,Minjoon Seo,Kang Min Yoo,Youngjae Yu

alignmenton-policyself-trainingDOI arXiv DBLP

泛读LongACL 2024

Causal Estimation of Memorisation Profiles

现有LLM记忆性评估方法无法高效准确计算反事实结果（即模型未见过某训练样本时的预测表现），且大多评估架构级记忆性而非单个模型实例的记忆性，无法满足训练动态分析、版权侵权防范等落地需求。此前的评估方法通过多次重训模型获得反事实，计算成本过高。

Pietro Lesci,Clara Meister,Thomas Hofmann,Andreas Vlachos,Tiago Pimentel

ETH ZurichUniversity of CambridgeUniversity of Amsterdammemorizationtraining-dynamicscausal-inferenceDOI arXiv DBLP

泛读LongACL 2024

What Do Language Models Learn in Context? The Structured Task Hypothesis

这篇论文要回答的是：LLM 的 in-context learning（ICL）到底是在“选一个任务”、在“执行预训练学到的学习算法（meta-learning）”，还是在“组合多个已学子任务”来完成新任务。以往讨论常停留在概念性解释或单一假设的证据链上，导致不同论文的结论互相打架且难以对齐。

Jiaoda Li,Yifan Hou,Mrinmaya Sachan,Ryan Cotterell

in-context-learningtask-structureicl-theoryDOI arXiv DBLP

精读FindingsACL 2024

E2-LLM: Efficient and Extreme Length Extension of Large Language Models

如何以极低训练成本将已有 LLM 的上下文窗口从短（如 4K）扩展到极长（如 256K 甚至更长）。现有长上下文扩展方法要么需要大量长序列训练数据和 GPU 时间，要么在极端长度下性能退化严重。

Jiaheng Liu,Zhiqi Bai,Yuanxing Zhang,Chenchen Zhang,Yu Zhang,Ge Zhang ... 省略 4 位作者 ... ,Tiezheng Ge,Jie Fu,Wenhu Chen,Bo Zheng

long-contextlength-extensioninferenceDOI DBLP

精读LongACL 2024

Are Emergent Abilities in Large Language Models just In-Context Learning?

LLM 的 'emergent abilities'（涌现能力）是否只是 in-context learning 的混淆效应？此前关于涌现的讨论缺乏对 ICL 等替代解释的严格控制，本文提出一个新理论框架并通过大规模实验验证。

Sheng Lu,Irina Bigoulaeva,Rachneet Sachdeva,Harish Tayyar Madabushi,Iryna Gurevych

TU Darmstadtemergencein-context-learningscalingDOI arXiv DBLP

泛读FindingsACL 2024

AdaLomo: Low-memory Optimization with Adaptive Learning Rate

这篇工作要解决的是：在保持“极低优化器显存”的前提下，让 LOMO 这类近似 SGD 的低显存优化器具备接近 AdamW 的可训练性与收敛质量，否则低显存训练会被超参敏感和收敛差卡住。作者认为以往 LOMO 的主要短板不是“缺少动量”，而是缺少 Adam 的逐参数自适应学习率带来的稳定步长控制。

Kai Lv,Hang Yan,Qipeng Guo,Haijun Lv,Xipeng Qiu

optimizerlow-memorytraining-efficiencyDOI arXiv DBLP

泛读FindingsACL 2024

Sparsity-Accelerated Training for Large Language Models

缺少摘要信息，无法可靠判断作者具体要解决的稀疏加速训练问题设定与边界。

Da Ma,Lu Chen,Pengyu Wang,Hongshen Xu,Hanqi Li,Liangtai Sun,Su Zhu,Shuai Fan,Kai Yu

sparsitytraining-efficiencyaccelerationDOI DBLP

精读FindingsACL 2024

Can You Learn Semantics Through Next-Word Prediction? The Case of Entailment

这篇论文要回答的核心问题是：仅靠 next-word prediction，语言模型能否学到像蕴含（entailment）这样需要组合语义的关系，而不只是记住表面共现。这个问题长期被经验结果部分掩盖，因为大模型在下游 NLI 上能做得不错，但这些能力到底来自预训练目标本身，还是来自数据规模、模板记忆和后续微调，一直没有被干净地区分。

William Merrill,Zhaofeng Wu,Norihito Naka,Yoon Kim,Tal Linzen

next-token-predictionsemanticsentailmentDOI DBLP

精读LongACL 2024

Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation

这篇论文要解决的是：面对面口语对话和文本聊天差别很大，但现有对话模型大多忽略了语音中的时序、重叠、语气和即时反馈信号。仅靠 ASR 文本去建模，会把真正驱动 turn-taking 和社交互动的线索丢掉，因此很难做出接近真实 face-to-face conversation 的 spoken dialogue model。

Se Jin Park,Chae Won Kim,Hyeongseop Rha,Minsu Kim,Joanna Hong,Jeong Hun Yeo,Yong Man Ro

speech-lmdialoguemultimodalDOI DBLP

精读FindingsACL 2024

Disentangling Length from Quality in Direct Preference Optimization

这篇论文的核心结论是：DPO 往往把长度偏好混进了质量偏好，导致模型学到‘更长更容易被偏好’而不一定是‘更好更值得偏好’。这个问题过去经常被当作偏好数据噪声处理，但在 DPO 里它更结构性，因为目标函数直接用成对偏好信号推动相对 log-prob，如果数据里长度和胜负相关，模型就会把长度当成廉价特征利用。

Ryan Park,Rafael Rafailov,Stefano Ermon,Chelsea Finn

dpoalignmentlength-biasDOI DBLP

泛读FindingsACL 2024

SMR: State Memory Replay for Long Sequence Modeling

长序列建模中，Transformer 的注意力复杂度是 O(n²)，而线性 RNN/SSM 虽然复杂度低但在需要精确回忆远距离信息时表现不佳。需要一种兼顾效率和长距离记忆能力的方法。

Biqing Qi,Junqi Gao,Kaiyan Zhang,Dong Li,Jianxing Liu,Ligang Wu,Bowen Zhou

long-contextstate-spacesequence-modelingDOI DBLP

精读LongACL 2024

Learning or Self-aligning? Rethinking Instruction Fine-tuning

这篇论文的核心结论是：Instruction Fine-tuning（IFT）往往不是在“学新知识”，而更像在做自对齐（self-aligning）与一致性重排；把 IFT 当作知识注入手段可能不仅无效，还会伤害模型。

Mengjie Ren,Boxi Cao,Hongyu Lin,Cao Liu,Xianpei Han,Ke Zeng,Guanglu Wan,Xunliang Cai,Le Sun

instruction-tuningsftmechanismDOI arXiv DBLP

精读FindingsACL 2024

Identifying Semantic Induction Heads to Understand In-Context Learning

这篇论文要定位并解释 ICL（in-context learning）中一类关键注意力头：它们能从“头实体/触发 token”诱导出“尾实体/相关 token”，从而让模型在不更新参数的情况下完成语义归纳。

Jie Ren,Qipeng Guo,Hang Yan,Dongrui Liu,Quanshi Zhang,Xipeng Qiu,Dahua Lin

induction-headsin-context-learninginterpretabilityDOI arXiv DBLP

泛读LongACL 2024

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

这篇工作要解决的是：多语种指令微调长期缺少真正开放、覆盖广、质量可控的数据集，导致开源模型在多语言对齐上通常依赖封闭数据、英语翻译扩展，或者小规模人工集，效果和可复现性都受限。过去大家常用英文指令集机器翻译到多语种来回避数据稀缺，但这会把英语分布和英文任务形式强行投射到其他语言，难以覆盖真实多语交互。

Shivalika Singh,Freddie Vargus,Daniel D'souza,Börje Karlsson,Abinaya Mahendiran,Wei-Yin Ko ... 省略 20 位作者 ... ,Sebastian Gehrmann,Niklas Muennighoff,Max Bartolo,Julia Kreutzer

instruction-tuningmultilingualdataDOI DBLP

泛读LongACL 2024

The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities

这篇工作要解决的是：把通用 LLM 微调成高质量机器翻译模型时，常会出现翻译变强但通用能力退化的‘fine-tuning paradox’。过去常见做法是在翻译数据上直接 SFT 或继续训练，这能提升 BLEU/COMET 一类指标，但往往牺牲对话、推理或一般指令跟随能力，说明训练目标之间存在明显干扰。

David Stap,Eva Hasler,Bill Byrne,Christof Monz,Ke Tran

fine-tuningcatastrophic-forgettingtranslationDOI DBLP

泛读LongACL 2024

Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models

现有LLM多轮指令跟随能力的训练数据、训练方法、评估基准均存在缺失，多数工作默认单轮指令优化，无法适配人类多轮交互中存在指代、省略等自然查询的场景。

Yuchong Sun,Che Liu,Kun Zhou,Jinwen Huang,Ruihua Song,Xin Zhao,Fuzheng Zhang,Di Zhang,Kun Gai

instruction-followingmulti-turnsftDOI arXiv DBLP

泛读FindingsACL 2024

Aligning Large Multimodal Models with Factually Augmented RLHF

大多模态模型（LMM）存在模态错位导致的幻觉问题，生成的文本输出无法对齐多模态上下文信息。现有文本域RLHF直接迁移到多模态场景时奖励模型缺乏事实依据，容易产生奖励幻觉。

Zhiqing Sun,Sheng Shen,Shengcao Cao,Haotian Liu,Chunyuan Li,Yikang Shen ... 省略 2 位作者 ... ,Yu-Xiong Wang,Yiming Yang,Kurt Keutzer,Trevor Darrell

MicrosoftUniversity of Wisconsin-MadisonmultimodalrlhfalignmentDOI arXiv DBLP

泛读FindingsACL 2024

PIXAR: Auto-Regressive Language Modeling in Pixel Space

现有像素空间LLM均为encoder-decoder结构的掩码重构范式，仅能支持判别类任务，无法实现文本生成，不能适配开放生成类任务需求。此前工作回避了像素LLM的自回归生成能力设计，默认像素空间建模仅能做掩码预测。

Yintao Tai,Xiyang Liao,Alessandro Suglia,Antonio Vergari

pixel-lmautoregressivetokenizerDOI arXiv DBLP

精读LongACL 2024

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

要解释多语 LLM 为什么能“自然”掌握多语言，并定位模型里哪些参数在承担特定语言能力，因为过去多语能力常被当作整体涌现现象而缺少可操作的结构性解释。没有这种定位，就很难做可控的多语增强、遗忘或安全隔离。

Tianyi Tang,Wenyang Luo,Haoyang Huang,Dongdong Zhang,Xiaolei Wang,Xin Zhao,Furu Wei,Ji-Rong Wen

multilinguallanguage-specific-neuronsinterpretabilityDOI arXiv DBLP

泛读FindingsACL 2024

MediSwift: Efficient Sparse Pre-trained Biomedical Language Models

要把领域预训练（生物医学）做得更便宜，因为即使模型更小、数据更聚焦，继续从头预训练仍然是主要成本瓶颈。过去常见做法是训练小一点的 dense 模型或做后剪枝，但训练 FLOPs 仍然按 dense 付费。

Vithursan Thangarasa,Mahmoud Salem,Shreyas Saxena,Chen-Yu Leong,Joel Hestness,Sean Lie

Cerebrassparse-pretrainingdomain-pretrainbiomedicalDOI arXiv DBLP

泛读LongACL 2024

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

摘要缺失，无法从给定信息确认其要解决的 CoT 自训练瓶颈（错误累积、偏好信号稀疏、还是推理格式漂移）。

Tianduo Wang,Shichen Li,Wei Lu

dpoself-trainingcotDOI DBLP

泛读LongACL 2024

Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

要在没有人工标注的情况下做逐步验证与强化，让数学推理的训练信号从“只看最终答案”变成“每一步都可被检查”，因为 CoT 训练最常见的问题是中间步骤错误但最终偶然对、或最终错却不知道错在哪一步。

Peiyi Wang,Lei Li,Zhihong Shao,Runxin Xu,Damai Dai,Yifei Li,Deli Chen,Yu Wu,Zhifang Sui

process-supervisionreasoningsynthetic-dataDOI DBLP

泛读SRWACL 2024

Demystifying Instruction Mixing for Fine-tuning Large Language Models

这篇论文要回答的核心问题是：多指令数据混合微调到底为什么有效，以及不同混合方式何时会互相帮助、何时会互相干扰。过去社区更常把 instruction mixing 当成经验配方来调，比如拼更多数据、调采样比例、做 curriculum，但对性能变化背后的机制缺少可验证解释，所以很难把结论迁移到新模型和新数据上。

Renxi Wang,Haonan Li,Minghao Wu,Yuxia Wang,Xudong Han,Chiyu Zhang,Timothy Baldwin

instruction-tuningdata-mixturesftDOI DBLP

泛读FindingsACL 2024

Probing the Emergence of Cross-lingual Alignment during LLM Training

这篇论文关注一个很基础但长期缺少训练过程证据的问题：跨语言对齐能力是在 LLM 训练的哪个阶段、通过什么信号逐步出现的。过去很多工作只在训练后测跨语迁移，把它当成静态能力评估；但如果不知道 emergence 的时间点和前提条件，就很难指导多语 pretrain 的数据配比与课程设计。

Hetong Wang,Pasquale Minervini,Edoardo M. Ponti

cross-lingualtraining-dynamicsalignmentDOI DBLP

泛读LongACL 2024

Uncertainty Aware Learning for Language Model Alignment

在 LLM 对齐训练（RLHF/DPO）中引入不确定性感知，解决偏好数据中标注噪声和歧义导致的训练信号不可靠问题。传统对齐方法对所有偏好对一视同仁，但人类标注的偏好数据中存在大量模糊或有争议的样本。

Yikun Wang,Rui Zheng,Liang Ding,Qi Zhang,Dahua Lin,Dacheng Tao

Chinese University of Hong KongFudan Universityalignmentuncertaintyreward-modelDOI DBLP

泛读FindingsACL 2024

Hybrid Alignment Training for Large Language Models

将 SFT 和偏好对齐（如 DPO/RLHF）统一到一个混合训练框架中，避免传统流水线式训练（先 SFT 再 RLHF）中两阶段目标冲突导致的对齐税（alignment tax）问题。

Chenglong Wang,Hang Zhou,Kaiyan Chang,Bei Li,Yongyu Mu,Tong Xiao,Tongran Liu,JingBo Zhu

alignmentsftdpoDOI DBLP

泛读FindingsACL 2024

Proving membership in LLM pretraining data via data watermarks

提出通过数据水印来证明特定数据是否被用于 LLM 预训练，解决预训练数据成员推断（membership inference）的可靠性问题。现有的成员推断方法（如基于 perplexity 的检测）误报率高且缺乏可证明的保证。

Johnny Tian-Zheng Wei,Ryan Yixiang Wang,Robin Jia

USCdata-watermarkmembership-inferencepretraining-dataDOI DBLP

精读LongACL 2024

Do Llamas Work in English? On the Latent Language of Multilingual Transformers

探究多语言 Transformer（如 LLaMA）的内部计算是否存在一种「潜在语言」——即模型在处理非英语输入时，中间层是否会将表示转换到英语空间进行推理，然后再转回目标语言。这个问题对理解多语言预训练的内部机制至关重要。

Chris Wendler,Veniamin Veselovsky,Giovanni Monea,Robert West

EPFLmultilinguallatent-languageinterpretabilityDOI DBLP

泛读LongACL 2024

Layer-Condensed KV Cache for Efficient Inference of Large Language Models

核心问题是推理时 KV cache 的显存占用随层数线性增长，深层 LLM 在长上下文/高并发下被 KV 内存而非算力卡住；以往压缩多在“每层都存但更省”上做文章，仍然绕不开“层数越多 KV 越多”的结构性瓶颈。

Haoyi Wu,Kewei Tu

kv-cachelayer-sharinginference-efficiencyDOI arXiv DBLP

精读LongACL 2024

Machine Unlearning of Pre-trained Large Language Models

这篇论文关注的问题是：如何对预训练大语言模型做 machine unlearning，也就是让模型遗忘指定知识或数据，同时尽量不破坏其余能力。这个问题过去更多在分类模型或小模型上研究，而在 LLM 上特别难，因为知识是分布式存储的，删除某类样本影响的往往不是单个参数块，而是广泛分散的表示与行为模式。

Jin Yao,Eli Chien,Minxin Du,Xinyao Niu,Tianhao Wang,Zezhou Cheng,Xiang Yue

unlearningpretrained-modelssafetyDOI DBLP

精读LongACL 2024

Long-Context Language Modeling with Parallel Context Encoding

这篇论文的核心问题是：如何在不改动基础模型参数或只做有限改动的情况下，让语言模型处理超出原始窗口长度的长上下文，同时尽量保留全局信息。传统做法要么直接截断，要么把文档分块独立编码后再拼接，但跨块依赖容易丢失，导致模型看似读了更多内容，实际理解并不完整。

Howard Yen,Tianyu Gao,Danqi Chen

long-contextcontext-encodingarchitectureDOI DBLP

精读FindingsACL 2024

ChatMusician: Understanding and Generating Music Intrinsically with LLM

Ruibin Yuan,Hanfeng Lin,Yi Wang,Zeyue Tian,Shangda Wu,Tianhao Shen ... 省略 20 位作者 ... ,Emmanouil Benetos,Gus Xia,Roger B. Dannenberg,Wei Xue

music-lmtokenizermultimodal-pretrainingDOI DBLP

精读FindingsACL 2024

How Vocabulary Sharing Facilitates Multilingualism in LLaMA?

Fei Yuan,Shuai Yuan,Zhiyong Wu,Lei Li

multilingualtokenizervocabulary-sharingDOI DBLP

精读LongACL 2024

Draft& Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding

这篇工作要解决的是：在不改模型输出、也不引入额外小模型的前提下，加速大语言模型解码。现有 speculative decoding 通常依赖单独的 draft model，工程复杂度高，还会带来额外显存和部署负担，因此作者改为让同一个模型先“草拟”再“验证”，把加速问题变成模型内部不同层之间的协同。

Jun Zhang,Jue Wang,Huan Li,Lidan Shou,Ke Chen,Gang Chen,Sharad Mehrotra

speculative-decodingself-speculativeinference-accelerationDOI DBLP

泛读LongACL 2024

Prototypical Reward Network for Data-Efficient RLHF

这篇工作要解决的是：RLHF 中 reward model 很吃偏好标注数据，而高质量成对偏好数据昂贵且规模受限。过去的常见做法是继续堆标注或用更大 reward model 硬扛，但数据效率仍然差，因此作者尝试用原型结构提升 reward 学习的样本效率。

Jinghan Zhang,Xiting Wang,Yiqiao Jin,Changyu Chen,Xinhao Zhang,Kunpeng Liu

rlhfreward-modeldata-efficiencyDOI DBLP

泛读FindingsACL 2024

Efficient Sparse Attention needs Adaptive Token Release

这篇工作要解决的是：稀疏注意力要想真正高效，不能只决定“看哪些 token”，还得决定“什么时候释放 token”。很多 sparse attention 方法理论 FLOPs 下降了，但真实加速有限，因为被保留的 token 生命周期过长，缓存和带宽压力并没有同步下降。

Chaoran Zhang,Lixin Zou,Dan Luo,Xiangyang Luo,Zihao Li,Min Tang,Chenliang Li

sparse-attentionlong-contextefficiencyDOI DBLP

泛读LongACL 2024

Dependency Transformer Grammars: Integrating Dependency Structures into Transformer Language Models

Yida Zhao,Chao Lou,Kewei Tu

transformerarchitecturesyntaxDOI DBLP

泛读LongACL 2024

Revisiting Knowledge Distillation for Autoregressive Language Models

自回归LM知识蒸馏中，更大的教师模型反而会得到性能更差的学生模型，此前KD方法默认所有token的教学模式一致，忽略不同token的特性差异，导致蒸馏性能下降。此前的KD方法默认教师模型越大，蒸馏出的学生性能越好，未适配自回归LM的生成特性。

Qihuang Zhong,Liang Ding,Li Shen,Juhua Liu,Bo Du,Dacheng Tao

knowledge-distillationautoregressive-lmscalingDOI arXiv DBLP

精读LongACL 2024

CoCA: Fusing Position Embedding with Collinear Constrained Attention in Transformers for Long Context Window Extending

这篇工作要解决的是：长上下文外推失败不只是位置编码的问题，RoPE 和标准 self-attention 之间本身存在不匹配，导致训练时看不到的长度上出现异常行为。过去大多数长上下文扩展方法都把位置编码单独修修补补，默认注意力机制本身不用动；作者认为这个前提不成立，因此直接研究 attention 与 position embedding 的耦合关系。

Shiyi Zhu,Jing Ye,Wei Jiang,Siqiao Xue,Qi Zhang,Yifan Wu,Jianguo Li

position-embeddingropelong-contextDOI arXiv DBLP

精读FindingsACL 2024

Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling

这篇工作要回答的是：语言模型能否借助视觉监督学到更准确、也更接近人类词汇习得方式的表示，而不是只靠海量文本把词义硬统计出来。过去多数多模态方法把视觉信号用于句级或图文对齐，较少直接作用在早层 lexical representation；作者关注的是词汇层面的 grounding，因为这正是纯文本 LM 数据效率低的一环。

Chengxu Zhuang,Evelina Fedorenko,Jacob Andreas

visual-groundinglanguage-modelingcontrastive-learningDOI arXiv DBLP

泛读FindingsACL 2024

Towards Safer Large Language Models through Machine Unlearning

现有LLM机器遗忘方法基于梯度上升实现，会损害模型对正常prompt的响应能力，无法在消除有害知识的同时保留模型通用能力。

Zheyuan Liu,Guangyao Dou,Zhaoxuan Tan,Yijun Tian,Meng Jiang

unlearningsafetyalignmentDOI arXiv DBLP

泛读FindingsACL 2024

Making Harmful Behaviors Unlearnable for Large Language Models

已对齐的LLM在微调时容易学习到有害内容中的有害行为，无法在含有害内容的数据集上微调同时不学习有害行为。此前的安全对齐方法仅能保证预训练/微调后模型安全，无法覆盖微调过程中的有害内容注入风险。

Xin Zhou,Yi Lu,Ruotian Ma,Yujian Wei,Tao Gui,Qi Zhang,Xuanjing Huang

unlearningsafetyalignmentDOI arXiv DBLP

泛读FindingsACL 2024

Teaching Large Language Models an Unseen Language on the Fly

现有LLM无法支持极低资源语言，尤其是没有足够训练数据做参数更新的语言。此前的低资源语言适配方法需要大量训练数据或参数更新，无法覆盖无预训练数据的未知语言适配需求。

Chen Zhang,Xiao Liu,Jiuheng Lin,Yansong Feng

Tsinghua UniversityPeking Universitymultilingualin-context-learninglow-resourceDOI arXiv DBLP

泛读LongACL 2024

Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback

现有视频大模型（VLMM）仅靠监督微调（SFT）对齐视频-文本模态，受限于多模态指令数据的数量和质量短板，对齐效果不佳。此前方案要么依赖增加标注数据，要么添加额外可学习模块，未从偏好对齐角度做优化。

Daechul Ahn,Yura Choi,Youngjae Yu,Dongyeop Kang,Jonghyun Choi

multimodalvideorlaifDOI arXiv DBLP

泛读LongACL 2024

The Hidden Space of Transformer Language Adapters

这篇论文要回答的核心问题是：语言适配器把一个冻结的 Transformer 迁移到新语言时，究竟是在模型内部哪里、以什么方式生效。过去大家更多把 adapter 当作一种参数高效微调手段来用，能跑通就够了，但对它是否重写表示空间、还是只在原有表示上做渐进修正，缺少机制层面的证据；这个问题之所以值得重看，是因为跨语言扩展越来越依赖低成本适配，而适配器是否真的“局部且可控”会直接影响可解释性、可组合性和部署策略。

Jesujoba Alabi,Marius Mosbach,Matan Eyal,Dietrich Klakow,Mor Geva

adaptermultilingualrepresentationDOI arXiv DBLP

泛读LongACL 2024

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

这篇论文解决的问题很直接：当 LLM 大到放不进设备 DRAM 时，怎样依赖闪存而不是大内存把推理真正跑起来。过去移动端或低成本设备上的方案通常默认模型至少能驻留在 DRAM，或者只讨论量化、裁剪，但一旦模型参数本身超出 DRAM，瓶颈就从算力转成存储层级之间的数据搬运；因此问题不再是“模型能否更小”，而是“不能更小时怎样围绕闪存带宽和访问模式重做推理系统”。

Keivan Alizadeh,Iman Mirzadeh,Dmitry Belenko,S. Khatamifard,Minsik Cho,Carlo C. del Mundo,Mohammad Rastegari,Mehrdad Farajtabar

inferencememoryservingDOI arXiv DBLP

泛读SRWACL 2024

BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization

这篇论文要解决的是：能否直接用偏好优化而不是额外奖励模型，去显式压低 LLM 在生成文本中的性别、种族和宗教偏见。过去缓解偏见通常依赖安全微调、规则过滤或人工构造拒答模板，这些做法往往把“更少偏见”当作笼统目标处理，缺少成对偏好信号；这篇工作把问题改写成“无偏回答优于有偏回答”的偏好学习任务。

Ahmed Allam

dpobiasalignmentDOI arXiv DBLP

泛读LongACL 2024

Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks

这篇论文要解决的是：在高质量阿拉伯语多模态资源稀缺的情况下，怎样构建真正可用的 Arabic MLLM，而不是把英语多模态模型简单翻译过去。过去多模态大模型的成功高度依赖英语图文数据和英文指令生态，阿拉伯语场景长期受制于数据、评测和文化语境缺失，导致模型即使会阿拉伯语文本，也未必具备阿语视觉推理和对话能力。

Fakhraddin Alwajih,El Moatez Billah Nagoudi,Gagan Bhatia,Abdelrahman Mohamed,Muhammad Abdul-Mageed

multimodalarabicbenchmarkDOI arXiv DBLP

泛读FindingsACL 2024

CIDAR: Culturally Relevant Instruction Dataset For Arabic

这篇论文要解决的是：现有 instruction tuning 数据集过于英语中心，导致非英语模型即使用本地语言输出，也沿用了西方文化假设和英文驱动的指令表达。阿拉伯语在语法、礼貌策略和地区文化上都有明显差异，直接翻译英文指令集通常会得到语言表面本地化、文化内核却不匹配的数据；CIDAR 就是在补这个缺口。

Zaid Alyafeai,Khalid Almubarak,Ahmed Ashraf,Deema Alnuhait,Saied Alshahrani,Gubran A. Q. Abdulrahman ... 省略 2 位作者 ... ,Zead Saleh,Mustafa Ghaleb,Yousef Ali,Maged Saeed AlShaibani

instruction-dataarabicalignmentDOI arXiv DBLP

泛读FindingsACL 2024

Knowledge of Knowledge: Exploring Known-Unknowns Uncertainty with Large Language Models

这篇论文要解决的是：LLM 不仅要回答问题，还应知道哪些问题本身没有确定答案，也就是识别 known-unknowns。过去大多数 QA 设置默认问题存在正确答案，模型被鼓励“总要答点什么”，结果是面对高不确定性问题时更容易自信胡说；这篇工作把焦点放在模型能否区分可答与不可答，并表达这种不确定性。

Alfonso Amayuelas,Kyle Wong,Liangming Pan,Wenhu Chen,William Yang Wang

uncertaintycalibrationevaluationDOI arXiv DBLP

泛读FindingsACL 2024

A Critical Study of What Code-LLMs (Do Not) Learn

这篇论文要回答的是：code-LLM 到底学到了哪些代码结构关系，又有哪些关键性质其实没学到。过去很多工作用总体基准证明代码模型“很强”，或者用注意力可视化暗示它学会了 token 间关系，但这并不能说明模型是否普遍编码了语法、变量绑定、作用域等真正支撑程序理解的属性；这篇工作专门去找“没学到的部分”。

Abhinav Anand,Shweta Verma,Krishna Narasimhan,Mira Mezini

code-llmanalysisgeneralizationDOI arXiv DBLP

泛读LongACL 2024

CausalGym: Benchmarking causal interpretability methods on linguistic tasks

这篇论文要解决的是：现有 interpretability 方法很多，但缺少一个能在语言学任务上比较“因果有效性”的标准基准。过去解释方法常停留在相关性层面，比如 probe 能不能读出某个特征，但读得出不等于改得动模型行为；这篇工作想把评估重点从描述性解释推进到因果干预。

Aryaman Arora,Dan Jurafsky,Christopher Potts

interpretabilitycausal-analysisbenchmarkDOI arXiv DBLP

泛读FindingsACL 2024

What Makes Language Models Good-enough?

这篇论文要回答的是：什么样的 Transformer 架构因素会让模型学到类似人类的 good-enough language processing，而不是总做完全精细解析。过去 good-enough processing 主要是心理语言学中的人类现象，说明人在很多任务里会构建够用但不完全准确的句法/语义表征；这篇工作把问题转到模型上，问层数和注意力头数是否会影响这种行为。

Daiki Asami,Saku Sugawara

architecturepsycholinguisticsevaluationDOI arXiv DBLP

泛读LongACL 2024

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

现有大模型长上下文能力缺乏统一的双语多任务评测基准，此前的评测要么是单语言、单任务，要么覆盖场景不全，无法客观衡量不同长上下文方案的真实效果。

Yushi Bai,Xin Lv,Jiajie Zhang,Hongchang Lyu,Jiankai Tang,Zhidian Huang ... 省略 3 位作者 ... ,Lei Hou,Yuxiao Dong,Jie Tang,Juanzi Li

long-contextbenchmarkevaluationDOI arXiv DBLP

泛读LongACL 2024

The Heuristic Core: Understanding Subnetwork Generalization in Pretrained Language Models

Adithya Bhaskar,Dan Friedman,Danqi Chen

subnetworkgeneralizationinterpretabilityDOI DBLP

泛读LongACL 2024

An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing

现有多专家LLM协作方案要么需要复杂的路由逻辑，要么无法支持新专家的即插即用扩展，用户需要感知多专家的存在，交互门槛高。此前的方案要么是MoE类的同构专家，要么是固定专家集合，无法灵活对接异构的外部独立专家LLM。

Ziwei Chai,Guoyin Wang,Jing Su,Tianjie Zhang,Xuanwen Huang,Xuwu Wang ... 省略 1 位作者 ... ,Jianbo Yuan,Hongxia Yang,Fei Wu,Yang Yang

moeexpert-routingmodel-mergingDOI arXiv DBLP

LongACL 2024

Black-Box Prompt Optimization: Aligning Large Language Models without Model Training

现有大模型对齐方法都需要更新模型参数，计算成本高，且无法适配API类不可训练的黑盒LLM。此前的对齐方案要么是SFT要么是RLHF，都依赖模型训练，黑盒场景下无法使用。

Jiale Cheng,Xiao Liu,Kehan Zheng,Pei Ke,Hongning Wang,Yuxiao Dong,Jie Tang,Minlie Huang

alignmentpromptingblack-boxDOI arXiv DBLP

泛读FindingsACL 2024

Unveiling Imitation Learning: Exploring the impact of Data Falsity to Large Language Model

这篇 paper 要回答的核心问题是：模仿学习里混入的错误合成数据，究竟会在多大程度上伤害指令微调后的 LLM，而这个影响过去大多只有直觉、缺少可控量化。此前大家普遍知道 synthetic instruction data 有噪声，但训练时通常把噪声当成均匀扰动处理，很少显式控制“错误答案/错误推理”的比例与类型，因此难以判断 imitation learning 的收益边界。

Hyunsoo Cho

synthetic-datadata-qualityimitation-learningDOI arXiv DBLP

泛读ShortACL 2024

Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval

这篇 paper 的核心结论是：长文档 dense retrieval 的 embedding 明显偏向开头内容，而且这种 positional bias 不是微调偶然引入的，而是在预训练到对比训练的过程中逐步强化。过去大家更常讨论 causal LM 的“lost in the middle”，但对表征学习模型如何在文档 embedding 里丢失中后段信息，分析还不充分。

João Coelho,Bruno Martins,João Magalhães,Jamie Callan,Chenyan Xiong

long-contextretrievalpositional-biasDOI arXiv DBLP

泛读FindingsACL 2024

Unveiling the Spectrum of Data Contamination in Language Model: A Survey from Detection to Remediation

这篇 paper 是综述，核心问题是：语言模型数据污染已经从简单的 benchmark 泄漏扩展成一整套训练-评测污染谱系，但社区对检测、归因和 remediation 仍缺少统一视角。过去大家常把 contamination 当成 leaderboard 争议，实际上它已经直接影响预训练数据治理、后训练评估可信度和模型发布规范。

Chunyuan Deng,Yilun Zhao,Yuzhao Heng,Yitong Li,Jiannan Cao,Xiangru Tang,Arman Cohan

data-contaminationevaluationsurveyDOI DBLP

泛读FindingsACL 2024

Chain-of-Verification Reduces Hallucination in Large Language Models

这篇 paper 的核心结论是：很多 hallucination 不是模型完全没有知识，而是生成时没有显式验证自己的草稿，因此需要把‘先答再查再改’做成一个可执行流程。过去减少幻觉常靠更强检索或更谨慎 decoding，但在闭卷或长文本场景下，模型内部自检能力是否可用，缺少简单有效的方法论。

Shehzaad Dhuliawala,Mojtaba Komeili,Jing Xu,Roberta Raileanu,Xian Li,Asli Celikyilmaz,Jason Weston

hallucinationverificationreasoningDOI arXiv DBLP

泛读LongACL 2024

\mathcal XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts

代码指令微调（code instruction tuning）的效果受限于模型容量与数据多样性的匹配问题——直接在 dense 模型上做 SFT 容易导致不同编程能力之间的干扰。作者想用 MoE 的方式释放代码 SFT 的潜力，但从头训 MoE 成本太高。

Yifeng Ding,Jiawei Liu,Yuxiang Wei,Lingming Zhang

UIUCmoecodeinstruction-tuningDOI DBLP

泛读FindingsACL 2024

Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models

LLM 评测的可信度受数据污染（data contamination）严重威胁——训练数据可能显式或隐式包含测试集，但训练数据不透明、模型黑盒、合成数据激增使得检测和缓解都很困难。

Yihong Dong,Xue Jiang,Huanyu Liu,Zhi Jin,Bin Gu,Mengfei Yang,Ge Li

data-contaminationbenchmarkevaluationDOI arXiv DBLP

泛读FindingsACL 2024

Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling

Decoder-only LLM 在序列标注（NER 等 IE 任务）上表现不佳，作者假设根本原因是 causal masking 阻止了模型看到当前 token 右侧的信息，但具体影响机制和改进空间不清楚。

David Dukic,Jan Snajder

decoder-onlysequence-labelingencoder-vs-decoderDOI arXiv DBLP

泛读LongACL 2024

Latxa: An Open Language Model and Evaluation Suite for Basque

巴斯克语（Basque）作为低资源语言缺乏高质量的 LLM 和评测基准。现有多语言模型对巴斯克语的覆盖不足，需要专门的 continual pretraining。

Julen Etxaniz,Oscar Sainz,Naiara Miguel,Itziar Aldabe,German Rigau,Eneko Agirre,Aitor Ormazabal,Mikel Artetxe,Aitor Soroa

continual-pretrainlow-resource-languagebasqueDOI arXiv DBLP

FindingsACL 2024

CTC-based Non-autoregressive Textless Speech-to-Speech Translation

现有直接语音到语音翻译（S2ST）模型要么是自回归（AR）解码速度慢，要么是非自回归（NAR）翻译质量远低于AR模型，无法兼顾速度和效果。此前的NAR S2ST方案没有用到CTC这类成熟的NAR建模方法。

Qingkai Fang,Zhengrui Ma,Yan Zhou,Min Zhang,Yang Feng

speech-to-speechnon-autoregressivectcDOI arXiv DBLP

泛读FindingsACL 2024

Extending Context Window of Large Language Models via Semantic Compression

现有大模型上下文窗口扩展方案要么需要微调模型，计算成本高，要么依赖位置编码插值，泛化性有限。此前的方案都需要改动模型或微调，无法即插即用适配任意闭源LLM。

Weizhi Fei,Xueyan Niu,Pingyi Zhou,Lu Hou,Bo Bai,Lei Deng,Wei Han

long-contextsemantic-compressioncontext-windowDOI arXiv DBLP

泛读FindingsACL 2024

What Makes a Good Order of Examples in In-Context Learning

上下文学习（ICL）的效果对示例顺序高度敏感，现有示例排序方法需要域内无标注数据，无法适配无额外数据的真实场景，且没有考虑单个查询的差异，效果次优。此前的方案都是基于语料级的排序，没有实例级的优化。

Qi Guo,Leiyu Wang,Yidong Wang,Wei Ye,Shikun Zhang

iclexample-orderfew-shotDOI DBLP

LongACL 2024

Instruction Fusion: Advancing Prompt Evolution through Hybridization

现有代码大模型的指令进化方法（如Evol-Instruct）存在性能瓶颈，无法进一步提升代码生成效果，进化出来的指令多样性和难度有限。此前的指令进化方法都是单指令变异，没有跨指令的融合。

Weidong Guo,Jiuding Yang,Kaitong Yang,Xiangyang Li,Zhuwei Rao,Yu Xu,Di Niu

instruction-tuningdata-synthesiscodeDOI arXiv DBLP

泛读FindingsACL 2024

Model Editing at Scale leads to Gradual and Catastrophic Forgetting

现有模型编辑方法仅在单次或少次编辑场景下评估，回避了规模化连续编辑的实用性验证，无法支撑工业级落地需求。

Akshat Gupta,Anurag Rao,Gopala Anumanchipalli

model-editingforgettingcontinual-learningDOI arXiv DBLP

FindingsACL 2024

Understanding Cross-Lingual Alignment - A Survey

跨语言对齐的定义、方法分类、适用模型类型没有统一梳理框架，此前研究大多仅聚焦编码器模型，对decoder-only等新架构的对齐方法缺乏系统性总结。

Katharina Hämmerl,Jindrich Libovický,Alexander Fraser

multilingualalignmentsurveyDOI arXiv DBLP

泛读FindingsACL 2024

Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning

此前跨语言指令微调研究都以英语指令为核心，非英语指令训练向其他语言泛化的效果未被系统验证，缺乏大规模非英语指令数据集支撑相关研究。

Janghoon Han,Changho Lee,Joongbo Shin,Stanley Jungkyu Choi,Honglak Lee,Kyunghoon Bae

instruction-tuningcross-lingualzero-shotDOI arXiv DBLP

泛读LongACL 2024

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

可扩展监督问题中难标注数据获取成本极高，此前方法默认需要用难数据训练才能在难测试数据上取得好效果，该假设未被系统验证。

Peter Hase,Mohit Bansal,Peter Clark,Sarah Wiegreffe

data-qualitygeneralizationoversightDOI arXiv DBLP

泛读FindingsACL 2024

CycleAlign: Iterative Distillation from Black-box LLM to White-box Models for Better Human Alignment

这篇论文解决的是：如何在不做昂贵 RLHF 和大规模人工偏好标注的情况下，把黑盒强对齐模型的偏好蒸馏到白盒模型上。已有 AI feedback 对齐方法通常是一轮式的：拿黑盒打分或生成数据，然后监督微调学生模型；但这种方式容易受教师分布局限，迭代改进不充分。

Jixiang Hong,Quan Tu,Changyu Chen,Gao Xing,Ji Zhang,Rui Yan

alignmentdistillationrlhfDOI arXiv DBLP

泛读LongACL 2024

Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal

基于排练的持续学习方法需要用到原始预训练数据，而公开的大模型checkpoint通常不附带原始训练数据，无法直接应用传统排练方法。

Jianheng Huang,Leyang Cui,Ante Wang,Chengyi Yang,Xinting Liao,Linfeng Song,Junfeng Yao,Jinsong Su

continual-learningcatastrophic-forgettingrehearsalDOI arXiv DBLP

泛读LongACL 2024

Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages

开源LLM的指令对齐能力大多只针对英语，小语种的指令对齐需要大量标注数据和训练成本，缺乏简单高效的适配方法。

Shih-Cheng Huang,Pin-Zu Li,Yu-Chi Hsu,Kuang-Ming Chen,Yu-Tung Lin,Shih-Kai Hsiao,Richard Tzong-Han Tsai,Hung-yi Lee

chat-vectormodel-arithmeticmultilingualDOI arXiv DBLP

泛读LongACL 2024

RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations

Jing Huang,Zhengxuan Wu,Christopher Potts,Mor Geva,Atticus Geiger

interpretabilitydisentanglementrepresentationDOI DBLP

泛读LongACL 2024

RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization

Jaavid Aktar Husain,Raj Dabre,Aswanth M.,Jay Gala,Thanmay Jayakumar,Ratish Puduppully,Anoop Kunchukuttan

multilingualromanizationtokenizerDOI DBLP

泛读LongACL 2024

Unlearning Traces the Influential Training Data of Language Models

这篇工作要回答“模型忘掉一段数据时，到底在忘谁”的可追溯性问题：现有 unlearning 往往只验证输出变化，却很难定位哪些训练样本真正对某个行为/记忆负责。

Masaru Isonuma,Ivan Titov

unlearningtraining-data-influenceinterpretabilityDOI DBLP

泛读FindingsACL 2024

LLM Performance Predictors are good initializers for Architecture Search

这篇工作要解决 NAS 在大模型时代“搜索成本太高、从零探索太慢”的问题：传统架构搜索需要大量训练/评估候选模型，而 LLM 的训练成本让这种范式变得不经济。

Ganesh Jawahar,Muhammad Abdul-Mageed,Laks V. S. Lakshmanan,Dujian Ding

architecture-searchperformance-predictionscalingDOI DBLP

泛读FindingsACL 2024

Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts

这篇工作要解决 weight-sharing supernet 训练“互相干扰导致排序不准”的老问题：在一个超网里共享权重会让不同子架构梯度冲突，导致用超网权重评估子网时相关性差。

Ganesh Jawahar,Haichuan Yang,Yunyang Xiong,Zechun Liu,Dilin Wang,Fei Sun ... 省略 3 位作者 ... ,Muhammad Abdul-Mageed,Laks V. S. Lakshmanan,Raghuraman Krishnamoorthi,Vikas Chandra

moesupernetweight-sharingDOI DBLP

泛读LongACL 2024

SparseFlow: Accelerating Transformers by Sparsifying Information Flows

这篇工作要解决 Transformer 在长序列上“信息流全程稠密导致算力二次增长”的效率瓶颈：标准做法让每个 token 在每一层都参与完整计算，导致实时/端侧部署困难。

Yeachan Kim,SangKeun Lee

transformersparsityefficiencyDOI DBLP

泛读LongACL 2024

PlatoLM: Teaching LLMs in Multi-Round Dialogue via a User Simulator

这篇工作要解决多轮对话数据合成“人类侧不够像人、对话动力学不真实”的问题：现有做法常让 ChatGPT 角色扮演用户，导致问题分布受 seed 限制、话题单一且缺少真实追问。

Chuyi Kong,Yaxin Fan,Xiang Wan,Feng Jiang,Benyou Wang

instruction-tuninguser-simulationdialogueDOI arXiv DBLP

泛读LongACL 2024

M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models

这篇论文要解决的是：长上下文能力缺少一个覆盖面足够广、难度分层清楚、且不只测单一 retrieval 技能的系统性评测。过去常用 benchmark 要么上下文本身不够长，要么任务类型单一，结果容易把“能在长输入里找针”误当成“真正具备长上下文理解、推理与跨段整合能力”。

Wai-Chung Kwan,Xingshan Zeng,Yufei Wang,Yusen Sun,Liangyou Li,Yuxin Jiang,Lifeng Shang,Qun Liu,Kam-Fai Wong

long-contextbenchmarkevaluationDOI arXiv DBLP

泛读FindingsACL 2024

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains

这篇论文要解决的是：如何在开源条件下把通用 LLM 稳定地继续预训练到生物医学领域，而不是只靠指令微调去补专业知识。过去医疗/生物医学模型常见两种次优路径：一是模型太小，知识覆盖和泛化不够；二是直接在通用底座上做任务微调，表面能答题，但领域术语、文献风格和长尾知识没有真正进入参数。

Yanis Labrak,Adrien Bazoge,Emmanuel Morin,Pierre-Antoine Gourraud,Mickael Rouvier,Richard Dufour

domain-adaptationcontinued-pretrainingmedicalDOI arXiv DBLP

泛读LongACL 2024

mCoT: Multilingual Instruction Tuning for Reasoning Consistency in Language Models

这篇论文要解决的是：LLM 的 CoT 推理能力在多语言间并不一致，英文里能推理不代表换一种语言也稳定。过去关于 CoT 的结论大多来自英文，导致大家默认 reasoning 是语言无关能力；但在多语言场景里，模型可能只是在英语模板上学会了推理外观，而不是学会跨语言保持一致的推理过程。

Huiyuan Lai,Malvina Nissim

multilingualinstruction-tuningreasoningDOI arXiv DBLP

泛读FindingsACL 2024

Length-aware Byte Pair Encoding for Mitigating Over-segmentation in Korean Machine Translation

这篇论文要解决的是：标准 BPE 在韩语这类形态丰富语言上容易过分切分，破坏词级语义和形态信息，进而伤害翻译质量。过去 subword 方法默认“更细颗粒度更稳”，但对黏着或形态变化丰富的语言，切得过碎会让训练看到大量语义不完整片段，模型更难学到稳定对应关系。

Jungseob Lee,Hyeonseok Moon,Seungjun Lee,Chanjun Park,Sugyeong Eo,Hyunwoong Ko,Jaehyung Seo,Seungyoon Lee,Heuiseok Lim

tokenizerbpemultilingualDOI DBLP

泛读LongACL 2024

Uni-Dubbing: Zero-Shot Speech Synthesis from Visual Articulation

视觉-语音跨模态合成（从视觉口型生成语音）面临配对数据稀缺的问题。此前方法要么依赖大量音视频配对数据，要么跨语言泛化能力差。

Songju Lei,Xize Cheng,Mengjiao Lyu,Jianqiao Hu,Jintao Tan,Runlin Liu,Lingyu Xiong,Tao Jin,Xiandong Li,Zhou Zhao

speech-synthesismultimodalpretrainingDOI DBLP

泛读LongACL 2024

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

LLM 在技术上支持的最大上下文长度远大于其推理能力实际能维持的长度。输入变长后推理性能如何退化、退化的模式是什么，此前缺乏系统研究。

Mosh Levy,Alon Jacoby,Yoav Goldberg

Bar-Ilan UniversityAllen Institute for AIlong-contextreasoninginput-lengthDOI arXiv DBLP

泛读LongACL 2024

MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning

数学推理的 fine-tuning 数据增强（query 演化 + 多样推理路径）已被验证有效，但缺乏系统研究：哪种增强策略更有效、增强数据量与性能的 scaling 关系如何、增强能否带来 OOD 泛化。

Chengpeng Li,Zheng Yuan,Hongyi Yuan,Guanting Dong,Keming Lu,Jiancan Wu,Chuanqi Tan,Xiang Wang,Chang Zhou

Alibabamath-reasoningdata-augmentationsftDOI arXiv DBLP

泛读FindingsACL 2024

Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning

Instruction tuning 的效果严重依赖数据质量，但现有数据改进方法忽视了数据与被微调的 student 模型之间的兼容性——高质量数据未必适合当前模型的学习状态。

Ming Li,Lichang Chen,Jiuhai Chen,Shwai He,Jiuxiang Gu,Tianyi Zhou

instruction-tuningdata-qualitydata-selectionDOI arXiv DBLP

泛读FindingsACL 2024

Understanding and Patching Compositional Reasoning in LLMs

这篇论文要定位 LLM 组合推理（compositional reasoning）失败的直接原因，并回答“失败发生在模型内部的哪一段计算链路”。以往很多工作只在输出层面归因（数据不够/提示不对），很少把“隐式中间结论”作为可干预对象来做因果验证。

Zhaoyi Li,Gangwei Jiang,Hong Xie,Linqi Song,Defu Lian,Ying Wei

compositional-reasoninglogit-lensinterpretabilityDOI arXiv DBLP

泛读LongACL 2024

Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models

摘要缺失，无法确认论文具体要解决的核心问题。

Shengzhi Li,Rongyu Lin,Shichao Pei

preference-alignmentmultimodalvisual-instruction-tuningDOI DBLP

泛读LongACL 2024

LooGLE: Can Long-Context Language Models Understand Long Contexts?

这篇论文要回答“长上下文模型是否真的理解长上下文”，并指出现有长上下文评测集在长度、泄漏与依赖类型上都跟不上模型能力。过去很多 benchmark 文档太短、来源过旧导致训练泄漏，且任务偏短程依赖，使得模型即使只做局部匹配也能拿高分。

Jiaqi Li,Mengmeng Wang,Zilong Zheng,Muhan Zhang

long-contextbenchmarkevaluationDOI arXiv DBLP

泛读FindingsACL 2024

Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics

摘要缺失，无法确认论文具体研究“生成式 LLM 的词汇语义在层间如何分布”的问题设定与对照条件。

Zhu Liu,Cunliang Kong,Ying Liu,Maosong Sun

interpretabilitysemanticsrepresentationDOI DBLP

泛读LongACL 2024

AlignBench: Benchmarking Chinese Alignment of Large Language Models

这篇工作要解决的是：中文大模型的 alignment 评测长期缺少一个覆盖真实场景、可核验、且不只看单一维度的基准，导致很多模型只能用英文范式或粗糙主观打分来代替。过去中文评测往往要么偏能力测试、要么偏安全单点，既难反映“有用、真实、安全、稳健”这些对齐属性的组合，也缺少带证据的参考答案来支撑高质量自动评估。

Xiao Liu,Xuanyu Lei,Shengyuan Wang,Yue Huang,Andrew Feng,Bosi Wen ... 省略 8 位作者 ... ,Jing Zhang,Minlie Huang,Yuxiao Dong,Jie Tang

alignmentbenchmarkevaluationDOI arXiv DBLP

泛读FindingsACL 2024

LLM-QAT: Data-Free Quantization Aware Training for Large Language Models

这篇工作要解决的是：LLM 的后训练量化在 8-bit 还能工作，但继续降到更低 bit 往往明显失效，而传统 QAT 又依赖原始训练数据，实际对闭源或数据不可得模型不友好。问题的难点不只是量化权重，还包括激活和 KV cache；后者直接决定长上下文推理的显存和吞吐，如果不量化，系统收益会被卡死。

Zechun Liu,Barlas Oguz,Changsheng Zhao,Ernie Chang,Pierre Stock,Yashar Mehdad,Yangyang Shi,Raghuraman Krishnamoorthi,Vikas Chandra

quantizationqatdistillationDOI arXiv DBLP

泛读FindingsACL 2024

Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism

这篇工作要解决的是：speculative decoding 虽然能加速推理，但通常需要单独的小 draft model，带来额外训练和部署复杂度；如果直接让大模型自己提前退出做 draft，又容易因为草稿质量不稳而影响接受率。问题的核心是如何在不引入额外模型的前提下，构造足够快且质量足够好的 draft 分布。

Jiahao Liu,Qifan Wang,Jingang Wang,Xunliang Cai

speculative-decodingearly-exitinferenceDOI arXiv DBLP

泛读LongACL 2024

Aligning Large Language Models with Human Preferences through Representation Engineering

这篇工作想解决的是：RLHF 虽然是当前主流 alignment 路线，但训练不稳定、实现复杂、依赖偏好数据和 reward 建模，工程门槛很高。作者关注的替代问题是，既然高层人类偏好可能已经隐含在模型内部表征里，能否不走强化学习，而是直接通过表示工程去控制 helpfulness、truthfulness、safety 这类行为。

Wenhao Liu,Xiaohua Wang,Muling Wu,Tianlong Li,Changze Lv,Zixuan Ling,Jianhao Zhu,Cenyuan Zhang,Xiaoqing Zheng,Xuanjing Huang

alignmentrepresentation-engineeringrlhfDOI arXiv DBLP

泛读FindingsACL 2024

InfiMM: Advancing Multimodal Understanding with an Open-Sourced Visual Language Model

这篇工作想解决的是：开源多模态大模型在复杂视觉-语言任务上通常落后于闭源系统，一个重要原因不是单点结构差异，而是训练数据规模、训练分阶段策略以及语言骨干适配没有系统做到位。过去很多开源 Flamingo-style 工作复现了框架，却没有把数据和训练流程拉到足够强。

Haogeng Liu,Quanzeng You,Yiqi Wang,Xiaotian Han,Bohan Zhai,Yongfei Liu ... 省略 2 位作者 ... ,Yunzhe Tao,Jianbo Yuan,Ran He,Hongxia Yang

vlmpretrainingflamingoDOI DBLP

泛读FindingsACL 2024

Instruction Position Matters in Sequence Generation with Large Language Models

这篇工作指出一个很实际但常被忽略的问题：在条件生成任务里，instruction 放在输入前面并不总是最优，尤其输入很长时，模型可能在生成阶段逐渐‘忘记’任务要求。过去 instruction tuning 数据通常默认采用 instruction + input + response 的顺序，但这更多是格式习惯，不是经过充分验证的最优训练布局。

Yijin Liu,Xianfeng Zeng,Chenze Shao,Fandong Meng,Jie Zhou

instruction-tuningdata-formatsequence-generationDOI arXiv DBLP

泛读FindingsACL 2024

Large Language Models Relearn Removed Concepts

通过神经元剪枝来移除 LLM 中不良概念的做法，是否真的有效？本文发现模型在剪枝后经过少量重训练就能快速恢复被移除的概念，说明剪枝式模型编辑的持久性存疑。

Michelle Lo,Fazl Barez,Shay B. Cohen

University of Edinburghmodel-editingunlearningretrainingDOI arXiv DBLP

泛读FindingsACL 2024

On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey

LLM 驱动的合成数据生成已成为缓解真实数据不足的重要手段，但该领域缺乏统一的框架来组织生成、筛选、评估三个环节的研究。本文是一篇综述，试图建立这个框架。

Lin Long,Rui Wang,Ruixuan Xiao,Junbo Zhao,Xiao Ding,Gang Chen,Haobo Wang

synthetic-datadata-curationevaluationDOI arXiv DBLP

泛读FindingsACL 2024

SoFA: Shielded On-the-fly Alignment via Priority Rule Following

LLM 对齐需要适应多样化的偏好和监管标准，但现有对齐方法难以在每轮对话中动态适配不同规则。本文提出 'priority rule following' 范式：在对话中以规则为第一优先级，优先于用户指令。

Xinyu Lu,Bowen Yu,Yaojie Lu,Hongyu Lin,Haiyang Yu,Le Sun,Xianpei Han,Yongbin Li

Alibaba DAMO Academyalignmentrule-followingsafetyDOI arXiv DBLP

泛读LongACL 2024

Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models

MoE LLM 虽然用更少的激活参数达到更高性能，但总参数量巨大导致部署困难。现有权重剪枝方法依赖特定硬件，本文提出 expert 级别的即插即用稀疏化方法（剪枝和跳过），降低 MoE 模型的部署成本。

Xudong Lu,Qi Liu,Yuhui Xu,Aojun Zhou,Siyuan Huang,Bo Zhang,Junchi Yan,Hongsheng Li

moepruningskippingDOI arXiv DBLP

泛读LongACL 2024

MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs

开源 LLM 在数学推理上与 GPT-4 仍有差距，核心瓶颈之一是高质量数学训练数据不足。本文提出从小规模种子数据出发，通过 question back-translation 大规模生成多样且可靠的数学问题和解答。

Zimu Lu,Aojun Zhou,Houxing Ren,Ke Wang,Weikang Shi,Junting Pan,Mingjie Zhan,Hongsheng Li

synthetic-datamathreasoningDOI arXiv DBLP

泛读LongACL 2024

Full Parameter Fine-tuning for Large Language Models with Limited Resources

这篇工作要解决的是：在资源受限（尤其是显存）条件下实现“大模型全参数微调”，而不是只做 LoRA/Adapter 这类参数高效微调，否则很多需要全参适配的场景会被硬件门槛挡住。作者指出标准训练管线的显存瓶颈主要来自反传梯度与优化器状态的存储。

Kai Lv,Yuqing Yang,Tengxiao Liu,Qipeng Guo,Xipeng Qiu

optimizerlow-memoryfull-parameter-finetuningDOI arXiv DBLP

泛读LongACL 2024

DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution

缺少摘要信息，无法可靠判断 DoRA 在“动态秩分配”的 PEFT 设定中具体解决的瓶颈（质量、稳定性、可迁移性或算力/显存）。

Yulong Mao,Kaiyu Huang,Changhao Guan,Ganglin Bao,Fengran Mo,Jinan Xu

loraparameter-efficientrank-allocationDOI DBLP

泛读FindingsACL 2024

Less is KEN: a Universal and Simple Non-Parametric Pruning Algorithm for Large Language Models

缺少摘要信息，无法可靠判断该“非参数化通用剪枝算法”针对的是推理加速、训练加速还是压缩部署，以及它如何定义“通用”。

Michele Mastromattei,Fabio Massimo Zanzotto

pruningmodel-compressionllmDOI DBLP

泛读FindingsACL 2024

Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models

缺少摘要信息，无法可靠判断“小模型为大模型挑选指令微调数据”具体解决的是数据质量、数据去重、课程学习还是成本控制问题。

Dheeraj Mekala,Alex Nguyen,Jingbo Shang

instruction-tuningdata-selectiondata-qualityDOI DBLP

泛读LongACL 2024

Time is Encoded in the Weights of Finetuned Language Models

这篇论文要解决的问题是：微调后的语言模型是否把时间信息编码进了参数本身，而不是只靠显式时间提示在推理时检索。这个问题过去常被当作知识编辑或时效性问题的副产物处理，但如果时间真的写进权重里，就意味着 finetune 不只是改任务行为，也在重写知识的时间坐标。

Kai Nylund,Suchin Gururangan,Noah A. Smith

finetuningmodel-editingrepresentationDOI DBLP

泛读LongACL 2024

Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals

这篇论文研究的是：语言模型在处理事实和反事实时，并不是调用同一种统一机制，而是多个机制在竞争。过去大家常把 counterfactual failure 简化成“知识没改掉”或“推理不稳”，但这类现象很可能来自检索到的事实记忆、上下文条件化和局部模式匹配同时作用，且彼此会冲突。

Francesco Ortu,Zhijing Jin,Diego Doimo,Mrinmaya Sachan,Alberto Cazzaniga,Bernhard Schölkopf

factualitycounterfactualsinterpretabilityDOI DBLP

泛读FindingsACL 2024

Finding and Editing Multi-Modal Neurons in Pre-Trained Transformers

这篇论文关注的核心问题是：预训练多模态 Transformer 中是否存在可识别、可编辑的 multi-modal neurons，它们如何支撑跨模态概念。这个问题以前在纯文本模型里已有较多讨论，但多模态模型更复杂，因为一个“概念”可能同时分布在视觉 token、文本 token 和对齐层之间，单靠文本神经元分析方法不一定成立。

Haowen Pan,Yixin Cao,Xiaozhi Wang,Xun Yang,Meng Wang

multimodalmodel-editingneuronsDOI DBLP

泛读FindingsACL 2024

LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

这篇论文要解决的问题很明确：长 prompt 很贵，而已有 prompt compression 往往在压缩率和语义保真之间 trade off 很差。简单截断或基于 perplexity 的 token 删除常常保留了容易预测的词，却删掉任务真正依赖的证据；专门为某个任务训练压缩器又缺少通用性。

Zhuoshi Pan,Qianhui Wu,Huiqiang Jiang,Menglin Xia,Xufang Luo,Jue Zhang ... 省略 3 位作者 ... ,Chin-Yew Lin,H. Vicky Zhao,Lili Qiu,Dongmei Zhang

prompt-compressiondata-distillationefficiencyDOI DBLP

泛读FindingsACL 2024

Phased Instruction Fine-Tuning for Large Language Models

这篇论文关注的问题是：instruction tuning 往往把不同难度、不同能力类型的数据一次性混在一起训练，导致学习顺序混乱，模型既可能学不稳，也可能在后期被简单模式牵着走。作者想验证是否可以通过 phased instruction fine-tuning，把训练拆成阶段，以更好地组织能力获得过程。

Wei Pang,Chuan Zhou,Xiao-Hua Zhou,Xiaojie Wang

instruction-tuningcurriculumsftDOI DBLP

泛读LongACL 2024

VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild

零样本语音编辑和 TTS 在真实场景（in the wild）中表现不佳——现有方法要么需要干净录音室数据，要么无法在保持说话人身份和韵律连贯性的同时完成局部编辑。这是语音 LM 走向实用的关键瓶颈。

Puyuan Peng,Po-Yao Huang,Shang-Wen Li,Abdelrahman Mohamed,David Harwath

UT AustinMetaspeech-generationttsspeech-editingDOI DBLP

泛读LongACL 2024

Revisiting Demonstration Selection Strategies in In-Context Learning

In-context learning（ICL）的效果高度依赖 demonstration 的选择策略，但现有策略种类繁多、缺乏系统性比较，研究者很难判断在什么条件下该用哪种策略。

Keqin Peng,Liang Ding,Yancheng Yuan,Xuebo Liu,Min Zhang,Yuanxin Ouyang,Dacheng Tao

Soochow Universityin-context-learningdemonstration-selectionevaluationDOI DBLP

泛读ACL 2024

Seed-Free Synthetic Data Generation Framework for Instruction-Tuning LLMs: A Case Study in Thai

低资源语言（以泰语为例）缺乏高质量指令微调数据，导致 LLM 在这些语言上的 posttrain 效果受限。现有方法依赖人工种子数据或翻译，成本高且质量不稳定。

Parinthapat Pengpun,Can Udomcharoenchaikit,Weerayut Buaphet,Peerat Limkonchotiwat

synthetic-datainstruction-tuningdata-generationDOI DBLP

泛读FindingsACL 2024

BASS: Batched Attention-optimized Speculative Sampling

推测解码（speculative decoding）能加速 LLM 推理，但在批处理场景下效率大幅下降——因为不同请求的 draft token 接受率不同，导致批内序列长度不齐，浪费计算资源。

Haifeng Qian,Sujan Kumar Gonugondla,Sungsoo Ha,Mingyue Shang,Sanjay Krishna Gouda,Ramesh Nallapati,Sudipta Sengupta,Xiaofei Ma,Anoop Deoras

speculative-decodingattention-optimizationinferenceDOI DBLP

泛读FindingsACL 2024

DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling

Reward model 是 RLHF 的核心组件，但单一 reward model 容易过拟合特定偏好模式，导致 reward hacking。如何构建更鲁棒、更泛化的 reward model 是提升对齐质量的关键。

Shanghaoran Quan

reward-modelmoerlhfDOI DBLP

泛读LongACL 2024

An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs

这篇论文要用“神经元激活模式”作为统一视角，解释 LLM 在算术推理里被 Chain-of-Thought（CoT）触发后的行为差异，但现有工作往往停留在输出层面相关性分析，难以定位到可复用的内部机制。

Daking Rai,Ziyu Yao

cotneuron-activationinterpretabilityDOI DBLP

泛读LongACL 2024

On Context Utilization in Summarization with Large Language Models

这篇论文要测清楚 LLM 做摘要时到底“用了多少上下文、用的是哪一段”，因为长上下文能力提升后，模型仍可能像 QA 一样出现位置偏置（U-shape：更依赖开头和结尾），从而漏掉分散在中间的关键信息。

Mathieu Ravaut,Aixin Sun,Nancy F. Chen,Shafiq Joty

long-contextcontext-utilizationsummarizationDOI arXiv DBLP

泛读LongACL 2024

Empowering Character-level Text Infilling by Eliminating Sub-Tokens

这篇论文要解决 infilling（尤其是字符级填空）在 sub-token 边界处表现差的问题：tokenizer 把词切碎后，prefix/middle/suffix 的拼接边界会产生 sub-token，导致推理时字符级约束难满足且困惑度升高。

Houxing Ren,Mingjie Zhan,Zhongyuan Wu,Hongsheng Li

tokenizerinfillingsub-tokenDOI arXiv DBLP

泛读FindingsACL 2024

SMART: Submodular Data Mixture Strategy for Instruction Tuning

这篇论文要解决 instruction tuning 时“多任务数据怎么配比”缺乏系统方法的问题：手工调 mixture 往往不可复现且对预算敏感，容易在冗余数据上浪费算力。

H. S. V. N. S. Kowndinya Renduchintala,Sumit Bhatia,Ganesh Ramakrishnan

data-mixtureinstruction-tuningsubmodularDOI arXiv DBLP

泛读LongACL 2024

Quantifying Contamination in Evaluating Code Generation Capabilities of Language Models

这篇论文要把“代码生成评测被污染”这件事量化到可复现的数字：如果基准与预训练语料有重叠，模型分数会混入记忆成分，导致我们误判代码能力的真实泛化。

Martin Riddell,Ansong Ni,Arman Cohan

data-contaminationcode-generationevaluationDOI arXiv DBLP

泛读FindingsACL 2024

Code Needs Comments: Enhancing Code LLMs with Comment Augmentation

这篇工作要解决的是：代码 LLM 的训练语料里虽然代码很多，但高质量注释不足，导致模型能模仿代码表面模式，却不一定学到函数意图、接口语义和跨语句约束。过去常见做法是继续堆更多代码 token，或者做指令微调补救，但如果监督里缺少显式语义锚点，模型在代码理解和生成上的收益会很有限。

Demin Song,Honglin Guo,Yunhua Zhou,Shuhao Xing,Yudong Wang,Zifan Song ... 省略 1 位作者 ... ,Qipeng Guo,Hang Yan,Xipeng Qiu,Dahua Lin

code-llmdata-augmentationcommentsDOI DBLP

泛读LongACL 2024

F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods

现有LLM评估基准大多聚焦指令跟随能力，忽略了预训练阶段涌现的基础能力，且主观评估依赖大模型API打分，缺乏参考时的评估准确性很低。

Yu Sun,Keyuchen Keyuchen,Shujie Wang,Peiji Li,Qipeng Guo,Hang Yan,Xipeng Qiu,Xuanjing Huang,Dahua Lin

evaluationfundamental-abilitiesbenchmarkDOI DBLP

泛读FindingsACL 2024

The Critique of Critique

Critique（模型生成内容的质量反馈）被广泛用于LLM的训练、评估和优化，但目前没有系统的方法来评估Critique本身的质量，导致Critique的不可靠性会传导到下游任务。

Shichao Sun,Junlong Li,Weizhe Yuan,Ruifeng Yuan,Wenjie Li,Pengfei Liu

critiqueevaluationalignmentDOI arXiv DBLP

泛读LongACL 2024

A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques

要把“参数高效对齐”（LoRA/QLoRA + SFT/DPO）里的关键选择讲清楚，因为对齐对数据、算法和 adapter 超参高度敏感，但社区缺少系统性的 trade-off 图谱。没有这种图谱，很多对齐失败看起来像随机性，其实是配置不匹配。

Megh Thakkar,Quentin Fournier,Matthew Riemer,Pin-Yu Chen,Amal Zouaq,Payel Das,Sarath Chandar

alignmentloraqloraDOI arXiv DBLP

泛读LongACL 2024

ReFT: Reasoning with Reinforced Fine-Tuning

摘要缺失，无法从给定信息确定论文要解决的核心问题。

Luong Quoc Trung,Xinbo Zhang,Zhanming Jie,Peng Sun,Xiaoran Jin,Hang Li

reinforced-fine-tuningreasoningrlDOI DBLP

泛读LongACL 2024

Language Model Adaption for Reinforcement Learning with Natural Language Action Space

摘要缺失，无法从给定信息确定“自然语言动作空间 RL 的 LM 适配”具体要解决的瓶颈（探索、信用分配、对齐还是样本效率）。

Jiangxing Wang,Jiachen Li,Xiao Han,Deheng Ye,Zongqing Lu

reinforcement-learningadaptationaction-spaceDOI DBLP

泛读LongACL 2024

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards

这篇论文解决的是：用户偏好往往是多维且彼此冲突的，如何在不为每种偏好单独训练一个模型的情况下，对 LLM 做可控对齐。以往常见做法是把多目标奖励压成一个标量，或者训练多个 adapter/专家模型，但前者会丢失偏好方向，后者部署和组合成本高。

Haoxiang Wang,Yong Lin,Wei Xiong,Rui Yang,Shizhe Diao,Shuang Qiu,Han Zhao,Tong Zhang

preference-alignmentmulti-objectivereward-modelDOI DBLP

泛读ShortACL 2024

Can Language Models Serve as Text-Based World Simulators?

这篇论文要回答的是：语言模型能否仅凭文本建模能力充当'世界模拟器'，也就是在交互式环境中稳定预测状态转移、反馈和后果。以往很多结果展示了 LLM 会说世界知识，但'会说'不等于'会模拟'；真正的模拟要求多步一致性、隐变量跟踪和可执行的因果更新，这比单轮问答难得多。

Ruoyao Wang,Graham Todd,Ziang Xiao,Xingdi Yuan,Marc-Alexandre Côté,Peter Clark,Peter A. Jansen

world-modelsimulationreasoningDOI DBLP

泛读FindingsACL 2024

Locating and Extracting Relational Concepts in Large Language Models

这篇论文研究的是：LLM 内部哪里存放了关系概念，以及这些概念能否被定位并提取出来。过去对知识编辑和概念探测的工作更多关注实体事实或单词语义，但关系概念更难，因为它往往分布在模式、组合和上下文交互里，而不是一个静态 token 表示里。

Zijian Wang,Britney White,Chang Xu

interpretabilityconceptsrelationsDOI DBLP

泛读LongACL 2024

Improving Text Embeddings with Large Language Models

用 LLM 生成合成数据来训练通用文本嵌入模型，解决高质量嵌入训练数据稀缺且标注成本高的问题。以往文本嵌入依赖人工标注的 NLI、检索等数据集，覆盖任务类型和语言有限。

Liang Wang,Nan Yang,Xiaolong Huang,Linjun Yang,Rangan Majumder,Furu Wei

Microsoftembeddingsrepresentation-learningllmDOI DBLP

泛读LongACL 2024

SOTOPIA-π: Interactive Learning of Socially Intelligent Language Agents

让语言智能体在社交互动场景中通过交互式学习提升社交智能，而非仅靠静态数据训练。此前的社交智能评测（如 SOTOPIA）只做评估不做训练，模型的社交能力提升缺乏闭环学习机制。

Ruiyi Wang,Haofei Yu,Wenxin Zhang,Zhengyang Qi,Maarten Sap,Yonatan Bisk,Graham Neubig,Hao Zhu

CMUinteractive-learningsocial-agentsrlDOI DBLP

泛读LongACL 2024

Interpretability of Language Models via Task Spaces

提出通过「任务空间」来解释语言模型的内部表示，即把模型在不同任务上的行为模式作为理解其内部机制的透镜。以往的可解释性工作多聚焦于单个神经元或注意力头，缺乏任务层面的系统性分析框架。

Lucas Weber,Jaap Jumelet,Elia Bruni,Dieuwke Hupkes

Meta AIinterpretabilitytask-spacerepresentation-analysisDOI DBLP

泛读LongACL 2024

On the Impact of Calibration Data in Post-training Quantization and Pruning

研究后训练量化（PTQ）和剪枝中校准数据的选择对最终模型质量的影响。实践中校准数据的选择往往被忽视或随意处理，但它可能显著影响压缩后模型的性能。

Miles Williams,Nikolaos Aletras

University of Sheffieldquantizationpruningcalibration-dataDOI DBLP

泛读FindingsACL 2024

Codec-SUPERB: An In-Depth Analysis of Sound Codec Models

对语音/音频 codec 模型进行系统性的深度评测和分析。现有的语音 codec（如 EnCodec、SoundStream）被广泛用于语音 LM（VALL-E 等）的离散化前端，但缺乏统一的评测框架来比较不同 codec 在不同下游任务上的表现。

Haibin Wu,Ho-Lam Chung,Yi-Cheng Lin,Yuan-Kuei Wu,Xuanjun Chen,Yu-Chi Pai,Hsiu-Hsuan Wang,Kai-Wei Chang,Alexander H. Liu,Hung-yi Lee

National Taiwan Universityaudio-codecspeech-tokenizerbenchmarkDOI DBLP

泛读LongACL 2024

Do Large Language Models Latently Perform Multi-Hop Reasoning?

核心问题是 LLM 在看似单跳补全的复杂提示中是否“潜在地”执行了多跳推理；以往多跳推理常用显式 CoT 或检索链路验证，但这会把推理过程外显化，难以判断模型内部是否本来就走了桥接实体（bridge entity）路径。

Sohee Yang,Elena Gribovskaya,Nora Kassner,Mor Geva,Sebastian Riedel

multi-hopreasoninginterpretabilityDOI arXiv DBLP

泛读LongACL 2024

Iterative Forward Tuning Boosts In-Context Learning in Language Models

核心问题是如何在不改大规模预训练的情况下提升模型的 in-context learning（ICL）能力，尤其是当直接指令微调会把模型推向“依赖参数记忆”而非“依赖上下文示例”时；以往 ICL 增强常与数据构造或更大模型绑定。

Jiaxi Yang,Binyuan Hui,Min Yang,Bailin Wang,Bowen Li,Binhua Li,Fei Huang,Yongbin Li

in-context-learningtuningadaptationDOI DBLP

泛读LongACL 2024

Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning

这篇论文要解决的问题是：微调时训练分布和模型原始预训练分布不一致，会让语言模型在新任务上学得快但泛化变差。这个问题过去通常靠正则化、数据混合或更保守的微调策略间接缓解，但如果不直接约束微调过程去贴近模型自己的高置信分布，偏移仍然会积累。

Zhaorui Yang,Tianyu Pang,Haozhe Feng,Han Wang,Wei Chen,Minfeng Zhu,Qian Liu

self-distillationfine-tuningdistribution-shiftDOI DBLP

泛读LongACL 2024

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

这篇论文要解决的问题是：现有大音频语言模型评测不够贴近生成式理解，难以判断模型是否真的听懂了音频内容。过去很多 benchmark 更像分类、打分或检索，能测局部能力，但对 generative comprehension——也就是模型能否基于音频生成有信息量、可追责的答案——覆盖不足。

Qian Yang,Jin Xu,Wenrui Liu,Yunfei Chu,Ziyue Jiang,Xiaohuan Zhou ... 省略 1 位作者 ... ,Yuanjun Lv,Zhou Zhao,Chang Zhou,Jingren Zhou

audio-languagebenchmarkevaluationDOI DBLP

泛读FindingsACL 2024

Data Contamination Calibration for Black-box LLMs

这篇论文要解决的问题是：在 black-box LLM 评测里，训练数据污染会高估模型能力，但没有参数和训练集访问权限时很难校准这个偏差。过去常见做法是直接用 benchmark 分数当能力代理，或通过少量泄漏检测做定性分析，但这不足以估计污染到底把结果抬高了多少。

Wentao Ye,Jiaqi Hu,Liyao Li,Haobo Wang,Gang Chen,Junbo Zhao

data-contaminationevaluationbenchmarkDOI DBLP

泛读FindingsACL 2024

Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding

Hanling Yi,Feng Lin,Hongbin Li,Peiyang Ning,Xiaotian Yu,Rong Xiao

decodingverificationinferenceDOI DBLP

泛读LongACL 2024

T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text

Aoxiong Yin,Haoyuan Li,Kai Shen,Siliang Tang,Yueting Zhuang

autoregressivevector-quantizationsign-languageDOI DBLP

泛读FindingsACL 2024

TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback

Eunseop Yoon,Hee Suk Yoon,SooHwan Eom,Gunsoo Han,Daniel Wontae Nam,Daejin Jo,Kyoung-Woon On,Mark Hasegawa-Johnson,Sungwoong Kim,Chang Dong Yoo

rlhftoken-level-rewardfine-grained-feedbackDOI DBLP

泛读LongACL 2024

MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy

Davis Yoshida,Kartik Goyal,Kevin Gimpel

decodingmap-decodingdegeneracyDOI DBLP

泛读FindingsACL 2024

Tree-Planted Transformers: Unidirectional Transformer Language Models with Implicit Syntactic Supervision

Ryo Yoshida,Taiga Someya,Yohei Oseki

syntaxtransformerimplicit-supervisionDOI DBLP

泛读ShortACL 2024

Speculative Contrastive Decoding

Hongyi Yuan,Keming Lu,Fei Huang,Zheng Yuan,Chang Zhou

speculative-decodingcontrastive-decodinginferenceDOI DBLP

泛读FindingsACL 2024

AgentTuning: Enabling Generalized Agent Abilities for LLMs

Aohan Zeng,Mingdao Liu,Rui Lu,Bowen Wang,Xiao Liu,Yuxiao Dong,Jie Tang

agent-tuninginstruction-tuninggeneralizationDOI DBLP

泛读LongACL 2024

Exploring Memorization in Fine-tuned Language Models

Shenglai Zeng,Yaxin Li,Jie Ren,Yiding Liu,Han Xu,Pengfei He,Yue Xing,Shuaiqiang Wang,Jiliang Tang,Dawei Yin

memorizationfine-tuningprivacyDOI DBLP

泛读FindingsACL 2024

Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model

Runzhe Zhan,Xinyi Yang,Derek F. Wong,Lidia S. Chao,Yue Zhang

multilingualalignmentprefix-tuningDOI DBLP

泛读LongACL 2024

Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages

这篇工作要解决的是：多语言 LLM 的长尾语言能力往往被高资源语言挤压，而直接补齐多语监督数据成本很高。过去常见路线是继续扩大多语预训练或做翻译蒸馏，但噪声和覆盖问题都重，因此作者尝试从资源丰富语言出发做自蒸馏，把强语言中的能力迁移到弱语言。

Yuanchi Zhang,Yile Wang,Zijun Liu,Shuo Wang,Xiaolong Wang,Peng Li,Maosong Sun,Yang Liu

multilingualself-distillationadaptationDOI DBLP

泛读LongACL 2024

Unveiling Linguistic Regions in Large Language Models

这篇工作要解决的是：LLM 内部是否存在可分辨的“语言区域”，也就是某些参数、神经元或子空间更偏向处理语言特定信息。多语言能力过去常从整体指标看，很少直接定位模型内部的语言分工，因此作者试图把这种结构显式挖出来。

Zhihao Zhang,Jun Zhao,Qi Zhang,Tao Gui,Xuanjing Huang

interpretabilityrepresentationlinguisticsDOI DBLP

泛读FindingsACL 2024

AFPQ: Asymmetric Floating Point Quantization for LLMs

这篇工作要解决的是：现有 LLM 量化多以对称整数或统一浮点格式为主，但不同张量分布明显不对称，用同一量化规则会浪费动态范围并放大误差。作者因此提出 asymmetric floating point quantization，试图在更低比特下保住精度。

Yijia Zhang,Sicheng Zhang,Shijie Cao,Dayou Du,Jianyu Wei,Ting Cao,Ningyi Xu

quantizationinferencecompressionDOI DBLP

泛读FindingsACL 2024

RECOST: External Knowledge Guided Data-efficient Instruction Tuning

这篇工作要解决的是：instruction tuning 很依赖大规模高质量指令数据，但现实里往往标注少、覆盖窄。过去做法通常是人工扩数据或自举合成指令，但容易产生噪声和模式坍缩，因此作者提出用外部知识引导，提升 data-efficient instruction tuning 的效果。

Qi Zhang,Yiming Zhang,Haobo Wang,Junbo Zhao

instruction-tuningdata-efficiencyexternal-knowledgeDOI DBLP

泛读LongACL 2024

EasyGen: Easing Multimodal Generation with BiDiffuser and LLMs

Xiangyu Zhao,Bo Liu,Qijiong Liu,Guangyuan Shi,Xiao-Ming Wu

multimodal-generationdiffusionllmDOI DBLP

泛读FindingsACL 2024

On the Language Encoder of Contrastive Cross-modal Models

Mengjie Zhao,Junya Ono,Zhi Zhong,Chieh-Hsin Lai,Yuhta Takida,Naoki Murata,Wei-Hsiang Liao,Takashi Shibuya,Hiromi Wakaki,Yuki Mitsufuji

contrastive-learningcross-modallanguage-encoderDOI DBLP

泛读LongACL 2024

SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models

Weixiang Zhao,Shilong Wang,Yulin Hu,Yanyan Zhao,Bing Qin,Xuanyu Zhang,Qing Yang,Dongliang Xu,Wanxiang Che

continual-learningpeftattentionDOI DBLP

泛读LongACL 2024

LRQuant: Learnable and Robust Post-Training Quantization for Large Language Models

Jiaqi Zhao,Miao Zhang,Chao Zeng,Ming Wang,Xuebo Liu,Liqiang Nie

quantizationpost-trainingcompressionDOI DBLP

泛读SRWACL 2024

MoExtend: Tuning New Experts for Modality and Task Extension

MoE大模型扩展多模态/新任务时，现有全量微调方案成本高且会引发灾难性遗忘，从头训练多模态MoE的成本无法接受。此前类似LLaVA的多模态适配方法需要微调LLM主干，既丢失原有文本能力，训练开销也随模型规模扩大快速上升。

Shanshan Zhong,Shanghua Gao,Zhongzhan Huang,Wushao Wen,Marinka Zitnik,Pan Zhou

moemodality-extensionvlmDOI arXiv DBLP

泛读LongACL 2024

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

现有安全对齐方法默认对齐强度越高LLM越安全，但存在无需训练、仅靠输出token分布即可发动的攻击，可反转安全对齐效果，且对齐越强的模型被攻击后危害越大。此前的安全对齐研究未考虑这类无参数访问权限下的分布级攻击。

Zhanhui Zhou,Jie Liu,Zhichen Dong,Jiaheng Liu,Chao Yang,Wanli Ouyang,Yu Qiao

safetyalignmentdisalignmentDOI arXiv DBLP

泛读FindingsACL 2024

Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization

现有多目标RLHF对齐方法不稳定、计算成本高，单模型无法适配不同用户的多元冲突偏好，此前的单目标DPO无法处理多维度偏好冲突的场景。

Zhanhui Zhou,Jie Liu,Jing Shao,Xiangyu Yue,Chao Yang,Wanli Ouyang,Yu Qiao

dpomulti-objectivealignmentDOI arXiv DBLP

泛读FindingsACL 2024

LIRE: listwise reward enhancement for preference alignment

这篇工作要解决的是：偏好对齐长期停留在 pairwise 比较，浪费了同一 prompt 下多候选回答里的排序信息，同时 RLHF 流程复杂、训练不稳，导致更丰富的偏好监督很难真正用起来。现有做法通常把“选更好答案”拆成二元胜负，这样实现简单，但会丢掉 listwise 相对次序和难负样本信息；作者想直接把多响应偏好转成更稳定的梯度式奖励优化目标。

Mingye Zhu,Yi Liu,Lei Zhang,Junbo Guo,Zhendong Mao

rlhfdpolistwise-rewardDOI arXiv DBLP

泛读LongACL 2024

RelayAttention for Efficient Large Language Model Serving with Long System Prompts

这篇工作解决的是长 system prompt 场景下的推理服务低效问题，核心瓶颈不是算子公式本身，而是重复读取共享前缀 KV cache 带来的内存带宽浪费。现有 causal attention 对 batch 内每个请求分别搬运同一段系统提示的 KV，即使这些 token 完全相同，也会反复从 DRAM 拉到 SRAM，导致长提示词服务吞吐和时延一起恶化。

Lei Zhu,Xinjiang Wang,Wayne Zhang,Rynson W. H. Lau

kv-cachesystem-promptservingDOI arXiv DBLP

泛读LongACL 2024

ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training

这篇工作解决的是蛋白质与自然语言统一建模中的一个老问题：现有 protein-language 模型通常把蛋白序列当外部编码器输入或单独模态处理，难以像文本 token 一样灵活地在同一上下文中交错建模。作者希望模型既能理解 interleaved protein-text 输入，又能在生成时把蛋白当可预测单元，而不是只做检索式或编码器式融合。

Le Zhuo,Zewen Chi,Minghao Xu,Heyan Huang,Jianan Zhao,Heqi Zheng,Conghui He,Xian-Ling Mao,Wentao Zhang

protein-lmcross-modalinterleaved-pretrainDOI arXiv DBLP

泛读ACL 2024

Pre-training data selection for biomedical domain adaptation using journal impact metrics

这篇工作讨论的是生物医学领域继续预训练时，如何做更有依据的数据筛选，而不是默认把能爬到的领域文本都混进去。很多领域自适应工作对数据质量只做粗粒度清洗，很少利用文献来源本身的质量信号；作者尝试用期刊影响力指标作为采样或筛选依据。

Mathieu Lai-king,Patrick Paroubek

data-selectiondomain-adaptationdata-qualityDOI DBLP

泛读ACL 2024

e-Health CSIRO at RRG24: Entropy-Augmented Self-Critical Sequence Training for Radiology Report Generation

这篇工作聚焦放射学报告生成中的训练目标问题，具体是如何让序列级强化学习既优化报告质量，又避免生成过于确定、模式化的文本。传统自批评序列训练（SCST）能直接对最终指标优化，但容易陷入低熵解，输出保守而重复；作者因此引入 entropy augmentation。

Aaron Nicolson,Jinghui Liu,Jason Dowling,Anthony N. Nguyen,Bevan Koopman

rlscstradiologyDOI DBLP

泛读ACL 2024

MAIRA at RRG24: A specialised large multimodal model for radiology report generation

这篇工作要解决的是放射学报告生成对通用多模态模型的适配不足，因此提出一个 specialised large multimodal model。通用模型往往在开放域视觉理解上强，但在医学影像的细粒度异常识别、长文本报告结构和临床措辞上不够可靠。

Shaury Srivastav,Mercy Ranjit,Fernando Pérez-García,Kenza Bouzid,Shruthi Bannur,Daniel C. Castro ... 省略 7 位作者 ... ,Hannah Richardson,Matthew P. Lungren,Stephanie L. Hyland,Javier Alvarez-Valle

multimodal-llmradiologyvision-languageDOI DBLP

ACL 2024

OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety

现有中文LLM评测基准大多仅覆盖能力维度，忽略对齐和安全维度，无法全面评估中文LLM的实用价值，容易漏检对齐和安全风险。

Chuang Liu,Linhao Yu,Jiaxuan Li,Renren Jin,Yufei Huang,Ling Shi ... 省略 4 位作者 ... ,Jinwang Song,Hongying Zan,Sun Li,Deyi Xiong

evaluationalignmentsafetyDOI arXiv DBLP

LongACL 2024

Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models

现有多模态大模型对科学类抽象图表（几何图形、科研绘图）的理解能力差，核心原因是缺少大规模科学领域的多模态训练数据，此前的多模态数据集大多为自然场景图片，未覆盖科学领域。

Lei Li,Yuqi Wang,Runxin Xu,Peiyi Wang,Xiachong Feng,Lingpeng Kong,Qi Liu

vlmdatasetscientific-figuresDOI arXiv DBLP

ACL 2024

EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models

现有LLM知识编辑方法实现碎片化，不同方法的任务设置差异大，没有标准化框架，从业者落地知识编辑的门槛高，此前的研究多单独实现不同编辑方法，无统一接口和评测标准。

Peng Wang,Ningyu Zhang,Bozhong Tian,Zekun Xi,Yunzhi Yao,Ziwen Xu ... 省略 4 位作者 ... ,Kangwei Liu,Yuansheng Ni,Guozhou Zheng,Huajun Chen

knowledge-editingmodel-editingbenchmarkDOI arXiv DBLP

FindingsACL 2024

MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models

现有PEFT方法的多语言效果评估不全面，小开源模型在非英语语言上的性能和英语、闭源大模型的差距大，此前的评估多仅覆盖少量语言和任务，无法全面衡量PEFT对多语言能力的提升效果。

Divyanshu Aggarwal,Ashutosh Sathe,Ishaan Watts,Sunayana Sitaram

peftmultilingualfine-tuningDOI arXiv DBLP

泛读LongACL 2024

When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards

这篇论文的核心结论是：很多 LLM leaderboard 排名对评测细节极其敏感，不能把公开榜单名次当成稳定事实。过去业界和研究中经常直接依据 MMLU 等 benchmark 排名做模型选择，但作者指出，连选项顺序、答案提取方式这种看起来很小的扰动，都可能让相对排名大幅变化；这意味着 benchmark 已经不只是测量工具，也在不知不觉中成了被模型和评测脚本共同“适配”的目标。

Norah A. Alzahrani,Hisham Abdullah Alyahya,Yazeed Alnumay,Sultan Alrashed,Shaykhah Alsubaie,Yousef Almushayqih ... 省略 2 位作者 ... ,Nora Al-Twairesh,Areeb Alowisheq,M. Saiful Bari,Haidar Khan

evaluationbenchmarkleaderboardDOI arXiv DBLP

FindingsACL 2024

CeeBERT: Cross-Domain Inference in Early Exit BERT

现有BERT类预训练模型的早退出推理方法在跨域场景下效果差，无法平衡准确率和延迟，此前的早退出策略都是基于训练域数据优化，遇到分布偏移的域外样本时性能下降明显。

Divya Jyoti Bajpai,Manjesh K. Hanawal

early-exitinference-efficiencycross-domainDOI arXiv DBLP

LongACL 2024

The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

现有多语言NLU基准语言覆盖范围有限，低资源语言缺乏平行阅读理解评测数据，无法支撑模型通用理解能力的直接跨语言对比。

Lucas Bandarkar,Davis Liang,Benjamin Muller,Mikel Artetxe,Satya Narayan Shukla,Donald Husa,Naman Goyal,Abhinandan Krishnan,Luke Zettlemoyer,Madian Khabsa

multilingualbenchmarkevaluationDOI arXiv DBLP

泛读FindingsACL 2024

Strong hallucinations from negation and how to fix them

LLM处理否定逻辑时容易产生逻辑不自洽的强幻觉，现有解决方案依赖稀疏否定样本微调，泛化性差且成本高。

Swarnadeep Bhar,Nicholas Asher

hallucinationnegationreasoningDOI arXiv DBLP

泛读LongACL 2024

Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned Language Models through Task Arithmetic

对齐后的LLM经过下游任务微调后安全性能普遍下降，现有重对齐方案需要重新标注安全数据微调，成本高且会损害下游任务性能。

Rishabh Bhardwaj,Do Duc Anh,Soujanya Poria

Nanyang Technological Universitysafetytask-arithmeticalignmentDOI arXiv DBLP

泛读FindingsACL 2024

An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models

SFT所需的指令数据标注成本极高，现有主动学习数据筛选方案计算成本过高，无法大规模应用在LLM场景。

Gantavya Bhatt,Yifang Chen,Arnav Mohanty Das,Jifan Zhang,Sang T. Truong,Stephen Mussmann ... 省略 2 位作者 ... ,Simon S. Du,Kevin Jamieson,Jordan T. Ash,Robert D. Nowak

sftdata-efficiencyexperimental-designDOI arXiv DBLP

ShortACL 2024

What Does Parameter-free Probing Really Uncover?

无参数探测被认为可以捕捉LLM内部的真实语法结构，但其结果与人类语言学形式化体系的对应关系从未被系统性验证。

Tommi Buder-Gröndahl

probinginterpretabilitylinguisticsDOI DBLP

FindingsACL 2024

The Revolution of Multimodal Large Language Models: A Survey

多模态大模型（MLLM）领域发展速度快，现有综述缺少对架构、对齐策略、训练方法的系统性分类，也未覆盖图像生成编辑等生成类多模态任务的分析。

Davide Caffagni,Federico Cocchi,Luca Barsellotti,Nicholas Moratelli,Sara Sarto,Lorenzo Baraldi,Marcella Cornia,Rita Cucchiara

mllmsurveyvlm-pretrainDOI arXiv DBLP

泛读LongACL 2024

Retaining Key Information under High Compression Ratios: Query-Guided Compressor for LLMs

现有上下文压缩方法在高压缩比下关键信息丢失严重，性能下降到闭问答水平，无法满足长上下文场景的需求。

Zhiwei Cao,Qian Cao,Yu Lu,Ningxin Peng,Luyang Huang,Shanbo Cheng,Jinsong Su

context-compressionlong-contextinference-efficiencyDOI arXiv DBLP

LongACL 2024

Every Answer Matters: Evaluating Commonsense with Probabilistic Measures

现有常识评测多为多选题，LLM可以利用数据集偏差作弊，且未覆盖常识本身的概率性（多个正确答案），无法真实反映LLM的常识能力。

Qi Cheng,Michael Boratko,Pranay Kumar Yelugam,Tim O'Gorman,Nalini Singh,Andrew McCallum,Xiang Li

evaluationcommonsenseprobabilisticDOI arXiv DBLP

FindingsACL 2024

PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns

现有多模态大模型的抽象推理能力缺乏无场景先验干扰的标准化诊断基准，之前的VQA基准多绑定具体场景语义，无法系统度量模型对颜色、数字、形状等基础抽象概念的模式归纳能力。

Yew Ken Chia,Vernon Toh,Deepanway Ghosal,Lidong Bing,Soujanya Poria

Singapore University of Technology and DesignAlibaba Damo AcademyvlmreasoningbenchmarkDOI arXiv DBLP

泛读FindingsACL 2024

Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations

现有长文本事实性评估方法基于「独立为真的事实片段聚合后整体为真」的假设，忽略了实体歧义、逻辑矛盾等组合错误，导致评估结果系统性高估模型事实性。

Cheng-Han Chiang,Hung-yi Lee

National Taiwan Universityfactualityevaluationlong-formDOI arXiv DBLP

泛读FindingsACL 2024

An Empirical Study of In-context Learning in LLMs for Machine Translation

现有大模型机器翻译的ICL研究多聚焦于效果优化，缺乏对ICL各影响因子的系统性拆解，无法解释性能波动的核心原因，也无法形成可落地的优化规范。

Pranjal A. Chitale,Jay P. Gala,Raj Dabre

National Institute of Informatics, Japaniclmachine-translationanalysisDOI arXiv DBLP

泛读LongACL 2024

TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models

这篇 paper 的核心问题是：现有 LLM 的时间推理能力到底缺在哪，之前的评测过于碎片化，无法系统区分模型是不会算时间、不会对齐事件顺序，还是不会处理跨粒度时间知识。时间理解是世界模型的一部分，但以往 benchmark 往往只测单一子能力，所以模型看起来“会一点”，实际能力边界并不清楚。

Zheng Chu,Jingchang Chen,Qianglong Chen,Weijiang Yu,Haotian Wang,Ming Liu,Bing Qin

benchmarktemporal-reasoningevaluationDOI arXiv DBLP

泛读FindingsACL 2024

A Curious Case of Searching for the Correlation between Training Data and Adversarial Robustness of Transformer Textual Models

这篇 paper 的核心问题是：文本 Transformer 的对抗鲁棒性并不只是模型或训练算法决定，fine-tuning 数据本身的统计属性就可能强相关，但过去评估通常在微调后才看模型、忽略数据侧因素。换句话说，作者想把 robustness 从‘模型后验表现’往前追溯到‘数据先验条件’。

Cuong Dang,Dung D. Le,Thai Le

training-datarobustnessadversarialDOI arXiv DBLP

泛读LongACL 2024

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

这篇 paper 要解决的是：现有 VLM benchmark 大多语言覆盖窄、学科单一、模态复杂度不够，导致模型在真实教育场景和跨区域知识环境中的能力被高估。尤其是多语言、多学科、带图表符号的考试题，需要的不只是 OCR，而是把视觉解析、语言理解和区域知识结合起来。

Rocktim Jyoti Das,Simeon Emilov Hristov,Haonan Li,Dimitar Dimitrov,Ivan Koychev,Preslav Nakov

vlmbenchmarkmultilingualDOI arXiv DBLP

泛读FindingsACL 2024

Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs

这篇 paper 的核心问题是：表格推理到底应该把表格当文本喂给 LLM，还是当图像喂给 MLLM，两条路线各自会在哪些能力上失效。这个问题以前常被模型格式选择掩盖，因为很多工作默认表格序列化即可，但复杂布局、视觉结构和单元格关系未必能被文本化完整保留。

Naihao Deng,Zhenjie Sun,Ruiqi He,Aman Sikka,Yulong Chen,Lin Ma,Yue Zhang,Rada Mihalcea

table-reasoningllmmllmDOI DBLP

泛读FindingsACL 2024

Ranking Large Language Models without Ground Truth

这篇 paper 解决的是一个评测基础问题：没有 ground truth 或人工标注时，能不能只靠模型之间的相互比较把 LLM 排序出来。以往做法要么依赖昂贵的人类答案，要么让两个模型互评，但 pairwise judge 常不稳定、容易受偏置影响，因此作者改从三元组比较入手。

Amit Dhurandhar,Rahul Nair,Moninder Singh,Elizabeth Daly,Karthikeyan Natesan Ramamurthy

evaluationrankingpreferenceDOI arXiv DBLP

泛读LongACL 2024

StepCoder: Improving Code Generation with Reinforcement Learning from Compiler Feedback

用 RL + 编译器反馈来提升代码生成质量时，长代码序列导致探索空间过大、单元测试覆盖不全导致未执行代码片段的优化无效。

Shihan Dou,Yan Liu,Haoxiang Jia,Enyu Zhou,Limao Xiong,Junjie Shan ... 省略 6 位作者 ... ,Rui Zheng,Qi Zhang,Tao Gui,Xuanjing Huang

code-generationreinforcement-learningcompiler-feedbackDOI DBLP

泛读LongACL 2024

BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation

LLM 在 sub-4-bit 极低精度量化下性能严重退化，现有 PTQ 方法在这个精度区间效果不够，需要 QAT 但 QAT 对大模型成本很高。

Dayou Du,Yijia Zhang,Shijie Cao,Jiaqi Guo,Ting Cao,Xiaowen Chu,Ningyi Xu

quantizationself-distillationsub-4bitDOI arXiv DBLP

泛读LongACL 2024

Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models

LLM 的不确定性量化（UQ）效果差，根本原因是现有方法对所有 token 一视同仁，但自回归文本中存在大量'语言冗余'——少数关键词就能传达核心语义，大量功能词对语义贡献很小却在 UQ 中被等权甚至过度加权。

Jinhao Duan,Hao Cheng,Shiqi Wang,Alex Zavalny,Chenan Wang,Renjing Xu,Bhavya Kailkhura,Kaidi Xu

uncertainty-quantificationhallucinationtoken-levelDOI arXiv DBLP

泛读FindingsACL 2024

Exploring the Potential of Dense Information in Multimodal Alignment

多模态对齐（图文对齐）中如何更好地利用密集信息（dense information），而非仅依赖稀疏的全局对齐信号。

Zhiyuan Fan,Zhihong Chen,Benyou Wang

Shenzhen UniversityCUHK-Shenzhenmultimodal-alignmentdense-informationvlmDOI DBLP

LongACL 2024

Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?

现有端到端直接语音到语音翻译（S2ST）模型依赖稀缺的并行语音对数据训练，无法复用已有的海量语音到文本翻译（S2TT）和文本到语音（TTS）预训练模型资源，低资源语种落地难度大。

Qingkai Fang,Shaolei Zhang,Zhengrui Ma,Min Zhang,Yang Feng

Institute of Automation, Chinese Academy of Sciencesspeech-to-speechspeech-lmdata-efficiencyDOI arXiv DBLP

泛读FindingsACL 2024

InstructEd: Soft-Instruction Tuning for Model Editing with Hops

Xiaoqi Han,Ru Li,Xiaoli Li,Jiye Liang,Zifang Zhang,Jeff Z. Pan

model-editinginstruction-tuningreasoningDOI DBLP

泛读LongACL 2024

MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter

现有参数高效微调（PEFT）方法受限于可训练参数量过小，在知识密集型复杂任务上性能不足，而增大参数量又会超出消费级GPU的显存限制，无法在资源受限场景下落地。

Jitai Hao,Weiwei Sun,Xin Xin,Qi Meng,Zhumin Chen,Pengjie Ren,Zhaochun Ren

peftadaptermemory-efficiencyDOI arXiv DBLP

泛读FindingsACL 2024

Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models

这篇论文要解决的问题是：对语言模型做知识编辑时，如何避免“把事实改对了，却把安全性和行为稳定性改坏了”。过去模型编辑工作大多把目标放在局部事实更新和编辑成功率上，对副作用的评估较弱，尤其很少系统检查编辑后是否更容易被诱导输出危险内容；这篇论文把“编辑有效性”和“伦理完整性”放到同一个评估框架里。

Rima Hazra,Sayan Layek,Somnath Banerjee,Soujanya Poria

model-editingsafetyrobustnessDOI arXiv DBLP

泛读FindingsACL 2024

LLM Factoscope: Uncovering LLMs' Factual Discernment through Measuring Inner States

这篇论文关注的问题很明确：只看最终输出无法判断模型到底“知道事实”还是“碰巧答对”，因此需要从内部状态测量模型的事实辨别能力。现有 factuality 评测大多基于生成结果或选择题准确率，但这些指标会混入提示方式、解码策略和表面模式匹配，难以分离真实记忆与伪装出来的正确性。

Jinwen He,Yujia Gong,Zijin Lin,Cheng'an Wei,Yue Zhao,Kai Chen

factualityinner-statesinterpretabilityDOI DBLP

泛读FindingsACL 2024

Whose Emotions and Moral Sentiments do Language Models Reflect?

这篇论文要解决的核心问题是：语言模型是否不仅在“立场”上偏向某些群体，也在“情绪和道德语气”上系统性地偏离不同人群。以往关于群体表征的研究多看 positional alignment，也就是观点像不像某群体，但现实对话里情感强度、道德谴责、同情和愤怒同样影响输出，这部分此前研究得不够。

Zihao He,Siyi Guo,Ashwin Rao,Kristina Lerman

alignmentsocial-biasrepresentationDOI arXiv DBLP

泛读LongACL 2024

Using Natural Language Explanations to Improve Robustness of In-context Learning

这篇论文关注 in-context learning 的鲁棒性问题：模型会因为示例顺序、表述扰动或少量误导样本而明显退化，而自然语言解释是否能让 ICL 更稳。传统 ICL 主要给输入输出对，默认模型自己归纳规则，但这种隐式归纳对分布扰动很脆弱。

Xuanli He,Yuxiang Wu,Oana-Maria Camburu,Pasquale Minervini,Pontus Stenetorp

iclrobustnessnatural-language-explanationsDOI DBLP

泛读ShortACL 2024

Monotonic Representation of Numeric Attributes in Language Models

这篇论文讨论一个基础但常被忽略的问题：语言模型内部对数值属性的表示是否具有单调结构，也就是数值变大时表征能否沿着一致方向变化。现有 LM 常能在表面上处理数字，但其内部表示未必尊重大小关系，这会影响数值泛化、比较、排序和受控生成。

Benjamin Heinzerling,Kentaro Inui

numeracyrepresentationmonotonicityDOI DBLP

泛读FindingsACL 2024

Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ

这篇论文要解决的是一个现实落差：很多开源 LLM 明明主要为英语或少数高资源语言设计，却被用户拿去覆盖大量低资源语言，而我们缺少一个足够大、足够广的基础多语言能力评测。以往多语言 benchmark 往往语言覆盖有限、任务偏封闭式，难以看出模型在真实开放问答中的语言忠实度和回答正确性。

Carolin Holtermann,Paul Röttger,Timm Dill,Anne Lauscher

multilingualbenchmarkevaluationDOI arXiv DBLP

泛读LongACL 2024

A synthetic data approach for domain generalization of NLI models

这篇论文解决的是 NLI 模型跨领域泛化差的问题，尤其是在新领域、长文本和真实下游文本上，传统 NLI 训练集带来的收益常常不够稳。现有大规模 NLI 数据集虽然多，但分布相对集中，模型很容易在已有 collection 上爬分，却不能可靠迁移到未见域。

Mohammad Javad Hosseini,Andrey Petrov,Alex Fabrikant,Annie Louis

synthetic-datadomain-generalizationnliDOI arXiv DBLP

泛读FindingsACL 2024

k-SemStamp: A Clustering-Based Semantic Watermark for Detection of Machine-Generated Text

这篇论文要解决的是机器生成文本检测里的一个老问题：token-level watermark 很容易被释义攻击破坏，而语义级 watermark 虽然更稳，但早期方法在鲁棒性和效率之间折中不够好。SemStamp 已经把水印施加到句子语义空间，但用 LSH 随机超平面做划分，和真实语义结构并不匹配。

Abe Bohan Hou,Jingyu Zhang,Yichen Wang,Daniel Khashabi,Tianxing He

watermarkingdetectionsemanticDOI arXiv DBLP

泛读FindingsACL 2024

Teaching Language Models to Self-Improve by Learning from Language Feedback

Chi Hu,Yimin Hu,Hang Cao,Tong Xiao,JingBo Zhu

self-improvementlanguage-feedbacksftDOI DBLP

泛读FindingsACL 2024

SP³: Enhancing Structured Pruning via PCA Projection

现有大语言模型结构化剪枝方法多聚焦于剪去冗余层或注意力头，忽略了隐藏层维度这一对模型大小和效率影响最大的维度，高压缩率下精度损失严重，无法满足端侧部署需求。

Yuxuan Hu,Jing Zhang,Zhe Zhao,Chen Zhao,Xiaodong Chen,Cuiping Li,Hong Chen

pruningcompressionpcaDOI arXiv DBLP

泛读FindingsACL 2024

Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation

Min-Jae Hwang,Ilia Kulikov,Benjamin N. Peloquin,Hongyu Gong,Peng-Jen Chen,Ann Lee

speech-to-speechself-superviseddistillationDOI DBLP

泛读LongACL 2024

A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains

这篇工作要解决“推理链验证器到底会不会抓住最弱一步”的评测缺口：现有 CoT 评测常把整条链当整体打分，导致验证器可能只学会偏好长链/像推理的文本，而不是定位关键错误。

Alon Jacovi,Yonatan Bitton,Bernd Bohnet,Jonathan Herzig,Or Honovich,Michael Tseng,Michael Collins,Roee Aharoni,Mor Geva

chain-of-thoughtverificationbenchmarkDOI DBLP

泛读FindingsACL 2024

RA-LoRA: Rank-Adaptive Parameter-Efficient Fine-Tuning for Accurate 2-bit Quantized Large Language Models

这篇工作要解决“2-bit 量化后再做 LoRA 微调精度掉得厉害”的问题：低比特量化引入的权重误差会放大到适配器学习上，使固定 rank 的 LoRA 很难兼顾容量与稳健性。

Minsoo Kim,Sihwa Lee,Wonyong Sung,Jungwook Choi

loraquantizationpeftDOI DBLP

泛读FindingsACL 2024

Epistemology of Language Models: Do Language Models Have Holistic Knowledge?

这篇工作要检验 LLM 是否具备“整体论式知识”（holistic knowledge）的特征：即核心科学知识是否像人类那样难以被局部证据轻易改写，而现有评测多停留在事实问答，难以观察知识修订行为。

Minsu Kim,James Thorne

knowledgeinterpretabilityprobingDOI arXiv DBLP

泛读LongACL 2024

GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge?

这篇工作要解决“现实知识持续变化导致静态 QA/对话基准失效、RaLM 也跟不上”的问题：现有评测集更新慢，使得我们很难量化模型对新知识的适应能力。

Dayoon Ko,Jinyoung Kim,Hahyeon Choi,Gunhee Kim

benchmarkcontinual-learningknowledge-updateDOI arXiv DBLP

泛读ShortACL 2024

PRewrite: Prompt Rewriting with Reinforcement Learning

这篇工作要解决“prompt 只能靠人工试错优化、缺少可自动改写并对任务指标负责的机制”的问题：现有自动 prompt 方法常停留在启发式搜索或离线改写，难以稳定对齐到真实任务回报。

Weize Kong,Spurthi Amba Hombaiah,Mingyang Zhang,Qiaozhu Mei,Michael Bendersky

reinforcement-learningpromptingoptimizationDOI arXiv DBLP

泛读LongACL 2024

SwapMoE: Serving Off-the-shelf MoE-based Large Language Models with Tunable Memory Budget

这篇工作要解决 MoE 大模型“推理时专家参数太大、内存受限设备无法常驻”的部署问题：直接 swapping 会带来高延迟，剪枝又容易显著掉点。

Rui Kong,Yuanchun Li,Qingtian Feng,Weijun Wang,Xiaozhou Ye,Ye Ouyang,Linghe Kong,Yunxin Liu

moeservingmemoryDOI arXiv DBLP

泛读FindingsACL 2024

Benchmarking Cognitive Biases in Large Language Models as Evaluators

这篇工作要解决“用 LLM 当评测器时会带入系统性认知偏差”的可信度问题：社区越来越依赖 LLM-as-a-judge，但缺少对偏差类型与强度的系统测量。

Ryan Koo,Minhwa Lee,Vipul Raheja,Jong Inn Park,Zae Myung Kim,Dongyeop Kang

llm-as-judgeevaluationbiasDOI arXiv DBLP

泛读LongACL 2024

Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models

这篇论文要回答的核心问题是：LLM 内部的概率置信度，和它在被追问“你有多确定”时显式表达出来的置信度，到底是否一致。过去大家更常用校准误差或 logprob 分析模型“知道不知道”，但很少把“模型心里多确定”和“模型嘴上说多确定”放到同一框架里比较；这在面向用户的可靠性场景里很关键，因为很多系统最终暴露给人的是语言化的自我评估，而不是 token 概率。

Abhishek Kumar,Robert Morabito,Sanzhar Umbet,Jad Kabbara,Ali Emami

calibrationconfidencetoken-probabilityDOI arXiv DBLP

泛读LongACL 2024

Emergent Word Order Universals from Cognitively-Motivated Language Models

这篇论文的核心问题是：语言中的词序共性，能否用“认知上更可实现的语言模型 + 可预测性”来解释，而不只停留在语言类型学的描述层面。过去很多工作会直接统计自然语言中的共现规律，或者用抽象语言学理论解释 universals，但较少用带有认知约束的 LM 去做可计算、可比较的机制检验。

Tatsuki Kuribayashi,Ryo Ueda,Ryo Yoshida,Yohei Oseki,Ted Briscoe,Timothy Baldwin

language-modelingword-ordergeneralizationDOI arXiv DBLP

泛读FindingsACL 2024

FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models

这篇论文要解决的是：预训练语言模型会复述训练语料中的长段文本，造成 self-plagiarism 或近似抄袭，而现有解码策略通常只优化流畅性和相关性，不主动压制“过度贴近记忆样本”的生成。过去缓解 memorization 多从数据去重或训练阶段入手，但在推理阶段如何低成本地提升原创性，研究相对少。

Kaixin Lan,Tao Fang,Derek F. Wong,Yabo Xu,Lidia S. Chao,Cecilia G. Zhao

memorizationdata-qualitynlgDOI arXiv DBLP

泛读FindingsACL 2024

MATTER: Memory-Augmented Transformer Using Heterogeneous Knowledge Sources

这篇论文要解决的是：知识密集任务里的 retrieve-and-read 随着检索文档数增加，输入上下文线性变长，计算和延迟都变高；同时，现有方法大多只从单一类型知识源检索，难以统一处理文本、结构化知识等异构来源。过去 RAG 的主流做法是把检索到的内容直接塞进上下文，但这在多源、多跳和高吞吐场景下成本很高。

Dongkyu Lee,Chandana Satya Prakash,Jack FitzGerald,Jens Lehmann

memoryretrievalknowledgeDOI arXiv DBLP

泛读LongACL 2024

Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment

量化后的 LLM 在对话场景中出现 token-flipping 问题（量化误差导致生成 token 与全精度模型不一致），损害了 chatbot 的对话质量。此前 PTQ 方法主要关注 perplexity 恢复，很少针对对话对齐能力做专门修复。

Janghwan Lee,Seongmin Park,Sukjin Hong,Minsoo Kim,Du-Seong Chang,Jungwook Choi

quantizationdpoalignmentDOI arXiv DBLP

泛读FindingsACL 2024

CoLLaVO: Crayon Large Language and Vision mOdel

当前 VLM 的 object-level 图像理解能力（识别图中有什么物体、bounding box 对应什么）被严重高估，而这种基础能力与 VL 任务的 zero-shot 性能高度相关。此前工作更关注高层推理，忽视了底层视觉理解的质量。

Byung-Kwan Lee,Beomchan Park,Chae Won Kim,Yong Man Ro

KAISTvlminstruction-tuningobject-groundingDOI arXiv DBLP

泛读FindingsACL 2024

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

低数据场景下 LLM fine-tuning 效果差，而现有数据增强方法大多是无差别扩充，没有针对模型实际薄弱点做定向补充。

Nicholas Lee,Thanakul Wattanawong,Sehoon Kim,Karttikeya Mangalam,Sheng Shen,Gopala Anumanchipalli,Michael W. Mahoney,Kurt Keutzer,Amir Gholami

UC Berkeleydata-synthesisinstruction-tuninglow-resourceDOI arXiv DBLP

泛读LongACL 2024

Llama2Vec: Unsupervised Adaptation of Large Language Models for Dense Retrieval

LLM 的自回归训练目标与 dense retrieval 需要的全文判别式 embedding 之间存在根本性的机制差异。如何无监督地将 LLM 适配为 dense retrieval 的 backbone encoder，此前没有好的方案。

Chaofan Li,Zheng Liu,Shitao Xiao,Yingxia Shao,Defu Lian

BAAIRenmin University of Chinadense-retrievalunsupervised-adaptationembeddingsDOI arXiv DBLP

泛读FindingsACL 2024

Can We Continually Edit Language Models? On the Knowledge Attenuation in Sequential Model Editing

对语言模型做连续多次知识编辑时，已编辑的知识会随编辑次数增加而衰减（knowledge attenuation）。此前工作关注单次编辑的准确性，忽视了连续编辑场景下的知识保持问题。

Qi Li,Xiaowen Chu

model-editingknowledge-attenuationcontinual-editingDOI DBLP

泛读LongACL 2024

The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

LLM 的事实性幻觉（生成与事实不符的内容）是部署的核心障碍，但检测、溯源和缓解三个环节缺乏系统性的实证研究。

Junyi Li,Jie Chen,Ruiyang Ren,Xiaoxue Cheng,Xin Zhao,Jian-Yun Nie,Ji-Rong Wen

Renmin University of ChinahallucinationfactualitydetectionDOI arXiv DBLP

泛读LongACL 2024

Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems in Commonsense Reasoning

Chain-of-Thought 推理在提升 LLM 常识推理能力的同时，会导致一部分原本正确的答案变错（Toxic CoT 问题）。此前工作关注 CoT 的收益，忽视了这种副作用的机制。

Jiachun Li,Pengfei Cao,Chenhao Wang,Zhuoran Jin,Yubo Chen,Daojian Zeng,Kang Liu,Jun Zhao

Institute of Automation, Chinese Academy of Scienceschain-of-thoughtreasoninginterpretabilityDOI arXiv DBLP

泛读FindingsACL 2024

Non-Autoregressive Machine Translation as Constrained HMM

这篇论文要解释并修复 NAT（非自回归翻译）里 DAT（Directed Acyclic Transformer）表现接近 AR 的原因与失败模式，核心是“推断阶段缺失观测导致的 label bias”。以往 NAT 常用启发式约束或迭代精炼来缓解质量问题，但缺少一个能把问题说清并导出可控约束的生成式视角。

Haoran Li,Zhanming Jie,Wei Lu

non-autoregressivemachine-translationhmmDOI DBLP

泛读FindingsACL 2024

Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data

这篇论文要检验并提升 LLM 的“数学外推”（超出训练数值范围/分布的泛化）能力，重点是合成数据能否让模型学到可迁移的多步算术策略。以往数学推理提升常依赖更大模型或更复杂的推理提示，但对“训练分布外的数值外推”是否真的学到规则仍缺少可控实验。

Haolong Li,Yu Ma,Yinqi Zhang,Chen Ye,Jie Chen

math-reasoningextrapolationsynthetic-dataDOI arXiv DBLP

泛读LongACL 2024

Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond

这篇论文要把“跨模态检索”从外部索引检索改成“参数内记忆与召回”，即让 MLLM 通过生成来返回对应图片。以往检索系统依赖向量库与 ANN 搜索，工程上强但不具备端到端生成式接口；而 MLLM 虽能记文本知识，却缺少可控的图像记忆与可引用的召回机制。

Yongqi Li,Wenjie Wang,Leigang Qu,Liqiang Nie,Wenjie Li,Tat-Seng Chua

generative-retrievalmllmimage-memorizationDOI arXiv DBLP

泛读LongACL 2024

UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

这篇论文要解决文本提示过于简略导致扩散模型难以生成“细节可控、主体一致”的图像问题，并把输入从纯文本扩展到“图文交错的多模态提示”。以往 subject-driven（给参考图保主体）与 text-to-image 往往是两套系统或两种训练目标，难以统一。

Wei Li,Xue Xu,Jiachen Liu,Xinyan Xiao

diffusionmultimodal-conditioningimage-generationDOI arXiv DBLP

泛读ShortACL 2024

AFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models

摘要缺失，无法确认论文要解决的 PEFT（参数高效微调）中“LoRA 冻结策略自适应化”的具体痛点与设定。

Zeyu Liu,Souvik Kundu,Anni Li,Junrui Wan,Lianghao Jiang,Peter A. Beerel

peftlorafine-tuningDOI DBLP

泛读FindingsACL 2024

Se²: Sequential Example Selection for In-Context Learning

摘要缺失，无法确认论文要解决的 ICL 示例选择问题（Sequential Example Selection）的具体设定、约束与对比对象。

Haoyu Liu,Jianfeng Liu,Shaohan Huang,Yuefeng Zhan,Hao Sun,Weiwei Deng,Furu Wei,Qi Zhang

in-context-learningexample-selectionpromptingDOI DBLP

泛读FindingsACL 2024

TempCompass: Do Video LLMs Really Understand Videos?

这篇论文要检验 Video LLM 是否真的具备“时间感知/时间理解”，并指出现有 benchmark 无法细分时间维度且任务形式单一。过去很多视频 QA 更像静态帧理解或模板化选择题，导致模型在关键时间属性（速度、方向、顺序）上到底行不行难以诊断。

Yuanxin Liu,Shicheng Li,Yi Liu,Yuxiang Wang,Shuhuai Ren,Lei Li,Sishuo Chen,Xu Sun,Lu Hou

video-llmbenchmarktemporal-understandingDOI arXiv DBLP

泛读FindingsACL 2024

LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores

这篇工作直接指出一个被忽视的问题：让语言模型去当评委时，评测器可能偏爱和自己同源模型生成的文本，导致分数虚高。过去很多 LM-based metric 默认把“强生成模型 = 好评测器”成立，但很少系统检查这种评测是否带有 model-family 级别的自我偏置。

Yiqi Liu,Nafise Sadat Moosavi,Chenghua Lin

llm-as-judgeevaluationbiasDOI arXiv DBLP

泛读LongACL 2024

Temperature-scaling surprisal estimates improve fit to human reading times - but does it do so for the "right reasons"?

这篇工作讨论的是一个更细但很关键的问题：给语言模型的 surprisal 做 temperature scaling 后，确实更能拟合人类阅读时长，但这种提升未必意味着模型更接近人类语言处理机制。过去很多 psycholinguistics 研究把更高的拟合度直接当成更好的认知解释，但如果一个后处理就能明显提高相关性，就需要追问它到底修正了什么。

Tong Liu,Iza Skrjanec,Vera Demberg

surprisalhuman-readingcalibrationDOI DBLP

泛读FindingsACL 2024

Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data

这篇工作要解决的是：现有 LLM 的 quantitative reasoning 评测大多停留在算数题或纯文本逻辑，无法真正测出模型面对表格/数据表时的统计推断和因果判断能力。过去这类能力经常被普通 QA benchmark 间接代替，但那会把“会说统计术语”和“能基于数据做判断”混在一起。

Xiao Liu,Zirui Wu,Xueqing Wu,Pan Lu,Kai-Wei Chang,Yansong Feng

benchmarkreasoningcausal-reasoningDOI arXiv DBLP

泛读LongACL 2024

HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition

这篇工作要解决的是：LLM evaluator 的问题不只是 judge 模型不够强，更常见的是评测标准写得太粗，导致覆盖不全、对人类偏好拟合差，而且 prompt 里埋了很强的偏见。过去很多 LLM-as-a-judge 做法依赖一句总评提示词，结果是模型会给出看似合理但不可控的综合判断。

Yuxuan Liu,Tianchi Yang,Shaohan Huang,Zihan Zhang,Haizhen Huang,Furu Wei,Weiwei Deng,Feng Sun,Qi Zhang

llm-as-judgealignmentevaluationDOI arXiv DBLP

泛读FindingsACL 2024

PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs

这篇工作要解决的是：通用 LLM 在专业领域往往不如专门模型，而常规解决办法是领域微调；但这既耗资源，也不适用于闭源 API 模型。作者关注的是一个更轻量的问题：能否不改模型参数，只借助领域专家模型体现出的偏好信息，提升 LLM 在特定领域的输出质量。

An Liu,Zonghan Yang,Zhenhe Zhang,Qingyuan Hu,Peng Li,Ming Yan,Ji Zhang,Fei Huang,Yang Liu

preference-learningdomain-adaptationalignmentDOI arXiv DBLP

泛读FindingsACL 2024

Teacher-Student Training for Debiasing: General Permutation Debiasing for Large Language Models

LLM 在 zero-shot 场景下对输入选项的排列顺序敏感（permutation sensitivity），导致输出不稳定。现有去偏方法（如对所有排列做推理再聚合）在推理时计算开销极高，本文要解决的是如何把去偏能力蒸馏到一个轻量学生模型中，降低推理成本。

Adian Liusie,Yassir Fathullah,Mark J. F. Gales

University of Cambridgedebiasingteacher-studentinvarianceDOI arXiv DBLP

泛读LongACL 2024

Prompt Optimization via Adversarial In-Context Learning

如何自动优化 in-context learning 的 prompt（包括 task instruction 和 exemplar 选择），使 LLM 在下游任务上表现更好。现有方法多依赖手工设计或简单搜索，本文提出用对抗学习框架来自动化这一过程。

Do Xuan Long,Yiran Zhao,Hannah Brown,Yuxi Xie,James Xu Zhao,Nancy F. Chen,Kenji Kawaguchi,Michael Shieh,Junxian He

prompt-optimizationin-context-learningadversarialDOI arXiv DBLP

泛读LongACL 2024

Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment

开源 LLM 的角色扮演能力通常通过模仿闭源模型来提升，但本文认为 LLM 在 pretrain 阶段已经内化了大量角色知识，关键是如何把这些知识激发出来。核心问题是：能否不依赖外部数据，仅靠模型自身知识构建角色扮演训练集？

Keming Lu,Bowen Yu,Chang Zhou,Jingren Zhou

Alibabaself-alignmentrole-playinstruction-tuningDOI arXiv DBLP

泛读LongACL 2024

A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Any Translation

这篇工作要解决的是：把“同传”从语音到文本/语音的级联管线，变成端到端的语音到任意输出（文本或语音单元）生成，否则级联会带来误差传播与多段延迟叠加，导致听者与说话者不同步。作者认为现有研究偏向 S2T 或 T2T，同传 S2S 往往不得不拼装多个模块。

Zhengrui Ma,Qingkai Fang,Shaolei Zhang,Shoutao Guo,Yang Feng,Min Zhang

non-autoregressivespeech-translationsimultaneous-translationDOI arXiv DBLP

泛读FindingsACL 2024

Are self-explanations from Large Language Models faithful?

这篇工作要解决的是：LLM 给出的自解释（self-explanations）是否“忠实于模型真实决策依据”，否则看似合理的解释会制造虚假可信度并带来风险。难点在于很多模型只有 API、没有可访问的“真实因果依据/梯度/内部状态”作为地面真值。

Andreas Madsen,Sarath Chandar,Siva Reddy

interpretabilityfaithfulnessself-explanationDOI arXiv DBLP

泛读LongACL 2024

When Only Time Will Tell: Interpreting How Transformers Process Local Ambiguities Through the Lens of Restart-Incrementality

这篇工作要解决的是：Transformer 在逐 token 处理存在局部歧义（garden-path 句）时，内部状态如何随时间更新并在后续证据出现后“改判”，而 AR 模型由于输出不可回退很难显式呈现这种修正过程。作者希望用可解释分析把“何时、如何重启并修正”从黑箱里抽出来。

Brielen Madureira,Patrick Kahardipraja,David Schlangen

incremental-processingambiguitytransformer-internalsDOI arXiv DBLP

泛读LongACL 2024

Natural Language Satisfiability: Exploring the Problem Distribution and Evaluating Transformer-based Language Models

这篇工作要解决的是：自然语言可满足性（satisfiability）任务的实例分布在逻辑上跨越不同复杂度类别，而现有用 Transformer 做自然语言推理的评测往往忽略了“问题属于哪个语言片段/复杂度类”，导致模型能力判断被混淆。作者要把任务按逻辑维度分解，观察模型在哪些类上学得动、在哪些类上系统性失败。

Tharindu Madusanka,Ian Pratt-Hartmann,Riza Batista-Navarro

reasoningsatisfiabilitytransformer-capabilityDOI arXiv DBLP

泛读FindingsACL 2024

Mass-Editing Memory with Attention in Transformers: A cross-lingual exploration of knowledge

缺少摘要信息，无法可靠判断该工作在“知识编辑/记忆编辑”中具体解决的是跨语言一致性、编辑可组合性，还是注意力机制层面的可控性问题。

Daniel Mela,Aitor Gonzalez-Agirre,Javier Hernando,Marta Villegas

knowledge-editingattentioncross-lingualDOI DBLP

泛读FindingsACL 2024

Likelihood-based Mitigation of Evaluation Bias in Large Language Models

这篇论文关注的核心问题是：大语言模型评测里存在系统性偏差，而这种偏差可以用 likelihood 信息来校正。很多 benchmark 默认把生成答案或选项概率当作直接能力信号，但模型常被格式、位置、长度、词频和解码习惯干扰，导致分数高低混入了评测协议偏差，而不全是任务能力差异。

Masanari Ohi,Masahiro Kaneko,Ryuto Koike,Mengsay Loem,Naoaki Okazaki

evaluationlikelihoodbenchmarkDOI DBLP

泛读LongACL 2024

Speech language models lack important brain-relevant semantics

这篇论文的核心结论很可能是：现有 speech language model 虽然能建模语音序列，但缺少与人脑语义表征更一致的高层语义信息。过去语音 LM 往往用生成质量、语音续写、ASR 迁移或下游任务结果来证明有效，但这些指标更容易反映声学建模和短程预测能力，未必说明模型学到了对语义真正有用的抽象。

Subba Reddy Oota,Emin Çelik,Fatma Deniz,Mariya Toneva

speech-lmsemanticsevaluationDOI DBLP

泛读LongACL 2024

OLIVE: Object Level In-Context Visual Embeddings

这篇论文要解决的问题是：给 VLM 或多模态 Transformer 的视觉输入做 in-context 学习时，现有视觉 embedding 通常停留在整图或 patch 粒度，缺少对象级别的可组合表示。结果是模型能看见局部纹理，却不容易在上下文里稳定对齐“这个对象”和语言中的实体指称，尤其在需要跨图比较、指代或示例学习时会吃亏。

Timothy Ossowski,Junjie Hu

in-context-learningvisual-embeddingmultimodalDOI DBLP

泛读FindingsACL 2024

Anchor-based Large Language Models

这篇论文的核心问题是：标准 LLM 在生成时容易漂移、幻觉或失去全局约束，是否可以通过引入 anchor 来稳定推理与生成。过去常见做法是靠更强提示、检索或后处理纠偏，但这些方法要么依赖外部系统，要么只在输出端修补，没有改变模型在生成过程中的参考系。

Jianhui Pang,Fanghua Ye,Derek F. Wong,Xin He,Wanshun Chen,Longyue Wang

architecturereasoningrepresentationDOI DBLP

泛读LongACL 2024

Re-Tuning: Overcoming the Compositionality Limits of Large Language Models with Recursive Tuning

LLM 在组合性推理（compositionality）上存在系统性短板——当任务需要将多个已学会的子能力串联组合时，模型表现急剧下降。以往的解决方案要么靠 prompt engineering，要么靠更大模型，都没有从训练侧直接修补这个缺陷。

Eric Pasewark,Kyle Montgomery,Kefei Duan,Dawn Song,Chenguang Wang

UC Berkeleycompositionalityrecursive-tuningfinetuningDOI DBLP

泛读LongACL 2024

IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators

LLM 做多语言代码生成时，低资源语言的性能远低于高资源语言。根本原因是 pretrain 数据中低资源编程语言的代码量不足，模型对这些语言的语法和语义理解薄弱。

Indraneil Paul,Goran Glavas,Iryna Gurevych

TU Darmstadtcode-generationmultilingualintermediate-representationDOI DBLP

泛读FindingsACL 2024

RankMean: Module-Level Importance Score for Merging Fine-tuned LLM Models

模型合并（model merging）是一种无需额外训练就能组合多个微调模型能力的方法，但现有合并策略对不同模块的重要性缺乏精细区分，导致合并后性能损失。核心问题是如何在模块级别量化重要性来指导合并权重分配。

Gabriel J. Perin,Xuxi Chen,Shusen Liu,Bhavya Kailkhura,Zhangyang Wang,Brian Gallagher

UT Austinmodel-mergingfinetuningweight-spaceDOI DBLP

泛读LongACL 2024

Graph Language Models

将结构化图知识（如知识图谱）注入语言模型一直是个难题——现有方法要么将图线性化为文本（丢失结构信息），要么用 GNN 编码后拼接（模态对齐困难）。需要一种原生支持图结构的语言模型。

Moritz Plenz,Anette Frank

Heidelberg Universitygraphlanguage-modelarchitectureDOI DBLP

泛读LongACL 2024

Dodo: Dynamic Contextual Compression for Decoder-only LMs

Decoder-only LLM 处理长上下文时，KV cache 占用大量显存且注意力计算成本高。现有上下文压缩方法要么需要额外训练，要么压缩率和质量之间的 trade-off 不理想。

Guanghui Qin,Corby Rosset,Ethan C. Chau,Nikhil Rao,Benjamin Van Durme

Johns Hopkins UniversityMicrosoft Researchcontext-compressionlong-contextinferenceDOI DBLP

泛读FindingsACL 2024

Are Decoder-Only Language Models Better than Encoder-Only Language Models in Understanding Word Meaning?

Decoder-only LLM 在生成任务上表现出色，但在词义理解（word meaning understanding）这类需要精细语义区分的任务上是否优于 encoder-only 模型（如 BERT），尚无系统性结论。

Muhammad Reza Qorib,Geonsik Moon,Hwee Tou Ng

National University of Singaporedecoder-onlyencoder-onlyword-semanticsDOI DBLP

泛读FindingsACL 2024

Investigating the Impact of Data Contamination of Large Language Models in Text-to-SQL translation

这篇论文要回答“Text-to-SQL 的零样本能力到底有多少来自真实泛化、多少来自数据污染”，因为 Spider 这类经典基准可能已进入训练语料，导致评估被高估。

Federico Ranaldi,Elena Sofia Ruzzetti,Dario Onorati,Leonardo Ranaldi,Cristina Giannone,Andrea Favalli,Raniero Romagnoli,Fabio Massimo Zanzotto

data-contaminationtext-to-sqlevaluationDOI arXiv DBLP

泛读FindingsACL 2024

Perturbed examples reveal invariances shared by language models

这篇论文要解决“基准饱和后如何比较模型差异”的问题：传统榜单难区分模型在真实分布下的能力变化，而作者用可解释的输入扰动来刻画模型共享的‘不变性’（invariance）。

Ruchit Rawal,Mariya Toneva

model-comparisoninvarianceperturbationDOI arXiv DBLP

泛读FindingsACL 2024

Deal, or no deal (or who knows)? Forecasting Uncertainty in Conversations using Large Language Models

这篇论文要评估 LLM 在对话中表达与校准不确定性的能力：对话走向本来就多分支，单纯追求“猜中结局”的准确率会掩盖模型是否知道自己不确定。

Anthony Sicilia,Hyunwoo Kim,Khyathi Raghavi Chandu,Malihe Alikhani,Jack Hessel

uncertaintyevaluationconversationDOI arXiv DBLP

泛读LongACL 2024

IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages

这篇论文要补齐 LLM 生成评测在 Indic 语言上的空白：现有生成基准以英语为中心，导致我们无法判断模型在多脚本、多形态变化语言上的真实生成质量与鲁棒性。

Harman Singh,Nitish Gupta,Shikhar Bharadwaj,Dinesh Tewari,Partha Talukdar

benchmarkmultilingualevaluationDOI DBLP

泛读LongACL 2024

Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks

这篇工作要解决的是：很多 LLM benchmark 默认测试集和真实使用分布一致，但这个假设往往不成立，因此模型排名和能力判断可能对样本分布非常敏感。过去评测常把单一基准分数当稳定信号使用，却很少系统检查 benchmark 对类别比例、难度分布或题型混合变化的鲁棒性。

Charlotte Siska,Katerina Marazopoulou,Melissa Ailem,James Bono

evaluationbenchmarkdistribution-shiftDOI DBLP

泛读LongACL 2024

Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once?

这篇工作研究的是：LLM 在单条指令跟随上表现不错，但当一个 prompt 同时包含多个约束或多个任务时，模型是否真的能并行遵守，还是只会抓住其中一部分。过去很多 instruction-following 评测把复杂任务拆成单目标问题，从而回避了现实交互里常见的多约束组合难题。

Guijin Son,Sangwon Baek,Sangdae Nam,Ilgyun Jeong,Seungone Kim

instruction-followingmulti-taskevaluationDOI DBLP

泛读FindingsACL 2024

Views Are My Own, but Also Yours: Benchmarking Theory of Mind Using Common Ground

这篇工作关注的是：现有 Theory of Mind 评测常把问题做成静态、单轮、文字显式给定的心智推断，难以检验模型是否真正理解‘共同知识’和不同主体的视角差异。作者想解决的是更贴近对话与协作场景的 common ground 推理评测空缺。

Adil Soubki,John Murzaku,Arash Yousefi Jordehi,Peter Zeng,Magdalena Markowska,Seyed Abolghasem Mirroshandel,Owen Rambow

theory-of-mindbenchmarkcommon-groundDOI DBLP

泛读FindingsACL 2024

PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics Capabilities

这篇工作要解决的是：LLM 在语用学上的能力缺少系统评测，现有 benchmark 多聚焦字面语义、常识或逻辑推理，难以检测模型是否理解言外之意、礼貌策略、间接请求、含糊表达等 pragmatics 现象。过去这类能力常被聊天体验主观感受替代，没有形成可分析的测试集。

Settaluri Lakshmi Sravanthi,Meet Doshi,Pavan Tankala,V. Rudra Murthy,Raj Dabre,Pushpak Bhattacharyya

benchmarkpragmaticsevaluationDOI DBLP

泛读LongACL 2024

NICE: To Optimize In-Context Examples or Not?

这篇工作讨论的是：in-context learning 里到底要不要优化示例，以及什么时候优化示例真的有收益。过去很多工作默认‘示例越精挑细选越好’，围绕检索、排序、自动搜索做了大量工程，但这个前提未必稳定，尤其在强模型或任务本身格式简单时，示例优化的边际收益可能很低。

Pragya Srivastava,Satvik Golechha,Amit Deshpande,Amit Sharma

icldemonstrationsprompt-optimizationDOI DBLP

泛读FindingsACL 2024

Concept-aware Data Construction Improves In-context Learning of Language Models

这篇工作解决的是：ICL 数据构造常按表面相似度或随机策略选例子，但模型真正需要的往往是概念层面的覆盖，也就是让示例把任务中关键规则、属性或关系暴露出来。过去只看词面相似会让 prompt 中示例彼此冗余，模型看到很多相近表述，却没看到足够完整的概念空间。

Michal Stefánik,Marek Kadlcík,Petr Sojka

icldata-constructionconcept-learningDOI DBLP

泛读SRWACL 2024

On Improving Repository-Level Code QA for Large Language Models

这篇工作关注的是：repository-level code QA 比单文件代码问答难得多，因为答案往往依赖跨文件依赖、调用关系、配置和项目结构，而当前 LLM 往往只看到局部片段。过去不少 code QA 评测把问题简化到单函数或单文件，使得模型看起来懂代码，但在真实仓库环境中检索和整合能力不足。

Jan Strich,Florian Schneider,Irina Nikishina,Chris Biemann

code-llmrepository-levelqaDOI DBLP

泛读LongACL 2024

Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?

这篇工作研究的是：LLM 是否真正理解共时推理，也就是多个事件或状态在同一时间切片上的关系，而不只是顺着文本顺序做先后推断。过去时间推理 benchmark 更常考时间线排序、先后关系或日期计算，较少单独考察‘同一时刻谁知道什么、发生了什么、能否同时成立’这类 co-temporal reasoning。

Zhaochen Su,Juntao Li,Jun Zhang,Tong Zhu,Xiaoye Qu,Pan Zhou,Yan Bowen,Yu Cheng,Min Zhang

reasoningtemporalbenchmarkDOI DBLP

泛读LongACL 2024

DRAGIN: Dynamic Retrieval Augmented Generation based on the Real-time Information Needs of Large Language Models

Weihang Su,Yichen Tang,Qingyao Ai,Zhijing Wu,Yiqun Liu

ragdynamic-retrievaldecodingDOI DBLP

泛读FindingsACL 2024

Demonstration Augmentation for Zero-shot In-context Learning

Yi Su,Yunpeng Tai,Yixin Ji,Juntao Li,Yan Bowen,Min Zhang

icldemonstrationsdata-augmentationDOI DBLP

泛读FindingsACL 2024

Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models

Weihang Su,Changyue Wang,Qingyao Ai,Yiran Hu,Zhijing Wu,Yujia Zhou,Yiqun Liu

hallucinationinternal-statesdetectionDOI DBLP

泛读LongACL 2024

Causal-Guided Active Learning for Debiasing Large Language Models

现有大模型去偏方法要么依赖预定义的先验偏置知识，无法处理未知偏置类型，要么需要大规模去偏微调数据，成本高且泛化性差，无法适配大模型的快速迭代需求。

Zhouhao Sun,Li Du,Xiao Ding,Yixuan Ma,Yang Zhao,Kaitao Qiu,Ting Liu,Bing Qin

debiasingactive-learningalignmentDOI arXiv DBLP

泛读FindingsACL 2024

Effective In-Context Example Selection through Data Compression

现有ICL示例选择方法多基于语义相似性，忽略了示例集的信息覆盖度，导致选择的示例冗余度高，无法充分代表训练数据分布，ICL性能不稳定且上下文窗口浪费严重。

Zhongxiang Sun,Kepu Zhang,Haoyu Wang,Xiao Zhang,Jun Xu

in-context-learningdata-compressionexample-selectionDOI arXiv DBLP

泛读LongACL 2024

Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts?

这篇论文要回答的核心问题是：当模型自己的生成上下文和外部检索上下文互相冲突时，LLM到底更信谁。这个问题过去常被RAG整体效果掩盖，因为大多数评测默认上下文彼此一致，难以分离“模型内部先验”“生成补充”和“检索证据”各自对最终答案的贡献；而一旦进入多源增强、self-refine 或 generate-then-retrieve 流程，这个冲突就会直接决定系统是否会被错误中间结果带偏。

Hexiang Tan,Fei Sun,Wanli Yang,Yuanzhuo Wang,Qi Cao,Xueqi Cheng

knowledge-conflictcontext-mergingllm-behaviorDOI arXiv DBLP

泛读LongACL 2024

WRP: Weight Recover Prune for Structured Sparsity

要把剪枝做到“硬件友好”的结构化稀疏（如 2:4）而不显著掉点，因为 50%-60% 的非结构化稀疏在推理端往往省不了多少（索引/访存开销抵消）。现有 one-shot pruning 虽能免重训，但在结构化约束下更容易造成不可恢复的精度损失。

Zhendong Tan,Xingjun Zhang,Zheng Wei

pruningstructured-sparsitymodel-compressionDOI DBLP

泛读LongACL 2024

Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines

要理解 T2I 扩散管线里文本编码器到底在每一层“算出了什么”，因为现有分析多停留在注意力可视化或最终 embedding，而无法把中间表征和生成结果直接对齐。没有这种对齐，就很难解释组合提示词、知识检索失败等现象来自编码器还是来自扩散 UNet。

Michael Toker,Hadas Orgad,Mor Ventura,Dana Arad,Yonatan Belinkov

interpretabilitytext-encoderdiffusionDOI arXiv DBLP

泛读ACL 2024

LM Transparency Tool: Interactive Tool for Analyzing Transformer Language Models

摘要缺失，无法从给定信息确定该交互式分析工具具体解决的痛点与范围。

Igor Tufanov,Karen Hambardzumyan,Javier Ferrando,Elena Voita

interpretabilitytransformervisualizationDOI DBLP

泛读FindingsACL 2024

Semantic are Beacons: A Semantic Perspective for Unveiling Parameter-Efficient Fine-Tuning in Knowledge Learning

摘要缺失，无法从给定信息确定其关于 PEFT 知识学习机制的具体问题定义与结论。

Renzhi Wang,Piji Li

peftknowledgeinterpretabilityDOI DBLP

泛读LongACL 2024

Cross-Lingual Knowledge Editing in Large Language Models

摘要缺失，无法从给定信息确定跨语言知识编辑要解决的是“编辑可迁移性”还是“避免跨语言副作用/遗忘”。

Jiaan Wang,Yunlong Liang,Zengkui Sun,Yuxuan Cao,Jiarong Xu,Fandong Meng

knowledge-editingcross-lingualmodel-editingDOI DBLP

泛读FindingsACL 2024

Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

这篇论文要解决的是 LVLM 在视觉问答和描述任务中的幻觉问题，尤其是模型忽视图像证据、过度依赖语言先验时的错误生成。过去常见方法要么改训练数据和对齐目标，要么在解码时做通用对比解码，但后者未必显式利用'指令是否要求视觉 grounding'这个关键信号。

Xintong Wang,Jingheng Pan,Liang Ding,Chris Biemann

vlmhallucinationcontrastive-decodingDOI DBLP

泛读LongACL 2024

LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative Tasks

这篇论文要解决的是：多个 LoRA 适配器在生成任务中往往各自有效，但直接平均、串联或静态融合很难兼顾不同输入和不同生成阶段的需求。现有 LoRA fusion 方法通常把融合权重设成全局常数，等于默认所有 prompt、所有 token 都需要同一种专家配比，这在开放式生成里明显过于粗糙。

Hanqing Wang,Bowen Ping,Shuo Wang,Xu Han,Yun Chen,Zhiyuan Liu,Maosong Sun

loramodel-mergingpeftDOI DBLP

泛读LongACL 2024

Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs

这篇论文关注的问题是：LLM 到底能不能稳定地按显式规则推理，而不是在训练分布内做模式匹配。过去很多 reasoning benchmark 容易被表面启发式投机通过，因此即使模型分数高，也不能说明它真的掌握了规则执行；需要一种更强的 stress test 和更针对性的改进手段。

Siyuan Wang,Zhongyu Wei,Yejin Choi,Xiang Ren

reasoninglogicscaffoldingDOI DBLP

泛读FindingsACL 2024

InstructGraph: Boosting Large Language Models via Graph-centric Instruction Tuning and Preference Alignment

这篇论文要解决的是：通用 LLM 在图任务上通常缺少结构感，单靠自然语言 instruction tuning 很难学会稳定处理图上的关系、路径和局部/全局约束。过去常见做法是外挂 GNN 或做任务特定 prompt，但这没有把'图结构能力'系统地注入到 LLM 的对齐阶段。

Jianing Wang,Junda Wu,Yupeng Hou,Yao Liu,Ming Gao,Julian J. McAuley

instruction-tuningpreference-alignmentgraphDOI DBLP

泛读LongACL 2024

Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key?

这篇论文要检验的是：多智能体讨论是否真能突破单个 LLM 的推理上界，还是只是增加采样次数后带来表面收益。过去关于 multi-agent discussion 的结果很多，但经常把'更多 token、更多样本、更多 self-consistency'和'真正的协作增益'混在一起，导致结论不稳。

Qineng Wang,Zihao Wang,Ying Su,Hanghang Tong,Yangqiu Song

multi-agentreasoningevaluationDOI DBLP

泛读FindingsACL 2024

Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap for Prompt-Based Large Language Models and Beyond

这篇论文要解决的是：不同模型、不同任务下学到的 task embedding 往往彼此不兼容，导致 prompt-based 方法难以共享、迁移和比较任务表示。过去很多工作只在单模型内部学习 soft prompt 或任务向量，这些表示一旦换 backbone 就失效，因此很难形成跨模型的统一任务空间。

Xinyu Wang,Hainiu Xu,Lin Gui,Yulan He

task-embeddingpromptingtransferDOI DBLP

泛读LongACL 2024

PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA

这篇论文解决的是 LoRA 的一个效率瓶颈：标准 LoRA 虽然省参数，但其低秩更新方向受限，表达能力和优化灵活性不够，尤其在较小 rank 下更明显。很多工作通过增大 rank 或引入更复杂 adapter 来补，但那会吃掉参数效率和部署简洁性。

Sheng Wang,Boyang Xue,Jiacheng Ye,Jiyue Jiang,Liheng Chen,Lingpeng Kong,Chuan Wu

lorapeftparameter-efficiencyDOI DBLP

泛读FindingsACL 2024

Unveiling Selection Biases: Exploring Order and Token Sensitivity in Large Language Models

系统揭示 LLM 在多选题等评测中的选项顺序偏差和 token 敏感性问题。模型对选项排列顺序和选项标签（A/B/C/D vs 1/2/3/4）的变化表现出不应有的敏感性，导致评测结果不可靠。

Sheng-Lun Wei,Cheng-Kuang Wu,Hen-Hsen Huang,Hsin-Hsi Chen

National Taiwan Universityselection-biasorder-sensitivitytoken-sensitivityDOI DBLP

泛读FindingsACL 2024

SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning

解决参数高效微调（PEFT）方法（如 LoRA、Adapter）在深层网络中因特征坍缩导致性能下降的问题。PEFT 方法在冻结大部分参数时，深层的表示多样性会退化，限制了微调效果。

Zhihao Wen,Jie Zhang,Yuan Fang

peftfine-tuningparameter-efficiencyDOI DBLP

泛读FindingsACL 2024

Compositional Generalization with Grounded Language Models

研究 grounded language model（接地语言模型，即能将语言与外部知识/世界状态关联的模型）是否具有组合泛化能力——即能否将训练中见过的概念组合推广到未见过的新组合。组合泛化是语言理解的核心能力，但 LM 在这方面的表现一直有争议。

Sondre Wold,Étienne Simon,Lucas Georges Gabriel Charpentier,Egor V. Kostylev,Erik Velldal,Lilja Øvrelid

University of Oslocompositional-generalizationgroundinglanguage-modelDOI DBLP

泛读FindingsACL 2024

AS-ES Learning: Towards efficient CoT learning in small models

核心问题是小模型学 CoT 往往依赖“更多 CoT 数据蒸馏”，但在数据预算固定时，直接 seq2seq 学整段 CoT 会把大量 token 花在冗余叙述上，导致有效监督密度低；以往方法倾向于加数据或改模型，而不是提高现有 CoT 的利用率。

Nuwa Xi,Yuhan Chen,Sendong Zhao,Haochun Wang,GongZhang GongZhang,Bing Qin,Ting Liu

chain-of-thoughtdistillationsmall-modelDOI arXiv DBLP

泛读FindingsACL 2024

Language Models can Evaluate Themselves via Probability Discrepancy

核心问题是如何在不依赖外部裁判模型（如 GPT-4）或额外 reward model 的情况下，让 LLM 对自己的回答质量做可比较的自动评估；以往自评要么变成“自说自话”的打分，要么需要外部强模型做标注。

Tingyu Xia,Bowen Yu,Yuan Wu,Yi Chang,Chang Zhou

self-evaluationprobability-distributionllm-calibrationDOI arXiv DBLP

泛读FindingsACL 2024

The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse

核心问题是模型编辑（model editing）在局部修改知识/行为时可能引发全局退化甚至“崩溃”，但社区往往把编辑当作可控的局部手术，缺少对连锁副作用的系统刻画。

Wanli Yang,Fei Sun,Xinyu Ma,Xun Liu,Dawei Yin,Xueqi Cheng

model-editingstabilityknowledgeDOI DBLP

泛读FindingsACL 2024

PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference

核心问题是 KV cache 压缩方法多在“已算好的 KV 上做剪枝/量化”，但忽略了层间依赖与预计算阶段本身的巨大内存/带宽开销，导致吞吐提升受限；尤其在深模型上，越往上层“真正影响未来生成的 KV”可能越少。

Dongjie Yang,Xiaodong Han,Yan Gao,Yao Hu,Shilin Zhang,Hai Zhao

kv-cachecompressioninferenceDOI arXiv DBLP

泛读LongACL 2024

Synthesizing Text-to-SQL Data from Weak and Strong LLMs

核心问题是 text-to-SQL 上开源模型与闭源强模型存在能力差距，而单纯用强模型合成数据会把错误模式“洗掉”，导致模型对真实分布的鲁棒性与泛化不足；以往合成数据多追求“更正确”，较少系统利用“弱模型的错误”。

Jiaxi Yang,Binyuan Hui,Min Yang,Jian Yang,Junyang Lin,Chang Zhou

synthetic-datatext-to-sqldata-generationDOI arXiv DBLP

泛读FindingsACL 2024

ETAS: Zero-Shot Transformer Architecture Search via Network Trainability and Expressivity

核心问题是在零样本/低成本条件下做 Transformer 架构搜索（NAS），避免“训练很多候选模型再比较”的高昂代价；以往零成本 NAS 指标常与真实可训练性/表达能力脱节，导致选出来的结构未必好训或好用。

Jiechao Yang,Yong Liu

architecture-searchtransformertrainabilityDOI DBLP

泛读FindingsACL 2024

Can Large Multimodal Models Uncover Deep Semantics Behind Images?

核心问题是现有多模态评测更偏“看图说话”的表层描述，缺少对图像深层语义（隐含主题、意图、社会语境等）的系统测量，导致 LMM 训练与对齐很难知道自己到底缺什么；以往深语义常被零散地用少量样例讨论。

Yixin Yang,Zheng Li,Qingxiu Dong,Heming Xia,Zhifang Sui

multimodalbenchmarkvision-languageDOI arXiv DBLP

泛读FindingsACL 2024

Revisiting Parallel Context Windows: A Frustratingly Simple Alternative and Chain-of-Thought Deterioration

这篇论文的核心结论是：Parallel Context Windows（PCW）并没有被现有评测充分证明有效，尤其在长文档上的推理任务里会带来明显退化。此前这类方法被视为一种几乎不改模型就能扩上下文的工程捷径，但评测主要集中在 few-shot 分类，且缺少一个足够强的简单基线，因此它是否真的提升了长上下文理解一直没有被严肃验证。

Kejuan Yang,Xiao Liu,Kaiwen Men,Aohan Zeng,Yuxiao Dong,Jie Tang

long-contextcontext-windowschain-of-thoughtDOI arXiv DBLP

泛读FindingsACL 2024

ICC : Quantifying Image Caption Concreteness for Multimodal Dataset Curation

这篇论文要解决的问题是：多模态数据筛选时，图像描述的“具体程度”通常没有被显式量化，导致数据集里混入大量抽象、空泛或对视觉学习帮助有限的 caption。以往数据清洗更多看长度、重复率、毒性或图文相似度，但这些指标不能区分“这句话是否真的落在图像可感知内容上”。

Moran Yanuka,Morris Alper,Hadar Averbuch-Elor,Raja Giryes

dataset-curationmultimodalcaptioningDOI DBLP

泛读LongACL 2024

ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages

这篇论文关注的问题是：LLM 在 tool learning 的完整链条上存在系统性安全风险，而且这些风险不只出现在最终调用阶段。以往工具使用安全研究更多盯推理时是否误用工具，但如果训练数据、工具知识注入和执行决策三个阶段都可能埋入风险，只看末端行为会漏掉很多源头问题。

Junjie Ye,Sixian Li,Guanyu Li,Caishuang Huang,Songyang Gao,Yilong Wu,Qi Zhang,Tao Gui,Xuanjing Huang

tool-usesafetyalignmentDOI DBLP

泛读LongACL 2024

ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

这篇论文要解决的问题是：长上下文推理中的 self-attention 和 KV cache 开销过高，尤其在有大段共享前缀时存在重复计算浪费。现有优化要么只改 attention kernel，要么只做缓存复用，但如果分块策略不知道哪些前缀是共享且可复用的，就很难同时兼顾吞吐和精确性。

Lu Ye,Ze Tao,Yong Huang,Yang Li

attentionkv-cacheinferenceDOI DBLP

泛读ShortACL 2024

Is the Pope Catholic? Yes, the Pope is Catholic. Generative Evaluation of Non-Literal Intent Resolution in LLMs

Akhila Yerukola,Saujas Vaduguru,Daniel Fried,Maarten Sap

non-literalevaluationreasoningDOI DBLP

泛读FindingsACL 2024

On the Vulnerability of Safety Alignment in Open-Access LLMs

Jingwei Yi,Rui Ye,Qisi Chen,Bin Zhu,Siheng Chen,Defu Lian,Guangzhong Sun,Xing Xie,Fangzhao Wu

safety-alignmentrobustnessjailbreakDOI DBLP

泛读LongACL 2024

Agent Lumos: Unified and Modular Training for Open-Source Language Agents

Da Yin,Faeze Brahman,Abhilasha Ravichander,Khyathi Raghavi Chandu,Kai-Wei Chang,Yejin Choi,Bill Yuchen Lin

agenttrainingtool-useDOI DBLP

泛读LongACL 2024

Reasoning in Flux: Enhancing Large Language Models Reasoning through Uncertainty-aware Adaptive Guidance

Zhangyue Yin,Qiushi Sun,Qipeng Guo,Zhiyuan Zeng,Xiaonan Li,Junqi Dai,Qinyuan Cheng,Xuanjing Huang,Xipeng Qiu

reasoninguncertaintyguidanceDOI DBLP

泛读LongACL 2024

Benchmarking Knowledge Boundary for Large Language Models: A Different Perspective on Model Evaluation

Xunjian Yin,Xu Zhang,Jie Ruan,Xiaojun Wan

knowledgeevaluationbenchmarkDOI DBLP

泛读LongACL 2024

LangBridge: Multilingual Reasoning Without Multilingual Supervision

Dongkeun Yoon,Joel Jang,Sungdong Kim,Seungone Kim,Sheikh Shafayat,Minjoon Seo

multilingualreasoningcross-lingual-transferDOI DBLP

泛读LongACL 2024

Revealing the Parametric Knowledge of Language Models: A Unified Framework for Attribution Methods

Haeun Yu,Pepa Atanasova,Isabelle Augenstein

knowledge-attributioninterpretabilityparametric-knowledgeDOI DBLP

泛读LongACL 2024

WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning

Zhaojian Yu,Xin Zhang,Ning Shang,Yangyu Huang,Can Xu,Yishujie Zhao,Wenxiang Hu,Qiufeng Yin

code-llminstruction-tuningdata-synthesisDOI DBLP

泛读ACL 2024

CharPoet: A Chinese Classical Poetry Generation System Based on Token-free LLM

Chengyue Yu,Lei Zang,Jiaotuan Wang,Chenyi Zhuang,Jinjie Gu

token-freetokenizerchineseDOI DBLP

泛读FindingsACL 2024

GNNavi: Navigating the Information Flow in Large Language Models by Graph Neural Network

Shuzhou Yuan,Ercong Nie,Michael Färber,Helmut Schmid,Hinrich Schütze

interpretabilityinformation-flowgnnDOI DBLP

泛读LongACL 2024

Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective

Zihao Yue,Liang Zhang,Qin Jin

multimodal-hallucinationeos-decisionvlmDOI DBLP

泛读FindingsACL 2024

CodeM: Less Data Yields More Versatility via Ability Matrix

Daoguang Zan,Ailun Yu,Wei Liu,Bo Shen,Shaoxin Lin,Yongshun Gong ... 省略 3 位作者 ... ,Weihua Luo,Yongji Wang,Qianxiang Wang,Lizhen Cui

code-llminstruction-tuningdata-efficiencyDOI DBLP

泛读FindingsACL 2024

Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model

这篇工作要解决的是：SFT 往往在“专长”和“通用性”之间拉扯，针对某一领域强化后，通用能力容易回退。过去常见做法是直接混合数据或多阶段微调，但缺少明确的能力分配机制，因此作者提出一个 coarse-to-fine 的 SFT 框架来平衡两者。

Hengyuan Zhang,Yanru Wu,Dawei Li,Sak Yang,Rui Zhao,Yong Jiang,Fei Tan

sftinstruction-tuningspecializationDOI DBLP

泛读FindingsACL 2024

Rationales for Answers to Simple Math Word Problems Confuse Large Language Models

这篇工作要解决的是：对简单数学应用题，给模型提供 rationale 不一定帮助，反而可能让模型更糊涂。以往 CoT 常被默认视为普适增益手段，但在低复杂度任务上，额外推理文本可能引入无关模式和监督噪声，因此作者专门检查“简单题 + rationale”为何会伤害模型。

Yidan Zhang,Mingfeng Xue,Dayiheng Liu,Zhenan He

cotrationalemath-reasoningDOI DBLP

泛读LongACL 2024

TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space

这篇工作要解决的是：如何在不重新大规模训练模型的情况下，降低 LLM 幻觉并提升真实性。过去常见路径是检索增强、对齐训练或参数编辑，但前两者依赖外部系统或额外数据，后者又容易局部修复、整体副作用大，因此作者提出在所谓 truthful space 中做模型编辑。

Shaolei Zhang,Tian Yu,Yang Feng

model-editinghallucinationtruthfulnessDOI DBLP

泛读FindingsACL 2024

NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Queries

这篇工作要解决的是：HumanEval 这类代码 benchmark 与真实用户查询之间存在明显脱节，导致模型在标准评测上表现好，却未必能应对自然场景编程需求。过去代码模型大量围绕合成、规范化的题目优化，因此作者构建 NaturalCodeBench 来测这个失配。

Shudan Zhang,Hanlin Zhao,Xiao Liu,Qinkai Zheng,Zehan Qi,Xiaotao Gu,Yuxiao Dong,Jie Tang

code-generationbenchmarkevaluationDOI DBLP

泛读LongACL 2024

Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models

这篇工作要解决的是：量化后的 LLM 虽然推理便宜，但进一步微调常常又慢又占显存，因为适配模块和反量化开销会把节省吃回去。现有 QLoRA 等方法已经缓解了一部分问题，但在速度和内存之间仍有明显折中，因此作者提出 Quantized Side Tuning。

Zhengxin Zhang,Dan Zhao,Xupeng Miao,Gabriele Oliaro,Zhihao Zhang,Qing Li,Yong Jiang,Zhihao Jia

quantizationpeftfine-tuningDOI DBLP

泛读FindingsACL 2024

Set the Clock: Temporal Alignment of Pretrained Language Models

Bowen Zhao,Zander Brumbaugh,Yizhong Wang,Hannaneh Hajishirzi,Noah A. Smith

pretrained-lmtemporal-reasoningalignmentDOI DBLP

泛读FindingsACL 2024

BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

Xueliang Zhao,Xinting Huang,Tingchen Fu,Qintong Li,Shansan Gong,Lemao Liu,Wei Bi,Lingpeng Kong

vlmreasoningalignmentDOI DBLP

泛读LongACL 2024

Pareto Optimal Learning for Estimating Large Language Model Errors

Theodore Zhao,Mu Wei,Joseph Preston,Hoifung Poon

calibrationerror-estimationevaluationDOI DBLP

泛读FindingsACL 2024

Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models

Xinran Zhao,Hongming Zhang,Xiaoman Pan,Wenlin Yao,Dong Yu,Tongshuang Wu,Jianshu Chen

calibrationconfidencereflectionDOI DBLP

泛读FindingsACL 2024

OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

Tianyu Zheng,Ge Zhang,Tianhao Shen,Xueling Liu,Bill Yuchen Lin,Jie Fu,Wenhu Chen,Xiang Yue

code-generationcode-executionrefinementDOI DBLP

泛读ACL 2024

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Yaowei Zheng,Richong Zhang,Junhao Zhang,Yanhan Ye,Zheyan Luo

fine-tuningpeftopen-sourceDOI DBLP

泛读FindingsACL 2024

Teaching-Assistant-in-the-Loop: Improving Knowledge Distillation from Imperfect Teacher Models in Low-Budget Scenarios

这篇论文解决的是低预算蒸馏里的两个耦合问题：教师调用贵，且教师输出并不总是对。以往知识蒸馏通常默认教师标签足够好，重点放在多拿样本；但在LLM场景里，昂贵教师往往只能少量查询，而且错误示范会被学生高效继承，所以“如何把有限预算花在最该问、最该信的样本上”变成了核心问题。

Yuhang Zhou,Wei Ai

knowledge-distillationlow-budgetteacher-assistantDOI arXiv DBLP

泛读FindingsACL 2024

An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models

这篇论文要解决的是：多模态大模型在只能训练极少参数时，哪类PEFT方法、插在哪些位置、配多大容量，才是真正有效的。这个问题过去在纯文本LLM上已有不少经验，但MLLM多了视觉编码器、投影层和跨模态对齐，直接照搬文本PEFT结论往往不稳；而全参数微调又越来越难以承受，所以需要系统性的经验图谱。

Xiongtao Zhou,Jie He,Yuhua Ke,Guangyao Zhu,Víctor Gutiérrez-Basulto,Jeff Z. Pan

peftmllmfine-tuningDOI arXiv DBLP

泛读FindingsACL 2024

DPDLLM: A Black-box Framework for Detecting Pre-training Data from Large Language Models

这篇论文要解决的是：在只能访问文本输出、拿不到logits和概率的黑盒条件下，能否检测某段文本是否出现在LLM预训练数据中。已有membership inference大多依赖输出概率、loss或梯度信号，这对商用LLM API基本不可用；但版权、隐私和合规问题恰恰主要发生在这种黑盒服务场景，所以需要一种只看生成文本的检测框架。

Baohang Zhou,Zezhong Wang,Lingzhi Wang,Hongru Wang,Ying Zhang,Kehui Song,Xuhui Sui,Kam-Fai Wong

data-detectionpretraining-datamembership-inferenceDOI DBLP

泛读FindingsACL 2024

CLASP: Cross-modal Alignment Using Pre-trained Unimodal Models

Jianing Zhou,Ziheng Zeng,Hongyu Gong,Suma Bhat

cross-modal-alignmentunimodal-pretrainmultimodalDOI DBLP

泛读FindingsACL 2024

Question Translation Training for Better Multilingual Reasoning

这篇论文解决的是多语言推理里一个很具体但长期存在的问题：非英语推理能力弱，常规做法是把英语指令和推理数据翻译成多语版本再训练，但这种 translate-training 成本高，而且数学与链式推理格式很容易被翻坏。作者重新定义了问题，不再试图把整套推理监督复制到每种语言，而是只训练模型把问题稳定地转到英语，再在英语空间里完成推理。

Wenhao Zhu,Shujian Huang,Fei Yuan,Shuaijie She,Jiajun Chen,Alexandra Birch

multilingualreasoningtranslationDOI arXiv DBLP

泛读LongACL 2024

CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers

这篇工作要解决的是 LLM 推理时累积层数带来的串行延迟，而不是单层算得慢。现有提速方法如量化、张量并行主要压缩每层成本，但几十层到上百层的顺序依赖仍然主导端到端 latency；直接删层虽然能降时延，却通常明显伤性能。

Longwei Zou,Qingyang Wang,Han Zhao,Jiangangkong Jiangangkong,Yi Yang,Yangdong Deng

inference-latencylayer-parallelismarchitectureDOI arXiv DBLP

泛读ACL 2024

Do Numbers Matter? Types and Prevalence of Numbers in Clinical Texts

这篇工作关注的是临床文本中的数字分布与类型问题，即模型到底在学哪些数字、这些数字有多常见、以及不同数字类型是否应被区别对待。这个问题过去常被淹没在通用 token 统计里，但在临床场景中，数值承载剂量、化验结果、时间和风险区间，错误代价远高于普通词汇。

Rahmad Mahendra,Damiano Spina,Lawrence Cavedon,Karin Verspoor

data-analysisclinicalnumbersDOI DBLP

泛读ACL 2024

AIRI at RRG24: LLaVa with specialised encoder and decoder

这篇工作要解决的是放射学报告生成中的多模态建模效果问题，具体做法是对 LLaVA 这类通用视觉-语言架构进行专门化的编码器和解码器改造。通用 VLM 往往在开放域图文任务上足够强，但迁移到医学影像报告生成时，视觉特征、语言风格和错误容忍度都不匹配。

Marina Munkhoeva,Dmitry Umerenkov,Valentin Samokhin

llavavision-languageradiologyDOI DBLP

泛读ACL 2024

IgnitionInnovators at "Discharge Me!": Chain-of-Thought Instruction Finetuning Large Language Models for Discharge Summaries

这篇工作讨论的是出院小结生成中的指令微调策略问题，核心是链式思维（CoT）是否能帮助 LLM 生成更完整、更结构化的 discharge summaries。传统微调通常直接从病历到摘要端到端生成，但在临床文书里，信息筛选、时间线梳理和因果串联本身就是中间推理步骤。

An Quang Tang,Xiuzhen Zhang,Minh Ngoc Dinh

cotinstruction-tuningclinicalDOI DBLP

泛读ACL 2024

XrayGPT: Chest Radiographs Summarization using Large Medical Vision-Language Models

胸部X光片的放射学报告自动摘要：现有通用VLM缺乏医学影像理解能力，而专用医学VLM在将视觉特征与临床文本对齐方面仍然粗糙，导致生成的报告摘要质量不足。

Omkar Thawakar,Abdelrahman M. Shaker,Sahal Shaji Mullappilly,Hisham Cholakkal,Rao Muhammad Anwer,Salman H. Khan,Jorma Laaksonen,Fahad Khan

Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)vision-languageradiologysummarizationDOI DBLP