Annual Meeting of the Association for Computational Linguistics
这篇工作解决的是:开放预训练研究长期缺少一个规模足够大、清洗过程透明、许可边界相对明确的高质量语料库,导致很多预训练结论无法在真正开放条件下复现。过去开源社区常用 The Pile、C4、RedPajama 这类语料,但要么规模偏小,要么质量/去重/文档来源处理不够系统,要么许可和可获得性限制了长期可用性。
这篇 paper 的核心结论是:传统 top-K MoE 的专家粒度太粗,容易造成专家之间知识重叠,导致参数虽然多、真正的 specialization 却不够。过去 GShard/Switch 一类做法主要解决可扩展性和路由稳定性,但没有把“专家应当学到彼此尽量不重叠的知识”推到设计中心。
这篇工作要解决的是:Web 预训练语料噪声大、表达差,导致 scaling law 下需要更多数据与算力才能学到同等能力,而高质量数据又越来越稀缺。作者要验证一个直接问题:如果把同一份网页内容“改写得更像高质量语料”,能否用更少 tokens/compute 训练出更强模型。
现有次平方复杂度语言模型架构(如状态空间模型)语言建模性能优于标准Transformer,但上下文学习能力远弱于后者。基于固定泰勒展开核的混合架构Based缓解了该差距,但固定核的强归纳偏置仍限制了上下文学习表现的进一步提升。
现有语言模型生成的内容缺乏全局事实一致性,无法形成可编辑的统一世界模型,容易生成错误内容且知识更新成本高。之前的事实增强方法仅依赖外部知识库输入,没有利用模型自身的推理能力校准事实。
这篇 paper 的核心问题是:长文档建模不一定非要在 token 粒度上硬撑 quadratic attention,能不能直接把更高层的语义块当作建模对象。传统 MLM 在长文档上成本高且容易被局部 token 预测牵着走,对整段语义结构的建模并不高效,因此作者重新定义了 MLM 的预测单位。
这篇论文解决的是预训练数据重复带来的效率浪费,但不走“硬删除重复样本”这条过于粗糙的路。现有 dedup 常把重复视为二元问题:像就删、不像就留;问题是这样会误删仍有信息量的高频样本,也无法区分“轻微常见”和“严重重复”的程度差异。
这篇论文要解决的是英语中心 tokenizer 给非罗马字母语言带来的过度切分问题,它会直接拖慢多语言 LLM 的生成速度。过去通常接受这一代价,或者通过重新训练 tokenizer 和模型整体适配目标语言,但这两条路都很重,特别不适合已经训练好的大模型。
现有MoE模型普遍采用固定TopK路由机制,无论输入样本难度都激活相同数量的专家,简单样本浪费计算资源,复杂样本因专家数量不足性能受限。之前的动态路由方法多聚焦于负载均衡,没有关联样本难度和激活专家数。
现有语音离散tokenizer多基于重构原始音频优化,离散化过程会丢失大量语义信息,导致语音输入大模型后的下游任务性能下降。之前的语义tokenizer没有直接对齐预训练语音编码器的表示空间。
这篇论文要解决的是:标准 next-token prediction 只在局部 token 级监督模型,可能不足以让模型学到更强的全局语义泛化;有没有办法在保留 AR 训练主干的同时,引入序列级监督。过去也有 sentence embedding 或 contrastive learning 工作,但它们往往和主 LM 目标分离,没真正和 token 预测形成同一训练闭环。
这篇工作要解决的是:极深 Transformer 虽然有潜力,但训练稳定性很差;DeepNorm 通过固定约束更新幅度改善了早期稳定性,却可能把整个训练过程都压得过于保守,最终模型欠训练。换句话说,问题不只是‘怎么防炸’,还包括‘防炸之后别把收敛速度和最终性能一起压没了’。
可控文本生成中,AR 语言模型的引导方法容易产生级联解码错误导致质量下降,而 text diffusion model 虽然容易引导但 perplexity 显著高于 AR 模型。本文要把两者的优势结合起来。
Pretrain 数据筛选(质量过滤和语言识别)会隐式地偏向或排斥特定社会群体和地理区域的内容,但这种偏差此前缺乏系统性的量化研究。本文通过网页创建者的自我描述来追踪过滤器对不同社会维度内容的影响。
这篇论文的结论是:许多 Transformer decoder 层间表征变换呈现近乎完美的线性关系,这与我们通常把每层都当作强非线性计算单元的直觉不一致,也影响我们如何理解深层堆叠的有效性。
现有代码大模型多用自然语言思维链作为中间表示提升生成性能,但自然语言思维链的逻辑结构和表达形式与代码不匹配,在代码翻译、跨语言代码生成等任务上效果受限。之前的中间表示没有统一不同编程语言的逻辑抽象。
核心问题是如何在不从头预训练的前提下,把已有 LLaMA 这类基座模型“扩容”到更强容量,同时尽量保住原模型能力与训练稳定性;以往要么直接继续预训练大模型成本高,要么做 LoRA/Adapter 容量受限且难以获得“真扩容”的收益。
核心问题是 Transformer 在 causal LM 训练后为何能表现出强泛化与上下文适应能力缺少可解释的训练过程视角;以往多从架构或注意力模式做解释,但对“训练把模型推向了什么样的内在算法”说不清。
这篇论文的核心问题是:标准 sparse MoE 虽然参数规模大、理论算力低,但实际计算并不够“稀”,很多参数仍被低激活或近零值无效参与。过去 MoE 的主要优化集中在路由均衡和训练稳定性,而对“选了专家后,专家内部还有多少无效计算”处理得不够细,所以推理和训练效率都被浪费。
这篇论文关注的问题是:大语言模型继续预训练成本太高,而常规参数高效方法又常在能力保留和迁移效果之间失衡。过去 PEFT 多用于下游微调,不一定适合 pre-training 场景;如果直接把全量继续预训练替换成轻量适配,往往会遇到容量不足或知识写入不稳定的问题。
这篇论文的目标是:让 LLM 以流式方式处理近乎无限长的上下文,同时避免标准 Transformer 在注意力和 KV cache 上的线性增长瓶颈。传统长上下文方法要么依赖窗口截断,牺牲远程依赖;要么保留完整缓存,成本随序列长度持续上升,不适合真正的 streaming 场景。
现有语音语言模型建模神经音频codec输出的长声学序列时计算效率低,高分辨率语音生成效果差。之前的多阶段语音生成方法无法实现端到端统一训练。
现有多语言模型初始化时跨语言嵌入没有统一的几何结构,零样本跨语言迁移性能差。之前的跨语言对齐方法需要并行语料或点到点的词对齐标注,成本高,不适用于低资源语言。
这篇论文要解决的是:标准 DPO 把所有偏好对看得一样重,但真实偏好强度并不相同,这会让训练信号失真。过去 DPO 的二元偏好设定默认 chosen 胜过 rejected 即可,不区分“略好一点”和“明显更好很多”;在安全、有害内容或高质量差异很大的场景里,这种一刀切会浪费监督信息。
这篇论文要解决的是:长上下文模型的评测目前缺少标准化,导致不同工作在数据构造、任务形式和打分上难以公平比较。过去很多 long-context 评测要么只测 needle-in-a-haystack 式检索,要么任务单一、样本少,难以区分模型是真正具备长程理解能力,还是仅靠局部启发式或模板适配。
现有生成模型处理部分子词的提示时会产生错误输出,因为tokenizer的分词机制导致部分子词属于分布外输入。之前的方法多修改tokenizer或模型结构,还会影响正常完整token输入的性能。
现有BERT类模型推理时需要激活全部FFN神经元,此前稀疏化方案要么精度损失过大,要么硬件速度提升有限,无法在保持精度的同时实现99%以上的极高稀疏度。
现有语言模型可学习性研究要么聚焦理论极限,要么将LM作为形式语言分类器评估,没有从概率正则语言的经验可学习性角度回答“哪些语言更容易被LM建模”的问题,无法解释不同自然语言建模难度的底层差异。
现有Transformer推理能力研究仅依赖行为基准测试,无法解释内部运行机制,此前没有对多步符号推理任务下Transformer的内部机制做完整的因果验证分析。
现有logit lens解释工具仅能定性分析Transformer中间表示,无法量化解释注意力沉底(attention sink)现象的成因,此前没有从嵌入矩阵谱分解角度解释LLM长上下文注意力偏差。
现有LLM的RL训练采用实例级奖励,无法对复杂推理任务提供细粒度监督,无法定位导致错误的关键token,容易出现奖励信号模糊的问题。
机器翻译模型训练数据量大,现有数据剪枝方法依赖预训练模型或静态特征,无法高效识别对模型泛化最有价值的数据点,剪枝后性能下降明显。
这篇 paper 试图解决的是:BERT 类模型训练成本高,而标准 dot-product attention 可能在表示上存在冗余,是否能通过改 compatibility function 在不明显伤害质量的前提下降低训练开销。这个问题值得研究,因为 encoder-only LM 仍广泛用于检索、分类和蒸馏场景,效率改进有现实价值。
SFT 阶段不同能力(数学推理、代码生成、通用对齐)的数据配比如何影响最终模型表现?这个问题之前主要靠经验调参,缺乏系统性研究。
大规模指令数据 SFT 会损害 LLM 在 pretrain 阶段学到的世界知识——指令数据量越大,知识遗忘越严重。这是 SFT 的一个根本性 trade-off。
LLM 在回答问题时需要整合 pretrain 学到的先验知识和 context 中的新信息,但这种整合的规律不清楚——模型什么时候更依赖先验、什么时候更容易被 context 说服?
LLM 推理加速需要在不增加额外模块的前提下实现 early exit 和 speculative decoding。现有 speculative decoding 需要独立的 draft 模型,增加内存开销;现有 early exit 方法需要额外的辅助层。
现有对输出词嵌入的作用仅被理解为单个词的特征向量,其在生成过程中的作用未被充分探索,此前受控生成方法需要微调大量参数或破坏模型原生能力。
这篇论文要解决的是长上下文问答里的经典失败模式:证据放在中间时,模型检索和利用信息的能力明显下降。以往工作常靠位置插值、长上下文继续训练或提示工程缓解,但这些方法并没有直接训练模型“无论证据在前中后都要主动搜索并反思”的能力。
LLM即使经过长上下文训练,也存在中间信息丢失问题,此前将该问题归因于上下文长度限制,未明确其和注意力位置偏差的关联,没有高效的修正方案。
这篇论文的核心问题是:如何把英文中心的 LLM 扩展到 100 种语言,尤其覆盖低资源语言,同时补上多语言场景下的人类偏好对齐。过去多语言 LLM 的主要瓶颈不是“不会扩展”,而是训练数据和偏好数据在低资源语言上极度稀缺,导致模型往往只有浅层多语能力,缺乏稳定的 instruction following 和跨语言对齐。
这篇论文要解决的是:传统 RLHF 把人类偏好压成单一奖励,监督既稀疏又不稳定,难以在开放生成任务里给模型持续而细粒度的对齐信号。过去 reward model 常把“整体更好”学成一个标量,但真实偏好往往由多个维度组成,例如帮助性、无害性、相关性、风格等;单一分数既难解释,也容易彼此抵消。
这篇论文要解决的是:现有基于偏好的 on-policy 对齐通常需要单独的 reward model,这在训练和部署上都增加成本,而且策略模型与 RM 分离还会带来目标漂移。过去 DPO 之类方法虽然省掉在线 RM,但通常不是严格的 on-policy;而 PPO-RLHF 虽然是 on-policy,却要额外维护 RM。
现有LLM记忆性评估方法无法高效准确计算反事实结果(即模型未见过某训练样本时的预测表现),且大多评估架构级记忆性而非单个模型实例的记忆性,无法满足训练动态分析、版权侵权防范等落地需求。此前的评估方法通过多次重训模型获得反事实,计算成本过高。
这篇论文要回答的是:LLM 的 in-context learning(ICL)到底是在“选一个任务”、在“执行预训练学到的学习算法(meta-learning)”,还是在“组合多个已学子任务”来完成新任务。以往讨论常停留在概念性解释或单一假设的证据链上,导致不同论文的结论互相打架且难以对齐。
如何以极低训练成本将已有 LLM 的上下文窗口从短(如 4K)扩展到极长(如 256K 甚至更长)。现有长上下文扩展方法要么需要大量长序列训练数据和 GPU 时间,要么在极端长度下性能退化严重。
LLM 的 'emergent abilities'(涌现能力)是否只是 in-context learning 的混淆效应?此前关于涌现的讨论缺乏对 ICL 等替代解释的严格控制,本文提出一个新理论框架并通过大规模实验验证。
这篇工作要解决的是:在保持“极低优化器显存”的前提下,让 LOMO 这类近似 SGD 的低显存优化器具备接近 AdamW 的可训练性与收敛质量,否则低显存训练会被超参敏感和收敛差卡住。作者认为以往 LOMO 的主要短板不是“缺少动量”,而是缺少 Adam 的逐参数自适应学习率带来的稳定步长控制。
缺少摘要信息,无法可靠判断作者具体要解决的稀疏加速训练问题设定与边界。
这篇论文要回答的核心问题是:仅靠 next-word prediction,语言模型能否学到像蕴含(entailment)这样需要组合语义的关系,而不只是记住表面共现。这个问题长期被经验结果部分掩盖,因为大模型在下游 NLI 上能做得不错,但这些能力到底来自预训练目标本身,还是来自数据规模、模板记忆和后续微调,一直没有被干净地区分。
这篇论文要解决的是:面对面口语对话和文本聊天差别很大,但现有对话模型大多忽略了语音中的时序、重叠、语气和即时反馈信号。仅靠 ASR 文本去建模,会把真正驱动 turn-taking 和社交互动的线索丢掉,因此很难做出接近真实 face-to-face conversation 的 spoken dialogue model。
这篇论文的核心结论是:DPO 往往把长度偏好混进了质量偏好,导致模型学到‘更长更容易被偏好’而不一定是‘更好更值得偏好’。这个问题过去经常被当作偏好数据噪声处理,但在 DPO 里它更结构性,因为目标函数直接用成对偏好信号推动相对 log-prob,如果数据里长度和胜负相关,模型就会把长度当成廉价特征利用。
长序列建模中,Transformer 的注意力复杂度是 O(n²),而线性 RNN/SSM 虽然复杂度低但在需要精确回忆远距离信息时表现不佳。需要一种兼顾效率和长距离记忆能力的方法。
这篇论文的核心结论是:Instruction Fine-tuning(IFT)往往不是在“学新知识”,而更像在做自对齐(self-aligning)与一致性重排;把 IFT 当作知识注入手段可能不仅无效,还会伤害模型。
这篇论文要定位并解释 ICL(in-context learning)中一类关键注意力头:它们能从“头实体/触发 token”诱导出“尾实体/相关 token”,从而让模型在不更新参数的情况下完成语义归纳。
这篇工作要解决的是:多语种指令微调长期缺少真正开放、覆盖广、质量可控的数据集,导致开源模型在多语言对齐上通常依赖封闭数据、英语翻译扩展,或者小规模人工集,效果和可复现性都受限。过去大家常用英文指令集机器翻译到多语种来回避数据稀缺,但这会把英语分布和英文任务形式强行投射到其他语言,难以覆盖真实多语交互。
这篇工作要解决的是:把通用 LLM 微调成高质量机器翻译模型时,常会出现翻译变强但通用能力退化的‘fine-tuning paradox’。过去常见做法是在翻译数据上直接 SFT 或继续训练,这能提升 BLEU/COMET 一类指标,但往往牺牲对话、推理或一般指令跟随能力,说明训练目标之间存在明显干扰。
现有LLM多轮指令跟随能力的训练数据、训练方法、评估基准均存在缺失,多数工作默认单轮指令优化,无法适配人类多轮交互中存在指代、省略等自然查询的场景。
大多模态模型(LMM)存在模态错位导致的幻觉问题,生成的文本输出无法对齐多模态上下文信息。现有文本域RLHF直接迁移到多模态场景时奖励模型缺乏事实依据,容易产生奖励幻觉。
现有像素空间LLM均为encoder-decoder结构的掩码重构范式,仅能支持判别类任务,无法实现文本生成,不能适配开放生成类任务需求。此前工作回避了像素LLM的自回归生成能力设计,默认像素空间建模仅能做掩码预测。
要解释多语 LLM 为什么能“自然”掌握多语言,并定位模型里哪些参数在承担特定语言能力,因为过去多语能力常被当作整体涌现现象而缺少可操作的结构性解释。没有这种定位,就很难做可控的多语增强、遗忘或安全隔离。
要把领域预训练(生物医学)做得更便宜,因为即使模型更小、数据更聚焦,继续从头预训练仍然是主要成本瓶颈。过去常见做法是训练小一点的 dense 模型或做后剪枝,但训练 FLOPs 仍然按 dense 付费。
摘要缺失,无法从给定信息确认其要解决的 CoT 自训练瓶颈(错误累积、偏好信号稀疏、还是推理格式漂移)。
要在没有人工标注的情况下做逐步验证与强化,让数学推理的训练信号从“只看最终答案”变成“每一步都可被检查”,因为 CoT 训练最常见的问题是中间步骤错误但最终偶然对、或最终错却不知道错在哪一步。
这篇论文要回答的核心问题是:多指令数据混合微调到底为什么有效,以及不同混合方式何时会互相帮助、何时会互相干扰。过去社区更常把 instruction mixing 当成经验配方来调,比如拼更多数据、调采样比例、做 curriculum,但对性能变化背后的机制缺少可验证解释,所以很难把结论迁移到新模型和新数据上。
这篇论文关注一个很基础但长期缺少训练过程证据的问题:跨语言对齐能力是在 LLM 训练的哪个阶段、通过什么信号逐步出现的。过去很多工作只在训练后测跨语迁移,把它当成静态能力评估;但如果不知道 emergence 的时间点和前提条件,就很难指导多语 pretrain 的数据配比与课程设计。
在 LLM 对齐训练(RLHF/DPO)中引入不确定性感知,解决偏好数据中标注噪声和歧义导致的训练信号不可靠问题。传统对齐方法对所有偏好对一视同仁,但人类标注的偏好数据中存在大量模糊或有争议的样本。
将 SFT 和偏好对齐(如 DPO/RLHF)统一到一个混合训练框架中,避免传统流水线式训练(先 SFT 再 RLHF)中两阶段目标冲突导致的对齐税(alignment tax)问题。
提出通过数据水印来证明特定数据是否被用于 LLM 预训练,解决预训练数据成员推断(membership inference)的可靠性问题。现有的成员推断方法(如基于 perplexity 的检测)误报率高且缺乏可证明的保证。
探究多语言 Transformer(如 LLaMA)的内部计算是否存在一种「潜在语言」——即模型在处理非英语输入时,中间层是否会将表示转换到英语空间进行推理,然后再转回目标语言。这个问题对理解多语言预训练的内部机制至关重要。
核心问题是推理时 KV cache 的显存占用随层数线性增长,深层 LLM 在长上下文/高并发下被 KV 内存而非算力卡住;以往压缩多在“每层都存但更省”上做文章,仍然绕不开“层数越多 KV 越多”的结构性瓶颈。
这篇论文关注的问题是:如何对预训练大语言模型做 machine unlearning,也就是让模型遗忘指定知识或数据,同时尽量不破坏其余能力。这个问题过去更多在分类模型或小模型上研究,而在 LLM 上特别难,因为知识是分布式存储的,删除某类样本影响的往往不是单个参数块,而是广泛分散的表示与行为模式。
这篇论文的核心问题是:如何在不改动基础模型参数或只做有限改动的情况下,让语言模型处理超出原始窗口长度的长上下文,同时尽量保留全局信息。传统做法要么直接截断,要么把文档分块独立编码后再拼接,但跨块依赖容易丢失,导致模型看似读了更多内容,实际理解并不完整。
这篇工作要解决的是:在不改模型输出、也不引入额外小模型的前提下,加速大语言模型解码。现有 speculative decoding 通常依赖单独的 draft model,工程复杂度高,还会带来额外显存和部署负担,因此作者改为让同一个模型先“草拟”再“验证”,把加速问题变成模型内部不同层之间的协同。
这篇工作要解决的是:RLHF 中 reward model 很吃偏好标注数据,而高质量成对偏好数据昂贵且规模受限。过去的常见做法是继续堆标注或用更大 reward model 硬扛,但数据效率仍然差,因此作者尝试用原型结构提升 reward 学习的样本效率。
这篇工作要解决的是:稀疏注意力要想真正高效,不能只决定“看哪些 token”,还得决定“什么时候释放 token”。很多 sparse attention 方法理论 FLOPs 下降了,但真实加速有限,因为被保留的 token 生命周期过长,缓存和带宽压力并没有同步下降。
自回归LM知识蒸馏中,更大的教师模型反而会得到性能更差的学生模型,此前KD方法默认所有token的教学模式一致,忽略不同token的特性差异,导致蒸馏性能下降。此前的KD方法默认教师模型越大,蒸馏出的学生性能越好,未适配自回归LM的生成特性。
这篇工作要解决的是:长上下文外推失败不只是位置编码的问题,RoPE 和标准 self-attention 之间本身存在不匹配,导致训练时看不到的长度上出现异常行为。过去大多数长上下文扩展方法都把位置编码单独修修补补,默认注意力机制本身不用动;作者认为这个前提不成立,因此直接研究 attention 与 position embedding 的耦合关系。
这篇工作要回答的是:语言模型能否借助视觉监督学到更准确、也更接近人类词汇习得方式的表示,而不是只靠海量文本把词义硬统计出来。过去多数多模态方法把视觉信号用于句级或图文对齐,较少直接作用在早层 lexical representation;作者关注的是词汇层面的 grounding,因为这正是纯文本 LM 数据效率低的一环。
现有LLM机器遗忘方法基于梯度上升实现,会损害模型对正常prompt的响应能力,无法在消除有害知识的同时保留模型通用能力。
已对齐的LLM在微调时容易学习到有害内容中的有害行为,无法在含有害内容的数据集上微调同时不学习有害行为。此前的安全对齐方法仅能保证预训练/微调后模型安全,无法覆盖微调过程中的有害内容注入风险。
现有LLM无法支持极低资源语言,尤其是没有足够训练数据做参数更新的语言。此前的低资源语言适配方法需要大量训练数据或参数更新,无法覆盖无预训练数据的未知语言适配需求。
现有视频大模型(VLMM)仅靠监督微调(SFT)对齐视频-文本模态,受限于多模态指令数据的数量和质量短板,对齐效果不佳。此前方案要么依赖增加标注数据,要么添加额外可学习模块,未从偏好对齐角度做优化。
这篇论文要回答的核心问题是:语言适配器把一个冻结的 Transformer 迁移到新语言时,究竟是在模型内部哪里、以什么方式生效。过去大家更多把 adapter 当作一种参数高效微调手段来用,能跑通就够了,但对它是否重写表示空间、还是只在原有表示上做渐进修正,缺少机制层面的证据;这个问题之所以值得重看,是因为跨语言扩展越来越依赖低成本适配,而适配器是否真的“局部且可控”会直接影响可解释性、可组合性和部署策略。
这篇论文解决的问题很直接:当 LLM 大到放不进设备 DRAM 时,怎样依赖闪存而不是大内存把推理真正跑起来。过去移动端或低成本设备上的方案通常默认模型至少能驻留在 DRAM,或者只讨论量化、裁剪,但一旦模型参数本身超出 DRAM,瓶颈就从算力转成存储层级之间的数据搬运;因此问题不再是“模型能否更小”,而是“不能更小时怎样围绕闪存带宽和访问模式重做推理系统”。
这篇论文要解决的是:能否直接用偏好优化而不是额外奖励模型,去显式压低 LLM 在生成文本中的性别、种族和宗教偏见。过去缓解偏见通常依赖安全微调、规则过滤或人工构造拒答模板,这些做法往往把“更少偏见”当作笼统目标处理,缺少成对偏好信号;这篇工作把问题改写成“无偏回答优于有偏回答”的偏好学习任务。
这篇论文要解决的是:在高质量阿拉伯语多模态资源稀缺的情况下,怎样构建真正可用的 Arabic MLLM,而不是把英语多模态模型简单翻译过去。过去多模态大模型的成功高度依赖英语图文数据和英文指令生态,阿拉伯语场景长期受制于数据、评测和文化语境缺失,导致模型即使会阿拉伯语文本,也未必具备阿语视觉推理和对话能力。
这篇论文要解决的是:现有 instruction tuning 数据集过于英语中心,导致非英语模型即使用本地语言输出,也沿用了西方文化假设和英文驱动的指令表达。阿拉伯语在语法、礼貌策略和地区文化上都有明显差异,直接翻译英文指令集通常会得到语言表面本地化、文化内核却不匹配的数据;CIDAR 就是在补这个缺口。
这篇论文要解决的是:LLM 不仅要回答问题,还应知道哪些问题本身没有确定答案,也就是识别 known-unknowns。过去大多数 QA 设置默认问题存在正确答案,模型被鼓励“总要答点什么”,结果是面对高不确定性问题时更容易自信胡说;这篇工作把焦点放在模型能否区分可答与不可答,并表达这种不确定性。
这篇论文要回答的是:code-LLM 到底学到了哪些代码结构关系,又有哪些关键性质其实没学到。过去很多工作用总体基准证明代码模型“很强”,或者用注意力可视化暗示它学会了 token 间关系,但这并不能说明模型是否普遍编码了语法、变量绑定、作用域等真正支撑程序理解的属性;这篇工作专门去找“没学到的部分”。
这篇论文要解决的是:现有 interpretability 方法很多,但缺少一个能在语言学任务上比较“因果有效性”的标准基准。过去解释方法常停留在相关性层面,比如 probe 能不能读出某个特征,但读得出不等于改得动模型行为;这篇工作想把评估重点从描述性解释推进到因果干预。
这篇论文要回答的是:什么样的 Transformer 架构因素会让模型学到类似人类的 good-enough language processing,而不是总做完全精细解析。过去 good-enough processing 主要是心理语言学中的人类现象,说明人在很多任务里会构建够用但不完全准确的句法/语义表征;这篇工作把问题转到模型上,问层数和注意力头数是否会影响这种行为。
现有大模型长上下文能力缺乏统一的双语多任务评测基准,此前的评测要么是单语言、单任务,要么覆盖场景不全,无法客观衡量不同长上下文方案的真实效果。
现有多专家LLM协作方案要么需要复杂的路由逻辑,要么无法支持新专家的即插即用扩展,用户需要感知多专家的存在,交互门槛高。此前的方案要么是MoE类的同构专家,要么是固定专家集合,无法灵活对接异构的外部独立专家LLM。
现有大模型对齐方法都需要更新模型参数,计算成本高,且无法适配API类不可训练的黑盒LLM。此前的对齐方案要么是SFT要么是RLHF,都依赖模型训练,黑盒场景下无法使用。
这篇 paper 要回答的核心问题是:模仿学习里混入的错误合成数据,究竟会在多大程度上伤害指令微调后的 LLM,而这个影响过去大多只有直觉、缺少可控量化。此前大家普遍知道 synthetic instruction data 有噪声,但训练时通常把噪声当成均匀扰动处理,很少显式控制“错误答案/错误推理”的比例与类型,因此难以判断 imitation learning 的收益边界。
这篇 paper 的核心结论是:长文档 dense retrieval 的 embedding 明显偏向开头内容,而且这种 positional bias 不是微调偶然引入的,而是在预训练到对比训练的过程中逐步强化。过去大家更常讨论 causal LM 的“lost in the middle”,但对表征学习模型如何在文档 embedding 里丢失中后段信息,分析还不充分。
这篇 paper 是综述,核心问题是:语言模型数据污染已经从简单的 benchmark 泄漏扩展成一整套训练-评测污染谱系,但社区对检测、归因和 remediation 仍缺少统一视角。过去大家常把 contamination 当成 leaderboard 争议,实际上它已经直接影响预训练数据治理、后训练评估可信度和模型发布规范。
这篇 paper 的核心结论是:很多 hallucination 不是模型完全没有知识,而是生成时没有显式验证自己的草稿,因此需要把‘先答再查再改’做成一个可执行流程。过去减少幻觉常靠更强检索或更谨慎 decoding,但在闭卷或长文本场景下,模型内部自检能力是否可用,缺少简单有效的方法论。
代码指令微调(code instruction tuning)的效果受限于模型容量与数据多样性的匹配问题——直接在 dense 模型上做 SFT 容易导致不同编程能力之间的干扰。作者想用 MoE 的方式释放代码 SFT 的潜力,但从头训 MoE 成本太高。
LLM 评测的可信度受数据污染(data contamination)严重威胁——训练数据可能显式或隐式包含测试集,但训练数据不透明、模型黑盒、合成数据激增使得检测和缓解都很困难。
Decoder-only LLM 在序列标注(NER 等 IE 任务)上表现不佳,作者假设根本原因是 causal masking 阻止了模型看到当前 token 右侧的信息,但具体影响机制和改进空间不清楚。
巴斯克语(Basque)作为低资源语言缺乏高质量的 LLM 和评测基准。现有多语言模型对巴斯克语的覆盖不足,需要专门的 continual pretraining。
现有直接语音到语音翻译(S2ST)模型要么是自回归(AR)解码速度慢,要么是非自回归(NAR)翻译质量远低于AR模型,无法兼顾速度和效果。此前的NAR S2ST方案没有用到CTC这类成熟的NAR建模方法。
现有大模型上下文窗口扩展方案要么需要微调模型,计算成本高,要么依赖位置编码插值,泛化性有限。此前的方案都需要改动模型或微调,无法即插即用适配任意闭源LLM。
上下文学习(ICL)的效果对示例顺序高度敏感,现有示例排序方法需要域内无标注数据,无法适配无额外数据的真实场景,且没有考虑单个查询的差异,效果次优。此前的方案都是基于语料级的排序,没有实例级的优化。
现有代码大模型的指令进化方法(如Evol-Instruct)存在性能瓶颈,无法进一步提升代码生成效果,进化出来的指令多样性和难度有限。此前的指令进化方法都是单指令变异,没有跨指令的融合。
现有模型编辑方法仅在单次或少次编辑场景下评估,回避了规模化连续编辑的实用性验证,无法支撑工业级落地需求。
跨语言对齐的定义、方法分类、适用模型类型没有统一梳理框架,此前研究大多仅聚焦编码器模型,对decoder-only等新架构的对齐方法缺乏系统性总结。
此前跨语言指令微调研究都以英语指令为核心,非英语指令训练向其他语言泛化的效果未被系统验证,缺乏大规模非英语指令数据集支撑相关研究。
可扩展监督问题中难标注数据获取成本极高,此前方法默认需要用难数据训练才能在难测试数据上取得好效果,该假设未被系统验证。
这篇论文解决的是:如何在不做昂贵 RLHF 和大规模人工偏好标注的情况下,把黑盒强对齐模型的偏好蒸馏到白盒模型上。已有 AI feedback 对齐方法通常是一轮式的:拿黑盒打分或生成数据,然后监督微调学生模型;但这种方式容易受教师分布局限,迭代改进不充分。
基于排练的持续学习方法需要用到原始预训练数据,而公开的大模型checkpoint通常不附带原始训练数据,无法直接应用传统排练方法。
开源LLM的指令对齐能力大多只针对英语,小语种的指令对齐需要大量标注数据和训练成本,缺乏简单高效的适配方法。
这篇工作要回答“模型忘掉一段数据时,到底在忘谁”的可追溯性问题:现有 unlearning 往往只验证输出变化,却很难定位哪些训练样本真正对某个行为/记忆负责。
这篇工作要解决 NAS 在大模型时代“搜索成本太高、从零探索太慢”的问题:传统架构搜索需要大量训练/评估候选模型,而 LLM 的训练成本让这种范式变得不经济。
这篇工作要解决 weight-sharing supernet 训练“互相干扰导致排序不准”的老问题:在一个超网里共享权重会让不同子架构梯度冲突,导致用超网权重评估子网时相关性差。
这篇工作要解决 Transformer 在长序列上“信息流全程稠密导致算力二次增长”的效率瓶颈:标准做法让每个 token 在每一层都参与完整计算,导致实时/端侧部署困难。
这篇工作要解决多轮对话数据合成“人类侧不够像人、对话动力学不真实”的问题:现有做法常让 ChatGPT 角色扮演用户,导致问题分布受 seed 限制、话题单一且缺少真实追问。
这篇论文要解决的是:长上下文能力缺少一个覆盖面足够广、难度分层清楚、且不只测单一 retrieval 技能的系统性评测。过去常用 benchmark 要么上下文本身不够长,要么任务类型单一,结果容易把“能在长输入里找针”误当成“真正具备长上下文理解、推理与跨段整合能力”。
这篇论文要解决的是:如何在开源条件下把通用 LLM 稳定地继续预训练到生物医学领域,而不是只靠指令微调去补专业知识。过去医疗/生物医学模型常见两种次优路径:一是模型太小,知识覆盖和泛化不够;二是直接在通用底座上做任务微调,表面能答题,但领域术语、文献风格和长尾知识没有真正进入参数。
这篇论文要解决的是:LLM 的 CoT 推理能力在多语言间并不一致,英文里能推理不代表换一种语言也稳定。过去关于 CoT 的结论大多来自英文,导致大家默认 reasoning 是语言无关能力;但在多语言场景里,模型可能只是在英语模板上学会了推理外观,而不是学会跨语言保持一致的推理过程。
这篇论文要解决的是:标准 BPE 在韩语这类形态丰富语言上容易过分切分,破坏词级语义和形态信息,进而伤害翻译质量。过去 subword 方法默认“更细颗粒度更稳”,但对黏着或形态变化丰富的语言,切得过碎会让训练看到大量语义不完整片段,模型更难学到稳定对应关系。
视觉-语音跨模态合成(从视觉口型生成语音)面临配对数据稀缺的问题。此前方法要么依赖大量音视频配对数据,要么跨语言泛化能力差。
LLM 在技术上支持的最大上下文长度远大于其推理能力实际能维持的长度。输入变长后推理性能如何退化、退化的模式是什么,此前缺乏系统研究。
数学推理的 fine-tuning 数据增强(query 演化 + 多样推理路径)已被验证有效,但缺乏系统研究:哪种增强策略更有效、增强数据量与性能的 scaling 关系如何、增强能否带来 OOD 泛化。
Instruction tuning 的效果严重依赖数据质量,但现有数据改进方法忽视了数据与被微调的 student 模型之间的兼容性——高质量数据未必适合当前模型的学习状态。
这篇论文要定位 LLM 组合推理(compositional reasoning)失败的直接原因,并回答“失败发生在模型内部的哪一段计算链路”。以往很多工作只在输出层面归因(数据不够/提示不对),很少把“隐式中间结论”作为可干预对象来做因果验证。
摘要缺失,无法确认论文具体要解决的核心问题。
这篇论文要回答“长上下文模型是否真的理解长上下文”,并指出现有长上下文评测集在长度、泄漏与依赖类型上都跟不上模型能力。过去很多 benchmark 文档太短、来源过旧导致训练泄漏,且任务偏短程依赖,使得模型即使只做局部匹配也能拿高分。
摘要缺失,无法确认论文具体研究“生成式 LLM 的词汇语义在层间如何分布”的问题设定与对照条件。
这篇工作要解决的是:中文大模型的 alignment 评测长期缺少一个覆盖真实场景、可核验、且不只看单一维度的基准,导致很多模型只能用英文范式或粗糙主观打分来代替。过去中文评测往往要么偏能力测试、要么偏安全单点,既难反映“有用、真实、安全、稳健”这些对齐属性的组合,也缺少带证据的参考答案来支撑高质量自动评估。
这篇工作要解决的是:LLM 的后训练量化在 8-bit 还能工作,但继续降到更低 bit 往往明显失效,而传统 QAT 又依赖原始训练数据,实际对闭源或数据不可得模型不友好。问题的难点不只是量化权重,还包括激活和 KV cache;后者直接决定长上下文推理的显存和吞吐,如果不量化,系统收益会被卡死。
这篇工作要解决的是:speculative decoding 虽然能加速推理,但通常需要单独的小 draft model,带来额外训练和部署复杂度;如果直接让大模型自己提前退出做 draft,又容易因为草稿质量不稳而影响接受率。问题的核心是如何在不引入额外模型的前提下,构造足够快且质量足够好的 draft 分布。
这篇工作想解决的是:RLHF 虽然是当前主流 alignment 路线,但训练不稳定、实现复杂、依赖偏好数据和 reward 建模,工程门槛很高。作者关注的替代问题是,既然高层人类偏好可能已经隐含在模型内部表征里,能否不走强化学习,而是直接通过表示工程去控制 helpfulness、truthfulness、safety 这类行为。
这篇工作想解决的是:开源多模态大模型在复杂视觉-语言任务上通常落后于闭源系统,一个重要原因不是单点结构差异,而是训练数据规模、训练分阶段策略以及语言骨干适配没有系统做到位。过去很多开源 Flamingo-style 工作复现了框架,却没有把数据和训练流程拉到足够强。
这篇工作指出一个很实际但常被忽略的问题:在条件生成任务里,instruction 放在输入前面并不总是最优,尤其输入很长时,模型可能在生成阶段逐渐‘忘记’任务要求。过去 instruction tuning 数据通常默认采用 instruction + input + response 的顺序,但这更多是格式习惯,不是经过充分验证的最优训练布局。
通过神经元剪枝来移除 LLM 中不良概念的做法,是否真的有效?本文发现模型在剪枝后经过少量重训练就能快速恢复被移除的概念,说明剪枝式模型编辑的持久性存疑。
LLM 驱动的合成数据生成已成为缓解真实数据不足的重要手段,但该领域缺乏统一的框架来组织生成、筛选、评估三个环节的研究。本文是一篇综述,试图建立这个框架。
LLM 对齐需要适应多样化的偏好和监管标准,但现有对齐方法难以在每轮对话中动态适配不同规则。本文提出 'priority rule following' 范式:在对话中以规则为第一优先级,优先于用户指令。
MoE LLM 虽然用更少的激活参数达到更高性能,但总参数量巨大导致部署困难。现有权重剪枝方法依赖特定硬件,本文提出 expert 级别的即插即用稀疏化方法(剪枝和跳过),降低 MoE 模型的部署成本。
开源 LLM 在数学推理上与 GPT-4 仍有差距,核心瓶颈之一是高质量数学训练数据不足。本文提出从小规模种子数据出发,通过 question back-translation 大规模生成多样且可靠的数学问题和解答。
这篇工作要解决的是:在资源受限(尤其是显存)条件下实现“大模型全参数微调”,而不是只做 LoRA/Adapter 这类参数高效微调,否则很多需要全参适配的场景会被硬件门槛挡住。作者指出标准训练管线的显存瓶颈主要来自反传梯度与优化器状态的存储。
缺少摘要信息,无法可靠判断 DoRA 在“动态秩分配”的 PEFT 设定中具体解决的瓶颈(质量、稳定性、可迁移性或算力/显存)。
缺少摘要信息,无法可靠判断该“非参数化通用剪枝算法”针对的是推理加速、训练加速还是压缩部署,以及它如何定义“通用”。
缺少摘要信息,无法可靠判断“小模型为大模型挑选指令微调数据”具体解决的是数据质量、数据去重、课程学习还是成本控制问题。
这篇论文要解决的问题是:微调后的语言模型是否把时间信息编码进了参数本身,而不是只靠显式时间提示在推理时检索。这个问题过去常被当作知识编辑或时效性问题的副产物处理,但如果时间真的写进权重里,就意味着 finetune 不只是改任务行为,也在重写知识的时间坐标。
这篇论文研究的是:语言模型在处理事实和反事实时,并不是调用同一种统一机制,而是多个机制在竞争。过去大家常把 counterfactual failure 简化成“知识没改掉”或“推理不稳”,但这类现象很可能来自检索到的事实记忆、上下文条件化和局部模式匹配同时作用,且彼此会冲突。
这篇论文关注的核心问题是:预训练多模态 Transformer 中是否存在可识别、可编辑的 multi-modal neurons,它们如何支撑跨模态概念。这个问题以前在纯文本模型里已有较多讨论,但多模态模型更复杂,因为一个“概念”可能同时分布在视觉 token、文本 token 和对齐层之间,单靠文本神经元分析方法不一定成立。
这篇论文要解决的问题很明确:长 prompt 很贵,而已有 prompt compression 往往在压缩率和语义保真之间 trade off 很差。简单截断或基于 perplexity 的 token 删除常常保留了容易预测的词,却删掉任务真正依赖的证据;专门为某个任务训练压缩器又缺少通用性。
这篇论文关注的问题是:instruction tuning 往往把不同难度、不同能力类型的数据一次性混在一起训练,导致学习顺序混乱,模型既可能学不稳,也可能在后期被简单模式牵着走。作者想验证是否可以通过 phased instruction fine-tuning,把训练拆成阶段,以更好地组织能力获得过程。
零样本语音编辑和 TTS 在真实场景(in the wild)中表现不佳——现有方法要么需要干净录音室数据,要么无法在保持说话人身份和韵律连贯性的同时完成局部编辑。这是语音 LM 走向实用的关键瓶颈。
In-context learning(ICL)的效果高度依赖 demonstration 的选择策略,但现有策略种类繁多、缺乏系统性比较,研究者很难判断在什么条件下该用哪种策略。
低资源语言(以泰语为例)缺乏高质量指令微调数据,导致 LLM 在这些语言上的 posttrain 效果受限。现有方法依赖人工种子数据或翻译,成本高且质量不稳定。
推测解码(speculative decoding)能加速 LLM 推理,但在批处理场景下效率大幅下降——因为不同请求的 draft token 接受率不同,导致批内序列长度不齐,浪费计算资源。
Reward model 是 RLHF 的核心组件,但单一 reward model 容易过拟合特定偏好模式,导致 reward hacking。如何构建更鲁棒、更泛化的 reward model 是提升对齐质量的关键。
这篇论文要用“神经元激活模式”作为统一视角,解释 LLM 在算术推理里被 Chain-of-Thought(CoT)触发后的行为差异,但现有工作往往停留在输出层面相关性分析,难以定位到可复用的内部机制。
这篇论文要测清楚 LLM 做摘要时到底“用了多少上下文、用的是哪一段”,因为长上下文能力提升后,模型仍可能像 QA 一样出现位置偏置(U-shape:更依赖开头和结尾),从而漏掉分散在中间的关键信息。
这篇论文要解决 infilling(尤其是字符级填空)在 sub-token 边界处表现差的问题:tokenizer 把词切碎后,prefix/middle/suffix 的拼接边界会产生 sub-token,导致推理时字符级约束难满足且困惑度升高。
这篇论文要解决 instruction tuning 时“多任务数据怎么配比”缺乏系统方法的问题:手工调 mixture 往往不可复现且对预算敏感,容易在冗余数据上浪费算力。
这篇论文要把“代码生成评测被污染”这件事量化到可复现的数字:如果基准与预训练语料有重叠,模型分数会混入记忆成分,导致我们误判代码能力的真实泛化。
这篇工作要解决的是:代码 LLM 的训练语料里虽然代码很多,但高质量注释不足,导致模型能模仿代码表面模式,却不一定学到函数意图、接口语义和跨语句约束。过去常见做法是继续堆更多代码 token,或者做指令微调补救,但如果监督里缺少显式语义锚点,模型在代码理解和生成上的收益会很有限。
现有LLM评估基准大多聚焦指令跟随能力,忽略了预训练阶段涌现的基础能力,且主观评估依赖大模型API打分,缺乏参考时的评估准确性很低。
Critique(模型生成内容的质量反馈)被广泛用于LLM的训练、评估和优化,但目前没有系统的方法来评估Critique本身的质量,导致Critique的不可靠性会传导到下游任务。
要把“参数高效对齐”(LoRA/QLoRA + SFT/DPO)里的关键选择讲清楚,因为对齐对数据、算法和 adapter 超参高度敏感,但社区缺少系统性的 trade-off 图谱。没有这种图谱,很多对齐失败看起来像随机性,其实是配置不匹配。
摘要缺失,无法从给定信息确定“自然语言动作空间 RL 的 LM 适配”具体要解决的瓶颈(探索、信用分配、对齐还是样本效率)。
这篇论文解决的是:用户偏好往往是多维且彼此冲突的,如何在不为每种偏好单独训练一个模型的情况下,对 LLM 做可控对齐。以往常见做法是把多目标奖励压成一个标量,或者训练多个 adapter/专家模型,但前者会丢失偏好方向,后者部署和组合成本高。
这篇论文要回答的是:语言模型能否仅凭文本建模能力充当'世界模拟器',也就是在交互式环境中稳定预测状态转移、反馈和后果。以往很多结果展示了 LLM 会说世界知识,但'会说'不等于'会模拟';真正的模拟要求多步一致性、隐变量跟踪和可执行的因果更新,这比单轮问答难得多。
这篇论文研究的是:LLM 内部哪里存放了关系概念,以及这些概念能否被定位并提取出来。过去对知识编辑和概念探测的工作更多关注实体事实或单词语义,但关系概念更难,因为它往往分布在模式、组合和上下文交互里,而不是一个静态 token 表示里。
用 LLM 生成合成数据来训练通用文本嵌入模型,解决高质量嵌入训练数据稀缺且标注成本高的问题。以往文本嵌入依赖人工标注的 NLI、检索等数据集,覆盖任务类型和语言有限。
让语言智能体在社交互动场景中通过交互式学习提升社交智能,而非仅靠静态数据训练。此前的社交智能评测(如 SOTOPIA)只做评估不做训练,模型的社交能力提升缺乏闭环学习机制。
提出通过「任务空间」来解释语言模型的内部表示,即把模型在不同任务上的行为模式作为理解其内部机制的透镜。以往的可解释性工作多聚焦于单个神经元或注意力头,缺乏任务层面的系统性分析框架。
研究后训练量化(PTQ)和剪枝中校准数据的选择对最终模型质量的影响。实践中校准数据的选择往往被忽视或随意处理,但它可能显著影响压缩后模型的性能。
对语音/音频 codec 模型进行系统性的深度评测和分析。现有的语音 codec(如 EnCodec、SoundStream)被广泛用于语音 LM(VALL-E 等)的离散化前端,但缺乏统一的评测框架来比较不同 codec 在不同下游任务上的表现。
核心问题是 LLM 在看似单跳补全的复杂提示中是否“潜在地”执行了多跳推理;以往多跳推理常用显式 CoT 或检索链路验证,但这会把推理过程外显化,难以判断模型内部是否本来就走了桥接实体(bridge entity)路径。
核心问题是如何在不改大规模预训练的情况下提升模型的 in-context learning(ICL)能力,尤其是当直接指令微调会把模型推向“依赖参数记忆”而非“依赖上下文示例”时;以往 ICL 增强常与数据构造或更大模型绑定。
这篇论文要解决的问题是:微调时训练分布和模型原始预训练分布不一致,会让语言模型在新任务上学得快但泛化变差。这个问题过去通常靠正则化、数据混合或更保守的微调策略间接缓解,但如果不直接约束微调过程去贴近模型自己的高置信分布,偏移仍然会积累。
这篇论文要解决的问题是:现有大音频语言模型评测不够贴近生成式理解,难以判断模型是否真的听懂了音频内容。过去很多 benchmark 更像分类、打分或检索,能测局部能力,但对 generative comprehension——也就是模型能否基于音频生成有信息量、可追责的答案——覆盖不足。
这篇论文要解决的问题是:在 black-box LLM 评测里,训练数据污染会高估模型能力,但没有参数和训练集访问权限时很难校准这个偏差。过去常见做法是直接用 benchmark 分数当能力代理,或通过少量泄漏检测做定性分析,但这不足以估计污染到底把结果抬高了多少。
这篇工作要解决的是:多语言 LLM 的长尾语言能力往往被高资源语言挤压,而直接补齐多语监督数据成本很高。过去常见路线是继续扩大多语预训练或做翻译蒸馏,但噪声和覆盖问题都重,因此作者尝试从资源丰富语言出发做自蒸馏,把强语言中的能力迁移到弱语言。
这篇工作要解决的是:LLM 内部是否存在可分辨的“语言区域”,也就是某些参数、神经元或子空间更偏向处理语言特定信息。多语言能力过去常从整体指标看,很少直接定位模型内部的语言分工,因此作者试图把这种结构显式挖出来。
这篇工作要解决的是:现有 LLM 量化多以对称整数或统一浮点格式为主,但不同张量分布明显不对称,用同一量化规则会浪费动态范围并放大误差。作者因此提出 asymmetric floating point quantization,试图在更低比特下保住精度。
这篇工作要解决的是:instruction tuning 很依赖大规模高质量指令数据,但现实里往往标注少、覆盖窄。过去做法通常是人工扩数据或自举合成指令,但容易产生噪声和模式坍缩,因此作者提出用外部知识引导,提升 data-efficient instruction tuning 的效果。
MoE大模型扩展多模态/新任务时,现有全量微调方案成本高且会引发灾难性遗忘,从头训练多模态MoE的成本无法接受。此前类似LLaVA的多模态适配方法需要微调LLM主干,既丢失原有文本能力,训练开销也随模型规模扩大快速上升。
现有安全对齐方法默认对齐强度越高LLM越安全,但存在无需训练、仅靠输出token分布即可发动的攻击,可反转安全对齐效果,且对齐越强的模型被攻击后危害越大。此前的安全对齐研究未考虑这类无参数访问权限下的分布级攻击。
现有多目标RLHF对齐方法不稳定、计算成本高,单模型无法适配不同用户的多元冲突偏好,此前的单目标DPO无法处理多维度偏好冲突的场景。
这篇工作要解决的是:偏好对齐长期停留在 pairwise 比较,浪费了同一 prompt 下多候选回答里的排序信息,同时 RLHF 流程复杂、训练不稳,导致更丰富的偏好监督很难真正用起来。现有做法通常把“选更好答案”拆成二元胜负,这样实现简单,但会丢掉 listwise 相对次序和难负样本信息;作者想直接把多响应偏好转成更稳定的梯度式奖励优化目标。
这篇工作解决的是长 system prompt 场景下的推理服务低效问题,核心瓶颈不是算子公式本身,而是重复读取共享前缀 KV cache 带来的内存带宽浪费。现有 causal attention 对 batch 内每个请求分别搬运同一段系统提示的 KV,即使这些 token 完全相同,也会反复从 DRAM 拉到 SRAM,导致长提示词服务吞吐和时延一起恶化。
这篇工作解决的是蛋白质与自然语言统一建模中的一个老问题:现有 protein-language 模型通常把蛋白序列当外部编码器输入或单独模态处理,难以像文本 token 一样灵活地在同一上下文中交错建模。作者希望模型既能理解 interleaved protein-text 输入,又能在生成时把蛋白当可预测单元,而不是只做检索式或编码器式融合。
这篇工作讨论的是生物医学领域继续预训练时,如何做更有依据的数据筛选,而不是默认把能爬到的领域文本都混进去。很多领域自适应工作对数据质量只做粗粒度清洗,很少利用文献来源本身的质量信号;作者尝试用期刊影响力指标作为采样或筛选依据。
这篇工作聚焦放射学报告生成中的训练目标问题,具体是如何让序列级强化学习既优化报告质量,又避免生成过于确定、模式化的文本。传统自批评序列训练(SCST)能直接对最终指标优化,但容易陷入低熵解,输出保守而重复;作者因此引入 entropy augmentation。
这篇工作要解决的是放射学报告生成对通用多模态模型的适配不足,因此提出一个 specialised large multimodal model。通用模型往往在开放域视觉理解上强,但在医学影像的细粒度异常识别、长文本报告结构和临床措辞上不够可靠。
现有中文LLM评测基准大多仅覆盖能力维度,忽略对齐和安全维度,无法全面评估中文LLM的实用价值,容易漏检对齐和安全风险。
现有多模态大模型对科学类抽象图表(几何图形、科研绘图)的理解能力差,核心原因是缺少大规模科学领域的多模态训练数据,此前的多模态数据集大多为自然场景图片,未覆盖科学领域。
现有LLM知识编辑方法实现碎片化,不同方法的任务设置差异大,没有标准化框架,从业者落地知识编辑的门槛高,此前的研究多单独实现不同编辑方法,无统一接口和评测标准。
现有PEFT方法的多语言效果评估不全面,小开源模型在非英语语言上的性能和英语、闭源大模型的差距大,此前的评估多仅覆盖少量语言和任务,无法全面衡量PEFT对多语言能力的提升效果。
这篇论文的核心结论是:很多 LLM leaderboard 排名对评测细节极其敏感,不能把公开榜单名次当成稳定事实。过去业界和研究中经常直接依据 MMLU 等 benchmark 排名做模型选择,但作者指出,连选项顺序、答案提取方式这种看起来很小的扰动,都可能让相对排名大幅变化;这意味着 benchmark 已经不只是测量工具,也在不知不觉中成了被模型和评测脚本共同“适配”的目标。
现有BERT类预训练模型的早退出推理方法在跨域场景下效果差,无法平衡准确率和延迟,此前的早退出策略都是基于训练域数据优化,遇到分布偏移的域外样本时性能下降明显。
现有多语言NLU基准语言覆盖范围有限,低资源语言缺乏平行阅读理解评测数据,无法支撑模型通用理解能力的直接跨语言对比。
LLM处理否定逻辑时容易产生逻辑不自洽的强幻觉,现有解决方案依赖稀疏否定样本微调,泛化性差且成本高。
对齐后的LLM经过下游任务微调后安全性能普遍下降,现有重对齐方案需要重新标注安全数据微调,成本高且会损害下游任务性能。
SFT所需的指令数据标注成本极高,现有主动学习数据筛选方案计算成本过高,无法大规模应用在LLM场景。
无参数探测被认为可以捕捉LLM内部的真实语法结构,但其结果与人类语言学形式化体系的对应关系从未被系统性验证。
多模态大模型(MLLM)领域发展速度快,现有综述缺少对架构、对齐策略、训练方法的系统性分类,也未覆盖图像生成编辑等生成类多模态任务的分析。
现有上下文压缩方法在高压缩比下关键信息丢失严重,性能下降到闭问答水平,无法满足长上下文场景的需求。
现有常识评测多为多选题,LLM可以利用数据集偏差作弊,且未覆盖常识本身的概率性(多个正确答案),无法真实反映LLM的常识能力。
现有多模态大模型的抽象推理能力缺乏无场景先验干扰的标准化诊断基准,之前的VQA基准多绑定具体场景语义,无法系统度量模型对颜色、数字、形状等基础抽象概念的模式归纳能力。
现有长文本事实性评估方法基于「独立为真的事实片段聚合后整体为真」的假设,忽略了实体歧义、逻辑矛盾等组合错误,导致评估结果系统性高估模型事实性。
现有大模型机器翻译的ICL研究多聚焦于效果优化,缺乏对ICL各影响因子的系统性拆解,无法解释性能波动的核心原因,也无法形成可落地的优化规范。
这篇 paper 的核心问题是:现有 LLM 的时间推理能力到底缺在哪,之前的评测过于碎片化,无法系统区分模型是不会算时间、不会对齐事件顺序,还是不会处理跨粒度时间知识。时间理解是世界模型的一部分,但以往 benchmark 往往只测单一子能力,所以模型看起来“会一点”,实际能力边界并不清楚。
这篇 paper 的核心问题是:文本 Transformer 的对抗鲁棒性并不只是模型或训练算法决定,fine-tuning 数据本身的统计属性就可能强相关,但过去评估通常在微调后才看模型、忽略数据侧因素。换句话说,作者想把 robustness 从‘模型后验表现’往前追溯到‘数据先验条件’。
这篇 paper 要解决的是:现有 VLM benchmark 大多语言覆盖窄、学科单一、模态复杂度不够,导致模型在真实教育场景和跨区域知识环境中的能力被高估。尤其是多语言、多学科、带图表符号的考试题,需要的不只是 OCR,而是把视觉解析、语言理解和区域知识结合起来。
这篇 paper 的核心问题是:表格推理到底应该把表格当文本喂给 LLM,还是当图像喂给 MLLM,两条路线各自会在哪些能力上失效。这个问题以前常被模型格式选择掩盖,因为很多工作默认表格序列化即可,但复杂布局、视觉结构和单元格关系未必能被文本化完整保留。
这篇 paper 解决的是一个评测基础问题:没有 ground truth 或人工标注时,能不能只靠模型之间的相互比较把 LLM 排序出来。以往做法要么依赖昂贵的人类答案,要么让两个模型互评,但 pairwise judge 常不稳定、容易受偏置影响,因此作者改从三元组比较入手。
用 RL + 编译器反馈来提升代码生成质量时,长代码序列导致探索空间过大、单元测试覆盖不全导致未执行代码片段的优化无效。
LLM 在 sub-4-bit 极低精度量化下性能严重退化,现有 PTQ 方法在这个精度区间效果不够,需要 QAT 但 QAT 对大模型成本很高。
LLM 的不确定性量化(UQ)效果差,根本原因是现有方法对所有 token 一视同仁,但自回归文本中存在大量'语言冗余'——少数关键词就能传达核心语义,大量功能词对语义贡献很小却在 UQ 中被等权甚至过度加权。
多模态对齐(图文对齐)中如何更好地利用密集信息(dense information),而非仅依赖稀疏的全局对齐信号。
现有端到端直接语音到语音翻译(S2ST)模型依赖稀缺的并行语音对数据训练,无法复用已有的海量语音到文本翻译(S2TT)和文本到语音(TTS)预训练模型资源,低资源语种落地难度大。
现有参数高效微调(PEFT)方法受限于可训练参数量过小,在知识密集型复杂任务上性能不足,而增大参数量又会超出消费级GPU的显存限制,无法在资源受限场景下落地。
这篇论文要解决的问题是:对语言模型做知识编辑时,如何避免“把事实改对了,却把安全性和行为稳定性改坏了”。过去模型编辑工作大多把目标放在局部事实更新和编辑成功率上,对副作用的评估较弱,尤其很少系统检查编辑后是否更容易被诱导输出危险内容;这篇论文把“编辑有效性”和“伦理完整性”放到同一个评估框架里。
这篇论文关注的问题很明确:只看最终输出无法判断模型到底“知道事实”还是“碰巧答对”,因此需要从内部状态测量模型的事实辨别能力。现有 factuality 评测大多基于生成结果或选择题准确率,但这些指标会混入提示方式、解码策略和表面模式匹配,难以分离真实记忆与伪装出来的正确性。
这篇论文要解决的核心问题是:语言模型是否不仅在“立场”上偏向某些群体,也在“情绪和道德语气”上系统性地偏离不同人群。以往关于群体表征的研究多看 positional alignment,也就是观点像不像某群体,但现实对话里情感强度、道德谴责、同情和愤怒同样影响输出,这部分此前研究得不够。
这篇论文关注 in-context learning 的鲁棒性问题:模型会因为示例顺序、表述扰动或少量误导样本而明显退化,而自然语言解释是否能让 ICL 更稳。传统 ICL 主要给输入输出对,默认模型自己归纳规则,但这种隐式归纳对分布扰动很脆弱。
这篇论文讨论一个基础但常被忽略的问题:语言模型内部对数值属性的表示是否具有单调结构,也就是数值变大时表征能否沿着一致方向变化。现有 LM 常能在表面上处理数字,但其内部表示未必尊重大小关系,这会影响数值泛化、比较、排序和受控生成。
这篇论文要解决的是一个现实落差:很多开源 LLM 明明主要为英语或少数高资源语言设计,却被用户拿去覆盖大量低资源语言,而我们缺少一个足够大、足够广的基础多语言能力评测。以往多语言 benchmark 往往语言覆盖有限、任务偏封闭式,难以看出模型在真实开放问答中的语言忠实度和回答正确性。
这篇论文解决的是 NLI 模型跨领域泛化差的问题,尤其是在新领域、长文本和真实下游文本上,传统 NLI 训练集带来的收益常常不够稳。现有大规模 NLI 数据集虽然多,但分布相对集中,模型很容易在已有 collection 上爬分,却不能可靠迁移到未见域。
这篇论文要解决的是机器生成文本检测里的一个老问题:token-level watermark 很容易被释义攻击破坏,而语义级 watermark 虽然更稳,但早期方法在鲁棒性和效率之间折中不够好。SemStamp 已经把水印施加到句子语义空间,但用 LSH 随机超平面做划分,和真实语义结构并不匹配。
现有大语言模型结构化剪枝方法多聚焦于剪去冗余层或注意力头,忽略了隐藏层维度这一对模型大小和效率影响最大的维度,高压缩率下精度损失严重,无法满足端侧部署需求。
这篇工作要解决“推理链验证器到底会不会抓住最弱一步”的评测缺口:现有 CoT 评测常把整条链当整体打分,导致验证器可能只学会偏好长链/像推理的文本,而不是定位关键错误。
这篇工作要解决“2-bit 量化后再做 LoRA 微调精度掉得厉害”的问题:低比特量化引入的权重误差会放大到适配器学习上,使固定 rank 的 LoRA 很难兼顾容量与稳健性。
这篇工作要检验 LLM 是否具备“整体论式知识”(holistic knowledge)的特征:即核心科学知识是否像人类那样难以被局部证据轻易改写,而现有评测多停留在事实问答,难以观察知识修订行为。
这篇工作要解决“现实知识持续变化导致静态 QA/对话基准失效、RaLM 也跟不上”的问题:现有评测集更新慢,使得我们很难量化模型对新知识的适应能力。
这篇工作要解决“prompt 只能靠人工试错优化、缺少可自动改写并对任务指标负责的机制”的问题:现有自动 prompt 方法常停留在启发式搜索或离线改写,难以稳定对齐到真实任务回报。
这篇工作要解决 MoE 大模型“推理时专家参数太大、内存受限设备无法常驻”的部署问题:直接 swapping 会带来高延迟,剪枝又容易显著掉点。
这篇工作要解决“用 LLM 当评测器时会带入系统性认知偏差”的可信度问题:社区越来越依赖 LLM-as-a-judge,但缺少对偏差类型与强度的系统测量。
这篇论文要回答的核心问题是:LLM 内部的概率置信度,和它在被追问“你有多确定”时显式表达出来的置信度,到底是否一致。过去大家更常用校准误差或 logprob 分析模型“知道不知道”,但很少把“模型心里多确定”和“模型嘴上说多确定”放到同一框架里比较;这在面向用户的可靠性场景里很关键,因为很多系统最终暴露给人的是语言化的自我评估,而不是 token 概率。
这篇论文的核心问题是:语言中的词序共性,能否用“认知上更可实现的语言模型 + 可预测性”来解释,而不只停留在语言类型学的描述层面。过去很多工作会直接统计自然语言中的共现规律,或者用抽象语言学理论解释 universals,但较少用带有认知约束的 LM 去做可计算、可比较的机制检验。
这篇论文要解决的是:预训练语言模型会复述训练语料中的长段文本,造成 self-plagiarism 或近似抄袭,而现有解码策略通常只优化流畅性和相关性,不主动压制“过度贴近记忆样本”的生成。过去缓解 memorization 多从数据去重或训练阶段入手,但在推理阶段如何低成本地提升原创性,研究相对少。
这篇论文要解决的是:知识密集任务里的 retrieve-and-read 随着检索文档数增加,输入上下文线性变长,计算和延迟都变高;同时,现有方法大多只从单一类型知识源检索,难以统一处理文本、结构化知识等异构来源。过去 RAG 的主流做法是把检索到的内容直接塞进上下文,但这在多源、多跳和高吞吐场景下成本很高。
量化后的 LLM 在对话场景中出现 token-flipping 问题(量化误差导致生成 token 与全精度模型不一致),损害了 chatbot 的对话质量。此前 PTQ 方法主要关注 perplexity 恢复,很少针对对话对齐能力做专门修复。
当前 VLM 的 object-level 图像理解能力(识别图中有什么物体、bounding box 对应什么)被严重高估,而这种基础能力与 VL 任务的 zero-shot 性能高度相关。此前工作更关注高层推理,忽视了底层视觉理解的质量。
低数据场景下 LLM fine-tuning 效果差,而现有数据增强方法大多是无差别扩充,没有针对模型实际薄弱点做定向补充。
LLM 的自回归训练目标与 dense retrieval 需要的全文判别式 embedding 之间存在根本性的机制差异。如何无监督地将 LLM 适配为 dense retrieval 的 backbone encoder,此前没有好的方案。
对语言模型做连续多次知识编辑时,已编辑的知识会随编辑次数增加而衰减(knowledge attenuation)。此前工作关注单次编辑的准确性,忽视了连续编辑场景下的知识保持问题。
LLM 的事实性幻觉(生成与事实不符的内容)是部署的核心障碍,但检测、溯源和缓解三个环节缺乏系统性的实证研究。
Chain-of-Thought 推理在提升 LLM 常识推理能力的同时,会导致一部分原本正确的答案变错(Toxic CoT 问题)。此前工作关注 CoT 的收益,忽视了这种副作用的机制。
这篇论文要解释并修复 NAT(非自回归翻译)里 DAT(Directed Acyclic Transformer)表现接近 AR 的原因与失败模式,核心是“推断阶段缺失观测导致的 label bias”。以往 NAT 常用启发式约束或迭代精炼来缓解质量问题,但缺少一个能把问题说清并导出可控约束的生成式视角。
这篇论文要检验并提升 LLM 的“数学外推”(超出训练数值范围/分布的泛化)能力,重点是合成数据能否让模型学到可迁移的多步算术策略。以往数学推理提升常依赖更大模型或更复杂的推理提示,但对“训练分布外的数值外推”是否真的学到规则仍缺少可控实验。
这篇论文要把“跨模态检索”从外部索引检索改成“参数内记忆与召回”,即让 MLLM 通过生成来返回对应图片。以往检索系统依赖向量库与 ANN 搜索,工程上强但不具备端到端生成式接口;而 MLLM 虽能记文本知识,却缺少可控的图像记忆与可引用的召回机制。
这篇论文要解决文本提示过于简略导致扩散模型难以生成“细节可控、主体一致”的图像问题,并把输入从纯文本扩展到“图文交错的多模态提示”。以往 subject-driven(给参考图保主体)与 text-to-image 往往是两套系统或两种训练目标,难以统一。
摘要缺失,无法确认论文要解决的 PEFT(参数高效微调)中“LoRA 冻结策略自适应化”的具体痛点与设定。
摘要缺失,无法确认论文要解决的 ICL 示例选择问题(Sequential Example Selection)的具体设定、约束与对比对象。
这篇论文要检验 Video LLM 是否真的具备“时间感知/时间理解”,并指出现有 benchmark 无法细分时间维度且任务形式单一。过去很多视频 QA 更像静态帧理解或模板化选择题,导致模型在关键时间属性(速度、方向、顺序)上到底行不行难以诊断。
这篇工作直接指出一个被忽视的问题:让语言模型去当评委时,评测器可能偏爱和自己同源模型生成的文本,导致分数虚高。过去很多 LM-based metric 默认把“强生成模型 = 好评测器”成立,但很少系统检查这种评测是否带有 model-family 级别的自我偏置。
这篇工作讨论的是一个更细但很关键的问题:给语言模型的 surprisal 做 temperature scaling 后,确实更能拟合人类阅读时长,但这种提升未必意味着模型更接近人类语言处理机制。过去很多 psycholinguistics 研究把更高的拟合度直接当成更好的认知解释,但如果一个后处理就能明显提高相关性,就需要追问它到底修正了什么。
这篇工作要解决的是:现有 LLM 的 quantitative reasoning 评测大多停留在算数题或纯文本逻辑,无法真正测出模型面对表格/数据表时的统计推断和因果判断能力。过去这类能力经常被普通 QA benchmark 间接代替,但那会把“会说统计术语”和“能基于数据做判断”混在一起。
这篇工作要解决的是:LLM evaluator 的问题不只是 judge 模型不够强,更常见的是评测标准写得太粗,导致覆盖不全、对人类偏好拟合差,而且 prompt 里埋了很强的偏见。过去很多 LLM-as-a-judge 做法依赖一句总评提示词,结果是模型会给出看似合理但不可控的综合判断。
这篇工作要解决的是:通用 LLM 在专业领域往往不如专门模型,而常规解决办法是领域微调;但这既耗资源,也不适用于闭源 API 模型。作者关注的是一个更轻量的问题:能否不改模型参数,只借助领域专家模型体现出的偏好信息,提升 LLM 在特定领域的输出质量。
LLM 在 zero-shot 场景下对输入选项的排列顺序敏感(permutation sensitivity),导致输出不稳定。现有去偏方法(如对所有排列做推理再聚合)在推理时计算开销极高,本文要解决的是如何把去偏能力蒸馏到一个轻量学生模型中,降低推理成本。
如何自动优化 in-context learning 的 prompt(包括 task instruction 和 exemplar 选择),使 LLM 在下游任务上表现更好。现有方法多依赖手工设计或简单搜索,本文提出用对抗学习框架来自动化这一过程。
开源 LLM 的角色扮演能力通常通过模仿闭源模型来提升,但本文认为 LLM 在 pretrain 阶段已经内化了大量角色知识,关键是如何把这些知识激发出来。核心问题是:能否不依赖外部数据,仅靠模型自身知识构建角色扮演训练集?
这篇工作要解决的是:把“同传”从语音到文本/语音的级联管线,变成端到端的语音到任意输出(文本或语音单元)生成,否则级联会带来误差传播与多段延迟叠加,导致听者与说话者不同步。作者认为现有研究偏向 S2T 或 T2T,同传 S2S 往往不得不拼装多个模块。
这篇工作要解决的是:LLM 给出的自解释(self-explanations)是否“忠实于模型真实决策依据”,否则看似合理的解释会制造虚假可信度并带来风险。难点在于很多模型只有 API、没有可访问的“真实因果依据/梯度/内部状态”作为地面真值。
这篇工作要解决的是:Transformer 在逐 token 处理存在局部歧义(garden-path 句)时,内部状态如何随时间更新并在后续证据出现后“改判”,而 AR 模型由于输出不可回退很难显式呈现这种修正过程。作者希望用可解释分析把“何时、如何重启并修正”从黑箱里抽出来。
这篇工作要解决的是:自然语言可满足性(satisfiability)任务的实例分布在逻辑上跨越不同复杂度类别,而现有用 Transformer 做自然语言推理的评测往往忽略了“问题属于哪个语言片段/复杂度类”,导致模型能力判断被混淆。作者要把任务按逻辑维度分解,观察模型在哪些类上学得动、在哪些类上系统性失败。
缺少摘要信息,无法可靠判断该工作在“知识编辑/记忆编辑”中具体解决的是跨语言一致性、编辑可组合性,还是注意力机制层面的可控性问题。
这篇论文关注的核心问题是:大语言模型评测里存在系统性偏差,而这种偏差可以用 likelihood 信息来校正。很多 benchmark 默认把生成答案或选项概率当作直接能力信号,但模型常被格式、位置、长度、词频和解码习惯干扰,导致分数高低混入了评测协议偏差,而不全是任务能力差异。
这篇论文的核心结论很可能是:现有 speech language model 虽然能建模语音序列,但缺少与人脑语义表征更一致的高层语义信息。过去语音 LM 往往用生成质量、语音续写、ASR 迁移或下游任务结果来证明有效,但这些指标更容易反映声学建模和短程预测能力,未必说明模型学到了对语义真正有用的抽象。
这篇论文要解决的问题是:给 VLM 或多模态 Transformer 的视觉输入做 in-context 学习时,现有视觉 embedding 通常停留在整图或 patch 粒度,缺少对象级别的可组合表示。结果是模型能看见局部纹理,却不容易在上下文里稳定对齐“这个对象”和语言中的实体指称,尤其在需要跨图比较、指代或示例学习时会吃亏。
这篇论文的核心问题是:标准 LLM 在生成时容易漂移、幻觉或失去全局约束,是否可以通过引入 anchor 来稳定推理与生成。过去常见做法是靠更强提示、检索或后处理纠偏,但这些方法要么依赖外部系统,要么只在输出端修补,没有改变模型在生成过程中的参考系。
LLM 在组合性推理(compositionality)上存在系统性短板——当任务需要将多个已学会的子能力串联组合时,模型表现急剧下降。以往的解决方案要么靠 prompt engineering,要么靠更大模型,都没有从训练侧直接修补这个缺陷。
LLM 做多语言代码生成时,低资源语言的性能远低于高资源语言。根本原因是 pretrain 数据中低资源编程语言的代码量不足,模型对这些语言的语法和语义理解薄弱。
模型合并(model merging)是一种无需额外训练就能组合多个微调模型能力的方法,但现有合并策略对不同模块的重要性缺乏精细区分,导致合并后性能损失。核心问题是如何在模块级别量化重要性来指导合并权重分配。
将结构化图知识(如知识图谱)注入语言模型一直是个难题——现有方法要么将图线性化为文本(丢失结构信息),要么用 GNN 编码后拼接(模态对齐困难)。需要一种原生支持图结构的语言模型。
Decoder-only LLM 处理长上下文时,KV cache 占用大量显存且注意力计算成本高。现有上下文压缩方法要么需要额外训练,要么压缩率和质量之间的 trade-off 不理想。
Decoder-only LLM 在生成任务上表现出色,但在词义理解(word meaning understanding)这类需要精细语义区分的任务上是否优于 encoder-only 模型(如 BERT),尚无系统性结论。
这篇论文要回答“Text-to-SQL 的零样本能力到底有多少来自真实泛化、多少来自数据污染”,因为 Spider 这类经典基准可能已进入训练语料,导致评估被高估。
这篇论文要解决“基准饱和后如何比较模型差异”的问题:传统榜单难区分模型在真实分布下的能力变化,而作者用可解释的输入扰动来刻画模型共享的‘不变性’(invariance)。
这篇论文要评估 LLM 在对话中表达与校准不确定性的能力:对话走向本来就多分支,单纯追求“猜中结局”的准确率会掩盖模型是否知道自己不确定。
这篇论文要补齐 LLM 生成评测在 Indic 语言上的空白:现有生成基准以英语为中心,导致我们无法判断模型在多脚本、多形态变化语言上的真实生成质量与鲁棒性。
这篇工作要解决的是:很多 LLM benchmark 默认测试集和真实使用分布一致,但这个假设往往不成立,因此模型排名和能力判断可能对样本分布非常敏感。过去评测常把单一基准分数当稳定信号使用,却很少系统检查 benchmark 对类别比例、难度分布或题型混合变化的鲁棒性。
这篇工作研究的是:LLM 在单条指令跟随上表现不错,但当一个 prompt 同时包含多个约束或多个任务时,模型是否真的能并行遵守,还是只会抓住其中一部分。过去很多 instruction-following 评测把复杂任务拆成单目标问题,从而回避了现实交互里常见的多约束组合难题。
这篇工作关注的是:现有 Theory of Mind 评测常把问题做成静态、单轮、文字显式给定的心智推断,难以检验模型是否真正理解‘共同知识’和不同主体的视角差异。作者想解决的是更贴近对话与协作场景的 common ground 推理评测空缺。
这篇工作要解决的是:LLM 在语用学上的能力缺少系统评测,现有 benchmark 多聚焦字面语义、常识或逻辑推理,难以检测模型是否理解言外之意、礼貌策略、间接请求、含糊表达等 pragmatics 现象。过去这类能力常被聊天体验主观感受替代,没有形成可分析的测试集。
这篇工作讨论的是:in-context learning 里到底要不要优化示例,以及什么时候优化示例真的有收益。过去很多工作默认‘示例越精挑细选越好’,围绕检索、排序、自动搜索做了大量工程,但这个前提未必稳定,尤其在强模型或任务本身格式简单时,示例优化的边际收益可能很低。
这篇工作解决的是:ICL 数据构造常按表面相似度或随机策略选例子,但模型真正需要的往往是概念层面的覆盖,也就是让示例把任务中关键规则、属性或关系暴露出来。过去只看词面相似会让 prompt 中示例彼此冗余,模型看到很多相近表述,却没看到足够完整的概念空间。
这篇工作关注的是:repository-level code QA 比单文件代码问答难得多,因为答案往往依赖跨文件依赖、调用关系、配置和项目结构,而当前 LLM 往往只看到局部片段。过去不少 code QA 评测把问题简化到单函数或单文件,使得模型看起来懂代码,但在真实仓库环境中检索和整合能力不足。
这篇工作研究的是:LLM 是否真正理解共时推理,也就是多个事件或状态在同一时间切片上的关系,而不只是顺着文本顺序做先后推断。过去时间推理 benchmark 更常考时间线排序、先后关系或日期计算,较少单独考察‘同一时刻谁知道什么、发生了什么、能否同时成立’这类 co-temporal reasoning。
现有大模型去偏方法要么依赖预定义的先验偏置知识,无法处理未知偏置类型,要么需要大规模去偏微调数据,成本高且泛化性差,无法适配大模型的快速迭代需求。
现有ICL示例选择方法多基于语义相似性,忽略了示例集的信息覆盖度,导致选择的示例冗余度高,无法充分代表训练数据分布,ICL性能不稳定且上下文窗口浪费严重。
这篇论文要回答的核心问题是:当模型自己的生成上下文和外部检索上下文互相冲突时,LLM到底更信谁。这个问题过去常被RAG整体效果掩盖,因为大多数评测默认上下文彼此一致,难以分离“模型内部先验”“生成补充”和“检索证据”各自对最终答案的贡献;而一旦进入多源增强、self-refine 或 generate-then-retrieve 流程,这个冲突就会直接决定系统是否会被错误中间结果带偏。
要把剪枝做到“硬件友好”的结构化稀疏(如 2:4)而不显著掉点,因为 50%-60% 的非结构化稀疏在推理端往往省不了多少(索引/访存开销抵消)。现有 one-shot pruning 虽能免重训,但在结构化约束下更容易造成不可恢复的精度损失。
要理解 T2I 扩散管线里文本编码器到底在每一层“算出了什么”,因为现有分析多停留在注意力可视化或最终 embedding,而无法把中间表征和生成结果直接对齐。没有这种对齐,就很难解释组合提示词、知识检索失败等现象来自编码器还是来自扩散 UNet。
摘要缺失,无法从给定信息确定该交互式分析工具具体解决的痛点与范围。
摘要缺失,无法从给定信息确定其关于 PEFT 知识学习机制的具体问题定义与结论。
摘要缺失,无法从给定信息确定跨语言知识编辑要解决的是“编辑可迁移性”还是“避免跨语言副作用/遗忘”。
这篇论文要解决的是 LVLM 在视觉问答和描述任务中的幻觉问题,尤其是模型忽视图像证据、过度依赖语言先验时的错误生成。过去常见方法要么改训练数据和对齐目标,要么在解码时做通用对比解码,但后者未必显式利用'指令是否要求视觉 grounding'这个关键信号。
这篇论文要解决的是:多个 LoRA 适配器在生成任务中往往各自有效,但直接平均、串联或静态融合很难兼顾不同输入和不同生成阶段的需求。现有 LoRA fusion 方法通常把融合权重设成全局常数,等于默认所有 prompt、所有 token 都需要同一种专家配比,这在开放式生成里明显过于粗糙。
这篇论文关注的问题是:LLM 到底能不能稳定地按显式规则推理,而不是在训练分布内做模式匹配。过去很多 reasoning benchmark 容易被表面启发式投机通过,因此即使模型分数高,也不能说明它真的掌握了规则执行;需要一种更强的 stress test 和更针对性的改进手段。
这篇论文要解决的是:通用 LLM 在图任务上通常缺少结构感,单靠自然语言 instruction tuning 很难学会稳定处理图上的关系、路径和局部/全局约束。过去常见做法是外挂 GNN 或做任务特定 prompt,但这没有把'图结构能力'系统地注入到 LLM 的对齐阶段。
这篇论文要检验的是:多智能体讨论是否真能突破单个 LLM 的推理上界,还是只是增加采样次数后带来表面收益。过去关于 multi-agent discussion 的结果很多,但经常把'更多 token、更多样本、更多 self-consistency'和'真正的协作增益'混在一起,导致结论不稳。
这篇论文要解决的是:不同模型、不同任务下学到的 task embedding 往往彼此不兼容,导致 prompt-based 方法难以共享、迁移和比较任务表示。过去很多工作只在单模型内部学习 soft prompt 或任务向量,这些表示一旦换 backbone 就失效,因此很难形成跨模型的统一任务空间。
这篇论文解决的是 LoRA 的一个效率瓶颈:标准 LoRA 虽然省参数,但其低秩更新方向受限,表达能力和优化灵活性不够,尤其在较小 rank 下更明显。很多工作通过增大 rank 或引入更复杂 adapter 来补,但那会吃掉参数效率和部署简洁性。
系统揭示 LLM 在多选题等评测中的选项顺序偏差和 token 敏感性问题。模型对选项排列顺序和选项标签(A/B/C/D vs 1/2/3/4)的变化表现出不应有的敏感性,导致评测结果不可靠。
解决参数高效微调(PEFT)方法(如 LoRA、Adapter)在深层网络中因特征坍缩导致性能下降的问题。PEFT 方法在冻结大部分参数时,深层的表示多样性会退化,限制了微调效果。
研究 grounded language model(接地语言模型,即能将语言与外部知识/世界状态关联的模型)是否具有组合泛化能力——即能否将训练中见过的概念组合推广到未见过的新组合。组合泛化是语言理解的核心能力,但 LM 在这方面的表现一直有争议。
核心问题是小模型学 CoT 往往依赖“更多 CoT 数据蒸馏”,但在数据预算固定时,直接 seq2seq 学整段 CoT 会把大量 token 花在冗余叙述上,导致有效监督密度低;以往方法倾向于加数据或改模型,而不是提高现有 CoT 的利用率。
核心问题是如何在不依赖外部裁判模型(如 GPT-4)或额外 reward model 的情况下,让 LLM 对自己的回答质量做可比较的自动评估;以往自评要么变成“自说自话”的打分,要么需要外部强模型做标注。
核心问题是模型编辑(model editing)在局部修改知识/行为时可能引发全局退化甚至“崩溃”,但社区往往把编辑当作可控的局部手术,缺少对连锁副作用的系统刻画。
核心问题是 KV cache 压缩方法多在“已算好的 KV 上做剪枝/量化”,但忽略了层间依赖与预计算阶段本身的巨大内存/带宽开销,导致吞吐提升受限;尤其在深模型上,越往上层“真正影响未来生成的 KV”可能越少。
核心问题是 text-to-SQL 上开源模型与闭源强模型存在能力差距,而单纯用强模型合成数据会把错误模式“洗掉”,导致模型对真实分布的鲁棒性与泛化不足;以往合成数据多追求“更正确”,较少系统利用“弱模型的错误”。
核心问题是在零样本/低成本条件下做 Transformer 架构搜索(NAS),避免“训练很多候选模型再比较”的高昂代价;以往零成本 NAS 指标常与真实可训练性/表达能力脱节,导致选出来的结构未必好训或好用。
核心问题是现有多模态评测更偏“看图说话”的表层描述,缺少对图像深层语义(隐含主题、意图、社会语境等)的系统测量,导致 LMM 训练与对齐很难知道自己到底缺什么;以往深语义常被零散地用少量样例讨论。
这篇论文的核心结论是:Parallel Context Windows(PCW)并没有被现有评测充分证明有效,尤其在长文档上的推理任务里会带来明显退化。此前这类方法被视为一种几乎不改模型就能扩上下文的工程捷径,但评测主要集中在 few-shot 分类,且缺少一个足够强的简单基线,因此它是否真的提升了长上下文理解一直没有被严肃验证。
这篇论文要解决的问题是:多模态数据筛选时,图像描述的“具体程度”通常没有被显式量化,导致数据集里混入大量抽象、空泛或对视觉学习帮助有限的 caption。以往数据清洗更多看长度、重复率、毒性或图文相似度,但这些指标不能区分“这句话是否真的落在图像可感知内容上”。
这篇论文关注的问题是:LLM 在 tool learning 的完整链条上存在系统性安全风险,而且这些风险不只出现在最终调用阶段。以往工具使用安全研究更多盯推理时是否误用工具,但如果训练数据、工具知识注入和执行决策三个阶段都可能埋入风险,只看末端行为会漏掉很多源头问题。
这篇论文要解决的问题是:长上下文推理中的 self-attention 和 KV cache 开销过高,尤其在有大段共享前缀时存在重复计算浪费。现有优化要么只改 attention kernel,要么只做缓存复用,但如果分块策略不知道哪些前缀是共享且可复用的,就很难同时兼顾吞吐和精确性。
这篇工作要解决的是:SFT 往往在“专长”和“通用性”之间拉扯,针对某一领域强化后,通用能力容易回退。过去常见做法是直接混合数据或多阶段微调,但缺少明确的能力分配机制,因此作者提出一个 coarse-to-fine 的 SFT 框架来平衡两者。
这篇工作要解决的是:对简单数学应用题,给模型提供 rationale 不一定帮助,反而可能让模型更糊涂。以往 CoT 常被默认视为普适增益手段,但在低复杂度任务上,额外推理文本可能引入无关模式和监督噪声,因此作者专门检查“简单题 + rationale”为何会伤害模型。
这篇工作要解决的是:如何在不重新大规模训练模型的情况下,降低 LLM 幻觉并提升真实性。过去常见路径是检索增强、对齐训练或参数编辑,但前两者依赖外部系统或额外数据,后者又容易局部修复、整体副作用大,因此作者提出在所谓 truthful space 中做模型编辑。
这篇工作要解决的是:HumanEval 这类代码 benchmark 与真实用户查询之间存在明显脱节,导致模型在标准评测上表现好,却未必能应对自然场景编程需求。过去代码模型大量围绕合成、规范化的题目优化,因此作者构建 NaturalCodeBench 来测这个失配。
这篇工作要解决的是:量化后的 LLM 虽然推理便宜,但进一步微调常常又慢又占显存,因为适配模块和反量化开销会把节省吃回去。现有 QLoRA 等方法已经缓解了一部分问题,但在速度和内存之间仍有明显折中,因此作者提出 Quantized Side Tuning。
这篇论文解决的是低预算蒸馏里的两个耦合问题:教师调用贵,且教师输出并不总是对。以往知识蒸馏通常默认教师标签足够好,重点放在多拿样本;但在LLM场景里,昂贵教师往往只能少量查询,而且错误示范会被学生高效继承,所以“如何把有限预算花在最该问、最该信的样本上”变成了核心问题。
这篇论文要解决的是:多模态大模型在只能训练极少参数时,哪类PEFT方法、插在哪些位置、配多大容量,才是真正有效的。这个问题过去在纯文本LLM上已有不少经验,但MLLM多了视觉编码器、投影层和跨模态对齐,直接照搬文本PEFT结论往往不稳;而全参数微调又越来越难以承受,所以需要系统性的经验图谱。
这篇论文要解决的是:在只能访问文本输出、拿不到logits和概率的黑盒条件下,能否检测某段文本是否出现在LLM预训练数据中。已有membership inference大多依赖输出概率、loss或梯度信号,这对商用LLM API基本不可用;但版权、隐私和合规问题恰恰主要发生在这种黑盒服务场景,所以需要一种只看生成文本的检测框架。
这篇论文解决的是多语言推理里一个很具体但长期存在的问题:非英语推理能力弱,常规做法是把英语指令和推理数据翻译成多语版本再训练,但这种 translate-training 成本高,而且数学与链式推理格式很容易被翻坏。作者重新定义了问题,不再试图把整套推理监督复制到每种语言,而是只训练模型把问题稳定地转到英语,再在英语空间里完成推理。
这篇工作要解决的是 LLM 推理时累积层数带来的串行延迟,而不是单层算得慢。现有提速方法如量化、张量并行主要压缩每层成本,但几十层到上百层的顺序依赖仍然主导端到端 latency;直接删层虽然能降时延,却通常明显伤性能。
这篇工作关注的是临床文本中的数字分布与类型问题,即模型到底在学哪些数字、这些数字有多常见、以及不同数字类型是否应被区别对待。这个问题过去常被淹没在通用 token 统计里,但在临床场景中,数值承载剂量、化验结果、时间和风险区间,错误代价远高于普通词汇。
这篇工作要解决的是放射学报告生成中的多模态建模效果问题,具体做法是对 LLaVA 这类通用视觉-语言架构进行专门化的编码器和解码器改造。通用 VLM 往往在开放域图文任务上足够强,但迁移到医学影像报告生成时,视觉特征、语言风格和错误容忍度都不匹配。
这篇工作讨论的是出院小结生成中的指令微调策略问题,核心是链式思维(CoT)是否能帮助 LLM 生成更完整、更结构化的 discharge summaries。传统微调通常直接从病历到摘要端到端生成,但在临床文书里,信息筛选、时间线梳理和因果串联本身就是中间推理步骤。
胸部X光片的放射学报告自动摘要:现有通用VLM缺乏医学影像理解能力,而专用医学VLM在将视觉特征与临床文本对齐方面仍然粗糙,导致生成的报告摘要质量不足。