North American Chapter of the ACL
这篇工作直接问了一个预训练里很少被认真隔离变量的问题:tokenizer 的选择到底只是边角细节,还是会实质影响 LLM 训练效率和最终能力。过去很多实验默认 tokenizer 差不多,只要 vocab size 在合理范围内就行;但这可能掩盖了跨语言压缩率、形态边界、序列长度和训练动态的系统性差异。
这篇论文的核心问题是:预训练数据的“量”已经被研究很多,但数据的年龄、领域覆盖、质量和毒性这些更细的属性,到底如何影响模型能力与风险,缺少系统、可比较的实证框架。过去大家常用模糊经验做数据配比,比如“多抓点新网页”“多清洗一点就更好”,但这些决策之间有明显 trade-off,不做受控实验很难知道收益来自哪里、代价又是什么。
这篇工作要解决的是:基础模型的长上下文能力怎么才能随上下文长度有效扩展,而不是只在训练时把位置上限拉长却在真实使用中迅速退化。过去很多方法靠位置编码外推、少量长文本继续训练或插值技巧把窗口做大,但常见问题是训练不稳定、远距离检索弱、长文性能和短文性能互相牵制。
这篇论文要解决的问题很明确:Transformer 的长度外推为什么差,以及怎样在不大改架构的情况下把它拉长。已有方法往往在位置编码上做文章,例如 ALiBi、RoPE scaling、插值外推等,但单改位置编码常常不够,因为长度失效不只来自位置表示,还来自注意力模式在长序列上的退化。
这篇工作聚焦一个非 AR 文本生成问题:如何让 diffusion model 在 embedding space 上更有效地做文本生成。过去文本 diffusion 常受两个限制:离散 token 空间难以直接扩散,连续 embedding 空间虽然可训练,但生成质量、离散映射误差和采样效率常不如自回归模型,因此需要更合适的建模方式来释放 embedding-space diffusion 的潜力。
这篇论文要解决的是:在给定已有 checkpoint 的前提下,如何不用从头按更大算力重训,就把模型能力继续往上推。传统 scaling 主要依赖更多 token、更多参数和更长训练,而作者关注的是更便宜的路径——通过增加深度做 up-scaling。
这篇论文要解决的问题是:新闻摘要常把作者或原文叙事视角抹平,生成出一种“中性但失真”的摘要,而标准自回归摘要模型尤其容易朝高频、平均化表达收缩。过去多数工作默认摘要应尽量客观,因此很少显式建模“作者视角保留”;但在新闻、社论、分析稿等场景里,视角就是信息的一部分,丢掉它会让摘要在语义上不完整。
这篇工作要解决的是:能不能用一个统一的自回归框架同时建模视觉、语言和语音数据,而不是为不同模态分别维护不同生成器。过去统一多模态生成常见两条路:要么以文本为中心把其他模态离散化进 LM,要么采用 AR + diffusion 混合体系;前者简洁但常受 tokenizer 表达力限制,后者能力强但系统更复杂。
这篇工作针对 diffusion LM 的一个核心瓶颈:生成质量、训练稳定性和采样效率往往不如成熟的 AR LM,而很多方法又依赖离散扩散的复杂参数化。作者试图回答的是,能否用 probabilistic flow 重新组织离散文本生成过程,让 diffusion-style 语言建模更可学、更好采样。
高质量指令微调数据的构造成本高,且现有方法(如 Self-Instruct)生成的指令常与真实文本脱节,导致模型学到的指令跟随能力泛化性差。如何从已有文本语料中高效地「包装」出高质量指令数据?
这篇工作要解决的是如何在不训练额外 draft model 的情况下加速大模型解码。传统 speculative decoding 依赖一个更小的草稿模型先生成,再由目标模型验证,但这要求额外训练或部署一套模型;REST 试图用检索替代草稿生成,降低系统成本。
这篇工作要解决的是已有 BPE tokenizer 往往切分出不理想的子词边界,特别是在形态丰富语言中,会破坏词法结构;但完全重训 tokenizer 又会破坏与已有模型和生态的兼容性。BPE-knockout 试图在保持向后兼容的前提下,对既有 BPE 做裁剪和修正。
这篇论文的核心问题是:多任务训练会怎样改变 Transformer 的 in-context learning 能力,尤其是它学到的是更通用的归纳机制,还是被训练任务绑死的启发式。过去很多 ICL 研究在合成函数族上分析 next-token 学习行为,但较少系统考察“先做多任务预训练”这一训练分布变化会如何影响模型在上下文中快速拟合新函数的能力。
语言模型在预训练时无法有效记住长尾知识,而检索增强(RAG)能否从根本上弥补这一训练局限?之前的工作多把 RAG 当推理时的补丁,缺少对训练阶段知识获取瓶颈的系统分析。
现代 LLM 的评测基准可能已被训练数据污染(data contamination),导致 benchmark 分数虚高。如何系统检测和量化这种污染?之前的检测方法多是启发式的,缺乏对多种污染形式的统一分析。
如何让多语言 LLM 理解多语言语音输入?现有语音-语言模型多聚焦英语,多语言场景下的语音理解能力不足。核心挑战是如何在不破坏 LLM 已有语言能力的前提下注入语音理解能力。
In-context learning (ICL) 与梯度下降之间的类比被广泛讨论,但这个类比的边界在哪?之前的理论工作(如 Akyürek et al., von Oswald et al.)在线性回归设定下建立了 ICL≈GD 的联系,但这个结论在更一般的设定下是否成立需要重新审视。
这篇工作关注一个很实际但经常被英文中心研究忽略的问题:日语大规模网页语料到底该怎么过滤,才能更适合语言模型预训练。过去很多过滤策略直接照搬英文经验,但日语在分词、脚本混杂、网页噪声形态和重复模式上都不同,所以“英文有效”的规则未必在日语上成立。
这篇工作要解决的是:如何让 LLM 获得更通用的语音能力,而不是只做 ASR 或语音问答中的单一点功能。过去很多 speech-LLM 系统把语音先压成文本,再交给文本 LLM,这样容易丢失副语言信息、说话人特征和非词汇声学线索,因此无法支撑真正通用的语音交互。
扩展 LLM 的输入上下文长度,但不想承担在超长序列上从头 pretrain 的巨大计算成本。以往方法(如位置编码外推、稀疏注意力)各有局限,要么泛化性差,要么需要架构改动。
这篇论文要解决的是:只靠 DPO 做偏好对齐时,模型容易受偏好数据质量和分布偏差影响,而只靠 rejection sampling 又往往样本利用率低、成本高。作者试图把生成筛选和偏好优化串起来,缓解“监督信号稀疏但直接优化又不稳”的问题,尤其针对对齐阶段常见的低质量候选和奖励误导。
这篇论文要解决的是:常规减毒训练往往依赖安全偏好数据,但对 harmful 行为的覆盖不够,结果是在降低 toxicity 时容易伤害对话质量,或者让模型学会更隐蔽地回避。作者关注的是如何显式利用 harmful data,让模型更稳地拒绝有害输出,同时尽量不损失 coherence 和 evasiveness 控制。
这篇论文解决的是:如何以低成本把英文中心的预训练 LLM 适配到新低资源语言,且不只是补词表覆盖,而是真正获得该语言的指令跟随、常识推理和多轮对话能力。过去常见做法要么只做额外单语继续预训练,缺少对齐能力;要么只做跨语种 instruction tuning,但底座对目标语言暴露不足,迁移上限低。
这篇论文的核心问题应当是:如何把 reward learning 更紧密地嵌入语言模型微调过程,并在 on-policy 条件下减少训练信号失真。传统做法里,reward model 往往离线训练、再用于 PPO 或其变体,分布漂移和奖励误差会在微调过程中被放大。
这篇论文解决的是多语言 continued pretraining 里一个很实际的问题:当你给已有模型加入未见过的新子词时,新增 embedding 如果随机初始化,训练会慢、震荡大,而且容易拖累原有语言能力。过去常见做法要么完全重训 tokenizer 和模型,要么硬着头皮随机加词继续训,两者成本都高,所以“如何高效初始化 unseen subword”一直是被低估但很关键的工程问题。
这篇工作试图解决预训练模型中的知识遗忘或知识失活问题,也就是模型明明在参数里存过相关信息,但在任务中难以稳定激活和使用。过去的做法通常在继续预训练、检索增强或专家蒸馏之间选一条路,各自都有短板:继续预训练成本高,检索依赖外部系统,蒸馏又可能过度约束学生模型。
这篇工作研究的是一个长期争议问题:生成式语言模型里的 emergent abilities 是否真的只在大模型规模下出现,还是在缩小规模后仍能观察到,只是被评测方式掩盖了。过去很多关于涌现的结论建立在稀疏任务点和非线性指标上,因此“能力突然出现”可能部分是测量产物,而不是机制上的相变。
LLM 对齐(alignment)通常用 RLHF 或 DPO 等方法,但这些方法要么训练不稳定,要么对偏好数据的利用效率不高。本文提出用残差 energy-based model (EBM) 来建模人类偏好与 LLM 基础分布之间的差异,从而实现更灵活的对齐。
这篇论文要解决的问题是:序列到序列生成想要并行解码,但传统非自回归方法往往质量掉得太多,扩散式方法虽然更稳,却又增加去噪步数和训练难度。作者试图在质量与并行效率之间找到一个更可用的折中。
这篇论文要研究的是:大语言模型内部是否会自发形成模块化结构,以及这种 emergent modularity 能否被识别和利用。过去很多模块化设计依赖显式 MoE、专家路由或人工划分功能块,但如果 dense LLM 里已经存在隐式模块,那么我们对表示组织和泛化机制的理解可能需要更新。
这篇论文要解决的是:标准 Transformer 在长上下文上的计算和记忆开销随长度迅速增长,而很多真正需要长期依赖的语言建模问题,并不要求对所有历史 token 做同等精细的注意力。过去常见的稀疏注意力、压缩记忆或检索增强方法,要么牺牲可训练端到端性,要么召回不稳定;作者试图用更像外部神经缓存的向量检索来补这块。
这篇论文要解决的是:标准参数化语言模型对稀有词、长尾实体和可更新知识的处理仍然吃力,而直接接外部 memory 往往检索粒度太粗、与 token 级预测耦合不紧。作者想把 memory augmentation 做得更贴近词汇预测本身,用 mixture of word experts 的方式,在生成下一个词时引入更细粒度的记忆专家。
这篇工作要解决的是:生成式语言模型在训练时会被“学习难度偏置”带偏,导致容易学的模式被过度拟合、难样本学得不够。传统 token-level 交叉熵默认每个位置同权,但不同 token、不同样本的可学习性和噪声水平差异很大,这会让优化过程倾向于先服务头部模式,而不是整体泛化最优。
这篇工作要解决的是一个表达能力问题:Transformer 到底能不能表示 n-gram 语言模型,以及需要什么条件。很多经验研究默认 Transformer 至少能包含传统 LM 作为特例,但如果这个命题没有被明确构造或证明,我们对模型归纳偏置和容量下界的理解就不完整。
这篇工作要解决的是 vision-language pretraining 中跨模态交互不足的问题。很多 VLP 配方虽然同时看图和文,但掩码或训练信号设计并没有真正迫使模型深度利用另一模态,结果是模型可能主要依赖语言先验或视觉单模态线索完成任务。
这篇工作重新追问一个基础但常被忽视的问题:subword tokenization 对 LLM 处理 affixal negation 这类形态现象到底有什么影响。过去 tokenizer 常被当成工程预处理步骤,只用压缩率或词表效率评估;但像 un-, in-, non- 这类否定前缀会直接改变语义极性,若切分方式不合理,模型可能更难学到稳健的组合语义。
这篇工作要解决的是:如何用定制化合成数据,把通用语言模型更有效地对齐到代码式、结构化或受约束的生成任务。传统做法通常依赖人工整理instruction数据或直接监督微调,但这类数据覆盖窄、难以系统控制难度,也不容易把“格式正确”和“语义正确”同时教给模型。
这篇工作要解决的是:大语言模型在看起来会“推理”的任务上,到底是在进行可迁移的规则推断,还是只是记住了训练分布中的表面模式。这个问题过去常被 benchmark 分数掩盖,因为标准测试往往允许模型靠数据共现、模板记忆或近邻检索拿到高分,而反事实任务更能把“真正推理”和“背诵”拆开。
这篇工作要解决的是:LLM 从纯语言建模转向 instruction following 后,行为到底发生了什么变化,以及这些变化来自哪里。这个问题过去常被经验化处理——大家知道 SFT 会让模型更听话、更像助手,但对“哪些能力被增强、哪些先验被压制、为什么会发生行为迁移”缺少细粒度解释。
这篇工作直指一个不舒服但重要的问题:RLHF 加上的安全防护,是否会在后续微调里被轻易抹掉。以往很多人默认对齐层是相对稳固的,只讨论 jailbreak 提示攻击;这篇论文把攻击面前移到 fine-tuning 阶段,问的是如果开发者或下游用户继续训练模型,原有防护还能剩下多少。
这篇工作要解决的是:LLM 在不知道答案时,往往仍然会生成看起来流畅但实际错误的回答,而不是明确说“I don't know”。过去常见做法是靠后处理阈值、检索增强或置信度打分补救,但这些方法没有真正教会模型在语言层面表达不确定性,因此泛化有限。
在电子健康记录(EHR)上做 Text-to-SQL 时,模型需要可靠地识别出无法回答的问题并拒绝作答,而非生成错误 SQL。之前的方法在这种 abstention 能力上表现不佳。
LLM 在生成长文本回复时容易遗漏关键信息或产生不完整的输出,尤其在医疗等高风险领域。现有的单轮生成方式缺乏自我纠错机制。
机器翻译的 RLHF 缺乏好的 reward model,现有的翻译质量评估(QE)模型能否直接作为 reward model 来指导 RL 训练?之前的工作要么用人工反馈(贵),要么用 BLEU 等自动指标(粗糙)。
LLM 的 in-context learning(ICL)缺乏可靠的不确定性量化方法。模型对 ICL 预测的置信度估计不准确,导致用户无法判断何时该信任模型输出。
这篇工作要解决的是当前大模型评测过于碎片化:跨语言、跨模态、跨模型家族、跨任务的结果往往分散在不同 benchmark 里,导致大家难以判断模型能力是真泛化还是只对某一子集过拟合。MEGAVERSE 试图提供一个更统一、更大范围的评测框架。
这篇工作要解决的是 instruction selection 这一常被忽视但影响很大的问题:当预算固定时,选哪些指令数据去训练,结果会差很多,但现有工作对不同选择策略缺少系统评估。过去很多论文默认数据越多越好,或只用启发式去重/打分,没有认真区分'哪些样本真正贡献泛化'。
这篇工作要解决的是:语言模型到底在多大程度上真正表示了句法结构,而不是只记住高频词序和表面相关性。过去分析句法能力常用自然语料,但自然语料里词汇语义和句法线索纠缠太深,容易高估模型的结构泛化;这篇论文用 multilingual nonce dependency treebanks 来更干净地测这个问题。
这篇论文的核心结论很可能是:很多用于“定位”LLM 记忆数据的解释方法,并没有在真正需要的基准上可靠地定位到被记住的数据。以往关于 memorization localization 的工作常默认,只要某种 attribution、influence 或 probing 方法能在一个 benchmark 上表现不错,就说明它捕捉到了记忆来源;这篇论文通过两个 benchmark 的对照,质疑这个结论是否被基准本身误导。
这篇论文要解决的问题是:大语言模型里是否存在可线性分离、可稳定提取的 relational concepts,而不仅仅是单个实体特征或词义方向。过去很多表示分析工作擅长找 sentiment、toxicity、gender 之类相对局部的线性概念,但“关系”更难,因为它依赖实体间组合与上下文结构,未必能像属性一样落在简单方向上。
这篇论文的核心问题是:如何对非自回归的 Directed Acyclic T5 做受约束解码,而不破坏它并行生成带来的效率优势。传统 constrained decoding 大多围绕左到右自回归模型设计,因为状态转移和前缀约束天然匹配;但在 DAG 式非自回归生成里,输出不是单一路径按 token 逐步展开,现成方法很难直接套用。
这篇论文要解决的问题是:如何让大模型的 constitutional alignment 不停留在一次性规则注入,而能通过迭代过程持续改进。已有 CAI/constitution-style 方法通常先给一套原则,再做一次监督或偏好优化,但如果初始 constitution 不完备、模型自我批改能力有限,单轮对齐很容易停在局部最优,留下系统性盲区。
这篇论文的核心问题是:多步推理需要过程监督,但人工写步骤标签很贵,如何自动化地产生足够可靠的 procedural supervision。过去 PRM(process reward model)或 step-level supervision 的效果已经被反复证明,但瓶颈一直是标注成本高、覆盖窄、质量波动大,因此难以扩展到大规模推理训练。
多语言 LM 内部是否存在语言专属的子网络(language-specialized subnetworks)?如果存在,这种模块化结构对理解多语言表示和跨语言迁移有什么意义?之前的探针研究多从表示层面分析,缺少对网络结构层面模块化的直接检验。
MLP 在序列建模中缺乏对时序依赖的显式建模能力,能否通过引入指数平滑(exponential smoothing)这一经典信号处理技巧来弥补?这是在 Transformer 替代架构方向上的一次轻量尝试。
LLM 剪枝和量化需要判断哪些组件(层、注意力头、通道)可以安全移除或低精度化,现有方法多依赖权重大小或梯度,能否用 token 级别的输出分布变化(divergent token metrics)来更准确地衡量组件重要性?
这篇工作要解决的是:临床多文档抽象摘要很容易产生事实错误,而通用摘要训练通常只优化流畅性和表面 ROUGE,无法约束医学事实一致性。这个问题过去常靠检索、模板或后处理校验缓解,但这些办法要么牺牲生成能力,要么不能从参数层面改掉模型的事实偏差,因此作者转向 guided continued pre-training,试图在继续预训练阶段把“临床事实忠实”直接写进模型。
这篇工作要回答的核心问题是:多语语言模型在推理时是否真的“更会用英语思考”,以及这种现象到底是能力差异还是表达通道差异。过去大家常观察到 multilingual LM 在英语 CoT 或英语提示下表现更好,但这到底因为英语训练数据更多、推理模板更成熟,还是模型内部表征本来就偏英语,一直缺少系统拆解。
这篇工作关注的是:线性递归神经网络能否更好地进行 regular language reasoning,也就是对形式语言和自动机型规则的识别与泛化。这个问题之所以重要,是因为 Transformer 之外的新序列架构正在回归,而形式语言任务是检验架构归纳偏置是否真的适合规则推理的低噪声试金石。
这篇工作试图回答:语言模型能否被用作 deductive solver,也就是稳定执行演绎推理,而不只是做相关性匹配或链式解释生成。这个问题之所以重要,是因为很多 LLM 的“推理”结果其实混杂了模式记忆和语言先验;要让模型像求解器一样工作,需要更强的可组合性和错误可控性。
这篇工作研究的是:语言模型内部的事实到底有多“可变”,也就是一个事实被写进参数后,哪些更容易被修改,哪些会顽固保留。过去模型编辑研究多关注能不能把单个事实改掉,但较少系统研究 fact mutability——事实本身因为频率、关联度、冲突结构不同,修改难度可能天然不同。
这篇工作要解决的是:如何在 differential privacy 约束下做大语言模型的 next-token prediction 训练。这个问题过去常被认为在大模型上代价过高,因为 DP-SGD 需要梯度裁剪和噪声注入,训练会明显变慢、变不稳,而且语言模型对优化细节极其敏感。
这篇工作要回答的是:多语预训练和指令微调确实能改善 cross-lingual knowledge alignment,但这种改善是否只是浅层的。题目已经给出结论:有提升,但只是在表层。这说明当前多语模型虽然能把不同语言的知识回答得更像,但未必真的学到了深层共享知识结构或稳健的跨语种推理对齐。
LLM 的 in-context learning 在遇到与给定 demonstration 分布差异较大的测试样本时泛化能力下降。以往工作主要关注 demo 的选择和排列,但对 OOD(out-of-demonstration)场景的泛化机制研究不足。
多语言模型中跨语言表示对齐和跨语言迁移到底在什么条件下涌现?以往工作在自然语言上观察到这些现象,但无法控制变量(语言结构、词汇重叠、数据量等),难以归因。
合成文本数据(由 LLM 生成的训练数据)的质量检查缺乏系统工具。人工检查成本高且不可扩展,而自动化指标又不够可靠。需要一种人机协作的检查框架,同时提供数据溯源(provenance)能力。
这篇论文要解决的是:多语言学习通常依赖大规模多语数据和高训练成本,低资源语言往往被高资源语言淹没,导致“会很多语言”与“每种语言都学得够好”之间存在张力。作者关注的是如何用更少数据和更合理的训练组织,提升 multilingual transfer 的效率。
这篇论文要解决的是:大模型参数适配虽然有效,但部署、更新和隐私约束常常要求“离线、不改主模型、可外接”的轻量化适配方式。作者针对的是传统参数高效微调仍需改权重、以及检索增强依赖在线系统的问题,尝试用外部记忆做更可控的适配。
这篇论文要解决的是:终身学习语言模型的“世界知识评测”并不透明,很多基准并不能区分模型是真的持续更新了知识,还是只是利用了时间泄漏、记忆残留或评测设计漏洞。作者重新审视的是 lifelong LM 在知识更新场景下到底该怎么测,尤其是时间性知识与持续训练交互带来的评测偏差。
这篇论文要解决的是:decoder-only 多语预训练模型的多语言能力到底储存在什么内部机制里,尤其是是否存在可识别、可操控的语言特异神经元。过去多语能力常从整体性能讨论,但缺少对参数内部语言分工的细粒度分析,也缺少可控干预证据。
这篇论文要解决的是:NLP benchmark 的分数常被当成模型能力代理,但评测结果本身高度依赖测试数据构成,而这一点通常缺乏透明披露。作者关心的是如何量化‘数据本身’对评测结论的影响,从而判断 benchmark 到底测到了什么。
这篇论文要解决的是:ICL 的效果高度依赖 exemplar 的选择与排序,但现实里可用标注少、上下文预算紧,盲目塞例子既浪费 token,也未必最优。过去很多工作只在已标注集合上做检索式选择,回避了一个更实际的问题:如果连标注都贵,怎样端到端地以更少数据构造更有效的 ICL 提示。
这篇论文要解决的是:LLM 蒸馏到边缘设备时,常规 teacher-student 压缩容易在能力、延迟和内存之间顾此失彼。简单缩小模型往往损失太大,而复杂蒸馏流程又不一定适合 edge 部署。作者关注的是怎样把大模型能力更高效地迁移到可落地的小模型上。
这篇论文要解决的是:现有 VLM 主要靠图文对做全局对齐,导致对用户指定局部区域的理解能力明显不足。过去很多模型能回答“这张图是什么”,但一旦要求理解框选区域、局部关系或区域级问答,性能会掉,因为训练信号里几乎没有精确到区域的语言监督。
从题目看,论文关注的是:instruction tuning 数据并非越混越好,样本顺序和难度课程可能显著影响最终模型。过去大多数指令微调默认随机混洗,等价于假设所有样本同质、训练过程路径无关,但在人类学习和 curriculum learning 经验里,这通常不是最优假设。
这篇论文解决的是:英语中心的大模型在低资源语言问答上表现差,不只是因为指令数据少,还因为预训练数据失衡和 instruction tuning 数据也偏英语,导致模型在能力和对齐两端都向英语倾斜。以往常见做法是直接翻译指令数据或做普通 code-mixing,但这些方法容易把英文模板当支架保留下来,目标语言真正获得的监督仍然有限。
这篇论文解决的是:多模态大模型的 hallucination 往往来自视觉 grounding 不够,模型会沿着语言先验把答案补全,而不是老实受图像约束。过去常见做法是改视觉编码器、加外部检测器或做拒答约束,但这些方法要么系统复杂,要么不能直接在生成后纠偏。
从题目看,这篇论文要解决的是:大模型评测往往不系统、不可扩展、容易受数据泄漏和人工构造成本约束,因此很难稳定测出模型能力边界。现有 benchmark 常常样本量小、任务覆盖有限,或者随着模型变强很快饱和。
这篇论文解决的是长上下文 LLM 在异构、低成本设备上的流水并行问题:长上下文使显存、带宽和跨设备通信压力急剧上升,而现有 pipeline parallel 方案通常假设设备同构、链路稳定,这在真实低成本部署里并不成立。过去要么牺牲上下文长度,要么依赖昂贵均质集群,因此“如何在便宜但不整齐的硬件上跑长上下文模型”是很现实的系统瓶颈。
这篇论文要解决的问题是 Transformer 表征各向异性是否是结构固有缺陷。很多工作观察到 sentence embedding 或 token representation 分布高度集中,于是默认“Transformer 天生 anisotropic”,并把后处理白化、对比学习矫正当成必要步骤。但如果各向异性不是架构决定,而是训练目标、优化动态或归一化细节导致,那么很多解释和修复方向都需要重写。
这篇工作讨论的核心问题是:语言模型里常见的“向量算术”现象,到底反映了复杂推理机制,还是只是更简单的 Word2Vec 式线性结构在更大模型中的延续。过去很多解释会把 embedding arithmetic 当作深层语义操作的证据,但这类现象也可能仅由共现统计和线性表示几何导致,因此需要拆清楚机制层级。
这篇工作要回答的是:大模型的 in-context learning 确实能泛化,但这种泛化在句法任务上并不稳健,问题出在哪里。过去很多 ICL 成功案例集中在分类、映射或语义归纳上,而 syntax 对结构敏感、对表面扰动脆弱,因此更适合检验模型到底学到规则还是仅学到提示模式。
程序性文本(如菜谱、实验步骤)的理解需要模型捕捉步骤间的顺序依赖,但标准预训练目标(MLM 等)并未显式建模这种顺序结构,导致下游任务(步骤排序、实体追踪等)表现不佳。
LLM 自回归解码的逐 token 生成方式导致推理延迟高,尤其在长序列生成时。已有的并行解码方法(如 speculative decoding)需要额外的 draft 模型,本文探索一种无需额外模型的加速方案。
现有 tokenizer 在处理性别包容性语言(如非二元代词 ze/hir、新造词等)时表现很差——这些词往往被拆成无意义的子词碎片,导致下游模型对这类语言的理解和生成质量显著下降。问题根源在于 tokenizer 训练数据中这类语言极度稀缺。
多文档摘要(MDS)的标注数据稀缺且昂贵,现有预训练模型在 low-shot MDS 场景下表现不佳。问题是如何设计预训练策略,让模型在极少标注数据下就能做好多文档摘要。
评估 LLM 的基准测试越来越多,但跑完所有 benchmark 的计算成本很高。问题是:能否用更少的 benchmark 或更少的样本就得到可靠的模型排名?即如何高效地做 LLM benchmarking。
Transformer 语言模型的组合泛化(compositional generalization)能力——即从已见过的组件组合出未见过的结构——与模型深度之间的关系尚不清楚。浅层模型和深层模型在组合泛化上是否有质的差异?
这篇论文关注一个很实际但常被忽略的问题:量化不仅会影响 LLM 的准确率,还会不会系统性地扭曲模型置信度。过去量化研究多盯着 perplexity、下游分数和吞吐,但在部署里,置信度同样重要,因为它直接影响拒答、路由、self-consistency 采样和工具调用决策。
这篇论文要解决的是:语言模型学会工具调用时,经常只学到表面格式,真正执行后却暴露出参数错误、调用顺序错误或结果解释错误,单靠监督答案并不能覆盖这些失败模式。问题的关键不是让模型“看起来会用工具”,而是让它从执行结果里修正行为。
这篇论文要解决的是多语言文本编辑能力不足的问题。现有编辑模型或指令微调体系通常以英语为中心,扩展到多语言时容易出现编辑意图保持不稳、低资源语言泛化差、内容改动范围失控等问题。
这篇论文要解决的是:如何把 LLM 的 label bias 从一个泛泛而谈的现象,变成可量化、可对比、可缓解的问题。以往大家更多在分类或 prompt 选择里零散观察到模型会偏向某些标签表面形式,但缺少一套能跨模型、跨任务衡量这种偏置强度的方法,因此很难判断问题到底来自知识不足、校准失真,还是标签词本身的先验概率污染。
这篇论文要解决的是:安全对齐高度依赖人工偏好数据,但人工标注昂贵、慢,而且覆盖面经常落后于新风险场景,能不能用自动化 preference data 把安全对齐做得更可扩展。过去自动偏好数据的问题在于噪声大、偏置强,容易把安全训练变成表面拒答模板学习;作者的目标显然是让自动生成的偏好标签足够可靠,能直接用于 safer instruct alignment。
这篇工作要解决的是:在不改模型参数、也不重训长上下文模型的前提下,把大语言模型的有效上下文窗口向外扩。过去主流做法要么依赖位置编码外推或长上下文继续训练,要么做检索和摘要压缩,前者成本高且容易失稳,后者会丢失原始上下文细节,因此作者尝试用朴素贝叶斯式的外部记忆建模来补足超窗信息。
这篇工作要解决的是:让链式思维推理同时利用多种知识来源,但又不把推理过程写成完全自由文本。以往 CoT 往往只有自然语言步骤,优点是灵活,缺点是结构松散、容易遗漏外部知识或引入无关内容,因此作者提出“半结构化”推理表示来提高可控性和知识整合能力。
这篇工作要解决的是:普通 Chain-of-Thought 提示虽然能提升推理,但推理样例质量很不稳定,错误示范还会被模型放大。过去常见做法是人工写 few-shot CoT 或直接让模型自生成,但前者贵且覆盖窄,后者容易自举出错误轨迹,因此作者引入迭代式 bootstrapping 来持续筛选和改进推理示例。
这篇工作要解决的是:循环神经语言模型的表达能力下界到底在哪里,也就是它们至少能表示多复杂的语言分布。RNN 在大模型时代已不是主流,但如果没有清楚的 expressivity lower bound,我们就很难把它和 Transformer、n-gram 或其他序列模型做干净比较。
这篇工作要解决的是:如何让 LLM 的回答不仅更好,而且更容易被验证,尤其是在需要引用或可核查证据的场景。传统做法常把“回答质量”和“可验证性”分开优化,结果要么答案流畅但难核实,要么引用存在但和论断绑定不紧,因此作者尝试联合建模这两件事。
这篇工作要解决的核心问题是:分布式大模型训练的工程门槛仍然过高,尤其是在异构 GPU/TPU 和不同集群环境下,研究者往往需要为训练脚本、并行策略、容错和资源适配付出大量非研究性的工程成本。过去社区通常依赖 DeepSpeed、Megatron-LM、PJRT/XLA 或各云厂商私有栈分别处理,但这些方案往往绑定硬件或框架,迁移成本高,导致很多中小团队很难把实验真正跑起来。
这篇工作要解决的是 encoder-decoder Transformer 推理速度慢、且解码阶段存在明显冗余计算的问题。过去加速通常依赖蒸馏、量化或静态层裁剪,但这些方法要么需要额外训练成本,要么对所有 token 一刀切,无法利用不同生成位置难度不同这一事实。
这篇工作要解决的是:我们在评测大型视觉语言模型时,很多 benchmark 分数混杂了潜在因子和系统性偏置,导致“高分”未必代表真正更强的多模态理解。过去 LVLM 评测常把多个任务分数直接当能力排名,但这些分数可能同时受到语言先验、答案分布、图像难度和数据泄漏等因素影响。
这篇工作要解决的是 continuous-output NMT 里一个很具体的问题:如果不通过固定词表 softmax,而是直接预测连续向量,目标嵌入到底应该怎么选?常见直觉是需要语义上训练良好的词向量,否则连续输出很难对齐到正确 token;但这也让模型设计和训练变得复杂。
这篇工作要解决的是:在持续到来的指令数据流上微调LLM时,怎样减少遗忘并降低数据需求。现有continual fine-tuning常见两难是:全量回放成本高,不回放又容易丢失旧能力;而instruction tuning的数据分布漂移通常比分类任务更复杂,因为任务格式、风格和目标都在变。
这篇工作解决的是编辑式非自回归机器翻译中的训练信号错位问题。传统NAR翻译虽然推理快,但因为独立预测或固定步编辑与最终序列质量不完全对齐,往往在流畅性和充分性上落后于自回归模型;单纯用token级监督很难优化到真正关心的句级质量。
这篇工作解决的是:如何从文本交互中学习生成行为,而不是只从静态输入输出对中学习。传统SFT把每个样本视为一次性映射,弱化了交互过程中的反馈、修正和用户意图澄清;这对真实助手场景是不够的,因为模型需要根据多轮文字互动逐步更新生成策略。
这篇工作直接挑战一个常见判断:在图像到文本生成里,扩散模型是否真的天然不如自回归模型。过去大家更习惯用AR做caption或image-to-text,因为文本是离散序列、评测和解码都更成熟;扩散式文本生成往往被认为慢、难训练、质量也不占优,所以这个方向长期处于边缘。
这篇工作想回答的是:很多LLM在对齐评测上看起来表现不错,但这种‘对齐’是否只是表面服从,而不是真正稳定的价值一致。过去大量安全评估依赖静态指令集或显式有害请求,模型只要学会识别明显触发词并给出拒答模板,就可能拿到不错分数,却在更隐蔽、上下文化或对抗式场景里失守。
这篇工作要解决的是:机制可解释性和因果干预研究缺少一个统一、工程上可复用的 PyTorch 工具层,导致很多结果难复现、难比较、也难直接转成模型改进手段。过去这类工作通常依赖一次性脚本或针对单一架构手搓 hook,能做演示,但不适合系统研究,更不适合把“理解模型”真正接到“修改模型行为”上。
结论:MEMORY-VQ 解决的是“memory-augmented LM 推理很快但存储爆炸”的工程瓶颈,把原本需要海量磁盘/内存的预计算 token 表征压到可在互联网规模上落地。以 LUMEN 这类方法为代表,先把检索到的 passage 做编码并缓存,能显著减少在线计算,但代价是要为每个 token 存一条高维向量,存储成本往往比算力更先成为不可扩展点。
这篇工作关注的是一个常见但被低估的问题:LLM 的首次决策常常接近正确,却因为局部偏差或信息遗漏停在次优答案。传统 self-refine 或 reflection 方法通常给固定反馈模板,让模型反思一次或多次,但反馈强度和时机不区分样本难度,容易造成无效迭代甚至越改越差。
这篇工作解决的是 LLM 结构化剪枝常见的两难:非结构化剪枝压得狠但不容易加速,结构化剪枝容易部署但一剪就伤性能。很多现有方法按层或按模块独立删参数,忽略了 Transformer 组件之间是耦合的,所以删掉一个局部维度往往会连带破坏上下游表示流。
这篇工作要解决的是表格能力长期被通用 LLM 边缘化的问题。现有大模型对自然语言很强,但遇到结构复杂、类型混合、行列推理明显的表格时,经常依赖脆弱的线性化输入;过去常见做法是为特定表格任务单独做模型或管线,缺少一个开放的通用 table generalist。
这篇工作要解决的是 step-by-step reasoning 评估长期缺少可靠判据的问题。现有做法大多用最终答案对错来代替过程质量,或用另一个 LLM 当 judge;前者无法定位中间错误,后者又会把评估建立在同类模型的主观偏好上,因此很难真正判断 reasoning trace 到底哪里错、错得多早。
这篇工作研究的是 in-context learning 的校准问题:模型给出的概率或置信度,是否真正反映了其在 few-shot 提示下的正确性。过去很多 ICL 工作只看 accuracy,把提示当成黑箱增益来源;但实际部署里,ICL 常常出现随着示例顺序、标签偏置、表面格式变化而置信度失真,这使得它很难被安全地用于决策。
这篇工作要解决的是多语言预训练模型在不同语言上的性能落差长期过大,而现有做法通常只在数据配比或继续预训练上做粗粒度调整,难以真正回答“该向哪种教师语言学、如何把强语言的能力迁移给弱语言”。这个问题现在值得重做,是因为 mPLM 的主矛盾已经不只是平均分不够高,而是高资源语言和低资源语言之间的能力分化会直接限制模型作为统一底座的可用性。
这篇工作要解决的是 LLM 在沟通任务上常常“会答题但不会说话”,也就是内容可能正确,但表达策略、礼貌性、说服结构和互动感不足。过去很多工作把沟通能力当成提示模板问题,或者用 SFT 直接喂高质量回复,却较少显式建模回答前的内部规划;这篇论文的切入点是让模型先进行 inner monologue,再输出面向用户的外显表达。
这篇工作要解决的是数学推理对表面形式异常敏感:题意不变,只是改写措辞,模型的解题成功率就会明显波动。过去很多工作把数学能力差异归因于推理深度或训练数据不足,但较少系统研究表述方式本身对推理路径的触发作用;这篇论文既分析这种现象,也尝试利用它提升解题效果。
这篇工作要解决的是在大模型广泛被预训练语料污染的现实下,如何做更干净、更可信的评测。很多 benchmark 上的高分已经很难区分是真泛化还是见过题,导致模型比较和方法判断失真;CLEAN-EVAL 关注的正是 contamination 下的 clean evaluation,而不是再造一个普通题库。
这篇工作要解决的是小模型学推理时,直接用 chain-of-thought 监督微调并不总是高效,甚至会把大模型的冗长表述噪声一起蒸进去。过去大家默认“把 CoT 喂给小模型”就是蒸馏 reasoning 的主路子,但这篇论文质疑了这一点:程序辅助蒸馏可能比直接 CoT fine-tuning 更适合教小模型真正学会做题。
这篇任务综述要解决的是:如何把“幻觉”从一个模糊概念落成可评测、可复现、跨系统比较的共享任务。过去很多工作把 hallucination 当成开放定义,数据集、标注标准和任务边界都不一致,导致不同论文结果很难横向比较,尤其在 MT、摘要、对话和数据到文本之间更是如此。
这篇工作要解决的是:标题生成里涉及数字推理时,模型为什么经常生成语法正确但数值错误的结果,以及是否能用 preference optimization 改善这一点。这个问题以前常被当成一般文本生成误差处理,但数字错误和普通措辞错误不同,它对 token 概率很敏感,却未必能从标准交叉熵训练里自然学到。
这篇论文的核心问题是:LLM 在基于脚本知识的因果推断上,行为模式是否真的接近人类,而不是只在最终答案上看起来像会做因果推理。这个问题重要,因为近年来很多零样本推理结果显示 LLM 能答对因果题,但答对不等于加工过程相似;如果行为机制不同,那么把表面准确率当成人类式理解的证据就不够。
这篇工作关注的是:预训练语言模型里的 attention 是否真的编码了语义信息,以及这种语义信号能否被系统分析,而不是停留在可视化层面的直觉判断。这个问题长期存在争议,因为 attention 既被过度解释,也常被批评为不等于 explanation,但对于理解预训练表征到底学到了什么,它仍然值得被更严格地检验。
这篇工作要解决的是:很多多项选择推理基准可能高估了 LLM 的社会推理或认知推理能力,因为模型会利用选项顺序、格式等表面线索作答,也就是典型的 Clever Hans 效应。过去这类 benchmark 常默认题目形式是中性的,但如果换一下选项顺序就显著掉点,那么评测到的就不主要是推理能力。
生物医学领域的 PubMed-only BERT 模型(如 PubMedBERT)在不同层级的 NLP 任务上表现差异较大,但缺乏系统性的多层级分析来揭示这些模型在词级、句级、文档级任务上的优劣规律。
LLM 在开源数据集上做文档章节识别(section identification)表现很好,但在真实应用场景中性能大幅下降,揭示了开源 benchmark 与实际部署之间的 gap。
与上面 EHRSQL 2024 共享任务相同的问题:Text-to-SQL 系统在 EHR 场景下需要可靠地拒绝无法回答的问题,避免生成错误 SQL 造成医疗风险。
LLM 生成 UI 代码的质量不稳定,缺乏有效的自动化反馈机制来迭代改进生成结果。人工标注 UI 代码质量成本高且难以规模化。
LLM 在生成时容易产生幻觉(hallucination),但它们在事实验证(fact verification)任务上是否也同样不可靠?这篇工作探索了一个反直觉的假设:LLM 虽然会生成错误事实,但可能擅长判断给定陈述的真假。
Transformer 模型计算文本相似度时,内部到底在比较什么?现有的可解释性方法难以解释 Transformer 在相似度任务中的行为机制。
LLM 在推理时容易被问题中的无关条件(irrelevant conditions)干扰,导致推理错误。之前的工作主要关注推理能力本身,较少关注模型识别和忽略干扰信息的能力。
这篇工作要解决的是:能不能让大语言模型在不依赖外部安全分类器或额外审查模型的情况下,自己识别并拒绝有害请求。过去常见做法是外挂一个 safety filter 或再训练一个 reward/safety model,但这会带来系统复杂度、级联误判和部署成本;SELF-GUARD 试图把安全判断内化到生成过程本身。
这篇工作要解决的是组合泛化下的任务导向语义解析:当测试样例是训练中没见过的新组合时,单靠参数记忆往往不够,能否用最近邻示例来提升 in-context learning。过去这类问题通常靠专门设计的语法约束、数据增强或更大模型硬扛,但在 compositional split 上泛化仍然脆弱。
这篇工作要解决的是多模态数据集构建成本高、覆盖窄且难以快速迭代的问题,尤其是图文类任务常常缺少成规模、带控制属性的训练数据。过去做法要么人工标注昂贵,要么直接抓取网络数据但噪声大、任务适配差;MAGID 试图把合成数据生产流程自动化。
这篇工作要解决的是 Transformer 微调的显存成本过高,尤其是全参数或大规模 adapter 微调时,优化器状态、激活和梯度都会占掉大量内存。现有 PEFT 方法虽然降参,但常常牺牲效果或限制更新空间;SlimFit 试图利用训练动态,在尽量不伤性能的前提下降低微调内存。
这篇工作要解决的是 few-shot cross-lingual transfer 评测缺少系统性,尤其是大模型在少样本条件下是否真的具备跨语言迁移能力,常被零散实验和英语中心 benchmark 高估。BUFFET 试图建立一个专门针对这一能力的评测基准。
这篇工作要解决的是生成式 AI 的数据准备和评测流程过于分散:不同任务有不同模板、后处理、指标和数据格式,导致实验难复现、难共享,也让训练—评测接口非常脆弱。Unitxt 试图把这些流程抽象成可复用、可组合的统一框架。
这篇论文要回答的核心问题是:单语数据什么时候真的能帮助多语机器翻译,而不只是作为一个经验上“可能有用”的补充。以往工作通常默认回译、语言模型预训练或辅助单语目标整体上有益,但对“域是否匹配”和“模型规模是否足够”这两个条件缺少系统拆解,因此很难判断单语数据收益来自数据量本身,还是来自更好的域覆盖与更强模型容量。
这篇论文的核心判断很明确:LLM 对低资源语言并非完全不会学,而是可以在 few-shot in-context 设置下表现出可用的学习能力。过去低资源语言通常依赖继续预训练、翻译桥接或专门监督数据,原因是大家默认主流 LLM 的语言覆盖不够、上下文学习又太脆弱;这篇工作试图检验这个假设是否过于悲观。
这篇论文要解决的问题是:如何通过后门注入,让一个看似对齐良好的大模型出现隐蔽且持久的 unalignment。过去关于 LLM 安全的很多工作关注越狱提示或显式有害微调,但这类攻击往往可见、可测,也容易被后续对齐修补;作者关心的是更难防的情况——攻击被埋在模型里,只在特定触发条件下释放,而且能跨过后续安全训练。
这篇论文的核心问题是:能否把 LLM 已有的图表推理能力有效迁移到 VLM,而不是从头让视觉语言模型自己学完整套 reasoning。图表理解是个典型的跨模态瓶颈:文本侧推理链常常已经够强,但视觉侧的表示和对齐不足,导致 VLM 在 chart QA 上不是不会推理,而是拿不到可推理的中间表示。
这篇论文关注的核心问题是:当前 VLM 的 chain-of-thought 推理到底有多真实、怎么测、又该如何提升。过去很多视觉语言模型在最终答案上可能看起来不错,但中间推理链往往不稳定、不可解释,甚至只是事后生成的合理化文本;如果没有专门的评测框架,就很难知道模型到底是在看图推理,还是在语言先验上猜。
在生成式任务中,零样本跨语言迁移效果不稳定,哪些因素真正决定了迁移质量?以往研究多聚焦于分类任务,对生成任务(如摘要、QA)的跨语言迁移关键要素缺乏系统梳理。
长 prompt 导致 LLM 推理成本高且可能超出上下文窗口,能否学习将 prompt 压缩为更短的自然语言格式,同时保持任务性能?之前的 prompt 压缩方法多生成 soft token 或不可读的压缩表示,缺乏可解释性和跨模型迁移性。
音乐理解(captioning 和 query response)需要同时处理音频信号和自然语言,现有方法要么只做 captioning 要么缺乏对音乐语义的深度理解。能否用预训练语言模型作为桥梁,统一音乐描述和问答?
LLM 的安全对齐可以被嵌套式越狱 prompt(nested jailbreak prompts)轻易绕过。之前的越狱攻击多是特定模板,缺乏泛化性;这项工作提出了一种更通用的嵌套结构攻击方法。
语言模型在三段论推理(syllogistic reasoning)上的表现与人类相比如何?之前的工作零散地测试了 LLM 的逻辑推理能力,缺乏与人类认知心理学数据的系统对比。
这篇工作要解决的是:embedding space 里常被认为“可解释”的维度,怎样才能真正对齐人类判断,而不是只在几何上看起来好看。过去很多表示学习工作会事后给某些方向贴语义标签,但这些方向是否对应人真正稳定感知的属性,证据并不强。
这篇工作要解决的是:文本生成评价往往缺少统一且可定制的标准,现有自动指标要么和人类判断偏差大,要么只能覆盖单一维度,因此作者提出 GPTScore,想让评价目标可以按需求定义。过去 BLEU、ROUGE、甚至一些学习式指标都受限于固定参考或固定打分头,难以灵活表达“我到底想评什么”。
用 LLM 替代众包标注员做数据标注,但直接 prompt 的标注质量不稳定、一致性差。以往做法要么依赖大量人工 few-shot 示例,要么需要针对每个任务精心设计 prompt,成本并未真正降低。
参数高效微调(PEFT)方法(如 Adapter、LoRA、Prefix-tuning 等)的效果受 pretrained LM 初始化(priming)方式影响,但这种影响缺乏系统性分析。以往工作各自报告不同 PEFT 方法的结果,但没有统一框架来理解 priming 策略与 PEFT 性能之间的关系。
阿拉伯语 LLM 的本地化:通用英文 LLM 在阿拉伯语上的表现显著弱于英文,而从头训练阿拉伯语大模型成本过高。需要一种高效的本地化方案,在保持通用能力的同时大幅提升阿拉伯语理解和生成质量。
网络安全领域的文本包含大量非语言元素(如 IP 地址、哈希值、代码片段等),标准 pretrain 策略(如 MLM)会花大量计算在这些低语义密度的 token 上,导致领域 pretrain 效率低下。
ICL 中存在 demonstration shortcut 问题:模型倾向于利用 demo 中的表面统计捷径(如标签分布偏差、输入-标签的虚假相关)而非真正学习任务模式,导致 ICL 性能不稳定且对 demo 选择过度敏感。
LLM 的逻辑推理能力仍然薄弱,尤其在需要多步推理和形式逻辑的场景。以往主要靠 SFT 在推理数据上微调,但缺乏在 pretrain/self-supervised 阶段直接增强逻辑能力的方法。
LLM 的自我校准(calibration)——即模型对自己答案正确性的判断能力——在直接生成答案时往往很差。Program-aided reasoning(让模型生成代码来解题)是否能改善这种自我认知?
Transformer 语言模型是否内部编码了动词体(verbal aspect,如完成体/未完成体)这一语法范畴?以往的 probing 工作主要关注句法特征(如词性、依存关系),对语义-语法交界的范畴(如体)研究较少。
这篇论文要解决的是:LLM 在时间相关数据上表现并不统一,不同模型可能依赖完全不同的归纳偏置,但这点通常被平均指标掩盖。作者关心的是模型在 temporal data 上到底学到了什么规则,是记忆局部模式、线性延续、周期结构,还是更抽象的时间机制。
这篇论文要解决的是:VLM 在开放世界图文任务上表现不错,但对 compound nouns 这种需要组合语义的表达,是否真的理解仍不清楚。作者针对的是一个被大基准掩盖的能力缺口:模型可能记住单词和常见搭配,却未必真正掌握名词复合结构的组合规则。
这篇论文要回答的核心问题是:指令微调后的 LLM 是否更像人类,至少在心理语言学里的阅读行为预测上是否更接近人类。过去很多工作默认“更会对话、更符合偏好”也会带来更好的人类认知拟合,但作者指出这两件事并不等价,尤其 next-word probability 作为阅读时长等心理测量的解释变量时,instruction tuning 可能反而破坏这种拟合能力。
这篇论文要解决的是:encoder-decoder Transformer 的中间表示很难直接解释,现有 LogitLens 主要适用于 decoder-only 模型,无法自然看见 encoder 各层到底编码了什么。过去对 encoder-decoder 的解释常依赖探针或注意力可视化,但这些方法要么间接、要么解释粒度不够统一。
从题目看,这篇论文关注的问题是:in-context learning 里的示例应该如何构造,才能更好地匹配模型已有的参数知识,而不是盲目堆相似例子。以往 ICL 示例选择往往依赖表面相似度、随机采样或启发式排序,但这些策略未必考虑模型内部其实“已经知道什么”。
从题目看,这篇论文要追问的是:大语言模型到底在多大程度上实现了真正 grounding,而不是仅靠语言相关性和数据共现做出看似接地的回答。过去很多评测把正确回答当作 grounding 证据,但如果任务可以被文本先验、模板偏差或常识捷径解决,这种判断就不够严谨。
这篇论文解决的是:如何把大语言模型的翻译能力蒸馏到中等规模 MT 模型里,同时避免传统知识蒸馏“重复教学生已会的东西”,导致训练低效且对新知识泛化不足。过去的 distillation 往往默认 teacher 全部输出都值得学,但对已有较强翻译底座的学生模型来说,这会把训练预算浪费在熟悉区域,而难点和新上下文反而学不充分。
这篇论文要解决的问题是:现有大模型摘要评测大多只看“摘要得像不像参考答案”,却没有系统衡量模型是否真的能遵守长度、立场、覆盖点、风格等指令约束,也没有检验 LLM-as-a-judge 在这类可控摘要里的可靠性。过去这件事常被用单一 ROUGE 或少量人工案例草草带过,因为传统摘要任务默认目标单一;但在 instruction-tuned 时代,摘要越来越像条件生成问题,不把“是否按要求写”单独拿出来测,结论会明显失真。
这篇论文解决的是一个部署与推理协同问题:单个 LLM 在不同样本上的强弱很不均匀,但直接做多模型集成成本太高,所以如何只在“值得的时候”把请求路由给更合适的专家模型,是提升质量/成本比的关键。过去常见做法要么固定选一个最大模型,要么无差别投票集成,前者浪费样本级异质性,后者则把推理成本放大得过头。
这篇论文要解决的问题是生成模型常见的多样性不足:模型虽然能生成高概率、流畅的输出,但容易坍缩到少数安全模式,尤其在开放式文本生成里更明显。过去很多方法通过采样温度、top-k/top-p 或加 latent variable 来缓解,但往往是“多样性上去了,质量掉了”,因为模型没有真正学到保留信息同时鼓励多样化表达的机制。
这篇论文关注的是大型生成式视觉语言模型的 compositionality,也就是模型能否把已知概念按新组合正确理解或生成,而不是只记住训练中出现过的常见搭配。过去很多 VLM 在整体 benchmark 上看起来很强,但组合泛化往往被数据共现模式掩盖;模型会识别“红苹果”“蓝天空”,不代表它真能处理少见但合法的组合。
这篇论文要回答一个很直接但常被简化的问题:RAG 到底什么时候帮忙,什么时候反而伤害语言模型?过去很多工作把 retrieval augmentation 作为默认增益项来介绍,但真实情况更复杂——检索质量、任务类型、上下文整合能力、模型自身知识覆盖和噪声鲁棒性都会决定检索是提供证据还是制造干扰。
这篇论文解决的是文本级数据集蒸馏:能不能把一个数据集压缩进一个语言模型里,再由模型生成或表征出足够替代原数据集的信息,用很少的数据支持下游训练。过去 dataset distillation 在图像里更常见,在文本里难做,因为离散 token 不可微、语义组合复杂,而且少量伪样本很容易只记住表面模式而不保留任务结构。
这篇论文解决的是文档智能中的一个核心短板:纯文本预训练忽略了页面布局和视觉线索,纯视觉方法又难以生成式地统一建模文本与结构,因此模型很难真正理解文档里的阅读顺序、区域关系和语义-布局耦合。过去很多方法把 OCR 文本和 bbox 简单拼接,能做分类抽取,但对更复杂的文档生成或结构理解并不够。
这篇工作要解决的是:怎样用一个可控、可解释的符号化框架,真正测出 Transformer 的数学推理与泛化能力,而不是只测到模板记忆或表面模式匹配。以往数学推理评测常混杂自然语言歧义、数据泄漏和题型捷径,模型答对并不等于学会了规则,因此作者把问题收缩到可组合的符号任务上,直接检查模型是否掌握算法性结构。
这篇工作要解决的是:文本到音乐生成里,如何让模型不仅能生成“像音乐”的音频,还能按用户指定属性稳定控制节奏、情绪、配器或结构。过去系统常在生成质量和可控性之间二选一:纯生成模型自由度高但难精确控制,基于标签或规则的方案可控但表达力受限,因此“toward controllable”本身就是核心难点。
这篇工作要回答的是:多语机器翻译里的 subword 切分究竟怎样影响跨语言迁移,以及哪些常见直觉其实并不稳固。以往大家默认“共享子词越多,跨语迁移越好”,但这往往把文字系统相似性、词形结构和训练资源量混在一起,导致 tokenizer 设计更多靠经验而不是证据。
这篇工作解决的是跨语言 continual learning 里的遗忘问题,尤其是新语言持续加入时旧语言能力快速退化。传统经验回放通常按随机或简单启发式挑样本,无法区分哪些语言知识更脆弱、哪些样本更值得反复复习,因此 replay 成本高且效果不稳定。
这篇工作关注一个很现实的问题:开源 LLM 在 in-context learning 场景下到底有多可信,尤其当提示里的 demonstrations 本身带有恶意误导时,模型会不会被轻易带偏。过去很多安全评测更关注显式越狱或毒化训练,而对“推理时上下文污染”这种更低成本、更接近真实使用的攻击研究不足。
这篇工作要解决的是预训练语言模型中的社会偏见缓解问题,但切入点不是继续做黑盒后处理,而是显式标记与偏见相关的实体和概念。以往 debias 方法常通过对抗训练、重加权或词表替换来弱化偏差,效果往往依赖数据分布且容易伤及语义能力,因为模型并不知道哪些 token 或 span 才是偏见传播的关键载体。
这篇工作要解决的是:如何在参数高效微调的同时,引入非结构化稀疏性来进一步压缩计算和存储,但又不牺牲太多性能。传统 LoRA 这类低秩适配器部署简单,但参数仍是稠密的;纯稀疏方法又常难训练、难选结构,因此作者把两者结合起来。
这篇工作要解决的是:模型改进不能只依赖单一量化指标,因为很多真实失败模式是定性的、结构性的,自动分数看不出来。过去大家习惯用 benchmark leaderboard 驱动迭代,但这种方式对错误类型、数据缺口和可修复性的信息密度很低,因此作者提出 QualEval,把 qualitative evaluation 变成可用于模型改进的流程。
将 LLM 用作交互式环境中的决策 agent 时,环境状态描述往往冗长且包含大量无关信息,导致 LLM 的上下文被浪费、决策质量下降。问题是如何自动学习一个简洁的状态表示,只保留与当前任务相关的感知信息。
Minimum Bayes-Risk (MBR) 解码通过在候选集上最小化期望风险来选择输出,理论上优于 beam search,但实践中需要用采样近似真实分布,这个近似的质量直接影响 MBR 的效果。本文研究的是:当前常用的采样策略对真实分布的逼近到底有多好,以及如何改进。
VLM 中的 resampler 模块(如 Perceiver Resampler、Q-Former)将视觉特征压缩为固定数量的 token 再送入 LLM,但这种压缩是否保留了细粒度空间信息(如物体的相对位置、方向等)尚不清楚。本文通过 probing 实验系统检验这一点。
多语言模型中不同语言的表示空间往往没有很好地对齐,导致跨语言迁移效果差。已有的对齐方法(如硬对比学习)容易过度约束表示空间,损害单语言性能。本文用软对比学习来改进多语言对齐。
LLM 在代码生成时经常需要调用外部库(library),但 in-context learning 能否有效地让模型学会使用新的或不熟悉的库 API?已有评估大多聚焦于标准库,对 ICL 在库级代码生成上的能力缺乏系统研究。
这篇论文要回答的核心问题是:大语言模型做多项选择题时,答案选项的排列顺序会不会系统性地改变结果。这个问题过去常被当作评测噪声处理,默认模型只看语义不看位置,但如果顺序本身会影响预测,那么大量基于 MCQ 的能力结论都会被高估或误读。
这篇论文要解决的问题是:语言模型在复杂任务上并不总是需要完整的分解与规划,但不分解又容易在长链推理中失误,如何按需决定何时拆解、何时直接作答。过去很多方法默认对所有样本一刀切地使用 CoT、planner 或 task decomposition,这会带来额外成本,也常在简单样本上引入不必要的误差传播。
这篇论文关注的问题是:大语言模型在上下文学习里可以临时记住新信息,但当需要对已有知识做大规模一致性编辑时,单点编辑方法不够,直接 RAG 又常把检索和记忆更新割裂开。作者想解决的是如何在不改模型参数的前提下,用上下文机制完成可扩展的“批量编辑记忆”。
这篇论文要回答的是:大语言模型到底有没有时间锚定能力,能否区分知识在不同时间点是否成立。过去很多知识评测默认世界状态静态不变,但现实中的事实会过期、更新或依赖时间上下文,如果模型缺乏 temporal grounding,就很容易把训练时记忆误当成当前事实。
这篇论文解决的是知识到文本生成中的忠实性问题:模型会写得流畅,但容易把输入知识改写错、补出不存在的事实,尤其在长文本生成时更严重。过去常见做法是事后校验或更强约束解码,但这些方法要么纠错太晚,要么牺牲表达能力。
这篇论文关注的是如何更可靠地分析神经网络表征。传统表示分析方法,比如相似度矩阵或 probing,往往容易受尺度、任务头和浅层统计结构干扰,作者试图用 contrastive learning 的视角更稳健地比较和解释表示空间。
这篇论文要解决的问题是:多步推理增强方法通常主要在英语里有效,换到其他语言后,思维链质量、搜索分支质量和最终答案稳定性都会下降。作者想知道 ToT 这类搜索式推理能不能被改造成跨语言更稳的框架。
这篇论文要解决的是:LoRA 已经很省参数了,但在更大模型或更多适配层上,额外参数和状态开销仍然不小,能不能继续压缩而不明显掉性能。过去常见做法是减少 rank 或减少插入层数,但这会直接削弱表示能力;作者改走另一条路:保留 LoRA 的低秩更新形式,同时通过 weight tying 复用参数。
这篇论文要解决的是:现有安全评测更容易发现“该拒绝却没拒绝”的问题,但不擅长系统性识别“本来可以正常回答却被模型过度拒绝”的 exaggerated safety。随着 RLHF 和安全微调变重,这类过拒问题已经不再是边角案例;如果没有专门测试集,模型会在安全分数好看的同时,实用性和校准悄悄变差。
这篇论文要回答的不是“检索能不能提升任务分数”,而是更根本的问题:引入 retrieval 之后,语言模型自身的语言建模能力到底发生了什么变化。过去很多 RAG 工作默认把检索视为免费增益,但它可能让模型把一部分建模负担外包给外部证据,从而改变参数内知识、上下文利用方式和训练动态;这个问题一直缺少系统拆解。
这篇论文要讨论的是:在大模型时代,句法能力的获得路径是否真的和过去神经网络时代不同,还是“先记叙事/语义,再学可泛化句法”这类旧规律仍然在重复。标题“First Tragedy, then Parse”明显是在说,LLM 的很多能力增长并没有完全改写学习顺序,而是沿着更早研究中观察到的轨迹再次出现。
这篇论文要解决的是:知识蒸馏里,teacher 给出的 1-best 输出常常不够可靠,既可能包含搜索误差,也会把不确定性压扁,导致 student 学到的是 teacher 的偶然决策而不是更稳健的偏好结构。作者提出用 n-best reranking 来提高蒸馏标签质量,核心是在蒸馏前先把候选输出重新排序,而不是直接照抄 teacher 首选答案。
这篇论文要解决的是:语言模型对数字的处理长期偏弱,因为数字既不像普通词那样有稳定离散语义,也很难仅靠 subword 频率学到大小关系和尺度感。过去方法往往把 numeral 当普通 token 处理,或者做专门数值模块但难以融入通用 LM;作者尝试通过 semantic priming 给数字建立“锚点”,让模型对数值空间有更稳定的参照。
这篇论文要解决的是:自监督语音模型到底有没有学到 lexical tone,也就是能区分同一音段在不同声调下的词汇差异。这个问题以前常被更粗的语音指标掩盖,因为模型可能在 ASR 或语义任务上表现不错,但并不代表它把声调作为词汇信息编码好了;对 tonal languages,这个缺口会直接限制统一语音 LM 的表示质量。
这篇论文要解决的是:人类反馈或自动反馈里,大量信号是“这个回答不好”,但真正可训练的高质量正例往往稀缺;能不能把对坏回答的批评,系统地转成好回答标签。过去训练通常直接丢弃 bad responses,或者只把它们当 ranking 负例,这会浪费大量局部、可操作的修正信息;作者要做的是把负反馈转译成建设性监督。
这篇工作要解决的是:低资源机器翻译里,参数高效微调经常没有想象中稳定,尤其在语言资源极少或语言差异较大时。过去 PEFT 在英语中心任务上很成功,但直接迁到低资源翻译常常出现容量不够、适配位置不对、或训练信号过稀的问题,因此作者试图把 PEFT 真正“解锁”到低资源 MT。
这篇工作要解决的是:大语言模型对俚语和非正式语言到底懂多少,以及这种能力缺口在哪里。现有 LLM 主要在标准书面语上预训练和评测,非正式表达通常被当成噪声绕开,但真实交互里俚语携带强语境、群体身份和快速演化的语义,不能靠普通词义匹配替代。
这篇工作要解决的是:虚拟助手的 guardrail 模型如何既守住安全边界,又不要把正常请求误杀太多。以往安全过滤常靠规则或粗粒度分类器,容易覆盖不足;直接用大模型判别又成本高、行为不稳定,因此作者提出对 guardrail 模型做对比式、场景引导的蒸馏。
这篇工作要解决的是:LLM 的知识覆盖与可访问性究竟有多强,强到什么程度会替代知识图谱,弱到什么程度又离不开显式知识库。过去很多讨论把‘模型会回答事实问题’直接等同于‘模型拥有可操作的知识结构’,作者显然想更系统地检验这个等号是否成立。
这篇工作要解决的是:为什么零样本机器翻译和 few-shot 机器翻译之间常有明显差距,以及能否通过“风格匹配”缩小这个差距。很多时候,few-shot 示例带来的不只是翻译知识本身,还包含目标输出的格式、语气和句法偏好;零样本提示缺少这种风格锚点,所以性能掉得比纯能力差距更大。
这篇工作要解决的问题是:NLG 评测里很多“指标失效”其实不是指标本身全错,而是参考答案过于单一,导致本来合理的生成被错罚。过去大家常把 BLEU、ROUGE、BERTScore 之类指标表现不稳归因于度量设计本身,但在开放生成任务中,参考覆盖不足本来就会系统性低估模型输出质量。
这篇工作聚焦一个被低估但很实际的问题:LLM 在主题聚焦的对话摘要里会产生幻觉,而现有摘要评测集和指标往往不足以精确测出这种“偏题但流畅”的错误。过去很多摘要评测更偏通用一致性或信息覆盖,但在对话场景中,模型很容易把局部细节编造成看似合理的主题结论,这类错误对真实部署更致命。
这篇工作要解决的是:LLM 做 listwise ranking 时,对候选项的输入顺序很敏感,导致排序结果不稳定,也容易被位置偏置污染。过去很多工作默认把候选列表喂给模型一次就够了,但生成式模型并不是天生的置换不变排序器,候选出现在前、中、后的位置都会影响打分和比较。
这篇工作要解决的核心问题是:多语言 dense retrieval 缺少高质量训练数据,尤其是长尾语言,导致检索模型覆盖不全、迁移不稳。过去通常依赖人工标注、机器翻译扩展或从英语迁移,但这些办法要么昂贵,要么语义对齐不够自然,难以同时覆盖很多语言。
这篇工作要解决的是句向量对比学习中的“正样本构造过于表面化”问题。传统对比学习常用 dropout、回译或轻量文本增强构造正对,但这些变换要么太弱,无法迫使模型学到真正抽象的语义一致性;要么代价较高、噪声较大。
这篇工作要回答的问题很明确:LLM 到底有没有创造性问题求解能力,尤其是在缺少标准工具、需要临场组合物品和步骤的 MacGyver 式任务上。过去很多 benchmark 测的是知识回忆、推理链或代码生成,但这些都不能很好覆盖“资源受限下的创造性可行方案设计”。
这篇工作要解决的是:如何不依赖额外标注对比数据,让大语言模型自己改写与比较生成结果,从而学到更强的句向量。以往句表示学习通常依赖监督式NLI数据、dropout对比学习,或把生成模型和表征模型分开训练;这些做法要么数据成本高,要么训练目标与生成能力脱节,因此作者尝试让LLM直接参与“生成—反思—对比”的闭环。
这篇工作要解决的是:现有多语言基础模型评测过于偏向翻译、分类和英语中心指标,难以同时测到跨语言对齐能力与文化推理能力。以前很多基准把“多语言”近似成“多语种词面覆盖”,默认只要跨语种任务分数高就说明模型强,但这会漏掉文化常识、地域语境和价值判断上的失真。
这篇工作关注的核心问题是:领域适配时如何增强目标域能力,同时尽量不破坏通用能力。过去常见做法是直接拿领域数据做SFT或继续预训练,但一旦目标域分布过窄,模型容易在专业任务上变强、在开放域问答、指令跟随或安全行为上变差。
这篇工作要解决的是:现有语言模型评测很少真正测到‘抽象能力’,尤其缺少统一、可分层的评测框架。以前大家常用问答、推理或概括任务做代理,但这些任务往往把知识记忆、表面匹配和抽象概括混在一起,导致很难判断模型到底会不会从具体事实中形成更高层表示。
这篇工作关注的是:in-context learning中的示例检索不应只看任务相似度,还应考虑‘这个模型本身对哪些示例更吃得下’。现有demonstration retrieval常用语义相似度、标签覆盖或通用编码器打分,但同一组例子对不同模型的作用并不相同,因此通用检索器往往不是最优。
这篇工作要解决的是:如何在统一框架下评估因果语言模型和掩码语言模型的关系知识。过去这两类模型常用不同任务、不同提示形式和不同评分方式来测知识,结果很难横向比较,也难判断差异来自模型本身还是评测协议。
这篇工作要解决的是:如何把 BERT 压缩成更小模型,同时尽量避免为每个下游任务单独蒸馏一次。传统 BERT 压缩通常依赖 task-specific distillation,效果可以不错,但训练成本高、迁移性差,也不适合把压缩模型当通用预训练底座来复用。
这篇工作要解决的是:对齐训练中的偏见纠正,不能只靠相关性层面的奖励信号,而需要显式区分因果因素与混杂因素。过去很多 alignment 或 debiasing 方法用人类偏好或启发式 reward 直接做 RL,这能改行为,但也容易学到数据中的表面偏置,甚至把“看起来无偏”优化成另一种 shortcut。
这篇工作要解决的是:不同 tokenizer / vocabulary 的 LLM 很难直接做高质量 ensemble,因为它们的 token 边界和概率空间不对齐。过去模型集成通常默认共享词表,或者退回到输出层投票;但对现代 LLM 来说,词表差异会让逐步解码时的概率融合变得别扭,最终限制了 ensemble 的增益。
这篇工作要解决的是:contrastive post-training 需要高质量正负样本对,但人工构造或启发式挖掘代价高、覆盖窄,限制了这类后训练方法在大模型上的规模化使用。过去很多对比学习式后训练依赖手工模板、BM25 检索或现成标注对,效果受数据工程质量强烈影响。
这篇工作要解决的是:多模态模型是否真正具备 sequential compositional generalization,也就是能否按顺序理解并组合多个概念、属性或操作,而不是只记住训练中见过的图文搭配。过去多模态 benchmark 常能测出对齐能力,却较难区分模型是在做组合泛化,还是在依赖视觉共现和文本模板。
这篇工作要解决的是:在机器翻译里,如何把偏好优化直接用于序列生成质量提升,并和 Minimum Bayes Risk, MBR 解码结合起来。传统 NMT 主要靠 MLE 训练,再用 beam search 或 MBR 在推理时补救目标错配;但训练目标和最终评价指标长期不一致,导致模型概率高的翻译不一定是人偏好的翻译。
这篇工作要解决的是:大语言模型的 compositional generalization 到底有多强、强在哪里、又在哪些设定下明显失效。过去很多工作把 LLM 的组合泛化能力讲得比较笼统,但真实情况通常更细:模型可能能处理浅层组合,却在变量绑定、规则迁移或深层嵌套上迅速退化。
这篇工作针对的是纯自然语言推理在符号约束、程序执行和多步组合上不稳定的问题。过去通常要么让 LLM 直接 chain-of-thought 硬推,要么把问题全部转成代码再交给执行器;前者容易漂移,后者表达门槛高且不够自然,这篇论文试图在两者之间找一个混合表示。
这篇工作想解决的是:如何从一个通用大模型中提取出更适合某个领域的子模型,而不是重新训练一个领域模型。以前常见路线是 continued pretraining、蒸馏或 adapter 微调,但这些方法要么成本高,要么保留了大量与目标领域无关的参数冗余;作者提出把 pruning 反过来当作“领域提取器”。
这篇工作聚焦 LoRA 的一个现实痛点:低秩矩阵的 rank 通常靠手调,而不同层、不同任务所需 rank 差异很大。过去要么全模型统一设一个 rank,要么做昂贵的网格搜索;这两种方式都浪费预算,因为 rank 太小会欠拟合,太大又失去参数高效微调的意义。
这篇工作要解决开放域问答里的一个核心泛化问题:模型很容易记住训练时给过的上下文模式,却没有真正学会从新上下文中提取答案。过去很多方法用更强 retriever、更多数据或更大模型提升分数,但这些提升里混杂了相当多的 context memorization,导致分布一变性能就掉。
这篇工作要解决的是大语言模型在长上下文或干扰信息存在时,虽然表面上“看到了”上下文,但解码阶段未必真正利用了有用证据。以往很多工作通过提示工程或检索增强来补上下文,却较少直接改解码目标本身;这篇论文重新切入的是:能不能在不改模型参数的前提下,让模型在生成时更偏向“由上下文支持”的续写。
这篇工作要解决的是让 LLM 知道自己不知道什么,也就是在回答前识别“我没有把握”而不是事后再靠外部校验补救。过去很多方法依赖外部知识库、采样一致性或额外监督信号,成本高且部署复杂;这篇论文强调的是一种简单但有效的自检测方法,目标是直接提升模型的不确定性暴露能力。
这篇工作要解决的是如何系统刻画不同大模型与 GPT-4 之间的能力差距,并据此推断“向 GPT-4 演化”的技术路径。过去很多 benchmark 只给静态分数排名,难以回答模型到底差在知识、推理、指令遵循还是鲁棒性,也难以从评测结果反推出研发方向;这篇论文更像是在做能力谱系分析,而不只是排行榜。
这篇工作要解决的是 foundation model 评测过度依赖自动化题库和机器指标,导致结果与真实人类能力要求之间存在偏差。以前的 benchmark 往往追求大规模和易打分,却回避了“题目是否真的代表人类通用认知和考试能力”这个更难的问题;AGIEval 重新把评测拉回到人类中心的能力标尺上。
这篇工作要解决的是 LLM 幻觉不仅是“最后答案错了”,而是生成过程中状态如何一步步偏离真实约束的问题。过去很多研究只在输出端检测或纠错,较少把 hallucination 当成一个动态演化过程来分析;PoLLMgraph 试图用状态转移视角去拆开这种失真是如何形成和扩散的。
这篇工作要解决的是多模态大模型零样本能力不足,尤其是在图像-语言任务上,模型即使有预训练能力,也未必能从用户指令中激活合适的视觉理解行为。过去很多方法依赖人工写 instruction data 或大规模人工标注,而这篇论文关注的是 autonomous instruction optimization:让系统自动改进用于训练或提示的多模态指令。
这篇工作要解决的是在低数据条件下,语言模型如何更有效地学会词义。传统纯文本分布式学习在高资源时很强,但在低资源下,词义往往学得不稳、过度依赖共现;这篇论文重新检验一个经典但仍重要的问题:视觉 grounding 是否能在数据稀缺时提供额外的语义锚点,帮助模型更快学到词义。
这篇工作要解决的是:怎样在共享任务设定下更稳地检测 LLM 幻觉与可观察到的过生成错误,而不是只依赖单一生成模型的打分或表面文本特征。这个问题此前常被拆成若干特定子任务分别做,或者直接用黑盒 LLM 判别;这样做迁移性和校准通常都不稳定,尤其在任务定义覆盖事实冲突、无依据补写和不忠实改写时更明显。
这篇工作要回答的是:语言学特征能否稳定捕捉 LLM 生成文本和人类文本之间的差异,而不是只依赖生成器特定水印、困惑度或黑盒分类器。这个问题值得重做,是因为随着生成模型质量提升,早期靠流畅度、重复度和简单句法统计做检测的办法越来越容易失效。
这篇工作关注的核心问题是:在一段人机混合文本里,能否定位作者身份从人类切换到机器的边界,而不是只做整段二分类。这个问题比普通 AI 文本检测更难,因为局部风格差异可能很弱,而且边界任务要求模型同时理解篇章连续性和局部突变。
这篇工作要解决的是:能否直接利用 LLM 做人机混合文本的边界检测,从而减少传统特征工程在新生成器上的脆弱性。这个问题之所以值得做,是因为边界定位比整段分类更依赖高层语义和篇章一致性,而这些恰好是大模型相对擅长但传统分类器较弱的部分。
这篇工作要解决的是:句法和语义特征在区分 AI 文本与人类文本时各自贡献多大,是否能形成比单一困惑度或词频统计更稳的检测器。这个问题之所以重要,是因为当前生成模型越来越会模仿表层风格,检测若只抓浅层信号,往往对新模型和新领域失效很快。
这篇工作要解决的是:能否用 NLI,也就是自然语言推断,来更可靠地识别 LLM 幻觉和过生成错误,从而提升系统安全性。这个问题值得做,因为很多 hallucination 实际上都可以改写成“输出是否被输入蕴含、矛盾或无关”的判定,而直接让生成模型自评往往不够稳定。
这篇工作要解决的是:如何让 LLM 在扰动输入下更稳健,而不是只在干净分布上表现良好。这个问题一直存在,但在大模型时代更突出,因为 instruction-tuned 模型常在表面改写、拼写噪声、格式变化和对抗提示下迅速退化,说明其泛化有相当一部分依赖脆弱的表层模式。
这篇论文的核心结论是:机器生成文本检测不能再被当成单一英语二分类问题,必须同时面对多模型、多领域、多语言以及混合作者边界定位。过去不少检测工作在单一生成器或单域上分数很高,但一旦换模型、换语言或换任务形式,性能就明显下滑,因此需要一个覆盖更真实分布偏移的统一评测。
这篇工作的结论很明确:标题生成中的数字错误需要显式训练策略来纠正,单靠普通 SFT 不够。作者关注的是 Numeral-Aware Headline Generation,原因是新闻标题里的数字往往承载关键信息,但大模型即使语言流畅,也常在计算、复制或选择数字时出错,导致输出表面自然但事实不对。
这篇工作解决的是:现有图文模型大多在 caption 级配对数据上训练和评测,几乎不处理 Wikipedia 这类多段落、多图片、跨句隐式对齐的真实长文档,因此我们并不知道模型是否真的会做文档级视觉 grounding。过去这个问题常被回避,因为真实文章里的图文对应关系并不显式,人工标注成本高;但如果想让模型在原生多模态文档里工作,这个缺口不能再靠 caption 数据替代。
这篇工作解决的是:西语场景缺少一套真正可部署的轻量模型,而现有压缩、蒸馏资源主要集中在英语或多语通用模型,导致西语用户在低资源推理条件下往往只能在性能和时延之间做很差的取舍。这个问题以前通常被“直接用大模型”或“沿用英文压缩方案”次优处理,但对西语生态并不够。
这篇工作要解决的是:现有语言模型在推理任务上常能做出正确答案,但它们是否具备对组合结构的泛化能力,尤其是在推理步数和推理树形状超出训练分布时,缺少合适任务来测。过去很多基准更关注最终答案准确率,或者组合性变化不够系统,因此模型到底是在学规则还是在记模板并不清楚。
这篇工作讨论的是:大语言模型中的偏见如何被识别、量化并缓解,而现有做法常常把公平性当成单一分数,忽略偏见类型、触发条件和去偏代价之间的关系。这个问题持续重要,因为 LLM 已从离线评测进入真实交互场景,偏见不再只是静态分类器上的指标问题。
这篇工作解决的是:句子排序这个经典语篇理解任务过去过于依赖英文和较规整的叙事结构,导致我们并不清楚模型在多语言、跨文化叙事以及 code-switch 场景下是否真的会建模篇章连贯性。之前的设置之所以次优,是因为语言多样性和混合语言文本会显著改变时间、因果和 discourse cue 的表达方式。
这篇工作要解决的是:词汇替换任务长期主要依赖 masked LM 或专门排序模型,而因果语言模型虽然更符合当前大模型主流,却很少被直接用于 lexical substitution,因为其自回归解码天然不擅长在句中某个位置生成替换词。作者指出,现有方法常存在预训练目标与下游使用方式不一致的问题,这会限制替换质量。
这篇工作解决的是:许多事实支持度评测方法先把生成文本拆成多个子 claim,再逐条验证,但大家往往默认 decomposition 这一步是可靠的,实际上它本身会显著影响最终分数。过去像 FActScore 这类方法更关注验证器质量,而较少追问“拆得对不对”;作者指出,如果分解错了,错误会被错误地归到生成模型头上。