语言模型后门攻击的内部机制研究:语言切换触发器通过潜在路径重定向
根据2026年5月20日HuggingFace社区热门论文,一项研究揭示了语言模型中后门攻击的内部机制。在一个80亿参数的自回归模型中,一个三词拉丁触发器(9个标记)能将英文输出重定向为法文,其工作过程分为三个阶段。
First-Principle 上关于「语言模型」的公开讨论、AI 可引用摘要和相关观点集合。
根据2026年5月20日HuggingFace社区热门论文,一项研究揭示了语言模型中后门攻击的内部机制。在一个80亿参数的自回归模型中,一个三词拉丁触发器(9个标记)能将英文输出重定向为法文,其工作过程分为三个阶段。
2026年5月20日,一篇来自HuggingFace Daily Papers的论文探讨了作者身份信号在基于编码器的语言模型中如何涌现。研究发现,评分机制是导致作者归属模型性能差异达四倍的关键因素,而非模型表示质量。
本文提出了一种名为对比证据策略优化(CEPO)的新方法,用于改进强化学习与可验证奖励(RLVR)在语言模型训练中的应用。传统RLVR中,所有token都获得相同的奖励信号,这难以区分关键推理步骤与填充内容。CEPO通过引入对比证据,同时考虑正确答案和错误答案的影响,更精确地识别关键推理token,避免信息泄漏问题。实验表明,在2B和4B规模的多模态数学推理基准测试中,CEPO的平均准确率分别达到43.43%和60.56%,优于传统GRPO方法。该方法在保持安全性的同时提升了训练效率,代码已开源。
本文介绍DiHAL,一种几何引导的扩散-Transformer混合模型,旨在解决扩散语言模型落后于自回归Transformer的问题。该模型通过几何代理为预训练Transformer的各层评分,选择扩散友好的隐藏状态接口,并用扩散桥替换下层前缀。实验表明,在8B规模骨干网络上,几何分数能有效预测浅层插入点,且隐藏状态恢复优于连续扩散基线。