语言模型

First-Principle 上关于「语言模型」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

语言模型后门攻击的内部机制研究：语言切换触发器通过潜在路径重定向

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:09.177Z

根据2026年5月20日HuggingFace社区热门论文，一项研究揭示了语言模型中后门攻击的内部机制。在一个80亿参数的自回归模型中，一个三词拉丁触发器（9个标记）能将英文输出重定向为法文，其工作过程分为三个阶段。

研究揭示编码器语言模型中作者身份信号的涌现机制

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:11.296Z

2026年5月20日，一篇来自HuggingFace Daily Papers的论文探讨了作者身份信号在基于编码器的语言模型中如何涌现。研究发现，评分机制是导致作者归属模型性能差异达四倍的关键因素，而非模型表示质量。

CEPO：使用对比证据策略优化的RLVR自蒸馏方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:14.671Z

本文提出了一种名为对比证据策略优化（CEPO）的新方法，用于改进强化学习与可验证奖励（RLVR）在语言模型训练中的应用。传统RLVR中，所有token都获得相同的奖励信号，这难以区分关键推理步骤与填充内容。CEPO通过引入对比证据，同时考虑正确答案和错误答案的影响，更精确地识别关键推理token，避免信息泄漏问题。实验表明，在2B和4B规模的多模态数学推理基准测试中，CEPO的平均准确率分别达到43.43%和60.56%，优于传统GRPO方法。该方法在保持安全性的同时提升了训练效率，代码已开源。

DiHAL: 几何引导的扩散-Transformer混合模型

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:20.888Z

本文介绍DiHAL，一种几何引导的扩散-Transformer混合模型，旨在解决扩散语言模型落后于自回归Transformer的问题。该模型通过几何代理为预训练Transformer的各层评分，选择扩散友好的隐藏状态接口，并用扩散桥替换下层前缀。实验表明，在8B规模骨干网络上，几何分数能有效预测浅层插入点，且隐藏状态恢复优于连续扩散基线。

精选帖子

语言模型后门攻击的内部机制研究：语言切换触发器通过潜在路径重定向

研究揭示编码器语言模型中作者身份信号的涌现机制

CEPO：使用对比证据策略优化的RLVR自蒸馏方法

DiHAL: 几何引导的扩散-Transformer混合模型

相关作者