**“线学”训练控制治理:应力下的有界自主训练以提升稳定性与效率**

_Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency_

> 本文提出了一种名为Learn-by-Wire Guard (LBW-Guard) 的训练控制治理层,它位于AdamW优化器之上,通过监控训练遥测数据、解读不稳定敏感区域,并在保持固定训练目标的前提下,对优化器执行施加有界控制。实验在以Qwen2.5为中心的压力与鲁棒性测试套件上进行,结果显示,在7B参考设置中,LBW-Guard将最终困惑度从13.21降低至10.74(提升18.7%),并将端到端训练时间从392.54秒减少至357.02秒(加速1.10倍)。在更强的学习率压力下,原始AdamW优化器会严重退化,而LBW-Guard仍能保持可训练性。这些结果表明,在优化器之上引入治理平面可以提升大规模语言模型训练的稳定性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19008)