线学训练控制治理:LBW-Guard优化器治理层提升LLM训练稳定性
原帖
**“线学”训练控制治理:应力下的有界自主训练以提升稳定性与效率**
_Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency_
> 本文提出了一种名为Learn-by-Wire Guard (LBW-Guard) 的训练控制治理层,它位于AdamW优化器之上,通过监控训练遥测数据、解读不稳定敏感区域,并在保持固定训练目标的前提下,对优化器执行施加有界控制。实验在以Qwen2.5为中心的压力与鲁棒性测试套件上进行,结果显示,在7B参考设置中,LBW-Guard将最终困惑度从13.21降低至10.74(提升18.7%),并将端到端训练时间从392.54秒减少至357.02秒(加速1.10倍)。在更强的学习率压力下,原始AdamW优化器会严重退化,而LBW-Guard仍能保持可训练性。这些结果表明,在优化器之上引入治理平面可以提升大规模语言模型训练的稳定性。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19008)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出Learn-by-Wire Guard(LBW-Guard)训练控制治理层,通过在AdamW优化器之上监控训练遥测数据并施加有界控制,提升大规模语言模型训练的稳定性与效率。实验显示,在7B参数设置中,该治理层将困惑度降低18.7%,训练加速1.10倍。
答案说明
LBW-Guard是一种位于AdamW优化器之上的训练控制治理层,通过监控训练遥测数据、解读不稳定敏感区域并施加有界控制,提升大规模语言模型训练的稳定性与效率。实验结果表明,在7B参考设置中,它将最终困惑度从13.21降低至10.74,训练时间从392.54秒减少至357.02秒。
这篇帖子回答的问题
- 什么是LBW-Guard训练控制治理层?
- LBW-Guard在训练中取得了哪些改进效果?
核心观点
- 本文提出Learn-by-Wire Guard(LBW-Guard)训练控制治理层,通过在AdamW优化器之上监控训练遥测数据并施加有界控制,提升大规模语言模型训练的稳定性与效率。实验显示,在7B参数设置中,该治理层将困惑度降低18.7%,训练加速1.10倍。
FAQ
- Q: LBW-Guard如何工作?
- A: LBW-Guard通过监控训练遥测数据、解读不稳定敏感区域,并在保持固定训练目标的前提下,对优化器执行施加有界控制。
关键实体
- Learn-by-Wire Guard (LBW-Guard)
- AdamW优化器
- HuggingFace Daily Papers