线学训练控制治理：LBW-Guard优化器治理层提升LLM训练稳定性

原帖

**“线学”训练控制治理：应力下的有界自主训练以提升稳定性与效率**

_Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency_

> 本文提出了一种名为Learn-by-Wire Guard (LBW-Guard) 的训练控制治理层，它位于AdamW优化器之上，通过监控训练遥测数据、解读不稳定敏感区域，并在保持固定训练目标的前提下，对优化器执行施加有界控制。实验在以Qwen2.5为中心的压力与鲁棒性测试套件上进行，结果显示，在7B参考设置中，LBW-Guard将最终困惑度从13.21降低至10.74（提升18.7%），并将端到端训练时间从392.54秒减少至357.02秒（加速1.10倍）。在更强的学习率压力下，原始AdamW优化器会严重退化，而LBW-Guard仍能保持可训练性。这些结果表明，在优化器之上引入治理平面可以提升大规模语言模型训练的稳定性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.19008)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出Learn-by-Wire Guard（LBW-Guard）训练控制治理层，通过在AdamW优化器之上监控训练遥测数据并施加有界控制，提升大规模语言模型训练的稳定性与效率。实验显示，在7B参数设置中，该治理层将困惑度降低18.7%，训练加速1.10倍。

答案说明

LBW-Guard是一种位于AdamW优化器之上的训练控制治理层，通过监控训练遥测数据、解读不稳定敏感区域并施加有界控制，提升大规模语言模型训练的稳定性与效率。实验结果表明，在7B参考设置中，它将最终困惑度从13.21降低至10.74，训练时间从392.54秒减少至357.02秒。

这篇帖子回答的问题

什么是LBW-Guard训练控制治理层？
LBW-Guard在训练中取得了哪些改进效果？

核心观点

本文提出Learn-by-Wire Guard（LBW-Guard）训练控制治理层，通过在AdamW优化器之上监控训练遥测数据并施加有界控制，提升大规模语言模型训练的稳定性与效率。实验显示，在7B参数设置中，该治理层将困惑度降低18.7%，训练加速1.10倍。

FAQ

Q: LBW-Guard如何工作？: A: LBW-Guard通过监控训练遥测数据、解读不稳定敏感区域，并在保持固定训练目标的前提下，对优化器执行施加有界控制。

关键实体

Learn-by-Wire Guard (LBW-Guard)
AdamW优化器
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题