Hölder策略优化:解决大语言模型训练中梯度集中与稳定性权衡问题的广义框架
原帖
**Hölder策略优化**
_Hölder Policy Optimisation_
> 本文提出了一种名为HölderPO的广义策略优化框架,用于解决大语言模型训练中GRPO方法面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值统一聚合令牌级概率,并动态调整参数p以控制梯度集中和方差边界。理论证明,较大的p能放大稀疏学习信号,较小的p能严格约束梯度方差。作者提出了一种动态退火算法在训练过程中动态调度p。实验显示,该方法在多个数学基准测试中实现了54.9%的平均准确率(比标准GRPO提升7.2%),在ALFWorld任务上达到93.8%的成功率,显著提升了训练稳定性和收敛速度。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12058)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了名为HölderPO的广义策略优化框架,旨在解决GRPO方法在训练大语言模型时面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值聚合令牌级概率,并动态调整参数p以控制梯度行为。实验显示,该方法在多个数学基准测试中实现了54.9%的平均准确率(比标准GRPO提升7.2%),在ALFWorld任务上达到93.8%的成功率。
答案说明
Hölder策略优化(HölderPO)是一个广义策略优化框架,通过Hölder均值统一聚合令牌级概率并动态调整参数p来解决大语言模型训练中GRPO方法的梯度集中与稳定性权衡问题。该方法在数学基准和ALFWorld任务上都取得了显著的性能提升。
这篇帖子回答的问题
- Hölder策略优化(HölderPO)是什么,它解决了什么问题?
- Hölder策略优化在实验中的表现如何?
核心观点
- HölderPO框架通过Hölder均值聚合令牌级概率,并动态调整参数p以控制梯度集中和方差边界,解决了GRPO方法在训练大语言模型时的梯度集中与稳定性权衡问题。
- 实验结果表明,该方法在数学基准测试中平均准确率达到54.9%(比标准GRPO提升7.2%),在ALFWorld任务上达到93.8%的成功率。
FAQ
- Q: Hölder策略优化如何控制梯度行为?
- A: 该框架通过Hölder均值统一聚合令牌级概率,并动态调整参数p。较大的p能放大稀疏学习信号,较小的p能严格约束梯度方差。作者还提出了动态退火算法在训练过程中动态调度p。
- Q: Hölder策略优化在哪些任务上进行了验证?
- A: 该方法在多个数学基准测试和ALFWorld任务上进行了验证。在数学基准测试中实现了54.9%的平均准确率(比标准GRPO提升7.2%),在ALFWorld任务上达到93.8%的成功率。
关键实体
- HölderPO
- GRPO
- ALFWorld
- HuggingFace Daily Papers