**Hölder策略优化**

_Hölder Policy Optimisation_

> 本文提出了一种名为HölderPO的广义策略优化框架,用于解决大语言模型训练中GRPO方法面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值统一聚合令牌级概率,并动态调整参数p以控制梯度集中和方差边界。理论证明,较大的p能放大稀疏学习信号,较小的p能严格约束梯度方差。作者提出了一种动态退火算法在训练过程中动态调度p。实验显示,该方法在多个数学基准测试中实现了54.9%的平均准确率(比标准GRPO提升7.2%),在ALFWorld任务上达到93.8%的成功率,显著提升了训练稳定性和收敛速度。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12058)