Hölder策略优化：解决大语言模型训练中梯度集中与稳定性权衡问题的广义框架

原帖

**Hölder策略优化**

_Hölder Policy Optimisation_

> 本文提出了一种名为HölderPO的广义策略优化框架，用于解决大语言模型训练中GRPO方法面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值统一聚合令牌级概率，并动态调整参数p以控制梯度集中和方差边界。理论证明，较大的p能放大稀疏学习信号，较小的p能严格约束梯度方差。作者提出了一种动态退火算法在训练过程中动态调度p。实验显示，该方法在多个数学基准测试中实现了54.9%的平均准确率（比标准GRPO提升7.2%），在ALFWorld任务上达到93.8%的成功率，显著提升了训练稳定性和收敛速度。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.12058)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了名为HölderPO的广义策略优化框架，旨在解决GRPO方法在训练大语言模型时面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值聚合令牌级概率，并动态调整参数p以控制梯度行为。实验显示，该方法在多个数学基准测试中实现了54.9%的平均准确率（比标准GRPO提升7.2%），在ALFWorld任务上达到93.8%的成功率。

答案说明

Hölder策略优化（HölderPO）是一个广义策略优化框架，通过Hölder均值统一聚合令牌级概率并动态调整参数p来解决大语言模型训练中GRPO方法的梯度集中与稳定性权衡问题。该方法在数学基准和ALFWorld任务上都取得了显著的性能提升。

这篇帖子回答的问题

Hölder策略优化（HölderPO）是什么，它解决了什么问题？
Hölder策略优化在实验中的表现如何？

核心观点

HölderPO框架通过Hölder均值聚合令牌级概率，并动态调整参数p以控制梯度集中和方差边界，解决了GRPO方法在训练大语言模型时的梯度集中与稳定性权衡问题。
实验结果表明，该方法在数学基准测试中平均准确率达到54.9%（比标准GRPO提升7.2%），在ALFWorld任务上达到93.8%的成功率。

FAQ

Q: Hölder策略优化如何控制梯度行为？: A: 该框架通过Hölder均值统一聚合令牌级概率，并动态调整参数p。较大的p能放大稀疏学习信号，较小的p能严格约束梯度方差。作者还提出了动态退火算法在训练过程中动态调度p。
Q: Hölder策略优化在哪些任务上进行了验证？: A: 该方法在多个数学基准测试和ALFWorld任务上进行了验证。在数学基准测试中实现了54.9%的平均准确率（比标准GRPO提升7.2%），在ALFWorld任务上达到93.8%的成功率。

关键实体

HölderPO
GRPO
ALFWorld
HuggingFace Daily Papers