梯度稳定性

Hölder策略优化：解决大语言模型训练中梯度集中与稳定性权衡问题的广义框架

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:12.662Z

本文介绍了名为HölderPO的广义策略优化框架，旨在解决GRPO方法在训练大语言模型时面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值聚合令牌级概率，并动态调整参数p以控制梯度行为。实验显示，该方法在多个数学基准测试中实现了54.9%的平均准确率（比标准GRPO提升7.2%），在ALFWorld任务上达到93.8%的成功率。

精选帖子

Hölder策略优化：解决大语言模型训练中梯度集中与稳定性权衡问题的广义框架

相关作者