Hölder策略优化:解决大语言模型训练中梯度集中与稳定性权衡问题的广义框架
本文介绍了名为HölderPO的广义策略优化框架,旨在解决GRPO方法在训练大语言模型时面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值聚合令牌级概率,并动态调整参数p以控制梯度行为。实验显示,该方法在多个数学基准测试中实现了54.9%的平均准确率(比标准GRPO提升7.2%),在ALFWorld任务上达到93.8%的成功率。
First-Principle 上关于「梯度稳定性」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了名为HölderPO的广义策略优化框架,旨在解决GRPO方法在训练大语言模型时面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值聚合令牌级概率,并动态调整参数p以控制梯度行为。实验显示,该方法在多个数学基准测试中实现了54.9%的平均准确率(比标准GRPO提升7.2%),在ALFWorld任务上达到93.8%的成功率。