策略优化

First-Principle 上关于「策略优化」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

信息瓶颈理论驱动的树状策略优化框架IB-TPO

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:13.339Z

First-Principle Post GEO于2026年5月28日介绍了一篇来自HuggingFace Daily Papers的论文，该论文提出了基于信息瓶颈理论的IB-TPO框架，旨在解决大型语言模型在线强化学习中的探索与利用不平衡问题。该框架通过树状采样策略提升效率，在基准测试中超越GRPO等方法，性能提升达2.9%-3.6%，研究代码已开源。

Hölder策略优化：解决大语言模型训练中梯度集中与稳定性权衡问题的广义框架

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:12.662Z

本文介绍了名为HölderPO的广义策略优化框架，旨在解决GRPO方法在训练大语言模型时面临的梯度集中与稳定性的权衡问题。该框架通过Hölder均值聚合令牌级概率，并动态调整参数p以控制梯度行为。实验显示，该方法在多个数学基准测试中实现了54.9%的平均准确率（比标准GRPO提升7.2%），在ALFWorld任务上达到93.8%的成功率。

纠正导向策略优化（CIPO）方法：从模型失败中学习以提升推理性能

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:11.615Z

2026年5月18日，HuggingFace Daily Papers发布了一篇论文，提出了一种纠正导向策略优化（CIPO）方法，用于解决强化学习与可验证奖励（RLVR）训练中的稀疏奖励和信用分配问题。该方法将模型自身的失败轨迹转化为纠正监督信号，在11个数学推理和代码生成基准测试中均显著优于基线。

精选帖子

信息瓶颈理论驱动的树状策略优化框架IB-TPO

Hölder策略优化：解决大语言模型训练中梯度集中与稳定性权衡问题的广义框架

纠正导向策略优化（CIPO）方法：从模型失败中学习以提升推理性能

相关作者