**基于信息瓶颈理论的树状策略优化:IB-TPO框架**

_Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization_

> 本文针对大型语言模型在在线强化学习中探索与利用的不平衡问题,提出了基于信息瓶颈理论的新评估指标IB-Score和IB-TPO优化框架。该框架通过树状采样策略显著提升在线采样效率,并在多个基准测试中超越GRPO等先进方法,性能提升达2.9%-3.6%。研究代码已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.28109)