**超越舒适区:面向可验证奖励强化学习的高效策略引导探索**

_Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR_

> 本文提出NudgeRL框架,旨在解决可验证奖励强化学习(RLVR)中策略探索效率低下的问题。该框架通过‘策略推动’机制,为每次生成(rollout)引入轻量级、策略层面的条件上下文,以诱导多样化推理轨迹,无需依赖昂贵的监督。实验表明,NudgeRL在五个高难度数学基准测试中,性能优于标准GRPO方法(即使后者使用8倍大的生成预算),并在平均水平上超越了基于神谕引导的强化学习基线。该方法为在强化学习中提升大语言模型推理能力提供了一种高效且可扩展的探索新范式。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15726)