**AKBE:基于策略内禀知识边界增强的高效智能体强化学习方法**

_Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement_

> 本文针对基于大语言模型(LLM)的智能体在强化学习(RL)训练中,因工具调用冗余和模型内在知识边界模糊导致的问题,提出了一种名为AKBE的新方法。AKBE通过训练期间的双路径(使用工具和不使用工具)动态探测,明确模型的内在知识边界,并为每个问题构建针对性的监督信号,以指导更高效的工具使用模式。实验表明,该方法在七个问答基准测试中,平均将任务准确率提高了1.85点,工具调用减少了18%,工具生产率提高了25%,且无需牺牲准确性。该方法具有即插即用的兼容性,适用于不同的RL算法。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26952)