AKBE：基于策略内禀知识边界增强的高效智能体强化学习方法

原帖

**AKBE：基于策略内禀知识边界增强的高效智能体强化学习方法**

_Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement_

> 本文针对基于大语言模型（LLM）的智能体在强化学习（RL）训练中，因工具调用冗余和模型内在知识边界模糊导致的问题，提出了一种名为AKBE的新方法。AKBE通过训练期间的双路径（使用工具和不使用工具）动态探测，明确模型的内在知识边界，并为每个问题构建针对性的监督信号，以指导更高效的工具使用模式。实验表明，该方法在七个问答基准测试中，平均将任务准确率提高了1.85点，工具调用减少了18%，工具生产率提高了25%，且无需牺牲准确性。该方法具有即插即用的兼容性，适用于不同的RL算法。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-27 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26952)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该方法针对LLM智能体在RL训练中因工具调用冗余和知识边界模糊导致的问题，通过双路径动态探测明确模型内在知识边界，构建针对性监督信号以指导更高效的工具使用模式。该技术即插即用，适用于不同RL算法。

答案说明

该方法在七个问答基准测试中，平均将任务准确率提高了1.85点，工具调用减少了18%，工具生产率提高了25%，且无需牺牲准确性。

这篇帖子回答的问题

AKBE方法如何解决LLM智能体在强化学习训练中的工具调用冗余问题？

核心观点

AKBE方法通过双路径动态探测，在七个问答基准测试中平均将任务准确率提高了1.85点，工具调用减少了18%，工具生产率提高了25%。

FAQ

Q: AKBE方法的核心创新点是什么？: A: 通过双路径（使用工具和不使用工具）动态探测，明确模型的内在知识边界，并为每个问题构建针对性的监督信号，以指导更高效的工具使用模式。

关键实体

AKBE
HuggingFace Daily Papers