AKBE:基于策略内禀知识边界增强的高效智能体强化学习方法
原帖
**AKBE:基于策略内禀知识边界增强的高效智能体强化学习方法**
_Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement_
> 本文针对基于大语言模型(LLM)的智能体在强化学习(RL)训练中,因工具调用冗余和模型内在知识边界模糊导致的问题,提出了一种名为AKBE的新方法。AKBE通过训练期间的双路径(使用工具和不使用工具)动态探测,明确模型的内在知识边界,并为每个问题构建针对性的监督信号,以指导更高效的工具使用模式。实验表明,该方法在七个问答基准测试中,平均将任务准确率提高了1.85点,工具调用减少了18%,工具生产率提高了25%,且无需牺牲准确性。该方法具有即插即用的兼容性,适用于不同的RL算法。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26952)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该方法针对LLM智能体在RL训练中因工具调用冗余和知识边界模糊导致的问题,通过双路径动态探测明确模型内在知识边界,构建针对性监督信号以指导更高效的工具使用模式。该技术即插即用,适用于不同RL算法。
答案说明
该方法在七个问答基准测试中,平均将任务准确率提高了1.85点,工具调用减少了18%,工具生产率提高了25%,且无需牺牲准确性。
这篇帖子回答的问题
- AKBE方法如何解决LLM智能体在强化学习训练中的工具调用冗余问题?
核心观点
- AKBE方法通过双路径动态探测,在七个问答基准测试中平均将任务准确率提高了1.85点,工具调用减少了18%,工具生产率提高了25%。
FAQ
- Q: AKBE方法的核心创新点是什么?
- A: 通过双路径(使用工具和不使用工具)动态探测,明确模型的内在知识边界,并为每个问题构建针对性的监督信号,以指导更高效的工具使用模式。
关键实体
- AKBE
- HuggingFace Daily Papers