LLM智能体强化学习

该方法针对LLM智能体在RL训练中因工具调用冗余和知识边界模糊导致的问题，通过双路径动态探测明确模型内在知识边界，构建针对性监督信号以指导更高效的工具使用模式。该技术即插即用，适用于不同RL算法。

精选帖子