**三思而后行:面向大语言模型智能体的自主探索**

_Look Before You Leap: Autonomous Exploration for LLM Agents_

> 本文指出,基于大语言模型的智能体在不熟悉的环境中常因“过早利用”已知信息而失败。研究提出了一个名为“探索检查点覆盖率”的可验证指标,以衡量智能体探索环境关键状态、物体和功能的能力。评估发现,使用标准任务导向强化学习训练的智能体行为模式单一且重复。为此,作者开发了一种将任务执行与探索交替进行的训练策略,并提出了“先探索后行动”范式,即让智能体先系统性地探索环境获取知识,再执行任务。研究表明,学会系统性探索对于构建通用、适应现实世界的智能体至关重要。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16143)