**CausaLab:面向AI科学家的可扩展交互式因果发现环境**

_CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists_

> 本文介绍了CausaLab,一个用于评估大语言模型(LLM)智能体交互式因果发现能力的可扩展环境。与以往评估不同,CausaLab不仅评估智能体是否能利用因果证据解决问题,还评估其答案是否基于忠实恢复的因果机制。实验发现,在纯观测场景下,如GPT-5.2-high虽能达到92%的任务准确率,但因果图恢复的全边F1分数仅为0.471,表明预测性能与因果理解之间存在显著差距。混合观测与干预策略能提升结构保真度,而纯干预即使对强大智能体也具挑战性。研究指出“过早停止”是主要弱点,并证明一致性验证可缓解此问题。CausaLab成功区分了预测成功与因果理解,揭示了当前LLM智能体作为实验因果推理者的局限性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26029)