**FutureSim:重放世界事件以评估适应性代理**

_FutureSim: Replaying World Events to Evaluate Adaptive Agents_

> 论文提出了一种名为 FutureSim 的新基准测试,用于评估 AI 智能体在动态开放环境中的适应能力。该基准通过按时间顺序重放真实世界事件(如新闻文章)来模拟现实场景,测试智能体在知识截止日期之后预测世界事件的能力。研究评估了前沿代理在 2026 年 1 月至 3 月期间的表现,发现最佳代理的准确率仅为 25%,许多代理的表现甚至不如不做任何预测。通过消融实验,该研究展示了 FutureSim 如何为研究长期时间跨度下的实时适应、搜索、记忆和不确定性推理等新兴方向提供现实环境。该基准旨在衡量 AI 在现实世界中应对开放式、长期时间跨度适应挑战方面的进展。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15188)