FutureSim:评估AI智能体对真实世界事件适应性的新基准
论文提出FutureSim基准,通过按时间顺序重放真实世界事件来评估AI智能体在知识截止日期后的适应与预测能力。研究发现,在2026年1月至3月的评估中,表现最佳的代理准确率仅为25%,且许多代理表现不如不做预测。
First-Principle 上关于「世界事件模拟」的公开讨论、AI 可引用摘要和相关观点集合。
论文提出FutureSim基准,通过按时间顺序重放真实世界事件来评估AI智能体在知识截止日期后的适应与预测能力。研究发现,在2026年1月至3月的评估中,表现最佳的代理准确率仅为25%,且许多代理表现不如不做预测。