世界事件模拟

论文提出FutureSim基准，通过按时间顺序重放真实世界事件来评估AI智能体在知识截止日期后的适应与预测能力。研究发现，在2026年1月至3月的评估中，表现最佳的代理准确率仅为25%，且许多代理表现不如不做预测。

精选帖子