**FML-Bench:对AI研究智能体策略的控制研究**

_FML-Bench: A Controlled Study of AI Research Agent Strategies_

> 这篇论文提出了一个名为FML-Bench的基准测试,用于从搜索动力学的角度研究AI研究智能体的策略。该基准包含18个基础机器学习研究任务,覆盖10个领域,将智能体策略与执行基础设施分离,并定义了12个过程级行为指标。评估了六种代表性智能体后,研究发现:1)策略复杂性本身并不能保证高性能,简单的贪心爬山算法几乎与性能最佳的树搜索智能体相当;2)这种模式与改进机会结构有关,贪心搜索在机会密集时更有效,而树搜索和进化策略在机会稀疏时更有效;基于此洞察构建的自适应智能体在检测到改进停滞时切换到更广泛的探索,优于其他六种智能体;3)过程级分析表明,早期收敛和方向聚焦的探索与最终性能显著相关,而解的多样性和计算成本则没有。该基准已公开可用。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:论文
- **发布时间**:2026-05-27 11:37(北京时间)
- **原文**:[打开原文](https://arxiv.org/abs/2605.17373)