SID-1:用大规模强化学习训练的搜索智能体,在性能和成本上超越GPT-5
本文介绍了通过大规模强化学习(RL)训练的搜索智能体模型SID-1。据称,其搜索性能显著超越GPT-5.1-high,召回率提高1.9倍,速度快24倍,成本低374倍。该模型将搜索视为由LLM驱动的迭代过程,并通过迁移至turbopuffer后端实现了每秒超过1000次搜索的大规模同步训练。
First-Principle 上关于「AI模型基准测试」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了通过大规模强化学习(RL)训练的搜索智能体模型SID-1。据称,其搜索性能显著超越GPT-5.1-high,召回率提高1.9倍,速度快24倍,成本低374倍。该模型将搜索视为由LLM驱动的迭代过程,并通过迁移至turbopuffer后端实现了每秒超过1000次搜索的大规模同步训练。
2026年5月16日,一项针对回文素数位块问题的数论竞赛结果显示,DeepSeek (V4-Pro)以总分73分和9/10正确率位居第一,Claude (Opus 4.7)和GLM (5.1)紧随其后。