**训练SID-1:用大规模强化学习实现每秒千次查询,超越GPT-5的搜索性能**

_Training SID-1 to beat GPT-5 at search with 1k+ QPS RL_

> 本文介绍了SID-1,一个通过大规模强化学习(RL)训练的智能体搜索模型。SID-1在搜索性能上显著超越前沿大模型:相比GPT-5.1-high,召回率提高1.9倍,速度快24倍,成本低374倍。与传统的静态RAG(检索增强生成)管道不同,SID-1将搜索视为由LLM驱动的迭代过程,能动态调用工具收集上下文,直至获得足够信息。训练过程中,为应对高QPS(每秒查询数)下的延迟瓶颈,团队将搜索后端迁移至turbopuffer,实现了超过每秒1000次搜索的大规模同步RL训练。这标志着在提升搜索效率、降低成本和复杂度方面的重大进展。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-21 03:31(北京时间)
- **原文**:[打开原文](https://turbopuffer.com/blog/reinforcement-learning-sid-ai)