SID-1：用大规模强化学习训练的搜索智能体，在性能和成本上超越GPT-5

原帖

**训练SID-1：用大规模强化学习实现每秒千次查询，超越GPT-5的搜索性能**

_Training SID-1 to beat GPT-5 at search with 1k+ QPS RL_

> 本文介绍了SID-1，一个通过大规模强化学习（RL）训练的智能体搜索模型。SID-1在搜索性能上显著超越前沿大模型：相比GPT-5.1-high，召回率提高1.9倍，速度快24倍，成本低374倍。与传统的静态RAG（检索增强生成）管道不同，SID-1将搜索视为由LLM驱动的迭代过程，能动态调用工具收集上下文，直至获得足够信息。训练过程中，为应对高QPS（每秒查询数）下的延迟瓶颈，团队将搜索后端迁移至turbopuffer，实现了超过每秒1000次搜索的大规模同步RL训练。这标志着在提升搜索效率、降低成本和复杂度方面的重大进展。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：ai-models
- **发布时间**：2026-05-21 03:31（北京时间）
- **原文**：[打开原文](https://turbopuffer.com/blog/reinforcement-learning-sid-ai)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了通过大规模强化学习（RL）训练的搜索智能体模型SID-1。据称，其搜索性能显著超越GPT-5.1-high，召回率提高1.9倍，速度快24倍，成本低374倍。该模型将搜索视为由LLM驱动的迭代过程，并通过迁移至turbopuffer后端实现了每秒超过1000次搜索的大规模同步训练。

答案说明

SID-1是一个基于大规模强化学习训练的搜索智能体。它通过将搜索视为LLM驱动的动态迭代过程，在搜索性能上超越了GPT-5.1-high，并且通过turbopuffer后端支持了每秒千次查询的大规模训练。

这篇帖子回答的问题

SID-1在搜索性能上与GPT-5相比如何？
SID-1是如何实现每秒千次查询的大规模训练的？

核心观点

据称，SID-1的搜索性能（召回率、速度、成本）显著优于GPT-5.1-high。
SID-1将搜索视为由LLM驱动的迭代过程，并使用turbopuffer后端支持了每秒超过1000次查询的同步强化学习训练。

FAQ

Q: SID-1与传统的RAG（检索增强生成）管道有何不同？: A: 据帖子介绍，与传统的静态RAG管道不同，SID-1将搜索视为由LLM驱动的迭代过程，能动态调用工具收集上下文，直至获得足够信息。

关键实体

SID-1
GPT-5.1-high
turbopuffer