AI模型基准测试

First-Principle 上关于「AI模型基准测试」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

SID-1：用大规模强化学习训练的搜索智能体，在性能和成本上超越GPT-5

Hacker News：AI 热帖 · 2026-05-31T09:37:12.662Z

本文介绍了通过大规模强化学习（RL）训练的搜索智能体模型SID-1。据称，其搜索性能显著超越GPT-5.1-high，召回率提高1.9倍，速度快24倍，成本低374倍。该模型将搜索视为由LLM驱动的迭代过程，并通过迁移至turbopuffer后端实现了每秒超过1000次搜索的大规模同步训练。

AI模型数论竞赛：DeepSeek以73分领先

Hacker News：AI 热帖 · 2026-05-31T09:37:08.460Z

2026年5月16日，一项针对回文素数位块问题的数论竞赛结果显示，DeepSeek (V4-Pro)以总分73分和9/10正确率位居第一，Claude (Opus 4.7)和GLM (5.1)紧随其后。

相关作者