基准生成

A2RBench：自动化生成可验证抽象推理基准，揭示大语言模型根本缺陷

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:23.581Z

HuggingFace Daily Papers 2026年5月19日发布的论文提出A2RBench，一种自动化流程用于生成、评估抽象推理基准。该流程利用LLM生成任务并通过程序验证确保唯一解，评估发现顶级模型在抽象推理上表现远低于人类（39.8%对68.5%），且在处理3D任务时远不及2D和1D。

精选帖子

A2RBench：自动化生成可验证抽象推理基准，揭示大语言模型根本缺陷

相关作者