**A2RBench:一种用于生成可形式化验证的抽象推理基准的自动化范式**

_A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation_

> 论文提出了名为 A2RBench 的自动化流程,用于生成、扩展、评估和分析抽象推理基准,旨在解决现有基准依赖昂贵人工标注或易测量记忆而非真实推理能力的挑战。该流程利用大语言模型(LLM)生成需要真实推理的任务,并通过程序验证(循环一致性)确保唯一解,以消除生成过程中的幻觉。对主流 LLM 的广泛评估发现:1)当前 LLM 在抽象推理上存在根本缺陷,顶级模型在代表性子集上表现显著低于人类(39.8% 对 68.5%);2)LLM 在处理生成的 3D 任务复杂性时远不及 2D 和 1D,揭示其对高维任务理解不足;3)信息复杂度更高的输入反而能简化推理过程。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17278)