**使用最小形式化证明对大语言模型的推理能力进行压力测试**

_Stress-Testing the Reasoning Competence of LLMs With Proofs Under Minimal Formalism_

> 本文介绍了一个名为ProofGrid的基准测试套件,用于通过机器可验证的证明来评估大语言模型的推理能力,而不仅仅是最终答案。该套件包含15项任务,涵盖证明撰写、检查、掩码和填空。这些任务采用一种名为NDL的紧凑型自然演绎语言进行形式化表达,便于在短提示中实现精确、可审计的验证。研究团队开发了一个容错的证明检查流程,并评估了多种开源和专有模型。结果显示,前沿模型在基础任务上表现良好,但在需要全局组合推理或底层证明合成的困难任务上仍有很大差距。研究还提出了“认识稳定性指数”来量化模型的逻辑一致性问题。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12524)