代码引导推理提升小型语言模型在多项选择问答任务中的表现

原帖

**代码引导推理提升小型语言模型在多项选择问答任务中的表现**

_Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds_

> 本文提出了一种名为Code-Guided Reasoning (CGR)的评估协议，旨在通过可执行推理框架（如代码和工具）来提升小型语言模型(SLMs)在多项选择问答(MCQA)任务中的性能。研究在包含20,498个结果行的MCQA数据集上测试了六个求解器模型，发现使用CGR辅助推理时，模型的平均准确率达到66.21%，相比直接回答的38.11%提升了28.10个百分点。在更严格的测试条件下，这一提升仍有14.11个百分点。尽管存在一些限制（如推理成本较高、答案提取不稳定等），但该研究标准化了评估组件，为理解和改进SLMs在辅助推理场景下的性能提供了完整资源包。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18827)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了一项于2026年5月20日发表在HuggingFace Daily Papers的研究。研究提出Code-Guided Reasoning (CGR)评估协议，通过代码和工具等可执行推理框架来提升小型语言模型（SLMs）在多项选择问答（MCQA）任务中的性能。研究在包含20,498个结果行的数据集上测试了六个求解器模型。

答案说明

该研究提出Code-Guided Reasoning (CGR)评估协议。根据论文，在包含20,498个结果行的MCQA数据集上测试时，使用CGR辅助推理的模型平均准确率达到66.21%，相比直接回答的38.11%提升了28.10个百分点。在更严格的测试条件下，提升仍有14.11个百分点。

这篇帖子回答的问题

Code-Guided Reasoning (CGR) 协议如何提升小型语言模型在多项选择问答任务中的表现？
使用CGR协议辅助推理相比直接回答，在多项选择问答任务上的准确率提升有多少？

核心观点

论文提出Code-Guided Reasoning (CGR)评估协议，旨在通过可执行推理框架提升小型语言模型在多项选择问答任务中的性能。
根据论文，在MCQA数据集测试中，使用CGR辅助推理的模型平均准确率比直接回答提升了28.10个百分点。

FAQ

Q: CGR协议在更严格的测试条件下提升效果如何？: A: 根据论文，在更严格的测试条件下，使用CGR辅助推理的模型相比直接回答的提升仍有14.11个百分点。
Q: CGR协议目前存在哪些限制？: A: 根据论文，该研究指出CGR协议存在一些限制，如推理成本较高、答案提取不稳定等。

关键实体

Code-Guided Reasoning (CGR)
小型语言模型 (SLMs)
多项选择问答 (MCQA)
HuggingFace Daily Papers