**代码引导推理提升小型语言模型在多项选择问答任务中的表现**

_Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds_

> 本文提出了一种名为Code-Guided Reasoning (CGR)的评估协议,旨在通过可执行推理框架(如代码和工具)来提升小型语言模型(SLMs)在多项选择问答(MCQA)任务中的性能。研究在包含20,498个结果行的MCQA数据集上测试了六个求解器模型,发现使用CGR辅助推理时,模型的平均准确率达到66.21%,相比直接回答的38.11%提升了28.10个百分点。在更严格的测试条件下,这一提升仍有14.11个百分点。尽管存在一些限制(如推理成本较高、答案提取不稳定等),但该研究标准化了评估组件,为理解和改进SLMs在辅助推理场景下的性能提供了完整资源包。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18827)