**通过协同逐步多教师解码蒸馏长链式思维推理**

_Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding_

> 论文提出了一种名为CoRD的协作多教师解码框架,旨在解决蒸馏大型推理模型以降低计算成本的核心挑战。该框架通过基于预测困惑度的评分和束搜索来引导逐步推理合成,使多个异构的大型推理模型能够协同构建连贯的推理轨迹,同时高效保留多样化、高潜力的假设。实验表明,CoRD能生成更高质量的推理数据,并在更少的、结构化的监督信号下,使学生模型达到接近教师模型的性能,且在不同领域和开放式任务中具有良好的泛化能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.02290)