**Draft Less, Retrieve More: 面向推测解码的混合树构建**

_Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding_

> 本文提出Graft框架,通过将剪枝与检索相结合来优化推测解码的性能。传统方法在构建扩展草案树时,因VRAM带宽和计算开销大而限制了整体加速。Graft框架利用剪枝释放的计算预算进行检索,弥补因剪枝造成的候选覆盖损失,从而在不增加训练和损失的情况下提高接受率。实验表明,Graft在短上下文、长上下文及大规模模型场景下均实现显著加速,在Qwen3-235B模型上平均加速比EAGLE-3提升达21.8%。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20104)