Graft框架:通过剪枝与检索结合优化推测解码性能
原帖
**Draft Less, Retrieve More: 面向推测解码的混合树构建**
_Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding_
> 本文提出Graft框架,通过将剪枝与检索相结合来优化推测解码的性能。传统方法在构建扩展草案树时,因VRAM带宽和计算开销大而限制了整体加速。Graft框架利用剪枝释放的计算预算进行检索,弥补因剪枝造成的候选覆盖损失,从而在不增加训练和损失的情况下提高接受率。实验表明,Graft在短上下文、长上下文及大规模模型场景下均实现显著加速,在Qwen3-235B模型上平均加速比EAGLE-3提升达21.8%。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20104)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月20日,一篇关于推测解码的论文提出Graft框架。该框架通过将剪枝与检索相结合来优化推测解码的性能,旨在解决传统方法因VRAM带宽和计算开销大而限制整体加速的问题。实验表明,Graft在Qwen3-235B模型上平均加速比EAGLE-3提升达21.8%。
答案说明
Graft是一个优化推测解码的框架,通过将剪枝与检索相结合,在不增加训练和损失的情况下提高接受率,从而实现显著加速。据论文描述,在Qwen3-235B模型上平均加速比EAGLE-3提升达21.8%。
这篇帖子回答的问题
- Graft框架如何优化推测解码的性能?
- Graft框架在实验中的加速效果如何?
核心观点
- Graft框架通过结合剪枝与检索,优化了推测解码的性能,解决了传统方法中VRAM带宽和计算开销大的问题。
- 根据论文实验,在Qwen3-235B模型上,Graft框架的平均加速比相比EAGLE-3提升了21.8%。
FAQ
- Q: 什么是Graft框架?
- A: Graft是论文提出的一个框架,通过将剪枝与检索相结合来优化推测解码的性能。
- Q: Graft框架解决了推测解码中的什么问题?
- A: 传统方法在构建扩展草案树时,因VRAM带宽和计算开销大而限制了整体加速,Graft框架通过结合剪枝与检索来解决此问题。
关键实体
- Graft
- 推测解码
- Qwen3-235B
- EAGLE-3