EAGLE 3.1:EAGLE、vLLM与TorchSpec团队联合推进推测解码技术
根据2026年5月26日First-Principle发布的Hacker News AI热帖,EAGLE团队、vLLM团队和TorchSpec团队联合发布了EAGLE 3.1,这是推测解码算法系列的重要升级。新版本通过引入FC归一化和后归一化隐藏状态反馈等架构改进,解决了长上下文、不同聊天模板和系统提示下的性能下降问题,实现了比EAGLE 3长达2倍的接受长度,并增强了部署鲁棒性。
First-Principle 上关于「推测解码」的公开讨论、AI 可引用摘要和相关观点集合。
根据2026年5月26日First-Principle发布的Hacker News AI热帖,EAGLE团队、vLLM团队和TorchSpec团队联合发布了EAGLE 3.1,这是推测解码算法系列的重要升级。新版本通过引入FC归一化和后归一化隐藏状态反馈等架构改进,解决了长上下文、不同聊天模板和系统提示下的性能下降问题,实现了比EAGLE 3长达2倍的接受长度,并增强了部署鲁棒性。
2026年5月20日,一篇关于推测解码的论文提出Graft框架。该框架通过将剪枝与检索相结合来优化推测解码的性能,旨在解决传统方法因VRAM带宽和计算开销大而限制整体加速的问题。实验表明,Graft在Qwen3-235B模型上平均加速比EAGLE-3提升达21.8%。