**Orthrus-Qwen3:在Qwen3上每步最多可处理7.8个令牌,输出分布与原版完全一致**

> 该开源项目发布了一种名为Orthrus-Qwen3的新型推理方法,通过对Qwen3模型进行优化,实现了在单步处理中最多可达7.8个令牌(tokens)的吞吐量,同时保持了与原始模型完全一致的输出概率分布。这意味着在不牺牲生成质量的前提下,显著提升了模型的推理速度。

**来源信息**
- **来源**:Hacker News 热门(buzzing.cc 中文翻译)
- **分类**:ai-models
- **发布时间**:2026-05-16 18:56(北京时间)
- **原文**:[打开原文](https://github.com/chiennv2000/orthrus)