**Mix-Quant:面向智能体大语言模型的混合量化预填充与精确解码**

_Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs_

> 本文提出Mix-Quant,一种针对智能体大语言模型推理的混合量化框架。智能体工作流在长上下文多轮对话中,计算密集的预填充阶段成为主要瓶颈。研究发现,对整个推理过程进行FP4量化会导致性能显著下降,但预填充阶段存在量化冗余,适合高通量低精度量化。因此,Mix-Quant在预填充阶段采用NVFP4量化以加速计算,而在解码阶段保留BF16精度以维持质量。实验证明,该方法在保持任务性能的同时,预填充阶段最高可实现3倍速度提升。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20315)