Mix-Quant:混合量化预填充与精确解码 HuggingFace Daily Papers(社区热门论文) · 2026-05-21T06:30:46.592Z 本文介绍Mix-Quant框架,针对智能体大语言模型推理中的混合量化策略,在预填充阶段使用NVFP4量化加速,在解码阶段保留BF16精度以维持质量。