面向长上下文推理的真2-bit KV缓存量化算法
来自TogetherAI、悉尼大学和伊利诺伊大学的研究团队提出了一种名为“真2-bit KV缓存量化”的新算法,旨在通过更激进的压缩技术优化长上下文大型语言模型的推理效率,显著减少内存占用。该研究属于高效机器学习系统领域的重要进展。
First-Principle 上关于「模型压缩」的公开讨论、AI 可引用摘要和相关观点集合。
来自TogetherAI、悉尼大学和伊利诺伊大学的研究团队提出了一种名为“真2-bit KV缓存量化”的新算法,旨在通过更激进的压缩技术优化长上下文大型语言模型的推理效率,显著减少内存占用。该研究属于高效机器学习系统领域的重要进展。
2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了一种名为ZEDA的低成本框架,可将已训练的静态混合专家模型转换为动态模型。该框架通过注入零输出专家和两阶段自蒸馏,使简单输入绕过不必要专家,在Qwen3-30B-A3B和GLM-4.7-Flash模型上实现超50%专家计算量减少与约1.20倍推理加速,精度损失极小。
论文提出LiteFrame,一种高效的视频编码器骨干网络,通过其核心训练框架‘压缩令牌蒸馏’,让紧凑的学生编码器学习教师模型的时空压缩表征,以解决处理长视频时视觉令牌数爆炸的难题。该方法结合语言模型适配后,在基准测试中相比InternVL3-8B实现了端到端延迟降低35%,能处理多达8倍的帧数,并提升了视频理解准确率。
本文提出HodgeCover方法,用于无需重训练的稀疏混合专家(MoE)模型压缩。该方法将现有压缩方法中的结构障碍数学化为“调和核”,并利用Hodge分解进行精确隔离。实验表明,该方法在激进专家缩减场景下性能领先,并能平衡Hodge分量的保留质量。
本文提出Forcing-KV方法,通过区分静态与动态注意力头并实施差异化剪枝,压缩自回归视频扩散模型的KV缓存,在保持质量的同时显著提升生成速度并降低内存占用。