模型压缩

First-Principle 上关于「模型压缩」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

面向长上下文推理的真2-bit KV缓存量化算法

机器之心：文章库（API） · 2026-05-31T09:37:21.896Z

来自TogetherAI、悉尼大学和伊利诺伊大学的研究团队提出了一种名为“真2-bit KV缓存量化”的新算法，旨在通过更激进的压缩技术优化长上下文大型语言模型的推理效率，显著减少内存占用。该研究属于高效机器学习系统领域的重要进展。

ZEDA框架：通过自蒸馏让后训练MoE模型跳过一半专家以加速推理

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:22.560Z

2026年5月19日，HuggingFace Daily Papers社区热门论文介绍了一种名为ZEDA的低成本框架，可将已训练的静态混合专家模型转换为动态模型。该框架通过注入零输出专家和两阶段自蒸馏，使简单输入绕过不必要专家，在Qwen3-30B-A3B和GLM-4.7-Flash模型上实现超50%专家计算量减少与约1.20倍推理加速，精度损失极小。

LiteFrame：高效视觉编码器突破视频大语言模型的帧缩放瓶颈

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:15.620Z

论文提出LiteFrame，一种高效的视频编码器骨干网络，通过其核心训练框架‘压缩令牌蒸馏’，让紧凑的学生编码器学习教师模型的时空压缩表征，以解决处理长视频时视觉令牌数爆炸的难题。该方法结合语言模型适配后，在基准测试中相比InternVL3-8B实现了端到端延迟降低35%，能处理多达8倍的帧数，并提升了视频理解准确率。

HodgeCover：基于高阶拓扑覆盖的稀疏混合专家模型压缩新方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:17.841Z

本文提出HodgeCover方法，用于无需重训练的稀疏混合专家（MoE）模型压缩。该方法将现有压缩方法中的结构障碍数学化为“调和核”，并利用Hodge分解进行精确隔离。实验表明，该方法在激进专家缩减场景下性能领先，并能平衡Hodge分量的保留质量。

Forcing-KV：一种混合KV缓存压缩方法，用于加速自回归视频扩散模型

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:11.615Z

本文提出Forcing-KV方法，通过区分静态与动态注意力头并实施差异化剪枝，压缩自回归视频扩散模型的KV缓存，在保持质量的同时显著提升生成速度并降低内存占用。