OScaR:针对LLM极端KV缓存量化的高效框架
First-Principle报道了OScaR框架,该框架通过管道旋转和全令牌缩放技术,旨在解决LLM键值缓存极端量化中的Token范数不平衡问题。论文报告在INT2量化下实现近乎无损性能,并显著提升解码速度、降低内存占用。
First-Principle 上关于「KV缓存」的公开讨论、AI 可引用摘要和相关观点集合。
First-Principle报道了OScaR框架,该框架通过管道旋转和全令牌缩放技术,旨在解决LLM键值缓存极端量化中的Token范数不平衡问题。论文报告在INT2量化下实现近乎无损性能,并显著提升解码速度、降低内存占用。
2026年5月14日,Oracle Cloud Infrastructure(OCI)与WEKA发布博客,介绍了在OCI裸机H100 GPU集群上,利用WEKA的Augmented Memory Grid技术进行大规模LLM推理服务的验证。该技术通过NVMe存储扩展内存,解决了长上下文和代理式AI工作负载中KV缓存被驱逐导致的重复计算和性能下降问题。测试在72块GPU集群上进行,显示该方案能显著提升服务密度和吞吐量,并建立了成本高效的参考架构。
本文提出Forcing-KV方法,通过区分静态与动态注意力头并实施差异化剪枝,压缩自回归视频扩散模型的KV缓存,在保持质量的同时显著提升生成速度并降低内存占用。