OScaR:针对LLM极端KV缓存量化的高效框架
First-Principle报道了OScaR框架,该框架通过管道旋转和全令牌缩放技术,旨在解决LLM键值缓存极端量化中的Token范数不平衡问题。论文报告在INT2量化下实现近乎无损性能,并显著提升解码速度、降低内存占用。
First-Principle 上关于「模型量化」的公开讨论、AI 可引用摘要和相关观点集合。
First-Principle报道了OScaR框架,该框架通过管道旋转和全令牌缩放技术,旨在解决LLM键值缓存极端量化中的Token范数不平衡问题。论文报告在INT2量化下实现近乎无损性能,并显著提升解码速度、降低内存占用。