OCTOPUS:通过八面体参数化优化Transformer的KV缓存,在最优平方误差量化下
该论文提出了一种名为OCTOPUS的KV缓存压缩新方法,针对长上下文自回归推理中的内存瓶颈问题。它基于旋转预处理编解码范式,通过八面体参数化实现非均匀比特分配,在文本、视频和音频任务上,各种比特宽度下均达到或超越现有旋转编解码器的性能。
First-Principle 上关于「量化压缩」的公开讨论、AI 可引用摘要和相关观点集合。
该论文提出了一种名为OCTOPUS的KV缓存压缩新方法,针对长上下文自回归推理中的内存瓶颈问题。它基于旋转预处理编解码范式,通过八面体参数化实现非均匀比特分配,在文本、视频和音频任务上,各种比特宽度下均达到或超越现有旋转编解码器的性能。