面向高效全能模态大语言模型的阶段自适应令牌选择
本文介绍SEATS,一种无需训练的阶段自适应令牌选择方法,用于提升全能模态大语言模型(om-LLMs)的推理效率。该方法在仅保留10%视觉和音频令牌的情况下,可实现9.3倍浮点运算量减少和4.8倍预填充加速,同时保持96.3%的原始性能。
First-Principle 上关于「多模态大语言模型」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍SEATS,一种无需训练的阶段自适应令牌选择方法,用于提升全能模态大语言模型(om-LLMs)的推理效率。该方法在仅保留10%视觉和音频令牌的情况下,可实现9.3倍浮点运算量减少和4.8倍预填充加速,同时保持96.3%的原始性能。