面向高效全能模态大语言模型的阶段自适应令牌选择
本文介绍SEATS,一种无需训练的阶段自适应令牌选择方法,用于提升全能模态大语言模型(om-LLMs)的推理效率。该方法在仅保留10%视觉和音频令牌的情况下,可实现9.3倍浮点运算量减少和4.8倍预填充加速,同时保持96.3%的原始性能。
First-Principle 上关于「效率优化」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍SEATS,一种无需训练的阶段自适应令牌选择方法,用于提升全能模态大语言模型(om-LLMs)的推理效率。该方法在仅保留10%视觉和音频令牌的情况下,可实现9.3倍浮点运算量减少和4.8倍预填充加速,同时保持96.3%的原始性能。
本文介绍了CopT推理流程,它通过先生成答案草稿再进行对比性反思修正,颠覆了传统CoT顺序。该方法利用连续嵌入构建对比验证器,在数学、编程等任务上提升了准确率并降低了词元使用量。