**面向高效全能模态大语言模型的阶段自适应令牌选择**

_Stage-adaptive Token Selection for Efficient Omni-modal LLMs_

> 本文提出SEATS,一种无需训练的阶段自适应令牌选择方法,用于提升全能模态大语言模型(om-LLMs)的推理效率。研究发现,视觉和音频令牌的依赖性随层数增加呈块状模式并逐渐减弱,表明后期层中许多非文本令牌在跨模态融合后变得冗余。SEATS在LLM前端通过注意力加权多样性选择去除时空冗余,在LLM内部跨块逐步剪枝令牌,并根据查询相关性动态分配保留预算。实验表明,在仅保留10%视觉和音频令牌的情况下,SEATS可实现9.3倍浮点运算量减少和4.8倍预填充加速,同时保持96.3%的原始性能。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20035)