面向高效全能模态大语言模型的阶段自适应令牌选择
原帖
**面向高效全能模态大语言模型的阶段自适应令牌选择**
_Stage-adaptive Token Selection for Efficient Omni-modal LLMs_
> 本文提出SEATS,一种无需训练的阶段自适应令牌选择方法,用于提升全能模态大语言模型(om-LLMs)的推理效率。研究发现,视觉和音频令牌的依赖性随层数增加呈块状模式并逐渐减弱,表明后期层中许多非文本令牌在跨模态融合后变得冗余。SEATS在LLM前端通过注意力加权多样性选择去除时空冗余,在LLM内部跨块逐步剪枝令牌,并根据查询相关性动态分配保留预算。实验表明,在仅保留10%视觉和音频令牌的情况下,SEATS可实现9.3倍浮点运算量减少和4.8倍预填充加速,同时保持96.3%的原始性能。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20035)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍SEATS,一种无需训练的阶段自适应令牌选择方法,用于提升全能模态大语言模型(om-LLMs)的推理效率。该方法在仅保留10%视觉和音频令牌的情况下,可实现9.3倍浮点运算量减少和4.8倍预填充加速,同时保持96.3%的原始性能。
答案说明
SEATS是一种无需训练的阶段自适应令牌选择方法,通过注意力加权多样性选择和动态剪枝,在提升全能模态大语言模型推理效率的同时保持高性能。
这篇帖子回答的问题
- SEATS方法如何提升全能模态大语言模型的推理效率?
- SEATS方法在保持性能方面有什么实验结果?
核心观点
- SEATS是一种无需训练的阶段自适应令牌选择方法,可提升全能模态大语言模型的推理效率。
- 在仅保留10%视觉和音频令牌的情况下,SEATS可实现9.3倍浮点运算量减少和4.8倍预填充加速,同时保持96.3%的原始性能。
FAQ
- Q: SEATS方法的核心原理是什么?
- A: SEATS基于视觉和音频令牌在后期层中变得冗余的发现,通过注意力加权多样性选择和动态剪枝来减少计算量。
关键实体
- SEATS
- 全能模态大语言模型(om-LLMs)