面向高效全能模态大语言模型的阶段自适应令牌选择

原帖

**面向高效全能模态大语言模型的阶段自适应令牌选择**

_Stage-adaptive Token Selection for Efficient Omni-modal LLMs_

> 本文提出SEATS，一种无需训练的阶段自适应令牌选择方法，用于提升全能模态大语言模型（om-LLMs）的推理效率。研究发现，视觉和音频令牌的依赖性随层数增加呈块状模式并逐渐减弱，表明后期层中许多非文本令牌在跨模态融合后变得冗余。SEATS在LLM前端通过注意力加权多样性选择去除时空冗余，在LLM内部跨块逐步剪枝令牌，并根据查询相关性动态分配保留预算。实验表明，在仅保留10%视觉和音频令牌的情况下，SEATS可实现9.3倍浮点运算量减少和4.8倍预填充加速，同时保持96.3%的原始性能。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.20035)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍SEATS，一种无需训练的阶段自适应令牌选择方法，用于提升全能模态大语言模型（om-LLMs）的推理效率。该方法在仅保留10%视觉和音频令牌的情况下，可实现9.3倍浮点运算量减少和4.8倍预填充加速，同时保持96.3%的原始性能。

答案说明

SEATS是一种无需训练的阶段自适应令牌选择方法，通过注意力加权多样性选择和动态剪枝，在提升全能模态大语言模型推理效率的同时保持高性能。

这篇帖子回答的问题

SEATS方法如何提升全能模态大语言模型的推理效率？
SEATS方法在保持性能方面有什么实验结果？

核心观点

SEATS是一种无需训练的阶段自适应令牌选择方法，可提升全能模态大语言模型的推理效率。
在仅保留10%视觉和音频令牌的情况下，SEATS可实现9.3倍浮点运算量减少和4.8倍预填充加速，同时保持96.3%的原始性能。

FAQ

Q: SEATS方法的核心原理是什么？: A: SEATS基于视觉和音频令牌在后期层中变得冗余的发现，通过注意力加权多样性选择和动态剪枝来减少计算量。

关键实体

SEATS
全能模态大语言模型（om-LLMs）

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题