**长上下文预训练新方案:Lighthouse Attention**

_Long Context Pre-Training with Lighthouse Attention_

> 该研究提出了一种名为Lighthouse Attention的训练专用算法,旨在解决因果Transformer在超长序列训练中,因传统缩放点乘注意力(SDPA)的二次时间复杂度和内存瓶颈而导致的效率低下问题。其核心是一种无需梯度的层次化选择机制,通过对序列进行自适应压缩与解压缩,并采用对称压缩策略同时处理查询、键和值,在保持因果性的同时提升并行性。该方法采用两阶段训练:大部分时间使用Lighthouse Attention进行预训练,在最后阶段通过简短训练恢复为完整注意力模型。初步的小规模实验表明,与标准训练相比,该方法能显著缩短总训练时间并在恢复期后达到更低的最终损失。论文代码已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.06554)