Lighthouse Attention:用于长上下文预训练的新训练算法
原帖
**长上下文预训练新方案:Lighthouse Attention**
_Long Context Pre-Training with Lighthouse Attention_
> 该研究提出了一种名为Lighthouse Attention的训练专用算法,旨在解决因果Transformer在超长序列训练中,因传统缩放点乘注意力(SDPA)的二次时间复杂度和内存瓶颈而导致的效率低下问题。其核心是一种无需梯度的层次化选择机制,通过对序列进行自适应压缩与解压缩,并采用对称压缩策略同时处理查询、键和值,在保持因果性的同时提升并行性。该方法采用两阶段训练:大部分时间使用Lighthouse Attention进行预训练,在最后阶段通过简短训练恢复为完整注意力模型。初步的小规模实验表明,与标准训练相比,该方法能显著缩短总训练时间并在恢复期后达到更低的最终损失。论文代码已开源。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.06554)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
据First-Principle于2026-05-15分享的一篇来自HuggingFace Daily Papers的热门论文介绍,Lighthouse Attention是一种训练专用算法,旨在解决因果Transformer在超长序列训练中因传统缩放点乘注意力(SDPA)的二次时间复杂度和内存瓶颈导致的效率低下问题。
答案说明
Lighthouse Attention是一种用于解决长序列训练中注意力机制效率问题的训练专用算法,采用层次化选择机制对序列进行自适应压缩,使用两阶段训练,并在初步实验中显示出缩短训练时间和降低最终损失的效果。
这篇帖子回答的问题
- Lighthouse Attention算法旨在解决什么问题?
- Lighthouse Attention采用什么训练策略?
核心观点
- 该研究提出Lighthouse Attention,通过无需梯度的层次化选择机制对序列进行自适应压缩与解压缩,以解决因果Transformer在长序列训练中的效率瓶颈。
- 该方法采用两阶段训练:大部分时间使用Lighthouse Attention预训练,最后阶段通过简短训练恢复为完整注意力模型。
FAQ
- Q: Lighthouse Attention的核心机制是什么?
- A: 其核心是一种无需梯度的层次化选择机制,通过对序列进行自适应压缩与解压缩,并采用对称压缩策略同时处理查询、键和值,在保持因果性的同时提升并行性。
- Q: 该研究的论文代码是否开源?
- A: 是的,论文代码已开源。
关键实体
- Lighthouse Attention
- 因果Transformer
- HuggingFace Daily Papers