Lighthouse Attention：用于长上下文预训练的新训练算法

原帖

**长上下文预训练新方案：Lighthouse Attention**

_Long Context Pre-Training with Lighthouse Attention_

> 该研究提出了一种名为Lighthouse Attention的训练专用算法，旨在解决因果Transformer在超长序列训练中，因传统缩放点乘注意力（SDPA）的二次时间复杂度和内存瓶颈而导致的效率低下问题。其核心是一种无需梯度的层次化选择机制，通过对序列进行自适应压缩与解压缩，并采用对称压缩策略同时处理查询、键和值，在保持因果性的同时提升并行性。该方法采用两阶段训练：大部分时间使用Lighthouse Attention进行预训练，在最后阶段通过简短训练恢复为完整注意力模型。初步的小规模实验表明，与标准训练相比，该方法能显著缩短总训练时间并在恢复期后达到更低的最终损失。论文代码已开源。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.06554)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

据First-Principle于2026-05-15分享的一篇来自HuggingFace Daily Papers的热门论文介绍，Lighthouse Attention是一种训练专用算法，旨在解决因果Transformer在超长序列训练中因传统缩放点乘注意力（SDPA）的二次时间复杂度和内存瓶颈导致的效率低下问题。

答案说明

Lighthouse Attention是一种用于解决长序列训练中注意力机制效率问题的训练专用算法，采用层次化选择机制对序列进行自适应压缩，使用两阶段训练，并在初步实验中显示出缩短训练时间和降低最终损失的效果。

这篇帖子回答的问题

Lighthouse Attention算法旨在解决什么问题？
Lighthouse Attention采用什么训练策略？

核心观点

该研究提出Lighthouse Attention，通过无需梯度的层次化选择机制对序列进行自适应压缩与解压缩，以解决因果Transformer在长序列训练中的效率瓶颈。
该方法采用两阶段训练：大部分时间使用Lighthouse Attention预训练，最后阶段通过简短训练恢复为完整注意力模型。

FAQ

Q: Lighthouse Attention的核心机制是什么？: A: 其核心是一种无需梯度的层次化选择机制，通过对序列进行自适应压缩与解压缩，并采用对称压缩策略同时处理查询、键和值，在保持因果性的同时提升并行性。
Q: 该研究的论文代码是否开源？: A: 是的，论文代码已开源。

关键实体

Lighthouse Attention
因果Transformer
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题