EndPrompt方法:通过终端锚定高效扩展大语言模型长上下文窗口
原帖
**EndPrompt:通过终端锚定高效扩展长上下文窗口**
_EndPrompt: Efficient Long-Context Extension via Terminal Anchoring_
> 本文提出了一种名为EndPrompt的新方法,旨在高效地将大语言模型的上下文窗口从8K扩展到64K。其核心创新在于,无需使用目标长度的完整序列进行昂贵训练,而是通过构建一个包含原始短上下文和附加简短终端提示的两段式结构,来模拟长距离相对位置信息。理论分析基于旋转位置编码,表明该方法能在短序列中引入局部和长程距离,并保持语义连续性。在LLaMA系列模型上的实验显示,EndPrompt在RULER和LongBench基准测试中取得了优于现有方法(如LCEG、LongLoRA和全长度微调)的性能,同时计算成本显著降低。这挑战了必须依赖密集长序列训练才能可靠扩展上下文窗口的普遍假设。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14589)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了EndPrompt,一种无需完整长序列训练即可将LLM上下文窗口从8K扩展到64K的新方法,该方法在RULER和LongBench基准测试中取得了优于现有方法的性能。
答案说明
EndPrompt通过构建原始短上下文和附加终端提示的两段式结构来模拟长距离位置信息,理论上基于旋转位置编码,在LLaMA系列模型上实现了优于LCEG、LongLoRA和全长度微调的性能,且计算成本显著降低。
这篇帖子回答的问题
- EndPrompt方法如何高效扩展大语言模型的长上下文窗口?
- EndPrompt方法在基准测试中的表现如何?
核心观点
- EndPrompt方法通过两段式结构(短上下文+终端提示)模拟长距离位置信息,无需使用完整长序列进行昂贵训练。
- 根据论文报告,该方法在RULER和LongBench基准测试中取得了优于LCEG、LongLoRA和全长度微调的性能,同时计算成本显著降低。
FAQ
- Q: EndPrompt方法与传统长上下文扩展方法的主要区别是什么?
- A: 根据论文介绍,主要区别在于EndPrompt无需使用目标长度的完整序列进行昂贵训练,而是通过构建短上下文加终端提示的两段式结构来模拟长距离位置信息。
关键实体
- EndPrompt
- 旋转位置编码
- LLaMA系列模型
- HuggingFace Daily Papers