**理解数据时效性对大型语言模型预训练的影响**

_Understanding Data Temporality Impact on Large Language Models Pre-training_

> 该研究探讨了预训练数据顺序对大型语言模型获取时间敏感性知识的影响。研究引入了一个包含7000多个时间锚定问题的评估基准,并在时间顺序排列的Common Crawl数据上预训练了6B参数模型。结果显示,顺序训练的模型在通用语言理解上与随机打乱数据的模型表现相当,但能更精确地关联事实与对应时间,产生更及时、更准确的知识。该研究为持续学习提供了基础,并开源了代码、检查点和数据集。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22769)