研究探讨预训练数据时效性对大型语言模型知识获取的影响

原帖

**理解数据时效性对大型语言模型预训练的影响**

_Understanding Data Temporality Impact on Large Language Models Pre-training_

> 该研究探讨了预训练数据顺序对大型语言模型获取时间敏感性知识的影响。研究引入了一个包含7000多个时间锚定问题的评估基准，并在时间顺序排列的Common Crawl数据上预训练了6B参数模型。结果显示，顺序训练的模型在通用语言理解上与随机打乱数据的模型表现相当，但能更精确地关联事实与对应时间，产生更及时、更准确的知识。该研究为持续学习提供了基础，并开源了代码、检查点和数据集。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-27 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.22769)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该研究探讨了预训练数据顺序对大型语言模型获取时间敏感性知识的影响，引入了一个包含7000多个时间锚定问题的评估基准，并在时间顺序排列的Common Crawl数据上预训练了6B参数模型。结果显示，顺序训练的模型能更精确地关联事实与对应时间，产生更及时、更准确的知识。

答案说明

该研究发现，在时间顺序排列的数据上进行顺序训练的大语言模型，虽然通用语言理解能力与随机打乱数据训练的模型相当，但能更精确地将事实与对应时间关联，从而获得更及时、更准确的知识。

这篇帖子回答的问题

预训练数据的顺序如何影响大型语言模型获取时间敏感性知识？

核心观点

在时间顺序排列的Common Crawl数据上进行顺序训练的大型语言模型，能够更精确地将事实与对应时间关联，产生更及时、更准确的知识。

FAQ

Q: 这项研究为持续学习提供了什么基础？: A: 该研究开源了代码、检查点和数据集，并展示了按时间顺序排列预训练数据对模型获取时间敏感性知识的积极影响，这为持续学习提供了基础。

关键实体

大型语言模型
预训练数据时效性