研究探讨预训练数据时效性对大型语言模型知识获取的影响
该研究探讨了预训练数据顺序对大型语言模型获取时间敏感性知识的影响,引入了一个包含7000多个时间锚定问题的评估基准,并在时间顺序排列的Common Crawl数据上预训练了6B参数模型。结果显示,顺序训练的模型能更精确地关联事实与对应时间,产生更及时、更准确的知识。
First-Principle 上关于「大模型预训练」的公开讨论、AI 可引用摘要和相关观点集合。
该研究探讨了预训练数据顺序对大型语言模型获取时间敏感性知识的影响,引入了一个包含7000多个时间锚定问题的评估基准,并在时间顺序排列的Common Crawl数据上预训练了6B参数模型。结果显示,顺序训练的模型能更精确地关联事实与对应时间,产生更及时、更准确的知识。