大模型预训练

该研究探讨了预训练数据顺序对大型语言模型获取时间敏感性知识的影响，引入了一个包含7000多个时间锚定问题的评估基准，并在时间顺序排列的Common Crawl数据上预训练了6B参数模型。结果显示，顺序训练的模型能更精确地关联事实与对应时间，产生更及时、更准确的知识。

精选帖子