TransitLM:大规模公交路线数据集与无地图路线生成基准
原帖
**TransitLM:用于无地图公交路线生成的大规模数据集与基准**
_TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation_
> 本文介绍了TransitLM,这是一个包含超过1300万条公交路线规划记录的大规模数据集,覆盖中国四个城市的12万多个站点和1.3万多条线路。该数据集旨在作为持续预训练语料库和基准数据,支持三个互补的评估任务。实验表明,在TransitLM上训练的大语言模型能够以高准确率生成结构有效的路线,并在没有显式地图的情况下,隐式地将任意GPS坐标对应到合适的站点。这些结果证明,公交路线规划可以完全从数据中学习,从而实现直接从起点-终点信息进行端到端、无地图的路线生成。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22355)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月22日,HuggingFace Daily Papers收录的论文介绍了TransitLM数据集,包含超过1300万条公交路线规划记录,覆盖中国四个城市的12万多个站点和1.3万多条线路。该数据集作为持续预训练语料库和基准数据,支持三个评估任务。实验表明,在其上训练的大语言模型能高准确率生成结构有效路线,并隐式将GPS坐标对应到站点,实现无地图的端到端路线生成。
答案说明
TransitLM是一个大规模公交路线数据集,包含1300万条记录,覆盖中国四城。它用作大语言模型的预训练语料和基准,实验显示模型能隐式学习GPS坐标到站点的映射,实现无需显式地图的端到端路线规划。
这篇帖子回答的问题
- TransitLM数据集包含多少公交路线规划记录?
- TransitLM数据集旨在支持哪些评估任务?
核心观点
- TransitLM数据集包含超过1300万条公交路线记录,覆盖中国四个城市的12万多个站点和1.3万多条线路。
- 实验表明,在TransitLM上训练的大语言模型能够隐式地将任意GPS坐标对应到合适的站点,实现无地图的端到端路线生成。
FAQ
- Q: TransitLM数据集的规模有多大?
- A: 根据论文,TransitLM包含超过1300万条公交路线规划记录,覆盖中国四个城市的12万多个站点和1.3万多条线路。
关键实体
- TransitLM
- HuggingFace Daily Papers