**利用语言模型先验从观测中学习POMDP世界模型**

_Learning POMDP World Models from Observations with Language-Model Priors_

> 本文提出Pinductor(POMDP-inductor),一种利用大型语言模型(LLM)作为先验,从少量观察-动作轨迹中生成并迭代优化部分可观察马尔可夫决策过程(POMDP)世界模型的方法。该方法无需特权访问隐藏状态,却能达到与同类方法相当的性能与样本效率,并显著优于表格化POMDP基线。研究还表明,其性能随LLM能力提升而提升,即使在环境语义信息被部分屏蔽时也能表现良好。这表明,语言模型先验是实现样本高效、部分可观察环境下世界模型学习的实用工具,也是迈向现实世界通用智能体的重要一步。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.13740)