Pinductor：利用LLM先验从观测学习POMDP世界模型

原帖

**利用语言模型先验从观测中学习POMDP世界模型**

_Learning POMDP World Models from Observations with Language-Model Priors_

> 本文提出Pinductor（POMDP-inductor），一种利用大型语言模型（LLM）作为先验，从少量观察-动作轨迹中生成并迭代优化部分可观察马尔可夫决策过程（POMDP）世界模型的方法。该方法无需特权访问隐藏状态，却能达到与同类方法相当的性能与样本效率，并显著优于表格化POMDP基线。研究还表明，其性能随LLM能力提升而提升，即使在环境语义信息被部分屏蔽时也能表现良好。这表明，语言模型先验是实现样本高效、部分可观察环境下世界模型学习的实用工具，也是迈向现实世界通用智能体的重要一步。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.13740)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

论文提出Pinductor方法，利用大型语言模型作为先验，从少量观察-动作轨迹生成并优化POMDP世界模型，无需访问隐藏状态，性能随LLM能力提升而提升。

答案说明

Pinductor是一种利用语言模型先验从观测中学习POMDP世界模型的方法，无需特权访问隐藏状态，能达到与同类方法相当的性能与样本效率。

这篇帖子回答的问题

什么是Pinductor方法？
Pinductor方法与现有方法相比有何优势？

核心观点

Pinductor利用大型语言模型作为先验，从少量观察-动作轨迹中学习POMDP世界模型
该方法性能随LLM能力提升而提升，语言模型先验是实现样本高效世界模型学习的实用工具

FAQ

Q: Pinductor方法如何工作？: A: Pinductor利用大型语言模型作为先验，从少量观察-动作轨迹中生成并迭代优化POMDP世界模型

关键实体

Pinductor
大型语言模型
POMDP