Mem-π:通过学习何时及生成什么实现LLM智能体的自适应记忆
原帖
**Mem-π:通过学习何时及生成什么实现自适应记忆**
_Mem-π: Adaptive Memory through Learning When and What to Generate_
> 论文提出了Mem-π框架,用于大型语言模型(LLM)智能体的自适应记忆。与传统从外部记忆库检索静态条目不同,Mem-π利用独立的模型根据当前上下文动态生成特定指导,同时决定何时生成以及生成什么内容。该框架通过解耦决策与内容的强化学习目标进行训练,能在无需指导时选择不生成,否则提供简洁有用的指导。在网页导航、终端工具使用和基于文本的交互等多个智能体基准测试中,Mem-π显著优于基于检索的方法和先前的RL优化记忆基线,在网页导航任务上相对提升超过30%。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21463)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
论文提出Mem-π框架,用于LLM智能体的自适应记忆。该框架通过强化学习目标训练,使模型能动态生成特定指导,而非检索静态记忆条目,在网页导航等任务上相比基线有显著提升。
答案说明
Mem-π是一个针对LLM智能体的自适应记忆框架,它通过强化学习训练模型根据当前上下文动态生成何时以及生成什么的指导,在多个智能体基准测试中优于传统检索方法和先前的RL优化记忆基线。
这篇帖子回答的问题
- Mem-π框架是什么,它如何实现自适应记忆?
核心观点
- Mem-π框架通过解耦决策与内容的强化学习目标训练,使LLM智能体能在无需指导时选择不生成,否则提供简洁有用的指导。
- 在网页导航、终端工具使用和基于文本的交互等多个智能体基准测试中,Mem-π显著优于基于检索的方法和先前的RL优化记忆基线,在网页导航任务上相对提升超过30%。
FAQ
- Q: Mem-π与传统基于检索的记忆方法有何不同?
- A: 根据论文,Mem-π不是从外部记忆库检索静态条目,而是利用独立的模型根据当前上下文动态生成特定指导。
关键实体
- Mem-π
- 自适应记忆
- 大型语言模型(LLM)智能体