STALE基准：评估LLM智能体感知记忆过时的能力

原帖

**STALE：LLM智能体能否知道其记忆何时不再有效？**

_STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?_

> 该研究聚焦于大语言模型（LLM）智能体在长期记忆管理中的一个关键盲点：隐式冲突。现有基准测试多关注静态事实检索，忽略了智能体在获得新证据后更新旧信念的能力。研究团队提出了一个名为STALE的基准测试，包含400个经过专家验证的冲突场景，用于系统评估LLM在检测过时信息、抵制错误预设以及基于新状态调整行为这三个维度的能力。测试发现，即使是前沿模型，整体准确率也仅为55.2%，普遍存在“检索到新证据但未能据此行动”的问题。为此，论文还提出了一个原型框架CUPMem，通过结构化状态整合和传播感知搜索来强化记忆修订，为构建更健壮的智能体记忆提供了新方向。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.06527)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该研究介绍了STALE基准测试，用于评估大语言模型智能体在获得新证据后能否识别并更新过时记忆。测试包含400个冲突场景，评估检测过时信息、抵制错误预设和调整行为三个维度。论文指出，前沿模型在此基准上准确率仅为55.2%，普遍存在检索到新证据但未能据此行动的问题。研究还提出了原型框架CUPMem，旨在通过结构化状态整合来强化记忆修订。

答案说明

论文通过提出名为STALE的基准测试，系统评估LLM智能体在长期记忆管理中处理隐式冲突的能力。该基准包含400个经专家验证的场景，发现前沿模型整体准确率仅为55.2%，揭示了智能体在基于新证据更新旧信念方面存在普遍困难。论文同时提出了CUPMem原型框架作为改进方向。

这篇帖子回答的问题

STALE基准测试评估LLM智能体记忆能力的哪三个维度？
根据论文，前沿模型在STALE基准上的表现如何？

核心观点

论文指出，现有基准测试多关注静态事实检索，忽略了智能体在获得新证据后更新旧信念的能力，这构成了LLM记忆管理的关键盲点。
在STALE基准测试中，前沿模型整体准确率仅为55.2%，普遍存在‘检索到新证据但未能据此行动’的问题，表明基于新证据调整行为是当前LLM智能体的普遍弱点。

FAQ

Q: LLM智能体在长期记忆管理中的核心挑战是什么？: A: 根据论文，核心挑战是处理‘隐式冲突’，即智能体在获得新证据后能否识别并更新其记忆中的过时信息或错误信念。
Q: 论文为改进LLM智能体记忆提出了什么解决方案？: A: 论文提出了一个名为CUPMem的原型框架，通过结构化状态整合和传播感知搜索来强化记忆修订。

关键实体

大语言模型（LLM）智能体
STALE基准测试
CUPMem原型框架

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题