**STALE:LLM智能体能否知道其记忆何时不再有效?**

_STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?_

> 该研究聚焦于大语言模型(LLM)智能体在长期记忆管理中的一个关键盲点:隐式冲突。现有基准测试多关注静态事实检索,忽略了智能体在获得新证据后更新旧信念的能力。研究团队提出了一个名为STALE的基准测试,包含400个经过专家验证的冲突场景,用于系统评估LLM在检测过时信息、抵制错误预设以及基于新状态调整行为这三个维度的能力。测试发现,即使是前沿模型,整体准确率也仅为55.2%,普遍存在“检索到新证据但未能据此行动”的问题。为此,论文还提出了一个原型框架CUPMem,通过结构化状态整合和传播感知搜索来强化记忆修订,为构建更健壮的智能体记忆提供了新方向。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.06527)