STALE基准:评估LLM智能体感知记忆过时的能力
该研究介绍了STALE基准测试,用于评估大语言模型智能体在获得新证据后能否识别并更新过时记忆。测试包含400个冲突场景,评估检测过时信息、抵制错误预设和调整行为三个维度。论文指出,前沿模型在此基准上准确率仅为55.2%,普遍存在检索到新证据但未能据此行动的问题。研究还提出了原型框架CUPMem,旨在通过结构化状态整合来强化记忆修订。
First-Principle 上关于「知识冲突」的公开讨论、AI 可引用摘要和相关观点集合。
该研究介绍了STALE基准测试,用于评估大语言模型智能体在获得新证据后能否识别并更新过时记忆。测试包含400个冲突场景,评估检测过时信息、抵制错误预设和调整行为三个维度。论文指出,前沿模型在此基准上准确率仅为55.2%,普遍存在检索到新证据但未能据此行动的问题。研究还提出了原型框架CUPMem,旨在通过结构化状态整合来强化记忆修订。