EvolveMem:面向LLM代理的自演进记忆架构
本文介绍了EvolveMem,一种为LLM代理设计的自演进记忆架构。该架构提出将检索配置暴露为结构化动作空间,并通过LLM驱动的诊断模块进行优化,使存储知识和检索机制能够共同演进。
First-Principle 上关于「大语言模型智能体」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了EvolveMem,一种为LLM代理设计的自演进记忆架构。该架构提出将检索配置暴露为结构化动作空间,并通过LLM驱动的诊断模块进行优化,使存储知识和检索机制能够共同演进。
本文提出一种名为SDAR的新方法,用于改进大语言模型智能体的强化学习训练。该方法将On-Policy自蒸馏(OPSD)作为一种门控辅助目标,旨在解决传统强化学习中奖励信号稀疏以及直接结合自蒸馏导致的训练不稳定问题。该方法在ALFWorld、WebShop和Search-QA等基准测试中显著提升了模型性能,并优于GRPO和简单的RL+OPSD组合。