Trajel框架:审计多智能体工作流中的轨迹级幻觉
该研究提出Trajel框架,用于审计多智能体工业工作流中大语言模型(LLM)的轨迹级幻觉。传统基准仅评估最终输出,而Trajel引入五类幻觉分类法(事实性、指称性、逻辑性、程序性和范围性),基于AssetOpsBench中的专家标注轨迹构建数据集。研究发现,近一半的幻觉轨迹涉及多种类型,且轨迹感知检测显著优于标准的事后验证,表明基于分类法的评估对安全部署智能体是必要的。
First-Principle 上关于「大语言模型评估框架」的公开讨论、AI 可引用摘要和相关观点集合。
该研究提出Trajel框架,用于审计多智能体工业工作流中大语言模型(LLM)的轨迹级幻觉。传统基准仅评估最终输出,而Trajel引入五类幻觉分类法(事实性、指称性、逻辑性、程序性和范围性),基于AssetOpsBench中的专家标注轨迹构建数据集。研究发现,近一半的幻觉轨迹涉及多种类型,且轨迹感知检测显著优于标准的事后验证,表明基于分类法的评估对安全部署智能体是必要的。