大语言模型评估框架

Trajel框架：审计多智能体工作流中的轨迹级幻觉

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:09.589Z

该研究提出Trajel框架，用于审计多智能体工业工作流中大语言模型（LLM）的轨迹级幻觉。传统基准仅评估最终输出，而Trajel引入五类幻觉分类法（事实性、指称性、逻辑性、程序性和范围性），基于AssetOpsBench中的专家标注轨迹构建数据集。研究发现，近一半的幻觉轨迹涉及多种类型，且轨迹感知检测显著优于标准的事后验证，表明基于分类法的评估对安全部署智能体是必要的。

精选帖子

Trajel框架：审计多智能体工作流中的轨迹级幻觉

相关作者