**《忠诚度指标无法衡量忠诚度:基于真实标签的元评估》**

_Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth_

> 本文针对大语言模型推理链的忠诚度评估问题展开研究。当前常用的忠诚度指标(如置信度、重要性等)可能无法真实反映模型内部计算过程,导致对推理链的信任误判。研究团队通过构建任务并设计自动化标注流程,首次生成了步骤级和链级的忠实标签,推出了包含13个任务、10个模型的3,066条标注推理链的基准数据集BonaFide。实验发现,现有主流指标表现接近随机、存在预测偏差且在长推理链上效果下降,最佳指标在链级仅达0.70 AUROC,步骤级仅0.59 AUROC,且计算成本高昂。研究揭示了当前评估方法的根本缺陷,呼吁开发更可靠高效的指标。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25052)