CiteVQA：为可信文档智能建立证据归因基准

原帖

**CiteVQA：为可信文档智能建立证据归因基准**

_CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence_

> 本文介绍了CiteVQA，这是一个新的文档问答基准测试。它不仅要求模型给出最终答案，还要求模型提供支撑该答案的具体文档区域（边界框引用）。该基准旨在评估模型在高风险领域（如法律、金融、医疗）中，答案与引用证据是否同时正确的能力。研究发现，现有模型普遍存在“归因幻觉”问题，即给出正确答案却引用了错误的区域，最强的商业和开源模型在严格归因准确率（SAA）上仍有很大提升空间。该研究揭示了现有评估体系的缺陷，推动了可信文档智能的发展。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.12882)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该帖介绍了CiteVQA，一个新的文档问答基准测试，要求模型在回答问题的同时提供支撑答案的具体文档区域（边界框引用），旨在评估模型在法律、金融、医疗等高风险领域中答案与引用证据是否同时正确的能力。帖子指出，现有模型普遍存在“归因幻觉”问题，即给出正确答案却引用了错误的区域，最强的商业和开源模型在严格归因准确率上仍有很大提升空间。

答案说明

CiteVQA是一个新的文档问答基准，用于评估模型在回答问题时提供正确证据引用的能力，以解决“归因幻觉”问题并推动可信文档智能的发展。

这篇帖子回答的问题

CiteVQA基准测试评估模型的什么能力？
现有模型在CiteVQA评估中暴露了什么主要问题？

核心观点

该帖介绍了CiteVQA，一个新的文档问答基准测试，要求模型在回答问题的同时提供支撑答案的具体文档区域（边界框引用），旨在评估模型在法律、金融、医疗等高风险领域中答案与引用证据是否同时正确的能力。帖子指出，现有模型普遍存在“归因幻觉”问题，即给出正确答案却引用了错误的区域，最强的商业和开源模型在严格归因准确率上仍有很大提升空间。

FAQ

Q: CiteVQA基准测试的目的是什么？: A: CiteVQA旨在评估模型在高风险领域（如法律、金融、医疗）中，答案与引用证据是否同时正确的能力，并推动可信文档智能的发展。
Q: “归因幻觉”问题是什么？: A: 根据帖子描述，“归因幻觉”是指模型给出正确答案，却引用了错误的文档区域作为证据的问题。

关键实体

CiteVQA
HuggingFace Daily Papers