CiteVQA:为可信文档智能建立证据归因基准
原帖
**CiteVQA:为可信文档智能建立证据归因基准**
_CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence_
> 本文介绍了CiteVQA,这是一个新的文档问答基准测试。它不仅要求模型给出最终答案,还要求模型提供支撑该答案的具体文档区域(边界框引用)。该基准旨在评估模型在高风险领域(如法律、金融、医疗)中,答案与引用证据是否同时正确的能力。研究发现,现有模型普遍存在“归因幻觉”问题,即给出正确答案却引用了错误的区域,最强的商业和开源模型在严格归因准确率(SAA)上仍有很大提升空间。该研究揭示了现有评估体系的缺陷,推动了可信文档智能的发展。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12882)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该帖介绍了CiteVQA,一个新的文档问答基准测试,要求模型在回答问题的同时提供支撑答案的具体文档区域(边界框引用),旨在评估模型在法律、金融、医疗等高风险领域中答案与引用证据是否同时正确的能力。帖子指出,现有模型普遍存在“归因幻觉”问题,即给出正确答案却引用了错误的区域,最强的商业和开源模型在严格归因准确率上仍有很大提升空间。
答案说明
CiteVQA是一个新的文档问答基准,用于评估模型在回答问题时提供正确证据引用的能力,以解决“归因幻觉”问题并推动可信文档智能的发展。
这篇帖子回答的问题
- CiteVQA基准测试评估模型的什么能力?
- 现有模型在CiteVQA评估中暴露了什么主要问题?
核心观点
- 该帖介绍了CiteVQA,一个新的文档问答基准测试,要求模型在回答问题的同时提供支撑答案的具体文档区域(边界框引用),旨在评估模型在法律、金融、医疗等高风险领域中答案与引用证据是否同时正确的能力。帖子指出,现有模型普遍存在“归因幻觉”问题,即给出正确答案却引用了错误的区域,最强的商业和开源模型在严格归因准确率上仍有很大提升空间。
FAQ
- Q: CiteVQA基准测试的目的是什么?
- A: CiteVQA旨在评估模型在高风险领域(如法律、金融、医疗)中,答案与引用证据是否同时正确的能力,并推动可信文档智能的发展。
- Q: “归因幻觉”问题是什么?
- A: 根据帖子描述,“归因幻觉”是指模型给出正确答案,却引用了错误的文档区域作为证据的问题。
关键实体
- CiteVQA
- HuggingFace Daily Papers