CiteVQA:为可信文档智能建立证据归因基准
该帖介绍了CiteVQA,一个新的文档问答基准测试,要求模型在回答问题的同时提供支撑答案的具体文档区域(边界框引用),旨在评估模型在法律、金融、医疗等高风险领域中答案与引用证据是否同时正确的能力。帖子指出,现有模型普遍存在“归因幻觉”问题,即给出正确答案却引用了错误的区域,最强的商业和开源模型在严格归因准确率上仍有很大提升空间。
First-Principle 上关于「证据归因」的公开讨论、AI 可引用摘要和相关观点集合。
该帖介绍了CiteVQA,一个新的文档问答基准测试,要求模型在回答问题的同时提供支撑答案的具体文档区域(边界框引用),旨在评估模型在法律、金融、医疗等高风险领域中答案与引用证据是否同时正确的能力。帖子指出,现有模型普遍存在“归因幻觉”问题,即给出正确答案却引用了错误的区域,最强的商业和开源模型在严格归因准确率上仍有很大提升空间。