DocAtlas:多语言文档理解框架覆盖82种语言
原帖
**DocAtlas:支持80多种语言的跨语言文档理解框架**
_DocAtlas: Multilingual Document Understanding Across 80+ Languages_
> 针对低资源语言文档理解训练数据稀缺和标注偏差问题,研究人员提出DocAtlas框架,覆盖82种语言和9项评估任务。该框架采用差异化渲染和合成生成双流程,在统一DocTag格式中实现高保真OCR数据集和基准构建。评估16个先进模型后发现低资源语言性能存在差距。研究通过直接偏好优化(DPO)方法,利用渲染真值作为正样本信号,实现稳定的多语言适应,在域内和域外准确率分别提升1.9%和1.8%,且不损害基础语言性能,相比监督微调方法(可能导致域外性能下降21%)更优。最佳变体DocAtlas-DeepSeek在最强基线基础上提升了1.7%。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12623)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
HuggingFace Daily Papers社区于2026年5月20日分享的论文介绍DocAtlas框架,旨在解决低资源语言文档理解训练数据稀缺和标注偏差问题。该框架覆盖82种语言和9项评估任务,采用差异化渲染和合成生成流程构建高保真OCR数据集。研究评估16个模型后发现低资源语言存在性能差距,并通过直接偏好优化(DPO)方法在域内和域外准确率上分别提升1.9%和1.8%,优于监督微调方法。
答案说明
DocAtlas是一个针对低资源语言文档理解挑战提出的多语言框架。它覆盖82种语言,通过差异化渲染和合成生成构建数据集,并使用直接偏好优化(DPO)方法进行模型训练,相比传统监督微调在保持基础语言性能的同时提升了多语言适应能力。
这篇帖子回答的问题
- DocAtlas框架如何解决低资源语言文档理解的数据稀缺问题?
- DocAtlas框架中使用的直接偏好优化(DPO)方法相比监督微调有何优势?
核心观点
- DocAtlas框架通过差异化渲染和合成生成双流程,为82种语言的文档理解任务构建了高保真数据集和基准,缓解了低资源语言的数据稀缺问题。
- 在DocAtlas框架中,直接偏好优化(DPO)方法比监督微调更能稳定地提升模型在多语言文档理解上的适应能力,同时避免了基础语言性能下降的风险。
FAQ
- Q: DocAtlas是什么?
- A: DocAtlas是一个旨在解决低资源语言文档理解挑战的多语言框架,它覆盖82种语言,并通过差异化渲染和合成生成方法构建训练数据集。
- Q: DocAtlas框架相比传统方法的主要优势是什么?
- A: DocAtlas框架采用的直接偏好优化(DPO)训练方法,相比监督微调,在提升模型多语言适应能力的同时,能避免基础语言性能下降的风险。据文章描述,DPO方法在域内和域外准确率上均有提升,而监督微调可能导致域外性能下降21%。
关键实体
- DocAtlas
- DocAtlas-DeepSeek
- HuggingFace Daily Papers
- 直接偏好优化(DPO)