**DocAtlas:支持80多种语言的跨语言文档理解框架**

_DocAtlas: Multilingual Document Understanding Across 80+ Languages_

> 针对低资源语言文档理解训练数据稀缺和标注偏差问题,研究人员提出DocAtlas框架,覆盖82种语言和9项评估任务。该框架采用差异化渲染和合成生成双流程,在统一DocTag格式中实现高保真OCR数据集和基准构建。评估16个先进模型后发现低资源语言性能存在差距。研究通过直接偏好优化(DPO)方法,利用渲染真值作为正样本信号,实现稳定的多语言适应,在域内和域外准确率分别提升1.9%和1.8%,且不损害基础语言性能,相比监督微调方法(可能导致域外性能下降21%)更优。最佳变体DocAtlas-DeepSeek在最强基线基础上提升了1.7%。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12623)