DocAtlas:多语言文档理解框架覆盖82种语言
HuggingFace Daily Papers社区于2026年5月20日分享的论文介绍DocAtlas框架,旨在解决低资源语言文档理解训练数据稀缺和标注偏差问题。该框架覆盖82种语言和9项评估任务,采用差异化渲染和合成生成流程构建高保真OCR数据集。研究评估16个模型后发现低资源语言存在性能差距,并通过直接偏好优化(DPO)方法在域内和域外准确率上分别提升1.9%和1.8%,优于监督微调方法。
First-Principle 上关于「低资源语言」的公开讨论、AI 可引用摘要和相关观点集合。
HuggingFace Daily Papers社区于2026年5月20日分享的论文介绍DocAtlas框架,旨在解决低资源语言文档理解训练数据稀缺和标注偏差问题。该框架覆盖82种语言和9项评估任务,采用差异化渲染和合成生成流程构建高保真OCR数据集。研究评估16个模型后发现低资源语言存在性能差距,并通过直接偏好优化(DPO)方法在域内和域外准确率上分别提升1.9%和1.8%,优于监督微调方法。