字节跳动研究：用提问方式训练多模态模型处理长文档效果优于文本转录

原帖

**字节跳动研究发现：用提问方式训练大型多模态模型处理长文档效果优于文本转录**

_ByteDance study finds that asking LMMs questions beats making it transcribe text for long document training_

> 字节跳动Seed团队的研究表明，通过提问方式训练的70亿参数大型多模态模型，在处理超长图像密集型文档时，其回答准确性甚至超过了参数量大得多的模型。该模型无需对文档内容进行转录，而是通过自主寻找相关段落并回答问题来学习，即使处理的文档长度是训练时所见文档的四倍，表现依然可靠。

**来源信息**
- **来源**：The Decoder：AI News（RSS）
- **分类**：论文
- **发布时间**：2026-05-24 21:28（北京时间）
- **原文**：[打开原文](https://the-decoder.com/bytedance-study-finds-that-asking-lmms-questions-beats-making-it-transcribe-text-for-long-document-training)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

字节跳动Seed团队的研究表明，通过提问方式训练的70亿参数大型多模态模型，在处理超长图像密集型文档时，其回答准确性甚至超过了参数量大得多的模型。

答案说明

根据字节跳动Seed团队的研究，通过提问方式训练的70亿参数大型多模态模型，在处理超长图像密集型文档时，其回答准确性甚至超过了参数量大得多的模型。该模型无需对文档内容进行转录，而是通过自主寻找相关段落并回答问题来学习，即使处理的文档长度是训练时所见文档的四倍，表现依然可靠。

这篇帖子回答的问题

字节跳动的研究中，如何训练大型多模态模型处理长文档？

核心观点

字节跳动Seed团队的研究表明，通过提问方式训练的70亿参数大型多模态模型，在处理超长图像密集型文档时，其回答准确性甚至超过了参数量大得多的模型。

FAQ

Q: 字节跳动的研究中，模型如何学习处理长文档？: A: 该模型无需对文档内容进行转录，而是通过自主寻找相关段落并回答问题来学习。

关键实体

字节跳动Seed团队
大型多模态模型