**字节跳动研究发现:用提问方式训练大型多模态模型处理长文档效果优于文本转录**

_ByteDance study finds that asking LMMs questions beats making it transcribe text for long document training_

> 字节跳动Seed团队的研究表明,通过提问方式训练的70亿参数大型多模态模型,在处理超长图像密集型文档时,其回答准确性甚至超过了参数量大得多的模型。该模型无需对文档内容进行转录,而是通过自主寻找相关段落并回答问题来学习,即使处理的文档长度是训练时所见文档的四倍,表现依然可靠。

**来源信息**
- **来源**:The Decoder:AI News(RSS)
- **分类**:论文
- **发布时间**:2026-05-24 21:28(北京时间)
- **原文**:[打开原文](https://the-decoder.com/bytedance-study-finds-that-asking-lmms-questions-beats-making-it-transcribe-text-for-long-document-training)