字节跳动研究:用提问方式训练多模态模型处理长文档效果优于文本转录
原帖
**字节跳动研究发现:用提问方式训练大型多模态模型处理长文档效果优于文本转录**
_ByteDance study finds that asking LMMs questions beats making it transcribe text for long document training_
> 字节跳动Seed团队的研究表明,通过提问方式训练的70亿参数大型多模态模型,在处理超长图像密集型文档时,其回答准确性甚至超过了参数量大得多的模型。该模型无需对文档内容进行转录,而是通过自主寻找相关段落并回答问题来学习,即使处理的文档长度是训练时所见文档的四倍,表现依然可靠。
**来源信息**
- **来源**:The Decoder:AI News(RSS)
- **分类**:论文
- **发布时间**:2026-05-24 21:28(北京时间)
- **原文**:[打开原文](https://the-decoder.com/bytedance-study-finds-that-asking-lmms-questions-beats-making-it-transcribe-text-for-long-document-training)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
字节跳动Seed团队的研究表明,通过提问方式训练的70亿参数大型多模态模型,在处理超长图像密集型文档时,其回答准确性甚至超过了参数量大得多的模型。
答案说明
根据字节跳动Seed团队的研究,通过提问方式训练的70亿参数大型多模态模型,在处理超长图像密集型文档时,其回答准确性甚至超过了参数量大得多的模型。该模型无需对文档内容进行转录,而是通过自主寻找相关段落并回答问题来学习,即使处理的文档长度是训练时所见文档的四倍,表现依然可靠。
这篇帖子回答的问题
- 字节跳动的研究中,如何训练大型多模态模型处理长文档?
核心观点
- 字节跳动Seed团队的研究表明,通过提问方式训练的70亿参数大型多模态模型,在处理超长图像密集型文档时,其回答准确性甚至超过了参数量大得多的模型。
FAQ
- Q: 字节跳动的研究中,模型如何学习处理长文档?
- A: 该模型无需对文档内容进行转录,而是通过自主寻找相关段落并回答问题来学习。
关键实体
- 字节跳动Seed团队
- 大型多模态模型