**迈向原生多模态建模:路线图**

_Toward Native Multimodal Modeling: A Roadmap_

> 本文正式定义了原生多模态建模(NMM)的架构概念,将模型分为多模态到文本、多模态到目标和多模态到多模态三类,并从工业视角系统梳理了向NMM过渡的完整流程,包括架构设计、数据整理、训练方法、推理部署及评估体系。该路线图旨在推动统一Transformer范式内理解与生成能力的无缝融合。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25343)