**迈向可验证的多模态深度研究:一个用于交错报告生成的多智能体框架**

_Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation_

> 本文提出了Ptah,一个用于交错报告生成的多智能体框架,旨在解决大语言模型在深度研究中面临的可验证性和多模态证据整合挑战。Ptah通过规划、研究和写作三个阶段,协调专业智能体构建视觉感知计划、收集基于事实声明的证据、维护视觉工作记忆中的源对齐图像,并通过声明式多模态工具使用来撰写报告。一个验证器智能体作为框架的验收函数,在整个工作流程中强制执行事实依据、引用保真度和跨模态一致性。此外,本文还引入了PtahEval评估协议,在现有基准上增加了图像级和展示级评估。实验表明,Ptah比强基线方法生成了更可靠、视觉信息更丰富且对人类更实用的多模态报告。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29861)