**看得越多就懂得越多吗?多源视觉推理中的单锚定优势归一化**

_Does Seeing More Mean Knowing More? Mono-Anchored Advantage Normalization for Multi-Source Visual Reasoning_

> 本文针对多源视觉推理任务中现有方法难以有效整合不同模态信息的问题,提出MARS框架。该方法将每个视觉模态视为独立信息源,并利用单源奖励作为动态锚点,将多源融合带来的信息增益显式纳入优势归一化,从而在强化学习过程中自适应地促进源间协同、抑制噪声干扰。理论分析表明该方法能在梯度估计中有效量化信息增益,实验在GRPO和DAPO算法上分别取得3.2%和4.9%的性能提升,验证了其有效性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25437)