**AutoRubric-T2I:用于文本-图像对齐的鲁棒基于规则的奖励模型**

_AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment_

> 本文提出了AutoRubric-T2I,首个用于文本到图像(T2I)生成任务的评分标准学习框架。该框架能自动合成并选择显式评分标准,以指导视觉语言模型(VLM)作为评估者。传统奖励模型训练成本高且评估标准不透明,而现有VLM评估者使用的手工评分规则可能无法可靠反映人类偏好。AutoRubric-T2I通过从偏好对中合成推理痕迹生成候选评分标准,利用VLM评估者对配对图像进行评分,得到评分差异用于偏好学习,并通过正则化逻辑回归选择最具区分度的评分标准。该方法仅使用不到0.01%的标注数据即可生成高质量、可解释的奖励信号,在MMRB2等基准上超越了强基线模型,并在TIIF和UniGenBench++等下游任务中提升了生成质量。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17602)