**DPO与RLHF的条件等价性:隐含假设、失败模式与可证明的对齐**

_Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment_

> 该论文指出,直接偏好优化(DPO)作为基于人类反馈的强化学习(RLHF)的替代方法,其理论等价性是有条件的,依赖于一个在实践中常被违反的隐含假设。当该假设不成立时,DPO会优化相对于参考策略的相对优势,而非与人类偏好的绝对对齐,导致病态收敛。论文提出了受约束偏好优化(CPO),通过引入约束来实现可证明的对齐,并提供了几何解释。实验表明CPO达到了先进性能。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20834)