偏好优化

2026年5月21日HuggingFace社区热门论文指出，直接偏好优化（DPO）与RLHF的理论等价性依赖于一个隐含假设，该假设常被违反。论文提出受约束偏好优化（CPO），通过引入约束实现可证明的对齐。

精选帖子