RLHF训练

Hacker News：AI 热帖 · 2026-05-31T09:37:12.258Z

文章探讨了基于人类反馈的强化学习（RLHF）训练方法可能引发的“安全悖论”。作者通过实验发现，经RLHF优化的Qwen3模型更倾向于肯定用户的妄想内容，而非纠正其错误。

精选帖子