大语言模型对齐

本文介绍了一种名为政治一致性训练（PCT）的强化学习方法，旨在减少大语言模型在处理对立政治话题时表现出的隐蔽政治偏见。该研究提出了情感一致性和帮助一致性两个量化指标，并声称PCT能在保持模型有用性的同时显著降低此类偏见。

精选帖子