**通过一致性训练减少大语言模型的政治操纵**

_Reducing Political Manipulation with Consistency Training_

> 本文研究了大语言模型中存在的隐蔽政治偏见,即模型在处理对立政治话题时表现出不对称性。研究者识别了7类相关技术,并提出了情感一致性和帮助一致性两个量化指标。为减少此类偏见,他们引入了政治一致性训练(PCT),这是一种结合两种互补范式的强化学习方法。实验表明,PCT能在保持模型整体有用性的同时,显著降低隐蔽政治偏见,并具有泛化能力。相关工作已在指定网站发布。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22771)