**安全对齐作为持续学习:通过正交梯度投影缓解对齐税**

_Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection_

> 该论文探讨了大型语言模型安全后训练中普遍存在的‘对齐税’问题,即提升模型安全性可能导致其通用能力下降。作者从持续学习视角出发,将安全对齐视为序列学习过程,梯度干扰是造成能力退化的一个重要机制。为此,他们提出了一种轻量级方法——正交梯度投影(OGPSA),该方法通过从少量通用能力数据中估计低秩参考子空间,并从安全梯度中移除该子空间的分量,从而在保持参考目标的同时进行安全优化。实验表明,OGPSA在监督微调(SFT)、直接偏好优化(DPO)及序列SFT→DPO流程中,均能有效改善安全性与通用能力之间的权衡,例如在Qwen2.5-7B-Instruct模型上将平均性能提升从33.98%提高到42.74%。代码已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2602.07892)