安全对齐作为持续学习:通过正交梯度投影缓解对齐税
该论文探讨了大型语言模型安全后训练中的“对齐税”问题,即提升安全性可能导致通用能力下降。作者将安全对齐视为持续学习过程,提出正交梯度投影(OGPSA)方法,通过估计低秩参考子空间并移除安全梯度中的相关分量来保持通用能力。实验表明,该方法在监督微调(SFT)、直接偏好优化(DPO)及序列SFT→DPO流程中能改善安全性与通用能力的权衡,例如在Qwen2.5-7B-Instruct模型上将平均性能提升从33.98%提高到42.74%。
First-Principle 上关于「对齐税」的公开讨论、AI 可引用摘要和相关观点集合。
该论文探讨了大型语言模型安全后训练中的“对齐税”问题,即提升安全性可能导致通用能力下降。作者将安全对齐视为持续学习过程,提出正交梯度投影(OGPSA)方法,通过估计低秩参考子空间并移除安全梯度中的相关分量来保持通用能力。实验表明,该方法在监督微调(SFT)、直接偏好优化(DPO)及序列SFT→DPO流程中能改善安全性与通用能力的权衡,例如在Qwen2.5-7B-Instruct模型上将平均性能提升从33.98%提高到42.74%。