安全对齐作为持续学习：通过正交梯度投影缓解对齐税

原帖

**安全对齐作为持续学习：通过正交梯度投影缓解对齐税**

_Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection_

> 该论文探讨了大型语言模型安全后训练中普遍存在的‘对齐税’问题，即提升模型安全性可能导致其通用能力下降。作者从持续学习视角出发，将安全对齐视为序列学习过程，梯度干扰是造成能力退化的一个重要机制。为此，他们提出了一种轻量级方法——正交梯度投影（OGPSA），该方法通过从少量通用能力数据中估计低秩参考子空间，并从安全梯度中移除该子空间的分量，从而在保持参考目标的同时进行安全优化。实验表明，OGPSA在监督微调（SFT）、直接偏好优化（DPO）及序列SFT→DPO流程中，均能有效改善安全性与通用能力之间的权衡，例如在Qwen2.5-7B-Instruct模型上将平均性能提升从33.98%提高到42.74%。代码已开源。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2602.07892)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文探讨了大型语言模型安全后训练中的“对齐税”问题，即提升安全性可能导致通用能力下降。作者将安全对齐视为持续学习过程，提出正交梯度投影（OGPSA）方法，通过估计低秩参考子空间并移除安全梯度中的相关分量来保持通用能力。实验表明，该方法在监督微调（SFT）、直接偏好优化（DPO）及序列SFT→DPO流程中能改善安全性与通用能力的权衡，例如在Qwen2.5-7B-Instruct模型上将平均性能提升从33.98%提高到42.74%。

答案说明

对齐税是大型语言模型安全后训练中普遍存在的问题，指提升安全性可能导致通用能力下降。正交梯度投影（OGPSA）通过从少量通用能力数据中估计低秩参考子空间，并从安全梯度中移除该子空间的分量，从而在保持参考目标的同时进行安全优化，有效缓解了这一权衡。

这篇帖子回答的问题

什么是大型语言模型中的‘对齐税’问题？
正交梯度投影（OGPSA）如何缓解大型语言模型的对齐税？

核心观点

对齐税是大型语言模型安全后训练中的一个关键挑战，指安全优化可能导致模型通用能力下降。
正交梯度投影（OGPSA）方法通过估计并移除安全梯度中与通用能力相关的分量，在监督微调（SFT）、直接偏好优化（DPO）及序列SFT→DPO流程中有效改善了安全性与通用能力之间的权衡。

FAQ

Q: 正交梯度投影（OGPSA）方法的核心思想是什么？: A: OGPSA的核心思想是从少量通用能力数据中估计低秩参考子空间，然后从安全梯度中移除该子空间的分量，从而在保持通用能力的同时进行安全优化。
Q: OGPSA在哪些训练流程中被验证有效？: A: 根据论文实验，OGPSA在监督微调（SFT）、直接偏好优化（DPO）及序列SFT→DPO流程中均能有效改善安全性与通用能力之间的权衡。

关键实体

正交梯度投影（OGPSA）
大型语言模型
Qwen2.5-7B-Instruct

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题