**通过强化微调克服视觉持续学习中的灾难性遗忘**

_Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning_

> 本文探讨了在视觉持续学习(包括类增量学习和领域增量学习)中,强化微调(RFT,如GRPO)相较于监督微调(SFT)在缓解灾难性遗忘方面的潜力。研究发现,尽管RFT表现优于SFT,但仍存在显著遗忘问题。作者将其归因于“轨迹级漂移不可知性”,即在相同任务奖励的候选轨迹中,与前任务策略的KL散度差异很大,这与遗忘现象强相关。为此,提出了一种名为“保留感知策略优化”(RaPO)的方法,通过轨迹级奖励塑形显式缓解遗忘。RaPO包含两个核心组件:保留奖励和跨任务优势归一化(CTAN),以稳定持续学习过程。实验表明,RaPO在五种视觉持续学习设置中实现了领先性能,显著减少了遗忘同时保持强可塑性。这是首次系统探索RFT在视觉持续学习中的应用,为未来研究提供了新见解。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.09640)