RaPO:通过保留感知策略优化克服视觉持续学习中的灾难性遗忘
原帖
**通过强化微调克服视觉持续学习中的灾难性遗忘**
_Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning_
> 本文探讨了在视觉持续学习(包括类增量学习和领域增量学习)中,强化微调(RFT,如GRPO)相较于监督微调(SFT)在缓解灾难性遗忘方面的潜力。研究发现,尽管RFT表现优于SFT,但仍存在显著遗忘问题。作者将其归因于“轨迹级漂移不可知性”,即在相同任务奖励的候选轨迹中,与前任务策略的KL散度差异很大,这与遗忘现象强相关。为此,提出了一种名为“保留感知策略优化”(RaPO)的方法,通过轨迹级奖励塑形显式缓解遗忘。RaPO包含两个核心组件:保留奖励和跨任务优势归一化(CTAN),以稳定持续学习过程。实验表明,RaPO在五种视觉持续学习设置中实现了领先性能,显著减少了遗忘同时保持强可塑性。这是首次系统探索RFT在视觉持续学习中的应用,为未来研究提供了新见解。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.09640)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文探讨了强化微调(RFT)在视觉持续学习中缓解灾难性遗忘的潜力,提出RaPO方法,通过轨迹级奖励塑形和跨任务优势归一化显著减少遗忘。
答案说明
RaPO是一种新方法,通过轨迹级奖励塑形和跨任务优势归一化,在视觉持续学习中显式缓解灾难性遗忘,实现了领先性能。
这篇帖子回答的问题
- RaPO方法在视觉持续学习中如何缓解灾难性遗忘?
核心观点
- 本文探讨了强化微调(RFT)在视觉持续学习中缓解灾难性遗忘的潜力,提出RaPO方法,通过轨迹级奖励塑形和跨任务优势归一化显著减少遗忘。
FAQ
- Q: 本文的主要贡献是什么?
- A: 本文首次系统探索强化微调(RFT)在视觉持续学习中的应用,并提出了RaPO方法来显式缓解灾难性遗忘。
关键实体
- 强化微调(RFT)
- RaPO
- 视觉持续学习