RaPO：通过保留感知策略优化克服视觉持续学习中的灾难性遗忘

原帖

**通过强化微调克服视觉持续学习中的灾难性遗忘**

_Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning_

> 本文探讨了在视觉持续学习（包括类增量学习和领域增量学习）中，强化微调（RFT，如GRPO）相较于监督微调（SFT）在缓解灾难性遗忘方面的潜力。研究发现，尽管RFT表现优于SFT，但仍存在显著遗忘问题。作者将其归因于“轨迹级漂移不可知性”，即在相同任务奖励的候选轨迹中，与前任务策略的KL散度差异很大，这与遗忘现象强相关。为此，提出了一种名为“保留感知策略优化”（RaPO）的方法，通过轨迹级奖励塑形显式缓解遗忘。RaPO包含两个核心组件：保留奖励和跨任务优势归一化（CTAN），以稳定持续学习过程。实验表明，RaPO在五种视觉持续学习设置中实现了领先性能，显著减少了遗忘同时保持强可塑性。这是首次系统探索RFT在视觉持续学习中的应用，为未来研究提供了新见解。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.09640)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文探讨了强化微调（RFT）在视觉持续学习中缓解灾难性遗忘的潜力，提出RaPO方法，通过轨迹级奖励塑形和跨任务优势归一化显著减少遗忘。

答案说明

RaPO是一种新方法，通过轨迹级奖励塑形和跨任务优势归一化，在视觉持续学习中显式缓解灾难性遗忘，实现了领先性能。

这篇帖子回答的问题

RaPO方法在视觉持续学习中如何缓解灾难性遗忘？

核心观点

本文探讨了强化微调（RFT）在视觉持续学习中缓解灾难性遗忘的潜力，提出RaPO方法，通过轨迹级奖励塑形和跨任务优势归一化显著减少遗忘。

FAQ

Q: 本文的主要贡献是什么？: A: 本文首次系统探索强化微调（RFT）在视觉持续学习中的应用，并提出了RaPO方法来显式缓解灾难性遗忘。

关键实体

强化微调（RFT）
RaPO
视觉持续学习

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题