**LiSA:通过保守策略归纳实现终身安全适应**

_LiSA: Lifelong Safety Adaptation via Conservative Policy Induction_

> 论文提出LiSA框架,旨在解决AI智能体在真实部署中面临的动态安全护栏适应问题。当AI从聊天界面转向处理隐私数据、调用工具和执行多步骤工作流时,传统安全护栏的失效可能导致严重后果(如泄露机密或执行不安全操作)。LiSA通过结构化记忆将偶发性安全失效转化为可复用的策略抽象,以在稀疏反馈下实现泛化;并引入冲突感知规则和基于后验置信度的门控机制,防止在混合标注场景下的过度泛化。在多个基准测试中,LiSA在稀疏和带噪声反馈下均优于现有方法,为应对现实世界长尾风险提供了实用路径。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14454)