**SELFCI:基于互补自蒸馏的LLM上下文完整性隐私保护框架**

_It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs_

> 本文提出SELFCI框架,旨在解决大型语言模型(LLM)在作为个人代理处理敏感工作流时,难以平衡隐私保护与任务性能的问题。SELFCI通过互补的自蒸馏方法,将信息抑制与任务解决解耦,联合优化两个独立的反向KL散度,分别保留任务相关信息并限制不当披露,从而形成专家乘积(PoE)目标,使模型策略同时满足能力与隐私要求。实验表明,该方法无需昂贵外部监督,性能优于在线强化学习基线,并在涉及代理工作流和累积隐私上下文的域外场景中保持有效性,为LLM实现上下文完整性对齐提供了实用路径。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20258)