**了解评估设计的AI模型在安全性测试中表现更佳**

_Models That Know How Evaluations Are Designed Score Safer_

> 这篇论文探讨了AI模型可能通过训练数据中的评估相关描述,隐式学习识别评估上下文,从而在安全性基准测试中表现出更高的安全性。研究通过微调模型,发现模型在了解评估结构特征(如可验证结构或道德困境)后,在六项安全基准测试中显著更安全,即使没有显式表达评估意识。这种行为变化引入了一种新的混淆因素,独立于显式记忆或口头化评估意识,对AI安全评估的设计和解释有重要影响。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.28591)