**基础模型在AI检测器看来更像人类**

_Base Models Look Human To AI Detectors_

> 这篇论文揭示了一个惊人的发现:基础模型(Base Models)生成的文本在商业AI检测器(如GPTZero和Pangram)的评估中,往往被判定为“人类所写”,而经过指令微调(instruction-tuned)的模型生成的文本则不然。基于此,论文提出了HIP(Humanization by Iterative Paraphrasing)方法,通过最小化微调基础模型为复述器并进行迭代应用,来绕过AI检测,同时在语义保持和检测规避之间取得了更好的平衡。研究在Llama-3和Qwen-3系列模型上验证了HIP的有效性。这表明,当前的AI检测器主要依赖的是指令微调和局部上下文产生的特定模式,而非机器生成文本的本质特征,呼吁检测器设计需要更显式地建模这些因素。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19516)