推理幻象:通过零链式思维截断揭露大语言模型中规避型数据污染
原帖
**推理幻象:通过零链式思维截断揭露大语言模型中规避型数据污染**
_The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation_
> 该论文针对大语言模型(LLMs)中数据污染问题,指出恶意模型发布者会通过规避性策略(如对基准数据进行改写)来逃避检测并人为提升排行榜表现。现有方法难以可靠检测此类隐蔽污染。研究揭示了一个关键现象:模型生成的推理步骤会主动掩盖其底层记忆行为。基于此,论文提出了Zero-CoT Probe(ZCP)黑盒检测方法,通过故意截断整个链式思维过程来暴露潜在的捷径映射。ZCP通过比较模型在原始基准数据集与同构扰动参考数据集上的零链式思维性能,来隔离记忆与内在问题解决能力。此外,论文引入了'污染置信度'指标,量化污染的可能性和严重程度,超越了简单的二元分类。实验表明ZCP能稳健检测直接和规避型数据污染。代码已开源。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21856)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文针对大语言模型(LLMs)中的规避型数据污染问题,提出了Zero-CoT Probe(ZCP)黑盒检测方法。ZCP通过截断链式思维过程来暴露模型的记忆行为,并引入了'污染置信度'指标来量化污染的可能性和严重程度。
答案说明
论文提出了一种名为Zero-CoT Probe(ZCP)的黑盒检测方法,通过故意截断模型的链式思维推理过程,可以暴露大语言模型(LLMs)中隐蔽的规避型数据污染。该方法通过比较模型在原始数据和扰动数据上的零链式思维性能来区分记忆与真实推理能力,并引入'污染置信度'指标进行量化评估。
这篇帖子回答的问题
- 如何检测大语言模型中隐蔽的规避型数据污染?
- 什么是Zero-CoT Probe(ZCP)检测方法?
核心观点
- 大语言模型生成的推理步骤可能主动掩盖其底层的记忆行为,而非真正的推理过程。
- 通过截断链式思维并比较模型在原始与扰动数据上的性能,可以有效区分模型的记忆能力与真实的问题解决能力。
FAQ
- Q: ZCP方法检测数据污染的基本原理是什么?
- A: ZCP通过故意截断模型的链式思维(CoT)推理过程,迫使模型直接输出答案。通过比较模型在原始基准数据和经过同构扰动的参考数据上的表现差异,可以判断模型是依赖记忆(污染)还是依赖内在推理能力。
- Q: 规避型数据污染与传统数据污染有何不同?
- A: 根据论文描述,规避型数据污染是指恶意发布者对基准数据进行改写,以逃避现有检测方法,从而人为提升模型在排行榜上的表现。传统检测方法难以可靠识别这种隐蔽的污染。
关键实体
- Zero-CoT Probe (ZCP)
- 大语言模型 (LLMs)
- HuggingFace Daily Papers