**高效可扩展的LLM生成代码片段溯源追踪技术**

_Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets_

> 本文针对大型语言模型(LLM)在代码生成中可能未经标注直接复制训练数据的问题,提出了HYBRIDSOURCETRACKER(HST)混合溯源追踪系统。该系统结合了针对代码优化的3亿参数向量检索模型SOURCETRACKER与经典的Winnowing指纹算法,采用两阶段流程:先通过向量搜索缩小候选代码范围,再用指纹匹配精确验证。实验表明,该方法在保留对数级查询效率的同时,对较长代码片段(≥60个token)的检索准确率比传统方法提升最高5.4%,能有效应对海量代码库规模的溯源需求,为解决AI代码的版权与伦理合规问题提供了可扩展的技术方案。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.28510)