高效可扩展的LLM生成代码片段溯源追踪技术HYBRIDSOURCETRACKER

原帖

**高效可扩展的LLM生成代码片段溯源追踪技术**

_Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets_

> 本文针对大型语言模型（LLM）在代码生成中可能未经标注直接复制训练数据的问题，提出了HYBRIDSOURCETRACKER（HST）混合溯源追踪系统。该系统结合了针对代码优化的3亿参数向量检索模型SOURCETRACKER与经典的Winnowing指纹算法，采用两阶段流程：先通过向量搜索缩小候选代码范围，再用指纹匹配精确验证。实验表明，该方法在保留对数级查询效率的同时，对较长代码片段（≥60个token）的检索准确率比传统方法提升最高5.4%，能有效应对海量代码库规模的溯源需求，为解决AI代码的版权与伦理合规问题提供了可扩展的技术方案。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-28 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.28510)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月28日，HuggingFace Daily Papers分享了一篇关于LLM生成代码片段溯源追踪的论文。该论文提出了HYBRIDSOURCETRACKER混合系统，结合了向量检索与Winnowing指纹算法，以解决AI代码的版权与伦理合规问题。

答案说明

HYBRIDSOURCETRACKER（HST）是一个混合溯源追踪系统，用于解决大型语言模型（LLM）在代码生成中可能未经标注直接复制训练数据的问题。它结合了针对代码优化的3亿参数向量检索模型SOURCETRACKER与经典的Winnowing指纹算法，采用两阶段流程，在保留对数级查询效率的同时，对较长代码片段（≥60个token）的检索准确率比传统方法提升最高5.4%，为AI代码的版权与伦理合规问题提供了可扩展的技术方案。

这篇帖子回答的问题

HYBRIDSOURCETRACKER系统是如何工作的？
HYBRIDSOURCETRACKER系统相比传统方法有什么优势？

核心观点

HYBRIDSOURCETRACKER系统通过结合向量检索与Winnowing指纹算法，解决了LLM代码生成中的溯源问题，并在准确率和效率上优于传统方法。
该技术为解决AI代码的版权与伦理合规问题提供了可扩展的解决方案。

FAQ

Q: HYBRIDSOURCETRACKER解决了什么问题？: A: 它解决了大型语言模型（LLM）在代码生成中可能未经标注直接复制训练数据的问题，为AI代码的版权与伦理合规问题提供了技术方案。

关键实体

HYBRIDSOURCETRACKER
SOURCETRACKER
Winnowing指纹算法
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题