**Clark Hash:用于神经嵌入的无状态稀疏Johnson-Lindenstrauss量化方法**

_Clark Hash: Stateless Sparse Johnson-Lindenstrauss Quantization for Neural Embeddings_

> Clark Hash是一种用于压缩神经嵌入存储的新方法。它通过标准化向量、应用确定性的稀疏有符号Johnson-Lindenstrauss投影、裁剪结果并存储固定宽度的标量量化代码,从而将嵌入存储空间大幅减少。在默认的384维句子嵌入设置中,该方法仅需48字节即可存储一个向量,相比密集的32位浮点存储(1536字节)减少了32倍。该方法无需训练、学习码本、旋转或语料统计即可存储新向量。论文描述了编解码器、Rust实现,并在包含29个子集的9,304个标注句子对上进行了多语言句子相似性评估。使用多语言MiniLM编码器,48字节的草图在STS17和STS22数据集上与密集余弦分数的宏观皮尔逊相关系数分别达到0.910和0.946。Clark Hash并非新的Johnson-Lindenstrauss定理,也非近似最近邻索引的替代品,而是一个简单的无状态紧凑嵌入存储编解码器。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.28034)