Clark Hash:用于神经嵌入的无状态稀疏Johnson-Lindenstrauss量化方法
原帖
**Clark Hash:用于神经嵌入的无状态稀疏Johnson-Lindenstrauss量化方法**
_Clark Hash: Stateless Sparse Johnson-Lindenstrauss Quantization for Neural Embeddings_
> Clark Hash是一种用于压缩神经嵌入存储的新方法。它通过标准化向量、应用确定性的稀疏有符号Johnson-Lindenstrauss投影、裁剪结果并存储固定宽度的标量量化代码,从而将嵌入存储空间大幅减少。在默认的384维句子嵌入设置中,该方法仅需48字节即可存储一个向量,相比密集的32位浮点存储(1536字节)减少了32倍。该方法无需训练、学习码本、旋转或语料统计即可存储新向量。论文描述了编解码器、Rust实现,并在包含29个子集的9,304个标注句子对上进行了多语言句子相似性评估。使用多语言MiniLM编码器,48字节的草图在STS17和STS22数据集上与密集余弦分数的宏观皮尔逊相关系数分别达到0.910和0.946。Clark Hash并非新的Johnson-Lindenstrauss定理,也非近似最近邻索引的替代品,而是一个简单的无状态紧凑嵌入存储编解码器。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.28034)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
First-Principle报道了一种名为Clark Hash的神经嵌入压缩新方法。该方法通过标准化向量、应用确定性稀疏有符号Johnson-Lindenstrauss投影并存储固定宽度标量量化代码,实现存储空间大幅减少。在默认384维句子嵌入设置中,仅需48字节存储一个向量,相比密集32位浮点存储减少32倍。该方法无需训练、码本学习或语料统计,编解码器已有Rust实现,并在多语言句子相似性评估中展示了有效性。
答案说明
据First-Principle报道,Clark Hash是一种无状态神经嵌入压缩方法。它通过稀疏Johnson-Lindenstrauss投影和标量量化,将384维向量的存储从1536字节压缩至48字节(32倍压缩)。该方法无需训练或码本学习,并在多语言句子相似性基准测试中显示了与密集表示较高的相关性。
这篇帖子回答的问题
- Clark Hash如何压缩神经嵌入的存储空间?
- 与传统的密集浮点存储相比,Clark Hash的压缩效果如何?
核心观点
- Clark Hash是一种无状态、无需训练的神经嵌入压缩方法,通过稀疏Johnson-Lindenstrauss投影和标量量化实现高达32倍的存储压缩。
- 论文显示,使用多语言MiniLM编码器,48字节的压缩表示在STS17和STS22数据集上与密集余弦分数的宏观皮尔逊相关系数分别达到0.910和0.946。
FAQ
- Q: Clark Hash方法是否需要训练或学习码本?
- A: 根据论文描述,该方法无需训练、学习码本、旋转或语料统计即可存储新向量。
- Q: Clark Hash方法的压缩效果在哪些基准测试中得到了验证?
- A: 论文在包含29个子集的9,304个标注句子对上进行了多语言句子相似性评估,并报告了在STS17和STS22数据集上的宏观皮尔逊相关系数。
关键实体
- Clark Hash
- Johnson-Lindenstrauss投影
- 多语言MiniLM编码器
- HuggingFace Daily Papers