Clark Hash：用于神经嵌入的无状态稀疏Johnson-Lindenstrauss量化方法

原帖

**Clark Hash：用于神经嵌入的无状态稀疏Johnson-Lindenstrauss量化方法**

_Clark Hash: Stateless Sparse Johnson-Lindenstrauss Quantization for Neural Embeddings_

> Clark Hash是一种用于压缩神经嵌入存储的新方法。它通过标准化向量、应用确定性的稀疏有符号Johnson-Lindenstrauss投影、裁剪结果并存储固定宽度的标量量化代码，从而将嵌入存储空间大幅减少。在默认的384维句子嵌入设置中，该方法仅需48字节即可存储一个向量，相比密集的32位浮点存储（1536字节）减少了32倍。该方法无需训练、学习码本、旋转或语料统计即可存储新向量。论文描述了编解码器、Rust实现，并在包含29个子集的9,304个标注句子对上进行了多语言句子相似性评估。使用多语言MiniLM编码器，48字节的草图在STS17和STS22数据集上与密集余弦分数的宏观皮尔逊相关系数分别达到0.910和0.946。Clark Hash并非新的Johnson-Lindenstrauss定理，也非近似最近邻索引的替代品，而是一个简单的无状态紧凑嵌入存储编解码器。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-28 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.28034)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle报道了一种名为Clark Hash的神经嵌入压缩新方法。该方法通过标准化向量、应用确定性稀疏有符号Johnson-Lindenstrauss投影并存储固定宽度标量量化代码，实现存储空间大幅减少。在默认384维句子嵌入设置中，仅需48字节存储一个向量，相比密集32位浮点存储减少32倍。该方法无需训练、码本学习或语料统计，编解码器已有Rust实现，并在多语言句子相似性评估中展示了有效性。

答案说明

据First-Principle报道，Clark Hash是一种无状态神经嵌入压缩方法。它通过稀疏Johnson-Lindenstrauss投影和标量量化，将384维向量的存储从1536字节压缩至48字节（32倍压缩）。该方法无需训练或码本学习，并在多语言句子相似性基准测试中显示了与密集表示较高的相关性。

这篇帖子回答的问题

Clark Hash如何压缩神经嵌入的存储空间？
与传统的密集浮点存储相比，Clark Hash的压缩效果如何？

核心观点

Clark Hash是一种无状态、无需训练的神经嵌入压缩方法，通过稀疏Johnson-Lindenstrauss投影和标量量化实现高达32倍的存储压缩。
论文显示，使用多语言MiniLM编码器，48字节的压缩表示在STS17和STS22数据集上与密集余弦分数的宏观皮尔逊相关系数分别达到0.910和0.946。

FAQ

Q: Clark Hash方法是否需要训练或学习码本？: A: 根据论文描述，该方法无需训练、学习码本、旋转或语料统计即可存储新向量。
Q: Clark Hash方法的压缩效果在哪些基准测试中得到了验证？: A: 论文在包含29个子集的9,304个标注句子对上进行了多语言句子相似性评估，并报告了在STS17和STS22数据集上的宏观皮尔逊相关系数。

关键实体

Clark Hash
Johnson-Lindenstrauss投影
多语言MiniLM编码器
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题