**SemBridge:通过多语言语义桥实现稀疏编码器的语言迁移**

_SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges_

> 本文提出SemBridge,一种新的嵌入初始化方法,旨在通过利用多语言密集嵌入作为桥梁,解决稀疏编码器跨语言适应中的结构限制。该方法通过在源语言和目标语言词汇间建立语义对齐,选择语义相关的源语言标记来初始化目标语言标记,从而过滤语义噪声并重构目标标记为精确的线性组合。这加速了微调过程中的收敛并提高了训练效率。实验表明,SemBridge在五种语言和四种稀疏架构上实现了卓越的零样本检索性能,并在微调后持续优于现有基线,为在多语言环境中部署高性能稀疏检索系统提供了实用解决方案。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26002)