**Show HN:IgniteMS - 在8块A100上实现每秒25.3万消息的批量文本嵌入**

_Show HN: IgniteMS – batch text embeddings at 253K msg/s on 8x A100_

> IgniteMS是一个基于Rust和TensorRT构建的高速自托管文本嵌入引擎,专为搜索、RAG和大规模重索引等场景设计。在8块A100 GPU上,其处理速度可达每秒25.3万条消息,比Hugging Face TEI快约3倍。该引擎通过TensorRT编译优化、按文本长度分桶批处理、CPU端流水线以及Rust语言实现等技术,显著提升了处理效率。在生产环境中,它处理了超过6.85亿条消息,平均吞吐量达到每秒35.8万条,成本仅为每百万消息0.01美元,相比OpenAI API具有极高的成本效益。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-21 01:07(北京时间)
- **原文**:[打开原文](https://github.com/Artain-AI/ignite-ms)