NGM：一种用于大语言模型的即插即用无需训练的记忆模块

原帖

**NGM：一种用于LLM的即插即用、无需训练的记忆模块**

_NGM: A Plug-and-Play Training-Free Memory Module for LLMs_

> 本文提出了NGM（N-gram Memory），一种用于大语言模型的即插即用、无需训练的记忆模块。它通过因果N-gram编码器和基于余弦门的记忆注入器，在不需要额外训练、参数或检索流程的情况下，直接利用主干模型的预训练词嵌入构建N-gram表示，并将其注入模型上下文。在Qwen3系列模型（0.6B至14B）上的评估显示，NGM在代码生成和知识密集型任务（如LiveCodeBench和GPQA）上带来了显著性能提升（最高达+3.0分），并提高了多模态基准的表现。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.16893)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了NGM（N-gram Memory），一种即插即用、无需额外训练或检索流程的大语言模型记忆模块。它通过因果N-gram编码器和基于余弦门的记忆注入器，利用模型预训练词嵌入构建表示并注入上下文，在Qwen3系列模型上的评估显示其在代码生成和知识密集型任务上带来显著性能提升。

答案说明

NGM（N-gram Memory）是一种用于大语言模型的即插即用、无需训练的记忆模块。它通过因果N-gram编码器和基于余弦门的记忆注入器工作，无需额外训练、参数或检索流程，直接利用主干模型的预训练词嵌入构建N-gram表示并注入模型上下文。在Qwen3系列模型上的评估表明，它在代码生成和知识密集型任务（如LiveCodeBench和GPQA）上带来了最高达+3.0分的性能提升，并提高了多模态基准的表现。

这篇帖子回答的问题

什么是NGM（N-gram Memory）？
NGM在哪些任务上带来了性能提升？

核心观点

NGM是一种即插即用、无需训练的大语言模型记忆模块，它通过因果N-gram编码器和基于余弦门的记忆注入器工作。
根据评估，NGM在代码生成和知识密集型任务（如LiveCodeBench和GPQA）上带来了显著性能提升（最高达+3.0分）。

FAQ

Q: NGM需要额外的训练或参数吗？: A: 根据文章，NGM是即插即用、无需训练的记忆模块，不需要额外训练、参数或检索流程。
Q: NGM在哪些模型和任务上进行了评估？: A: 文章指出，评估是在Qwen3系列模型（0.6B至14B）上进行的，任务涉及代码生成和知识密集型任务（如LiveCodeBench和GPQA）。

关键实体

NGM (N-gram Memory)
Qwen3系列模型
LiveCodeBench
GPQA