HRM-Text：一种高效且低成本的语言模型预训练方法

原帖

**HRM-Text：超越规模扩展的高效预训练方法**

_HRM-Text: Efficient Pretraining Beyond Scaling_

> HRM-Text是一种受生物学习机制启发的新型语言模型预训练方法。它采用层级循环模型（HRM）替代标准Transformer，将计算分解为慢速战略层和快速执行层。通过引入MagicNorm和深度信用分配的预热策略，稳定了深度循环结构。该模型仅在400亿个唯一标记和1500美元预算下从头训练，达到了与2-7B参数开源模型相当的性能（如在MMLU上达到60.7%，ARC-C上达到81.9%），同时使用的训练标记和计算资源比传统基线少100-900倍和96-432倍。这证明了通过架构与目标协同设计，可以大幅降低计算性能比，使从头预训练对更广泛的研究社区变得可行。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.20613)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle发布文章介绍了HRM-Text，这是一种受生物学习机制启发的新型语言模型预训练方法。该方法采用层级循环模型（HRM）替代标准Transformer，并通过MagicNorm等策略稳定训练。据文章称，该模型在仅400亿标记和1500美元预算下训练，性能可比肩2-7B参数模型，且计算资源消耗远低于传统基线。

答案说明

根据First-Principle的文章，HRM-Text是一种高效预训练方法，它通过架构与目标协同设计，使用层级循环模型（HRM）替代Transformer，在极低的计算预算（1500美元）和数据量（400亿标记）下，达到了与大型开源模型相当的性能，例如在MMLU上达到60.7%，ARC-C上达到81.9%。

这篇帖子回答的问题

什么是HRM-Text？它如何实现高效预训练？
HRM-Text的训练成本和性能表现如何？

核心观点

First-Principle发布文章介绍了HRM-Text，这是一种受生物学习机制启发的新型语言模型预训练方法。该方法采用层级循环模型（HRM）替代标准Transformer，并通过MagicNorm等策略稳定训练。据文章称，该模型在仅400亿标记和1500美元预算下训练，性能可比肩2-7B参数模型，且计算资源消耗远低于传统基线。

FAQ

Q: HRM-Text的主要技术创新是什么？: A: 根据文章，主要技术创新包括：1）采用层级循环模型（HRM）替代标准Transformer，将计算分解为慢速战略层和快速执行层；2）引入MagicNorm和深度信用分配的预热策略来稳定深度循环结构。
Q: HRM-Text的训练成本低到什么程度？: A: 文章指出，该模型仅在400亿个唯一标记和1500美元预算下从头训练，所使用的资源比传统基线少100-900倍（标记）和96-432倍（计算）。

关键实体

HRM-Text
层级循环模型（HRM）
MagicNorm
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题