**HRM-Text:超越规模扩展的高效预训练方法**

_HRM-Text: Efficient Pretraining Beyond Scaling_

> HRM-Text是一种受生物学习机制启发的新型语言模型预训练方法。它采用层级循环模型(HRM)替代标准Transformer,将计算分解为慢速战略层和快速执行层。通过引入MagicNorm和深度信用分配的预热策略,稳定了深度循环结构。该模型仅在400亿个唯一标记和1500美元预算下从头训练,达到了与2-7B参数开源模型相当的性能(如在MMLU上达到60.7%,ARC-C上达到81.9%),同时使用的训练标记和计算资源比传统基线少100-900倍和96-432倍。这证明了通过架构与目标协同设计,可以大幅降低计算性能比,使从头预训练对更广泛的研究社区变得可行。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20613)