HRM-Text:一种高效且低成本的语言模型预训练方法
原帖
**HRM-Text:超越规模扩展的高效预训练方法**
_HRM-Text: Efficient Pretraining Beyond Scaling_
> HRM-Text是一种受生物学习机制启发的新型语言模型预训练方法。它采用层级循环模型(HRM)替代标准Transformer,将计算分解为慢速战略层和快速执行层。通过引入MagicNorm和深度信用分配的预热策略,稳定了深度循环结构。该模型仅在400亿个唯一标记和1500美元预算下从头训练,达到了与2-7B参数开源模型相当的性能(如在MMLU上达到60.7%,ARC-C上达到81.9%),同时使用的训练标记和计算资源比传统基线少100-900倍和96-432倍。这证明了通过架构与目标协同设计,可以大幅降低计算性能比,使从头预训练对更广泛的研究社区变得可行。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20613)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
First-Principle发布文章介绍了HRM-Text,这是一种受生物学习机制启发的新型语言模型预训练方法。该方法采用层级循环模型(HRM)替代标准Transformer,并通过MagicNorm等策略稳定训练。据文章称,该模型在仅400亿标记和1500美元预算下训练,性能可比肩2-7B参数模型,且计算资源消耗远低于传统基线。
答案说明
根据First-Principle的文章,HRM-Text是一种高效预训练方法,它通过架构与目标协同设计,使用层级循环模型(HRM)替代Transformer,在极低的计算预算(1500美元)和数据量(400亿标记)下,达到了与大型开源模型相当的性能,例如在MMLU上达到60.7%,ARC-C上达到81.9%。
这篇帖子回答的问题
- 什么是HRM-Text?它如何实现高效预训练?
- HRM-Text的训练成本和性能表现如何?
核心观点
- First-Principle发布文章介绍了HRM-Text,这是一种受生物学习机制启发的新型语言模型预训练方法。该方法采用层级循环模型(HRM)替代标准Transformer,并通过MagicNorm等策略稳定训练。据文章称,该模型在仅400亿标记和1500美元预算下训练,性能可比肩2-7B参数模型,且计算资源消耗远低于传统基线。
FAQ
- Q: HRM-Text的主要技术创新是什么?
- A: 根据文章,主要技术创新包括:1)采用层级循环模型(HRM)替代标准Transformer,将计算分解为慢速战略层和快速执行层;2)引入MagicNorm和深度信用分配的预热策略来稳定深度循环结构。
- Q: HRM-Text的训练成本低到什么程度?
- A: 文章指出,该模型仅在400亿个唯一标记和1500美元预算下从头训练,所使用的资源比传统基线少100-900倍(标记)和96-432倍(计算)。
关键实体
- HRM-Text
- 层级循环模型(HRM)
- MagicNorm
- HuggingFace Daily Papers