**SNLP:通过结构化牛顿校正实现层并行推理**

_SNLP: Layer-Parallel Inference via Structured Newton Corrections_

> 本文提出了结构化牛顿层并行(SNLP)框架,旨在解决自回归语言模型中Transformer层顺序执行带来的延迟瓶颈。该方法将隐藏状态跨层的演化视为一个非线性残差方程,并用廉价的架构诱导代理动力学替代精确的雅可比-向量积牛顿校正,从而实现层间并行计算。在残差Transformer中,这对应于恒等牛顿(IDN)更新;在mHC架构中,则利用模型的残差混合矩阵(HCN)。研究还引入了SNLP感知正则化,训练模型使一次或少数几次结构化牛顿迭代能准确近似顺序前向计算。实验表明,该方法能提升层并行兼容性并改善标准顺序困惑度(降低4.7%-23.4%),在推理时结合层融合和分块分解可实现实际加速(如在0.5B模型上达到2.3倍加速,同时困惑度提升6.1%)。研究也指出了局限性:现成预训练模型不太适用于此方法,且精确收敛仅能恢复顺序计算而非提供单调推理时缩放。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17842)