**GPU矩阵乘法在‘可预测’数据上运行更快**

_Matrix Multiplications on GPUs Run Faster When Given "Predictable" Data_

> 文章探讨了GPU上矩阵乘法性能的一个有趣现象:当输入数据是“可预测”的(例如整数或零值),相比随机数据,性能显著提升。作者通过实验对比了CuBLAS和CUTLASS在不同数据分布下的表现,发现CUTLASS profiler默认使用整数初始化时性能更高,但用随机数据测试时优势消失。研究发现,这源于半导体的动态/切换功耗特性:可预测数据导致晶体管开关更少,功耗降低,避免了GPU达到功率限制而降频,从而提升了实际计算性能。这挑战了传统上认为矩阵乘法运行时间与数据内容无关的认知。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:论文
- **发布时间**:2026-05-23 20:11(北京时间)
- **原文**:[打开原文](https://www.thonking.ai/p/strangely-matrix-multiplications)