**AgentKernelArena:面向 GPU 内核优化的通用性基准测试**

_AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents_

> 研究人员提出了一个名为 AgentKernelArena 的开源基准测试,用于评估 AI 编程代理在 GPU 内核优化任务中的表现。该基准包含 196 个任务,涵盖从 HIP 到 Triton 的优化以及 PyTorch 到 HIP 的翻译,并首次引入了针对未见配置的通用性测试。测试发现,现有代理在大多数任务中表现出色,优化速度最高可达 6.89 倍,但在将 PyTorch 代码转换为原生内核时,面对未见输入配置时正确率显著下降,表明代理容易硬编码形状特定假设。该框架旨在为评估代理式 GPU 内核优化提供模块化、可扩展的工具。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16819)