AgentKernelArena：面向 GPU 内核优化的通用性基准测试

原帖

**AgentKernelArena：面向 GPU 内核优化的通用性基准测试**

_AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents_

> 研究人员提出了一个名为 AgentKernelArena 的开源基准测试，用于评估 AI 编程代理在 GPU 内核优化任务中的表现。该基准包含 196 个任务，涵盖从 HIP 到 Triton 的优化以及 PyTorch 到 HIP 的翻译，并首次引入了针对未见配置的通用性测试。测试发现，现有代理在大多数任务中表现出色，优化速度最高可达 6.89 倍，但在将 PyTorch 代码转换为原生内核时，面对未见输入配置时正确率显著下降，表明代理容易硬编码形状特定假设。该框架旨在为评估代理式 GPU 内核优化提供模块化、可扩展的工具。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.16819)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该帖子介绍了名为 AgentKernelArena 的开源基准测试，用于评估 AI 代理在 GPU 内核优化任务中的表现，包含 196 个任务并首次引入通用性测试。帖子指出，现有代理在优化速度上表现良好（最高达 6.89 倍），但在处理未见配置时正确率下降，表明存在硬编码假设问题。

答案说明

帖子讨论了 AgentKernelArena 基准测试，旨在评估 AI 代理在 GPU 内核优化（如 HIP 到 Triton 优化及 PyTorch 到 HIP 翻译）中的通用性。测试发现代理在优化速度上可达 6.89 倍提升，但面对未见输入配置时正确率显著下降，这归因于代理易硬编码形状特定假设。

这篇帖子回答的问题

AgentKernelArena 基准测试主要评估什么？
现有 AI 代理在 GPU 内核优化任务中的主要局限性是什么？

核心观点

AgentKernelArena 是一个包含 196 个任务的开源基准，用于评估 AI 代理在 GPU 内核优化（如 HIP 到 Triton 优化及 PyTorch 到 HIP 翻译）中的表现，并首次引入通用性测试。
帖子发现现有 AI 代理在优化速度上表现良好（最高达 6.89 倍），但在处理未见输入配置时正确率下降，表明代理容易硬编码形状特定假设。

FAQ

Q: AgentKernelArena 基准测试的主要目的和内容是什么？: A: 帖子介绍 AgentKernelArena 是一个开源基准测试，用于评估 AI 编程代理在 GPU 内核优化任务中的表现，包含 196 个任务并首次引入通用性测试。
Q: AI 代理在 GPU 内核优化中表现出哪些优势和局限性？: A: 帖子指出，现有代理在优化速度上表现良好（最高达 6.89 倍），但在处理未见输入配置时正确率下降，这归因于代理易硬编码形状特定假设。

关键实体

AgentKernelArena
GPU 内核优化