**如何构建你自己的AI基准测试**

_How to Build Your Own AI Benchmark_

> 本文指出公开AI基准测试(如MMLU、HumanEval)存在数据污染和厂商优化问题,导致其无法真实反映模型在特定代码库中的实际表现。文章建议团队使用自身代码库中的真实问题(如重构、测试编写等)构建简单评分系统:提取已解决代码、编写程序化检查、测试模型并计算百分比得分。通过多次独立运行模型并比较平均分,团队可以更可靠地评估AI模型对自身工作的适用性,OpenAI和Anthropic等公司也采用类似方法。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:tip
- **发布时间**:2026-05-19 20:29(北京时间)
- **原文**:[打开原文](https://theendofcoding.com/blog/how-to-build-ai-benchmarks)