**利用代理指标预测大语言模型下游性能**

_Forecasting Downstream Performance of LLMs With Proxy Metrics_

> 本文提出了一种构建代理指标的方法,通过聚合候选模型在专家撰写解决方案上的下一词分布统计(如熵、top-k准确率和专家词秩),来预测大语言模型的下游性能。这些代理指标在三种场景中(跨模型族选择、预训练数据选择、训练时预测)均优于基于损失和计算的传统基线,例如在跨模型族排序中Spearman Rho达0.81,远高于交叉熵损失的0.36,且能在直接评估计算量减少一万倍的情况下可靠排序25个候选语料库。研究表明,专家轨迹是评估模型能力的广泛有用信号源,可在模型开发生命周期中实现可靠的性能预测。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18607)