利用代理指标预测大语言模型下游性能

原帖

**利用代理指标预测大语言模型下游性能**

_Forecasting Downstream Performance of LLMs With Proxy Metrics_

> 本文提出了一种构建代理指标的方法，通过聚合候选模型在专家撰写解决方案上的下一词分布统计（如熵、top-k准确率和专家词秩），来预测大语言模型的下游性能。这些代理指标在三种场景中（跨模型族选择、预训练数据选择、训练时预测）均优于基于损失和计算的传统基线，例如在跨模型族排序中Spearman Rho达0.81，远高于交叉熵损失的0.36，且能在直接评估计算量减少一万倍的情况下可靠排序25个候选语料库。研究表明，专家轨迹是评估模型能力的广泛有用信号源，可在模型开发生命周期中实现可靠的性能预测。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-22 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18607)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

HuggingFace Daily Papers 发布的论文提出了一种利用专家撰写解决方案的下一词分布统计（如熵、top-k准确率、专家词秩）构建代理指标的方法。该方法在跨模型族选择、预训练数据选择、训练时预测三种场景中，优于基于损失和计算的传统基线。

答案说明

该论文提出通过聚合候选模型在专家解决方案上的下一词分布统计来构建代理指标，用于预测大语言模型下游性能。这些代理指标在三种场景中均优于传统基线，例如在跨模型族排序中 Spearman Rho 达到0.81，远高于交叉熵损失的0.36。

这篇帖子回答的问题

如何利用代理指标预测大语言模型的下游性能？
代理指标在预测大语言模型性能方面相比传统基线有何优势？

核心观点

论文提出的方法通过聚合专家解决方案上的下一词分布统计构建代理指标，能在模型开发生命周期中实现可靠的性能预测。
该代理指标方法在跨模型族排序中表现优异，Spearman Rho 达到0.81，远高于交叉熵损失的0.36。

FAQ

Q: 什么是利用代理指标预测大语言模型下游性能？: A: 这是论文提出的一种方法，通过聚合候选模型在专家撰写解决方案上的下一词分布统计（如熵、top-k准确率和专家词秩）构建代理指标，用于预测大语言模型的下游性能。
Q: 代理指标在哪些场景中优于传统基线？: A: 根据论文，在跨模型族选择、预训练数据选择、训练时预测三种场景中，代理指标均优于基于损失和计算的传统基线。

关键实体

代理指标
大语言模型
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题