**RankJudge:基于多轮对话的LLM-as-a-Judge合成基准生成器**

_RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator_

> 本文介绍了RankJudge,一个用于评估大型语言模型在多轮对话中作为评判者能力的基准生成器。它通过生成成对的对话,其中一对中注入一个特定错误,从而明确区分优劣对话,并能精确定位错误类别。研究在机器学习、生物医学和金融领域实施,评估了21个前沿LLM评判者,并利用Bradley-Terry模型进行排名。该方法还能为对话对分配难度评级,用于动态调整评估集以减少标注噪声。结果表明,评判排名在部分可观察、较粗略的正确性标准以及替代的随机游走评级算法下保持稳定。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21748)