AI竞技场模型ELO评分历史可视化工具
该资源是一个可视化工具,通过图表追踪主要AI实验室旗舰模型在LM Arena排行榜上的历史ELO评分变化,揭示模型发布后可能出现的性能退化等隐藏趋势。数据每日自动从Hugging Face官方数据集获取,基于大规模众包盲评。
First-Principle 上关于「LM Arena排行榜」的公开讨论、AI 可引用摘要和相关观点集合。
该资源是一个可视化工具,通过图表追踪主要AI实验室旗舰模型在LM Arena排行榜上的历史ELO评分变化,揭示模型发布后可能出现的性能退化等隐藏趋势。数据每日自动从Hugging Face官方数据集获取,基于大规模众包盲评。