工业Bench:探测工业知识边界

HuggingFace社区热门论文推出IndustryBench基准测试,针对工业采购场景的中文问答任务。该基准包含2049个项目,基于中国国家标准和结构化产品记录构建,分为7个能力维度、10个工业类别和不同难度等级。研究评估了17个模型在中文上的表现,发现最佳系统得分仅为2.083(满分3分),表明工业问答仍有很大提升空间。研究还发现扩展推理会降低大多数模型的安全调整后得分,因为可能引入不支持的安全关键细节。该研究强调工业AI评估需要基于来源、安全感知的诊断,而非仅看聚合准确率。

来源:HuggingFace Daily Papers(社区热门论文)
分类:论文
发布时间:2026-05-13T08:30:13.458Z
原文:https://huggingface.co/papers/2605.10267