**DiagnosticIQ:一个用于基于大语言模型的工业维护行动推荐的基准测试**

_DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules_

> 研究者引入了DiagnosticIQ基准,包含6690个专家验证的选择题,旨在评估大语言模型(LLM)在将工业设备符号化规则转化为具体维护步骤方面的决策支持能力。研究发现,顶级LLM在标准测试中表现接近,但在面对干扰项扩展或条件反转等结构性扰动时,准确性会显著下降,暴露出模式匹配的脆弱性。这表明当前LLM在工业维护应用中的部署瓶颈不在于能力,而在于校准。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.08614)