**SCICONVBENCH:评估LLM在计算科学任务制定中的多轮澄清能力**

_SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science_

> 本文介绍了SCICONVBENCH基准测试,用于评估大型语言模型(LLMs)在计算科学领域(流体力学、固体力学、材料科学和偏微分方程)中进行多轮对话澄清的能力。该基准测试重点关注两种能力:获取缺失信息(消歧义)和检测并修正包含矛盾信息的错误请求(不一致性解决)。研究发现,前沿模型在不一致性解决方面表现较好,但在流体力学的消歧义任务中,最佳模型仅解决了52.7%的案例,并常做出未与用户对话的隐性假设。该研究为评估可靠计算科学助手所需的对话推理能力奠定了基础。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18630)