SCICONVBENCH：评估LLM在计算科学任务制定中的多轮澄清能力

原帖

**SCICONVBENCH：评估LLM在计算科学任务制定中的多轮澄清能力**

_SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science_

> 本文介绍了SCICONVBENCH基准测试，用于评估大型语言模型（LLMs）在计算科学领域（流体力学、固体力学、材料科学和偏微分方程）中进行多轮对话澄清的能力。该基准测试重点关注两种能力：获取缺失信息（消歧义）和检测并修正包含矛盾信息的错误请求（不一致性解决）。研究发现，前沿模型在不一致性解决方面表现较好，但在流体力学的消歧义任务中，最佳模型仅解决了52.7%的案例，并常做出未与用户对话的隐性假设。该研究为评估可靠计算科学助手所需的对话推理能力奠定了基础。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18630)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了SCICONVBENCH基准测试，用于评估大型语言模型在计算科学领域中进行多轮对话澄清的能力，重点关注消歧义和不一致性解决两种能力。研究发现，前沿模型在不一致性解决方面表现较好，但在流体力学的消歧义任务中，最佳模型仅解决了52.7%的案例。

答案说明

SCICONVBENCH是一个评估LLM在计算科学任务中多轮澄清能力的基准测试。它测试两种能力：消歧义（获取缺失信息）和不一致性解决（检测并修正矛盾请求）。研究显示，前沿模型在不一致性解决上表现较好，但在消歧义方面，最佳模型在流体力学任务中仅解决了52.7%的案例，并常做出未与用户对话的隐性假设。

这篇帖子回答的问题

什么是SCICONVBENCH基准测试？
前沿模型在SCICONVBENCH的消歧义任务中表现如何？

核心观点

SCICONVBENCH基准测试评估LLM在计算科学中的两种核心对话澄清能力：消歧义和不一致性解决。
前沿模型在计算科学任务的消歧义方面存在明显局限，在流体力学消歧义任务中最佳模型仅解决了52.7%的案例。

FAQ

Q: SCICONVBENCH评估LLM的哪些能力？: A: 该基准测试评估两种能力：获取缺失信息（消歧义）和检测并修正包含矛盾信息的错误请求（不一致性解决）。
Q: LLM在计算科学消歧义任务中的表现如何？: A: 研究发现，前沿模型在流体力学的消歧义任务中，最佳模型仅解决了52.7%的案例，并常做出未与用户对话的隐性假设。

关键实体

SCICONVBENCH
大型语言模型
计算科学