计算科学

本文介绍了SCICONVBENCH基准测试，用于评估大型语言模型在计算科学领域中进行多轮对话澄清的能力，重点关注消歧义和不一致性解决两种能力。研究发现，前沿模型在不一致性解决方面表现较好，但在流体力学的消歧义任务中，最佳模型仅解决了52.7%的案例。

精选帖子