**FINESSE-Bench:一个用于评估大型语言模型金融领域知识与技术分析能力的分层基准测试套件**

_FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models_

> 研究人员提出了FINESSE-Bench,这是一个包含8个子基准、共计3,993道题目的评估套件,旨在对大型语言模型在金融领域的专业能力进行分层评估。该套件结合了类似CFA/CMT等专业认证的考试数据集、应用交易任务以及一个俄语奥林匹克基准,旨在衡量模型的专业知识广度、难度增加时的性能衰减、计算任务解决能力以及在特定金融领域的行为。它提供了一套统一的评估协议和自动化评分方案,旨在为评估LLM的金融专业能力提供更实质性的工具。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15482)