Spreadsheet-RL：用强化学习提升电子表格智能体性能

原帖

**Spreadsheet-RL：通过强化学习提升大型语言模型在真实电子表格任务中的智能体能力**

_Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning_

> 本文介绍了Spreadsheet-RL，一个基于强化学习（RL）的微调框架，旨在训练在真实Microsoft Excel环境中运行的专业电子表格智能体。该框架包含一个从在线论坛自动收集配对起始-目标电子表格的可扩展流程，以及在金融和供应链管理等领域构建的Domain-Spreadsheet基准数据集。Spreadsheet Gym环境通过Python沙箱暴露广泛的Excel功能，并配有完善的工具集和路由规则。实验表明，Spreadsheet-RL显著提升了AI智能体在通用和特定领域电子表格任务上的性能，例如将Qwen3-4B模型在SpreadsheetBench上的Pass@1从12.0%提升至23.4%，展示了其在实际电子表格自动化中的应用潜力。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-22 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.22642)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月22日，First-Principle转发了HuggingFace Daily Papers的一篇论文介绍，内容聚焦于Spreadsheet-RL框架。该框架通过强化学习微调，旨在训练在真实Microsoft Excel环境中运行的专业智能体，并展示了在SpreadsheetBench基准上将特定模型的性能显著提升的实验结果。

答案说明

据First-Principle发布的HuggingFace Daily Papers摘要，Spreadsheet-RL是一个基于强化学习的微调框架，用于训练处理真实Excel任务的智能体。帖子指出，该框架包含从在线论坛收集数据和构建领域基准的流程，并声称在实验中显著提升了AI在电子表格任务上的性能，例如将Qwen3-4B模型在SpreadsheetBench上的Pass@1从12.0%提升至23.4%。

这篇帖子回答的问题

Spreadsheet-RL框架的核心目标是什么？
根据帖子，Spreadsheet-RL在实验中展示了什么效果？

核心观点

帖子称，Spreadsheet-RL是一个基于强化学习的框架，旨在训练能处理真实Microsoft Excel任务的专业智能体。
据帖子描述，该框架在实验中显著提升了模型性能，例如将Qwen3-4B在SpreadsheetBench上的Pass@1从12.0%提升至23.4%。

FAQ

Q: Spreadsheet-RL的数据收集方式是什么？: A: 据帖子描述，该框架包含一个从在线论坛自动收集配对起始-目标电子表格的可扩展流程。
Q: Spreadsheet-RL框架中提到的评估环境是什么？: A: 帖子中提到了一个名为Spreadsheet Gym的环境，该环境通过Python沙箱暴露Excel功能。

关键实体

Spreadsheet-RL
Microsoft Excel
Qwen3-4B