DexHoldem：灵巧具身系统玩德州扑克的基准测试

原帖

**DexHoldem：使用灵巧具身系统玩德州扑克**

_DexHoldem: Playing Texas Hold'em with Dexterous Embodied System_

> 研究人员推出DexHoldem，这是一个针对真实灵巧硬件（如ShadowHand）的系统级基准测试，用于评估具身系统在德州扑克灵巧操作中的表现。该基准包含1470个远程操作示范，涵盖14种原语操作，并提出了标准化的物理策略基准和智能体感知基准，以测试智能体能否恢复用于决策的结构化游戏状态。测试结果显示，在操作执行上，π\_{0.5}模型任务完成率最高（61.2%），而在场景保持成功率上，π\_{0.5}和π\_0持平（47.5%）；在智能体感知方面，Opus 4.7在严格问题级准确率上表现最佳（34.3%），而GPT 5.5在平均字段准确率上领先（66.8%），揭示了视觉子能力与完整状态恢复之间的差距。通过三个案例研究，该工作展示了感知和策略错误在闭环部署中的累积效应。DexHoldem提供了一个统一的物理环境来评估灵巧桌面操作、智能体感知和具身决策路由。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18727)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月19日，HuggingFace Daily Papers发布论文介绍DexHoldem，这是一个针对真实灵巧硬件（如ShadowHand）的系统级基准测试，用于评估具身系统在德州扑克灵巧操作中的表现。基准包含1470个远程操作示范和14种原语操作，并测试了π_{0.5}、π_0、Opus 4.7和GPT 5.5等模型的表现。

答案说明

DexHoldem是一个用于评估灵巧具身系统在德州扑克中操作能力的基准测试，包含1470个示范和14种原语操作，并提供了标准化的物理策略和智能体感知测试。基准测试结果显示，在操作执行上π_{0.5}模型任务完成率最高（61.2%），而在智能体感知上Opus 4.7在严格问题级准确率上表现最佳（34.3%）。

这篇帖子回答的问题

DexHoldem基准测试是什么？
DexHoldem基准测试中哪些模型表现较好？

核心观点

DexHoldem基准包含1470个远程操作示范和14种原语操作，用于评估灵巧桌面操作、智能体感知和具身决策路由。
基准测试揭示了视觉子能力与完整状态恢复之间的差距，例如π_{0.5}在操作执行上表现最佳，而Opus 4.7在智能体感知上领先。

FAQ

Q: DexHoldem基准测试的主要目的是什么？: A: 该基准测试旨在评估具身系统在德州扑克灵巧操作中的表现，包括灵巧桌面操作、智能体感知和具身决策路由。
Q: 基准测试揭示了哪些模型表现差异？: A: 基准测试显示，在操作执行上π_{0.5}模型任务完成率最高（61.2%），而在智能体感知上Opus 4.7在严格问题级准确率上表现最佳（34.3%），GPT 5.5在平均字段准确率上领先（66.8%）。

关键实体

DexHoldem
ShadowHand
π_{0.5}模型
Opus 4.7