**DexHoldem:使用灵巧具身系统玩德州扑克**

_DexHoldem: Playing Texas Hold'em with Dexterous Embodied System_

> 研究人员推出DexHoldem,这是一个针对真实灵巧硬件(如ShadowHand)的系统级基准测试,用于评估具身系统在德州扑克灵巧操作中的表现。该基准包含1470个远程操作示范,涵盖14种原语操作,并提出了标准化的物理策略基准和智能体感知基准,以测试智能体能否恢复用于决策的结构化游戏状态。测试结果显示,在操作执行上,π\_{0.5}模型任务完成率最高(61.2%),而在场景保持成功率上,π\_{0.5}和π\_0持平(47.5%);在智能体感知方面,Opus 4.7在严格问题级准确率上表现最佳(34.3%),而GPT 5.5在平均字段准确率上领先(66.8%),揭示了视觉子能力与完整状态恢复之间的差距。通过三个案例研究,该工作展示了感知和策略错误在闭环部署中的累积效应。DexHoldem提供了一个统一的物理环境来评估灵巧桌面操作、智能体感知和具身决策路由。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18727)