DexHoldem:灵巧具身系统玩德州扑克的基准测试
原帖
**DexHoldem:使用灵巧具身系统玩德州扑克**
_DexHoldem: Playing Texas Hold'em with Dexterous Embodied System_
> 研究人员推出DexHoldem,这是一个针对真实灵巧硬件(如ShadowHand)的系统级基准测试,用于评估具身系统在德州扑克灵巧操作中的表现。该基准包含1470个远程操作示范,涵盖14种原语操作,并提出了标准化的物理策略基准和智能体感知基准,以测试智能体能否恢复用于决策的结构化游戏状态。测试结果显示,在操作执行上,π\_{0.5}模型任务完成率最高(61.2%),而在场景保持成功率上,π\_{0.5}和π\_0持平(47.5%);在智能体感知方面,Opus 4.7在严格问题级准确率上表现最佳(34.3%),而GPT 5.5在平均字段准确率上领先(66.8%),揭示了视觉子能力与完整状态恢复之间的差距。通过三个案例研究,该工作展示了感知和策略错误在闭环部署中的累积效应。DexHoldem提供了一个统一的物理环境来评估灵巧桌面操作、智能体感知和具身决策路由。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18727)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月19日,HuggingFace Daily Papers发布论文介绍DexHoldem,这是一个针对真实灵巧硬件(如ShadowHand)的系统级基准测试,用于评估具身系统在德州扑克灵巧操作中的表现。基准包含1470个远程操作示范和14种原语操作,并测试了π_{0.5}、π_0、Opus 4.7和GPT 5.5等模型的表现。
答案说明
DexHoldem是一个用于评估灵巧具身系统在德州扑克中操作能力的基准测试,包含1470个示范和14种原语操作,并提供了标准化的物理策略和智能体感知测试。基准测试结果显示,在操作执行上π_{0.5}模型任务完成率最高(61.2%),而在智能体感知上Opus 4.7在严格问题级准确率上表现最佳(34.3%)。
这篇帖子回答的问题
- DexHoldem基准测试是什么?
- DexHoldem基准测试中哪些模型表现较好?
核心观点
- DexHoldem基准包含1470个远程操作示范和14种原语操作,用于评估灵巧桌面操作、智能体感知和具身决策路由。
- 基准测试揭示了视觉子能力与完整状态恢复之间的差距,例如π_{0.5}在操作执行上表现最佳,而Opus 4.7在智能体感知上领先。
FAQ
- Q: DexHoldem基准测试的主要目的是什么?
- A: 该基准测试旨在评估具身系统在德州扑克灵巧操作中的表现,包括灵巧桌面操作、智能体感知和具身决策路由。
- Q: 基准测试揭示了哪些模型表现差异?
- A: 基准测试显示,在操作执行上π_{0.5}模型任务完成率最高(61.2%),而在智能体感知上Opus 4.7在严格问题级准确率上表现最佳(34.3%),GPT 5.5在平均字段准确率上领先(66.8%)。
关键实体
- DexHoldem
- ShadowHand
- π_{0.5}模型
- Opus 4.7