연구진은 덱스터스 로봇의 성능을 평가할 수 있는 새로운 벤치마크 'DexHoldem'을 공개했어요. 텍사스 홀덤을 플레이하며 덱스터스 조작, 장면 인식, 의사 결정 능력을 종합적으로 평가합니다.
DexHoldem은 1,470개의 시연 데이터를 포함하며, 14가지 텍사스 홀덤 조작 원시 작업을 평가할 수 있는 물리적 정책 벤치마크와 에이전트 인지 벤치마크를 제공해요.
Opus 4.7은 문제 해결 정확도가 가장 높았고, GPT 5.5는 필드별 정확도가 가장 높았으며, 시각적 하위 기능과 완전한 상태 복구 간의 격차를 보여줬어요.