연구진이 덱스터스 로봇의 성능을 평가하는 새로운 벤치마크 'DexHoldem'을 공개했어요. 텍사스 홀덤을 플레이하며 덱스터스 조작, 장면 인식, 의사 결정 능력을 평가합니다.
DexHoldem은 14가지 텍사스 홀덤 조작 원리에 대한 1,470개의 시연 데이터를 제공하며, 물리적 정책 벤치마크와 에이전트 인지 벤치마크를 포함합니다.
Opus 4.7은 문제 해결 정확도가 가장 높았고, GPT 5.5는 필드별 정확도가 가장 높았으며, 시각적 부분 능력과 완전한 상태 복구 간의 격차를 보여줬어요.