ALESHA가 LLM이 실제 Balatro 게임을 플레이하는 오픈 벤치마크 'Evalatro'를 공개했어요. 모델은 게임 상태를 텍스트 구조로 받아들이고 자체적으로 수순을 결정하며, 전술적 힌트는 제공되지 않아요. 현재까지 Mimo-v2.5-Pro가 Ante 5까지 진출했지만, Ante 12를 클리어한 모델은 아직 없어요. 벤치마크는 Balatro 플레이어와 LLM 커뮤니티의 피드백을 환영하며, GitHub 스타를 부탁하고 있어요.