ShapeCodeBench는 렌더링된 이미지를 기반으로 실행 가능한 드로잉 프로그램을 생성하는 모델의 성능을 평가하는 새로운 벤치마크입니다. v1 DSL은 512x512 캔버스에서 4가지 기본 원시를 사용하며, 시드된 RNG에서 생성되므로 정확한 인스턴스 오염을 줄일 수 있습니다. Claude Opus 4.7과 GPT-5.5를 평가한 결과, 현재 벤치마크는 포화되지 않았으며, 더 많은 발전의 여지가 있습니다.