연구자가 ARC-AGI-2 시각 추론 벤치마크 문제를 해결하기 위한 솔버를 개발했어요. 이 솔버는 텍스트, 이미지, 코드 채널에서 다양한 후보를 생성하는 모달 기반 검색과 모든 후보 추론 과정을 단일 프롬프트 내에서 종합적으로 판단하는 방식을 사용해요.
ARC Prize 평가 세트에서 72.9%의 정확도를 기록하며 GPT-5.2 Pro와 Gemini 3 Pro를 18.7%p 앞섰어요. 공개 평가 세트에서는 76.1%의 정확도를 기록하며, 1회 문제 해결 비용은 19.69달러예요.
연구자는 솔버의 전체 소스 코드를 공개하고, 프롬프트 템플릿과 반복적인 개선이 가설 다양성을 감소시키고 성능을 저하시킨다는 부정적인 결과를 상세히 기록했어요.