연구진은 ARC-AGI-3 게임에서 실행 가능한 파이썬 세계 모델을 활용하는 코딩 에이전트 시스템을 평가했습니다. 이 시스템은 이전 관찰과 세계 모델을 비교하고, 단순화된 추상화를 통해 모델을 개선하며, 행동 전 계획을 수립합니다.
에이전트는 25개의 공개 ARC-AGI-3 게임에서 테스트되었으며, 7개의 게임을 완전히 해결하고 6개의 게임에서 인간 행동 효율성(RHAE)이 75%를 초과했습니다.
연구 결과는 검증 기반의 실행 가능한 세계 모델이 ARC-AGI-3 에이전트에게 유망한 접근 방식임을 시사하며, 게임별 코드가 없어 범용적인 기준선으로 활용될 수 있습니다.