연구진은 자연어 명세를 플레이 가능한 인터랙티브 시스템으로 변환하는 게임 생성을 코딩 에이전트의 새로운 활용 분야로 제시했어요.
GameCraft-Bench는 140개의 Godot 작업을 포함하는 벤치마크로, 엔진 기반, 완전한 결과물, 인터랙티브 검증의 세 가지 요소를 평가하는 프레임워크를 사용해요.
현재 코딩 에이전트의 성능은 낮은 수준으로, 가장 뛰어난 에이전트도 41.46%의 성공률을 기록하며, 완전한 게임 제작, 시각적 피드백, 일관성 있는 프레젠테이션에 어려움을 겪고 있어요.