연구진이 Godot 게임 엔진 기반의 게임 생성 벤치마크 GameCraft-Bench를 발표했어요. 이 벤치마크는 자연어 설명을 기반으로 플레이 가능한 게임을 만드는 코딩 에이전트의 성능을 평가합니다. 평가 기준으로는 엔진 기반, 완전한 결과물, 인터랙티브 검증이 중요하며, 현재 최고 성능 에이전트도 41.46%의 낮은 점수를 기록했습니다.
GameCraft-Bench는 140개의 Godot 작업과 15개의 게임 패밀리로 구성되어 있으며, 에이전트는 종종 인식 가능한 게임 메커니즘을 구현하지만, 완전한 게임을 만들고 시각적 피드백과 일관된 프레젠테이션을 제공하는 데 어려움을 겪고 있어요. 벤치마크 데모, 코드, 데이터는 웹사이트에서 확인할 수 있습니다.
GameCraft-Bench는 게임 생성이라는 새로운 응용 분야에서 코딩 에이전트의 한계를 보여주며, 엔진 기반, 완전한 결과물, 인터랙티브 검증이라는 세 가지 요소를 고려한 평가 프레임워크의 필요성을 강조합니다.