Pulse · AI 뉴스

GameCraft-Bench: 코딩 에이전트가 실제 게임 엔진에서 게임을 만들 수 있을까?

GameCraft-Bench · 2026-06-16

연구진이 Godot 게임 엔진 기반의 게임 생성 벤치마크 GameCraft-Bench를 발표했어요. 이 벤치마크는 자연어 설명을 기반으로 플레이 가능한 게임을 만드는 코딩 에이전트의 성능을 평가합니다. 평가 기준으로는 엔진 기반, 완전한 결과물, 인터랙티브 검증이 중요하며, 현재 최고 성능 에이전트도 41.46%의 낮은 점수를 기록했습니다.

GameCraft-Bench는 140개의 Godot 작업과 15개의 게임 패밀리로 구성되어 있으며, 에이전트는 종종 인식 가능한 게임 메커니즘을 구현하지만, 완전한 게임을 만들고 시각적 피드백과 일관된 프레젠테이션을 제공하는 데 어려움을 겪고 있어요. 벤치마크 데모, 코드, 데이터는 웹사이트에서 확인할 수 있습니다.

GameCraft-Bench는 게임 생성이라는 새로운 응용 분야에서 코딩 에이전트의 한계를 보여주며, 엔진 기반, 완전한 결과물, 인터랙티브 검증이라는 세 가지 요소를 고려한 평가 프레임워크의 필요성을 강조합니다.

##게임개발##코딩에이전트##벤치마크
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기