연구진은 LLM이 자연어 명령으로 실행 가능한 인터랙티브 3D 세계를 구축하는 능력을 평가하는 벤치마크인 WorldCoder-Bench를 공개했어요.
WorldCoder-Bench는 시뮬레이션, 렌더링, 애플리케이션 시나리오를 포함한 2,026개의 전문가가 큐레이션한 작업으로, .glb 에셋과 숨겨진 행동 계약을 포함하고 있어요.
StateProbe 프로토콜을 통해 생성된 프로그램을 검증하고, 런타임 상태와 전환을 확인하며, 자동화 ROI 및 시간 효율성 승수 지표를 통해 정확성 기반 비용 및 시간 절감 효과를 측정해요.