연구진이 텍스트·이미지 참조를 3D 모델링 소프트웨어의 절차적 코드로 변환하는 비전·언어 모델(VLM) 에이전트 평가를 위한 벤치마크 '3DCodeBench'를 제안했어요.
3DCodeBench는 12개의 VLM 에이전트가 절차적 3D 모델링 작업을 얼마나 효과적으로 수행하는지 평가하며, 자동화된 지표 외에 인간 선호도를 기반으로 한 3DCodeArena 플랫폼도 구축했어요.
실험 결과, API 불일치가 주요 실패 원인이며, 테스트 시간 스케일링(사고 예산 증가, 다중 턴 개선)이 성능 향상에 도움이 된다는 점을 확인했어요.