Pulse · AI 뉴스

Vision-Language 모델의 글로벌-로컬 몬테카를로 트리 탐색 기반 3D 실내 장면 생성

Vision-Language Models · 2026-06-04

연구진이 텍스트를 기반으로 3D 실내 장면을 생성하는 새로운 방법론을 제시했어요. 기존 방식의 오류 전파 문제를 해결하기 위해 글로벌-로컬 트리 탐색 방식을 도입했어요. 새로운 3DTindo-bench 데이터셋을 구축하여 모델 성능을 평가했어요.

글로벌 트리는 객체를 반복적으로 배치하며 인간의 가구 배치 과정을 모방하고, 로컬 트리는 각 객체 배치를 세분화하여 진행해요. PRM 가이드 MCTS를 활용하여 탐색 효율성을 높였어요.

사전 훈련된 이미지 생성 모델을 활용하여 장면 전체의 일관성을 유지하고, 65가지 장면 유형과 3,250개의 지침으로 구성된 대규모 데이터셋을 구축했어요. 기존 방식 대비 더욱 현실적인 3D 장면 생성 결과를 보였어요.

##3D모델##Vision-Language##MCTS##3DTindo-bench

매일 핵심 AI 소식을 한국어로, 빠르게