Pulse · AI 뉴스

Think While You Map: 비동기 Vision-Language 에이전트 기반 3D 장면 그래프 구축

Think While You Map · 2026-06-30

연구팀은 3D 장면 그래프 구축 시 순차적인 방식 대신 비동기 아키텍처를 제안했어요. 가벼운 온라인 매핑과 무거운 의미론적 개선을 동시에 진행하여 그래프 탐색 중에도 쿼리가 가능하도록 만들었어요. 멀티 타겟 프레임 스케줄러를 통해 VLM 비용을 절감하고, 기존 방식 대비 시맨틱 세그멘테이션 및 시각적 그라운딩 벤치마크에서 성능을 향상시켰어요.

Think While You Map은 확률 기반 복셀 백본을 사용하여 객체 ID를 안정적으로 유지하고, 비동기 VLM 에이전트를 통해 장면 그래프를 점진적으로 풍부하게 만들어요. 이 방식은 중복 객체 추적을 해결하고, 시각적 속성 및 객체 간의 공간 관계를 파악하는 데 도움을 줘요.

프로젝트 페이지에서 자세한 내용과 데모를 확인할 수 있으며, 기존 방식 대비 시각적 그라운딩 벤치마크에서 최대 18.8%의 [email protected] 성능 향상을 달성했어요.

##3D##장면그래프##Vision-Language##ThinkWhileYouMap
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기