Pulse · AI 뉴스

Proxy3D: 시맨틱 클러스터링 기반 3D 비전-언어 모델

Proxy3D · 2026-05-09

Proxy3D는 3D 공간 추론에 어려움을 겪는 비전-언어 모델(VLM)의 성능을 개선하기 위한 새로운 방법입니다. 비디오 프레임을 입력받아 시맨틱 및 기하학적 특징을 추출하고, 3D 공간에서 시맨틱 인지 클러스터링을 수행하여 프록시 표현을 생성합니다.

SpaceSpan 데이터셋을 활용하여 3D 프록시 표현을 VLM에 적용하는 다단계 학습을 진행했습니다. 이를 통해 3D 시각적 질문 답변, 시각적 기반 설정 등 다양한 벤치마크에서 경쟁력 있는 성능을 달성했습니다.

Proxy3D는 짧은 시퀀스를 사용할 때 비전 정보에 대한 효율적인 3D 표현을 제공하며, 기존 방법들의 한계를 극복합니다.

##3D##비전-언어모델##프록시##클러스터링
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기