연구진이 실시간으로 스트리밍 영상에서 3D 공간을 이해하는 Stream3D-VLM 모델을 공개했어요. VSFI 모듈로 시각 정보에 공간 정보를 점진적으로 추가하고, GAVC 모듈로 효율적인 시각 토큰 압축을 지원해요. 100만 개의 온라인 3D 질의응답 데이터셋을 구축하고, 29가지 작업에 걸쳐 기존 모델보다 성능이 우수했어요.