Pulse · AI 뉴스

Imaginative Perception Tokens, 다중 모드 언어 모델의 공간 추론 능력 향상

BAGEL · 2026-06-03

연구진은 VLMs의 공간 추론 능력 향상을 위해 Imaginative Perception Tokens (IPT)를 제안했어요. IPT는 관찰되지 않은 공간 구성 하에서 VLM이 인지할 내용을 외부화하여 공간 정보를 추론하는 데 도움을 줘요.

Perspective Taking, Path Tracing, Multiview Counting 3가지 task 데이터셋을 구축하여 IPT의 효과를 검증했어요. BAGEL 모델을 기반으로 IPT를 활용한 결과, 기존 방식보다 공간 추론 성능이 향상됐어요.

IPT는 텍스트 기반 추론 방식보다 성능이 뛰어나며, 이미지 생성 없이도 효과적이고 해석 가능한 중간 표현을 제공해요.

##VLMs##공간추론##ImaginativePercepti##AI연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기