Pulse · AI 뉴스

CaMo: 카메라 움직임 기반 평가 및 Vision-Language 모델 훈련

CaMo · 2026-05-20

연구진은 기존 Vision-Language 모델(VLM)이 기본적인 카메라 움직임 이해 능력이 부족함을 지적했어요. 새로운 평가 프레임워크 'Spatial Narrative Score (SNS)'를 통해 VLM의 공간적 서술 능력과 추론 과정을 평가했어요. CaMo는 카메라 움직임을 기반으로 훈련된 VLM으로, SNS 평가와 직접적인 공간 질문 답변 정확도 모두에서 우수한 성능을 보여줘요.

기존 VLM은 공간적 질문 답변 정확도가 높지만, SNS 평가에서는 성능이 저하되는 한계가 있었어요. 이는 VLM이 실제 공간적 이해 능력이 부족하다는 것을 시사해요. CaMo는 공간적 서술 과정을 명시적으로 외부화하여 VLM의 3D 공간 이해 능력을 향상시켰어요.

연구 결과는 VLM의 공간적 이해 능력을 평가하고 향상시키는 데 있어 명시적인 공간적 서술 외부화의 중요성을 강조해요. CaMo 관련 코드, 데이터, 모델은 GitHub에서 확인할 수 있어요.

##VLM##카메라움직임##공간인지##평가##CaMo
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기