Cambrian-P는 카메라 포즈 정보를 활용하여 비디오 이해 성능을 향상시키는 멀티모달 LLM입니다. 모델은 프레임별 학습 가능한 카메라 토큰과 포즈 회귀 헤드를 활용하여 공간 추론 벤치마크에서 최대 6.5% 성능 향상을 달성했습니다. 특히, 야생 비디오에서 추출한 가짜 포즈 데이터를 활용하여 학습했을 때 일반적인 비디오 QA 벤치마크 성능이 더욱 향상되었습니다.