Pulse · AI 뉴스

Cambrian-P: 카메라 포즈 기반 비디오 이해 모델

Cambrian-P · 2026-05-22

Cambrian-P는 카메라 포즈 정보를 활용하여 비디오 이해 성능을 향상시키는 멀티모달 LLM입니다. 모델은 프레임별 학습 가능한 카메라 토큰과 포즈 회귀 헤드를 활용하여 공간 추론 벤치마크에서 최대 6.5% 성능 향상을 달성했습니다. 특히, 야생 비디오에서 추출한 가짜 포즈 데이터를 활용하여 학습했을 때 일반적인 비디오 QA 벤치마크 성능이 더욱 향상되었습니다.

##비디오이해##멀티모달##LLM##컴퓨터비전##포즈추정

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기