연구진이 이미지-비디오 변환 학습을 위한 새로운 혼합 전문가 프레임워크 VidPrism을 제안했어요.
VidPrism은 기능별로 특화된 전문가를 활용하여 공간 이해부터 시간 모델링까지 역할을 분담하고, 콘텐츠 기반 멀티 레이트 샘플링 모듈로 각 전문가에게 적합한 입력을 제공해요.
다양한 비디오 인식 벤치마크 실험 결과, VidPrism은 최고 성능을 달성하고 전문가 특화를 효과적으로 촉진하는 것을 입증했어요. GitHub에서 소스 코드를 확인할 수 있어요.