연구진이 Video2LoRA라는 새로운 기술을 개발하여 비디오 추론 비용을 획기적으로 줄였습니다. Video2LoRA는 VLM이 비디오를 인코딩하는 중간 표현을 읽어 LoRA 어댑터를 예측하는 방식으로 작동합니다. 이 기술은 기존 방식보다 훨씬 빠르고 효율적으로 비디오 정보를 활용할 수 있도록 해줍니다.
SmolVLM2 500M 및 2.2B 모델을 사용하여 비디오 요약 및 캡션 작업에 대해 학습한 결과, Video2LoRA는 기존 방식과 동등한 성능을 유지하면서도 시각적 토큰 로드량을 최대 1,500배 줄이고 TTFT를 6~80배 단축했습니다. 이는 비디오 추론의 효율성을 크게 향상시키는 결과입니다.
연구진은 Video2LoRA로 생성된 어댑터가 겹치지 않는 비디오 세그먼트를 구성할 수 있다는 점을 발견하여, 장편 비디오 내부화를 위한 새로운 가능성을 제시했습니다.