연구팀이 비디오 LLM의 장시간 영상 처리 문제를 해결하기 위해 효율적인 비전 인코더 'LiteFrame'을 개발했어요. LiteFrame은 기존 방식의 토큰 감소 방식에서 벗어나, 비전 인코더 자체의 속도 향상에 집중했어요.
새로운 훈련 방식인 '컴프레스트 토큰 증류(CTD)'를 통해, 복잡한 비전 모델의 정보를 압축된 형태로 학습시켜 불필요한 연산을 줄였어요.
LiteFrame은 기존 모델인 InternVL3-8B 대비 35% 더 빠른 속도로 8배 더 많은 프레임을 처리하며, 여러 벤치마크에서 비디오 이해 정확도를 향상시켰어요.