연구진은 시각-언어 모델(VLM)의 메모리 및 연산 부담을 줄이기 위해 지식 증류 프레임워크인 LLaVA-CKD를 제안했습니다. LLaVA-CKD는 중간 용량의 추가적인 교사 모델을 도입하여 학생 모델을 단계적으로 발전시키고, 지식 전달 효율을 높입니다. 제안된 프레임워크는 7개의 표준 VQA 벤치마크에서 최고 성능(SotA)을 달성하며, 기존 방식의 한계를 극복했습니다.