연구진은 시각-언어 모델 훈련에 필요한 데이터와 연산량을 줄이는 데이터 증류 방법 VLDD를 제안했어요. 기존 방법은 유클리드 공간에서 엄격한 정렬을 강제하지만, 실제 데이터는 순위 결핍 문제를 가지고 있어 비효율적이에요.
연구진은 순위 기반 초구면 정렬(RAHA) 방법을 통해 시각-언어 표현을 계층적 초구면 공간으로 옮겨 주요 의미 영역의 정렬을 강화하고 나머지 영역은 다양성을 유지했어요.
실험 결과, RAHA는 제한된 환경에서 경쟁력 있는 성능을 보였으며, 데이터 전송 성능 지표도 향상됐어요.