DOSE는 기존 데이터 필터링 방식의 높은 계산 비용 문제를 해결하기 위해, 목표 데이터셋을 한 번도 보지 않은 사전 학습 모델을 활용하여 데이터 선택을 수행하는 방법이에요.
사전 학습 모델은 텍스트 품질과 이미지-텍스트 정렬을 평가하여 데이터 선택을 돕고, 데이터 다양성을 유지하기 위해 가중치 샘플링을 적용해요.
DOSE를 통해 학습된 모델은 VQA 및 수학 벤치마크에서 전체 데이터셋으로 학습된 모델과 동등하거나 뛰어넘는 성능을 보여주며, 효율성과 확장성이 입증되었어요.