Pulse · AI 뉴스

DOSE: 사전 학습 모델을 활용한 다중 모드 LLM 데이터 선택 방법

arXiv cs.CL · 2026-04-18

DOSE는 기존 데이터 필터링 방식의 높은 계산 비용 문제를 해결하기 위해, 목표 데이터셋을 한 번도 보지 않은 사전 학습 모델을 활용하여 데이터 선택을 수행하는 방법이에요.

사전 학습 모델은 텍스트 품질과 이미지-텍스트 정렬을 평가하여 데이터 선택을 돕고, 데이터 다양성을 유지하기 위해 가중치 샘플링을 적용해요.

DOSE를 통해 학습된 모델은 VQA 및 수학 벤치마크에서 전체 데이터셋으로 학습된 모델과 동등하거나 뛰어넘는 성능을 보여주며, 효율성과 확장성이 입증되었어요.

##데이터필터링##다중모드##사전학습

매일 핵심 AI 소식을 한국어로, 빠르게