연구진이 텍스트-이미지 모델 학습용 데이터셋 MONET을 공개했어요. MONET은 약 1억 4천만 개의 이미지-텍스트 쌍으로 구성돼요. 안전 필터링, 중복 제거, 재-캡셔닝 과정을 거쳐 품질을 높였으며, 다양한 길이의 설명을 포함하고 있어요. MONET으로 학습한 4B 파라미터 모델이 GenEval 및 DPG 점수에서 경쟁력 있는 성능을 보여줘, 대규모 연구의 장벽을 낮출 수 있을 것으로 기대돼요.