CRAFT는 대규모 데이터셋에서 고품질의 작은 부분집합을 선택하여 시퀀스-투-시퀀스 모델을 미세 조정하는 새로운 방법이에요.
CRAFT는 검증 데이터의 소스 분포와 일치하도록 k-means 클러스터에 예산을 할당하고, 각 클러스터 내에서 검증 대상 분포에서 파생된 조건부 기대 거리를 최소화하는 훈련 쌍을 선택하는 방식으로 작동해요.
CRAFT는 TSDS보다 2.13 BLEU 포인트 더 높은 43.34 BLEU를 달성했으며, 선택 과정은 40배 더 빠르게 완료되었고, TF-IDF 벡터화를 사용하면 CPU에서 1분 안에 전체 파이프라인을 완료했어요.