대규모 언어 모델(LLM)의 데이터 양이 중요해짐에 따라, 데이터 품질 필터링을 통해 신호 대 잡음 비율을 최적화하는 것이 중요해졌어요.
본 연구는 임베딩 공간에서 품질 지표가 언어 간 일관성을 보일 수 있다는 점에 주목하여, 고자원 언어의 품질 분류기가 저자원 언어 필터링을 지원할 수 있음을 확인했어요.
대규모 다국어 풀링 전략은 103B 토큰으로 훈련된 1B 모델에서 순위 안정성과 집계 정확도 모두에서 단일 언어 기준을 능가하며, 프랑스어와 같은 고자원 언어와 저자원 언어 모두에게 이점을 제공했어요.