연구진이 대규모 모델 사전 훈련 시 데이터 필터링의 효과를 조사한 결과, 충분한 컴퓨팅 자원이 있다면 데이터 필터링이 오히려 성능을 저해할 수 있다고 밝혔습니다. 기존의 믿음과는 달리, 저품질 데이터도 모델 훈련에 도움이 될 수 있다는 점이 확인됐습니다. 특히 고성능 모델은 품질이 낮은 데이터와 불필요한 데이터를 잘 처리하며, 오히려 훈련에 긍정적인 영향을 미치는 것으로 나타났습니다.