연구진은 고대 및 멸종 위기 언어의 번역 성능을 평가하던 중, 기존 연구의 결과가 데이터 오염으로 인해 과장되었음을 밝혀냈습니다. 재현성 실험 결과, 공개된 모델의 BLEU 점수가 37.0점에 불과했으며, 이는 기존 연구의 61.5점과 큰 차이를 보였습니다. 데이터 오염으로 인해 테스트 데이터의 2%가 학습 데이터와 동일하게 나타났고, 이는 모델 성능을 크게 왜곡하는 요인으로 작용했습니다.