연구팀은 번역 성능 평가 벤치마크에서 MetricX-24와 COMETKiwi가 '깨끗'으로 평가한 구간에 대한 인간 검토를 진행했습니다.
TranslateGemma-12b 모델의 번역 결과가 높은 점수를 받았지만, 실제 품질을 확인하기 위해 인간 검토를 실시했습니다.
인간 검토 결과, 자동 평가 시스템이 놓치는 오류가 71%에 달했으며, 특히 일본어 번역에서 오류가 많이 발견되었습니다.
이번 연구는 자동 평가 지표의 한계를 보여주며, 번역 품질 평가 시 인간 검토의 중요성을 강조합니다.