TranslateGemma-12b가 Claude Sonnet, GPT-5.4 등 최신 모델을 자막 번역 성능으로 넘어섰다는 이전 벤치마크 결과에 대한 후속 조사를 진행했습니다.
인간 검수 결과, TranslateGemma-12b 번역의 71%가 자동 지표가 제대로 감지하지 못한 오류를 포함하고 있었습니다.
일본어 번역은 유창하지만 의미가 틀린 패턴을 보였고, 태국어는 과도한 내용 추가 오류가 발생했습니다.
이번 검증은 TranslateGemma-12b가 실제 뛰어난 성능을 보이는지 확인하기 위해 진행되었으며, 결과는 자동 지표의 한계를 보여줍니다.