연구팀은 문화적 맥락을 고려한 기계 번역 성능을 평가하기 위해 CanMT라는 새로운 병렬 데이터셋과 평가 프레임워크를 개발했어요. 다양한 LLM과 번역 시스템을 평가한 결과, 모델과 번역 전략에 따라 성능 차이가 뚜렷하게 나타났어요. 문화적 지식을 인식하는 것과 실제 번역에 적용하는 것 사이에는 여전히 간극이 존재하며, 평가 시 참조 번역을 활용하는 것이 중요해요.