연구진은 다국어 번역 시스템 평가 시 발생하는 언어 간 점수 편향 문제를 해결하기 위해 XQ-MEval 데이터셋을 구축했습니다. XQ-MEval은 9개의 번역 방향을 포괄하며, 자동 오류 주입, 원어민 필터링, 오류 병합 등의 과정을 거쳐 생성되었습니다. 실험 결과, 기존 평가 방식의 문제점을 확인하고 언어 간 점수 분포를 정규화하는 전략을 제안하여 다국어 평가의 공정성과 신뢰성을 높였습니다.