연구진이 기존 중국어-영어 번역 벤치마크의 한계를 극복하기 위해 HardMTBench를 공개했어요. HardMTBench는 12개 분야를 아우르며, 1만 개의 수작업 번역 문장과 2만 개의 테스트 항목으로 구성돼요.
HardMTBench는 LLM 기반 다중 신호 판별기를 활용해 지식 밀도, 번역 난이도, 전문 용어, 참조 정확도를 평가하고, 분야별 할당량을 고려한 난이도 융합 규칙을 적용했어요.
22개 시스템을 대상으로 한 테스트 결과, HardMTBench는 FLORES-200보다 시스템 간 GEMBA 범위가 약 2배로 넓어졌으며, 순위 재조정을 유도하고 품질 지표로는 파악하기 어려운 분야별 전문 용어 및 지식 부족 문제를 드러냈어요.