연구진이 다국어 LLM 평가의 한계점을 개선한 통계 프레임워크 Multilingual-IRT를 발표했어요. 이 방법은 언어별 난이도 차이, 언어 효과 분리, 언어별 능력 잔차를 고려합니다. MMLU-Pro-X 데이터셋을 활용해 25개 LLM을 29개 언어로 평가한 결과, 기존 방식보다 예측 정확도가 11~16% 향상됐어요.
Multilingual-IRT는 자동 번역 오류를 식별하는 데 효과적이며, 기존 방식이 놓치는 문화 특화된 항목을 복구할 수 있습니다. 이는 LLM의 다국어 성능 평가에 새로운 가능성을 제시합니다.