Pulse · AI 뉴스

다국어 LLM 평가를 위한 효율적이고 의미 있는 방법론, Multilingual-IRT

Multilingual-IRT · 2026-06-14

연구진이 다국어 LLM 평가의 한계점을 개선한 통계 프레임워크 Multilingual-IRT를 발표했어요. 이 방법은 언어별 난이도 차이, 언어 효과 분리, 언어별 능력 잔차를 고려합니다. MMLU-Pro-X 데이터셋을 활용해 25개 LLM을 29개 언어로 평가한 결과, 기존 방식보다 예측 정확도가 11~16% 향상됐어요.

Multilingual-IRT는 자동 번역 오류를 식별하는 데 효과적이며, 기존 방식이 놓치는 문화 특화된 항목을 복구할 수 있습니다. 이는 LLM의 다국어 성능 평가에 새로운 가능성을 제시합니다.

##LLM##다국어##평가##Multilingual-IRT##ItemResponseTheory

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기