연구팀은 다국어 LLM의 언어별 성능 차이가 표본 오차 때문이 아니라 체계적인 문제임을 밝혀냈습니다. 새로운 프레임워크를 통해 언어적 특징이 성능 차이의 79% (이해) ~ 92% (추론)를 설명하는 것으로 나타났습니다. NLU와 추론은 모델의 중요도가 다른데, NLU는 모델 자체의 영향이 크고 추론은 벤치마크와 모델의 상호작용이 중요합니다.