CulturALL은 LLM의 다국어·다문화 능력을 평가하기 위해 실제 상황 기반의 과제를 수행하는 능력을 측정하는 새로운 벤치마크예요. 전문가와 LLM이 협력하여 제작되었으며, 14개 언어, 51개 지역에서 2,610개의 샘플을 포함하고 있어요. 현재 최고 성능의 LLM도 44.48%의 정확도를 기록하며, LLM의 실력 향상을 위한 여지가 많다는 것을 보여줬어요.