연구진은 LLM의 문화적 지능을 지식 습득 문제로만 보는 기존 연구의 한계를 지적하며, 실제 시나리오에서 지식을 활용하는 능력을 평가하는 벤치마크 'CultureForest'를 발표했어요.
CultureForest는 5,378개의 예시를 포함하며, 8개 도메인과 53개 국가/지역의 문화적 규범을 기반으로 다지선택부터 개방형 생성까지 점진적인 평가를 지원해요.
실험 결과, 최첨단 모델조차 개방형 설정에서 성능이 크게 저하되며, 지역별로 큰 차이를 보였고, 모델 응답은 문화적 제약이 엄격할수록 보수적인 경향을 보였어요.