연구진은 LLM의 미술사 지식과 시각적 추론 능력을 평가하는 교육 수준 벤치마크 EduArt를 공개했어요.
EduArt는 이탈리아 중학교 교재와 미국 AP 미술사 시험 문제 871개를 기반으로, 다양한 형식과 두 가지 언어로 구성돼 있어요.
벤치마크 결과, 객관식 문제 풀이 정확도가 높은 모델도 서술형 문제에서는 낮은 성능을 보여, 단일 형식 벤치마크가 모델의 실제 능력을 과대평가할 수 있음을 확인했어요.
연구는 LLM의 미술사 지식과 활용 능력은 별개의 능력이며, 책임감 있는 활용을 위해 이러한 능력 프로필을 파악하는 것이 중요함을 강조했어요.