AtelierEval은 인간과 MLLM 프롬프터의 능력을 평가하는 최초의 통합 벤치마크입니다. 360개의 전문가가 제작한 작업으로 구성되어 있으며, 인지적 관점을 바탕으로 세 가지 작업 범주를 포괄합니다. AtelierJudge라는 새로운 에이전트 평가 도구를 통해 주관적, 객관적 점수를 산출하며, 인간 전문가와 0.79의 스피어만 상관관계를 보입니다.
실험 결과, MLLM이 인간보다 뛰어난 성능을 보였으며, 이미지 기반의 프롬프터 개발이 중요함을 강조합니다. AtelierEval은 진단 도구로서의 유효성을 입증했으며, 모방 전략이 계획 전략보다 우수하다는 것을 보여주었습니다.
연구 결과는 향후 연구를 지원하기 위해 공개되었습니다.