연구진이 AI 창의력 측정 벤치마크 AGC-Bench를 발표했어요. 3,101편 논문 검토와 497개 벤치마크 분석을 통해 78개 데이터셋을 구축했어요.
AGC-Bench는 브레인스토밍, 문제 해결, STEM, 스토리텔링, 비유적 언어, 유머 등 다양한 영역을 포함하며, LLM 평가 편향을 줄이기 위해 Judge Response Theory를 적용했어요.
Qwen3-30B를 활용해 AGC-Judge 모델을 개발하여 새로운 벤치마크를 평가하며, 인간과 LLM의 창의력을 비교 분석한 결과, 인간이 LLM보다 창의력에서 우위를 점하는 것으로 나타났어요.
AGC-Bench, AGC-Judge, 인간 데이터는 공개되어 AI 창의력 측정 인프라로 활용될 예정이에요.