연구진이 LLM 창의성 평가를 위한 자동화된 도메인 불문 프레임워크를 개발했어요. 이 프레임워크는 기존 방식의 한계를 극복하고 다양한 작업에서 LLM의 창의성을 측정할 수 있도록 설계됐어요.
새로운 프레임워크는 '분산 창의성'을 측정하기 위해 의미론적 엔트로피를 활용하고, '수렴 창의성'은 다중 에이전트 심판 프레임워크를 통해 평가하며, 인간 평가와도 일치하는 결과를 보였어요.
MacGyver, HypoGen, BookMIA 등 3가지 분야에서 LLM을 평가한 결과, 모델 크기, 온도, 최근성, 추론 능력 등이 창의성 성능에 영향을 미치는 것으로 나타났어요.