Pulse · AI 뉴스

AGC-Bench: 인공 일반 창의력 측정 벤치마크 공개

Qwen · 2026-07-02

연구진이 AI 창의력 측정 벤치마크 AGC-Bench를 발표했어요. 3,101편 논문 검토와 497개 벤치마크 분석을 통해 78개 데이터셋을 구축했어요.

AGC-Bench는 브레인스토밍, 문제 해결, STEM, 스토리텔링, 비유적 언어, 유머 등 다양한 영역을 포함하며, LLM 평가 편향을 줄이기 위해 Judge Response Theory를 적용했어요.

Qwen3-30B를 활용해 AGC-Judge 모델을 개발하여 새로운 벤치마크를 평가하며, 인간과 LLM의 창의력을 비교 분석한 결과, 인간이 LLM보다 창의력에서 우위를 점하는 것으로 나타났어요.

AGC-Bench, AGC-Judge, 인간 데이터는 공개되어 AI 창의력 측정 인프라로 활용될 예정이에요.

##AI창의력##AGC-Bench##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기