Pulse · AI 뉴스

MUTATE: LLM 에이전트의 창의적 사고력 평가 벤치마크

ReDNA · 2026-05-27

연구진은 LLM 에이전트의 창의적 사고력을 평가하는 새로운 벤치마크 MUTATE를 공개했어요. MUTATE는 목표 달성을 위한 다양한 경로 탐색(path-level)과 비정형적인 행동(action-level)을 평가합니다.

기존 벤치마크와 달리, MUTATE는 성공 여부뿐 아니라 다양한 시도 과정을 점수화하여 LLM의 창의적 사고력을 측정합니다. 실험 결과, LLM은 즉각적인 목표 달성 압박에 취약한 것으로 나타났어요.

ReDNA라는 새로운 프레임워크를 통해 LLM의 창의적 사고력을 향상시켰으며, 이는 단순한 환경 탐색이 아닌 질적으로 개선된 사고 과정 덕분임을 확인했어요.

##LLM##에이전트##창의력##벤치마크
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기