연구진이 MLLM 기반 에이전트의 인지 발달 연령 일치성을 평가하는 새로운 벤치마크 ChildAgentEval을 발표했어요. ChildAgentEval은 아동의 발달 단계를 기준으로 에이전트의 추론 능력을 평가하며, 현재 AI 시스템의 한계를 보여줘요. WISC 아동 지능 검사에서 영감을 받아 개발되었으며, 다양한 MLLM 기반 에이전트의 성능을 비교 분석해요.
최첨단 AI 에이전트는 복잡한 작업은 수행하지만, 어린 아이도 쉽게 해결할 수 있는 기본적인 작업에서 어려움을 겪는 경우가 많다는 점을 지적해요. ChildAgentEval은 이러한 AI 에이전트의 인지 발달 수준을 객관적으로 측정하는 데 목표를 두고 있어요.
ChildAgentEval은 현재 AI 시스템이 어떤 인지적 행동을 모방할 수 있고, 어떤 부분에서 한계를 보이는지 파악하는 데 도움을 줄 수 있을 것으로 기대돼요.