연구진은 인공지능의 일반적인 능력인 발견에서 활용까지의 루프를 평가하기 위한 마인크래프트 기반 벤치마크 SciCrafter를 새롭게 선보였습니다.
GPT-5.2, Gemini-3-Pro, Claude-Opus-4.5 등 최첨단 모델들은 SciCrafter에서 약 26%의 성공률로 한계에 도달했으며, 지식 격리 식별이 주요 장애물로 부상했습니다.
SciCrafter는 AI 시스템이 발견에서 활용까지의 전체 루프를 탐색하는 데 있어 지식 격리 식별 능력을 진단하는 도구로 공개되었습니다.