연구진이 실제 과학 연구 시나리오를 평가하는 벤치마크 SciAgentArena를 공개했어요. SciAgentArena는 200개 이상의 단계별 검증 작업과 다양한 AI 에이전트를 평가할 수 있는 환경을 제공해요. 현재 에이전트는 명확한 구조와 평가 기준이 있는 데이터 분석 작업 흐름에서 효과적으로 기여하지만, 창의적인 통찰력 생성이나 자율적인 탐색에는 어려움을 겪고 있어요.