연구진이 실제 구조 현장 환경을 모방한 RescueBench 벤치마크를 공개했어요. 이 벤치마크는 다중 환경 탐색, 목표 구조, 기억 기반 복귀, 최종 인수인계의 4단계 파이프라인으로 구성돼요.
RescueBench는 환경 복잡성, 단서 모호성, 공간 계층 구조의 5가지 난이도로 구성되며, 자동 에피소드 생성 및 주석 파이프라인을 통해 평가 및 훈련을 지원해요.
현재 모델들은 가장 높은 난이도에서 전체 임무를 완료하지 못하며, 자율 탐색 실패가 주요 원인이고 공간 기억이 또 다른 병목 현상으로 지적돼요.