연구진은 장면 이해를 위한 새로운 상호작용 기반 파싱 작업인 계층적 장면 파싱(Hierarchical Scene Parsing)을 소개했습니다. 이 작업은 장면-객체-부분-기회를 계층 구조로 표현하고, 레벨 간 연결을 통해 구조적 의존성을 파악합니다.
SceneParser-Bench 벤치마크는 11만 개의 훈련 이미지, 5천 개의 검증 데이터, 77만 개의 객체, 114만 개의 부분, 174만 개의 기회 어노테이션으로 구성되어 있으며, 레벨별 조건부 지표와 파싱률을 평가합니다.
SceneParser는 기존 모델보다 구조 인식 성능이 뛰어나며, COCO 및 AGD20K 데이터셋 평가와 다운스트림 계획 탐색 실험에서 기존 작업과의 호환성을 입증했습니다.