연구진은 3D 장면에서 자연어 지시를 통해 객체를 정확하게 지칭하는 SSR3D-LLM을 제안했어요. 이 모델은 기존 방식의 단일 지시 방식의 한계를 극복하기 위해 공간 추론 단계를 활용합니다.
SSR3D-LLM은 Mask3D 객체 제안을 기반으로 공간 추론 단계를 순차적으로 작성하고, 이를 통해 후보 순위를 점진적으로 개선하며, 학습 시 참조 힌트 감독 신호를 활용합니다.
ReferIt3D, ScanRefer, Multi3DRef 데이터셋에서 기존 3D-LLM 기반 모델보다 뛰어난 성능을 보였으며, 특히 미세한 지칭 작업에서 두드러진 향상을 기록했어요.