연구진은 객체 중심적 한계를 극복하기 위해 장면 이해를 위한 객체 부위 인지 3D-MLLM 프레임워크 PAR3D를 공개했어요.
PAR3D는 객체와 부위를 이해하고 추론하며 3D 장면에서 연결할 수 있도록 설계됐으며, ScenePart 데이터셋과 Part-Aware 3D Representation Learning 기술을 활용했어요.
실험 결과, PAR3D는 부위 수준의 질의응답과 객체 지칭 분할 성능을 크게 향상시켰고, 기존 객체 수준 시각 언어 작업에서도 뛰어난 성능을 보였어요.