연구팀은 멀티모달 대규모 언어 모델(MLLM)의 공간 이해 능력 부족 문제를 해결하기 위해 360° 파노라마 데이터를 활용한 새로운 접근 방식인 PanoWorld를 제안했습니다.
PanoWorld는 파노라마를 여러 시점으로 분해하는 기존 방식에서 벗어나, 등적사영(ERP) 파노라마를 연속적인 공간으로 인식하고 추론하는 데 초점을 맞추고 있습니다.
연구 결과, PanoWorld는 기존 모델들을 압도하며 공간 추론 벤치마크에서 뛰어난 성능을 보였으며, 관련 코드와 데이터는 공개될 예정입니다.