연구진이 이미지 생성 모델을 활용해 공간 인식 능력을 향상시키는 새로운 방법 'Modality Forcing'을 제안했어요. 이 방법은 복잡한 레시피 없이 이미지와 깊이 정보를 함께 생성할 수 있도록 돕습니다. 특히, 370만~33억 파라미터 규모의 다양한 이미지 생성 모델을 활용해 기존 방식 대비 깊이 예측 정확도를 57% 향상시켰어요.
Modality Forcing은 각 모달리티(이미지, 깊이)별로 다른 노이즈 레벨을 적용하여 이미지와 깊이 정보를 다양한 순서로 생성할 수 있도록 지원해요. 이를 통해 희소한 실제 깊이 데이터를 활용하여 학습할 수 있으며, 일반화된 깊이 예측 성능을 확보할 수 있습니다.
연구 결과는 이미지 생성이 공간 인식 능력을 위한 확장 가능한 사전 학습 목표가 될 수 있다는 강력한 증거를 제시하며, 향후 공간 인식 기술 발전에 기여할 것으로 기대됩니다.