연구진은 현실 세계 영상에 대한 일반화 성능이 낮은 기존 영상-영상 재렌더링 방법의 한계를 극복하기 위해 Geo-Align 프레임워크를 제안했어요. Geo-Align은 강화 학습을 활용하여 모델을 최적화하며, 카메라 경로의 정확성을 높이는 데 중점을 둡니다. 실제 조건 영상과 합성 데이터에서 추출한 카메라 경로를 기반으로 데이터 파이프라인 전략을 설계하여 쌍을 이루는 데이터에 대한 의존성을 없챘어요.
Geo-Align은 기존 지도 학습 방법보다 카메라 제어 정확도와 시각적 충실도 모두에서 뛰어난 성능을 보이며, 메트릭 3D 추정기를 통해 생성된 영상에서 정확한 카메라 경로를 추출하여 회전 및 이동 편차를 명시적으로 페널티로 적용해요. 연구 결과, Geo-Align은 기존 방법보다 효과적인 것으로 나타났어요.
Geo-Align 프레임워크는 사전 훈련된 모델을 기반으로 구축되었으며, 스케일 인식 시각적 보상 메커니즘을 통해 모델을 최적화하여 현실 세계 영상의 물리적 스케일과 카메라 궤적을 정확하게 반영하도록 설계됐어요.