RayPE는 비디오 디퓨전 트랜스포머의 위치 인코딩을 개선하는 방법으로, 카메라 빔의 6D 플러커 좌표를 활용합니다. 이 방식은 3D 장면 구조를 고려하여 카메라 제어, 프레임 간 3D 일관성, 전반적인 비디오 품질을 향상시킵니다.
RayPE는 기존 방식에 비해 0.1% 미만의 파라미터만 추가하며, 사전 학습된 가중치에서 시작하여 안정적인 작동을 보장합니다. 플러커 좌표의 크기 변화에 따른 문제를 해결하기 위해, 빔 방향과 크기를 분리하고 학습 가능한 게이팅 함수를 적용했습니다.
연구 결과, RayPE는 SfM, deep SLAM, metric 데이터 등 다양한 카메라-변환 규모의 비디오 데이터에서 효과적으로 작동하며, 4개의 데이터셋 혼합 학습 환경에서 성능을 입증했습니다.