SwiftVR은 실시간 스트리밍 비디오 복원을 위한 새로운 프레임워크입니다. 기존 모델의 성능 저하 및 메모리 문제를 해결했습니다. Mask-free shifted-window self-attention 기술로 고해상도에서도 효율적인 연산이 가능합니다. RTX 5090에서 1920x1080 해상도로 26fps를 달성하며, 소비자용 GPU에서 실시간 1080p 스트리밍이 가능합니다.
기존 모델의 quadratic spatial attention과 대규모 비디오 autoencoder의 메모리 오버헤드를 줄여 소비자용 GPU에서도 사용 가능하도록 개선했습니다. Restoration-aware Autoencoder를 통해 빠른 chunk-wise decoding과 높은 복원 품질을 유지합니다. H100에서 2560x1440 해상도로 31fps, 3840x2160 해상도로 14fps를 달성했습니다.
SwiftVR은 표준 dense SDPA 호출만 사용하므로, 소비자용 GPU로 모델을 이전할 때 재학습이나 커스텀 커널이 필요 없습니다. 기존 diffusion-based VR 모델 대비 메모리 제한을 극복했습니다. 프로젝트 코드는 GitHub에서 확인할 수 있습니다.
SwiftVR은 기존 모델 대비 뛰어난 성능과 낮은 추론 비용을 제공하며, 실시간 고화질 비디오 스트리밍을 가능하게 합니다.