연구진은 장비디오 이해의 어려움을 해결하기 위해 쿼리 기반 시공간적 집중-맥락 폴딩 프레임워크인 Q-Fold를 제안했어요. Q-Fold는 기존 방식과 달리 쿼리와 관련된 시공간적 세그먼트를 고해상도 Focus Frame으로 보존하고, 관련성이 낮은 세그먼트는 맥락 정보를 유지하면서 폴딩하는 방식이에요.
Q-Fold는 중요한 시각적 증거와 넓은 시간적 범위를 보존하면서도 짧은 세그먼트 내에서 지역적 시간적 연속성을 유지하며, 4개의 장비디오 벤치마크에서 성능 향상을 보였어요.
특히 초장비디오 벤치마크에서 최대 9.1%p 성능 향상을 달성했으며, 코드 공개 예정이에요.