연구진이 장편 비디오 생성 시 오류 누적 문제를 해결하기 위해 검색 증강 생성(RAG) 프레임워크 LongLive-RAG을 제안했어요.
LongLive-RAG은 이전에 생성된 latent를 검색 가능한 역사로 활용하여, 최근 window에만 의존하는 sliding-window attention의 한계를 극복해요.
Window Temporal Delta Loss를 도입하여 시간적 변화를 반영하는 검색 성능을 높였으며, 다양한 AR backbone과 생성 길이에서 우수한 성능을 보였어요.