연구팀은 장비 영상의 불필요한 시간적 중복 문제를 해결하기 위해 쿼리 및 콘텐츠 기반 장비 프레임 선택 프레임워크 QCA를 제안했어요. QCA는 쿼리 관련성 및 콘텐츠 편차를 동시에 모델링하여 각 세그먼트에 장비 프레임 예산을 동적으로 할당해요.
각 세그먼트 내에서 QCA는 가장 쿼리 관련성이 높은 프레임을 기준으로 하여 다양성을 극대화하면서 높은 의미적 관련성을 유지하며 추가 프레임을 반복적으로 통합해요.
QCA는 추가 훈련 없이 기존 Video-LLM에 통합 가능하며, LongVideoBench에서 GPT-4o보다 더 적은 프레임 수로 더 높은 성능을 달성했어요.