연구진은 장시간 비디오 질문 응답(LVQA)의 효율성을 높이는 TimeProVe 프레임워크를 제안했어요. TimeProVe는 가벼운 모듈로 후보 답변과 증거를 생성하고, 고비용 VLM은 타겟 검증에만 사용합니다.
TimeProVe의 핵심은 LLM 기반의 액션 기반 후보 증거(ACE) 모듈로, 시간적으로 위치한 액션을 활용해 쿼리 기반의 후보 답변과 증거 창을 생성합니다.
새로운 벤치마크 OpenTSUBench(OTB)에서 TimeProVe는 기존 방식보다 7.3% 성능을 향상시키고, VLM 호출 횟수는 75%, 추론 비용은 93% 절감했습니다.