연구진이 하나의 질문에 대해 여러 개의 영상 구간을 찾아내는 '원투매니(One-to-Many Temporal Grounding, OMTG)' 기술에 대한 새로운 벤치마크를 발표했어요. 기존 모델은 하나의 질문에 여러 구간을 찾아내는 데 어려움을 겪어왔어요.
새로운 벤치마크는 '카운트 정확도(C-Acc)'와 '효과적인 시간 F1(EtF1)' 지표를 사용하며, 56,000개 샘플로 구성된 고품질 데이터셋을 포함하고 있어요.
연구진은 영상 캡션을 활용한 새로운 보상 함수를 개발하여 모델이 정확하고 완전하게 구간을 찾아내도록 유도했으며, Gemini 2.5 Pro와 Seed-1.8을 각각 15.85%, 15.61% 앞서는 성능을 기록했어요.