연구진이 단일 쿼리에 여러 구간을 정렬하는 One-to-Many Temporal Grounding (OMTG) 문제를 해결하기 위한 새로운 벤치마크와 모델을 발표했어요. OMTG는 기존 모델이 이벤트 개수 인지 부족으로 어려움을 겪는 과제입니다.
새로운 벤치마크에는 Count Accuracy (C-Acc)와 Effective Temporal F1 (EtF1) 평가 지표가 도입되었고, 56,000개 샘플로 구성된 고품질 데이터셋이 구축되었어요.
Chain-of-Thought 추론을 활용한 새로운 보상 함수를 통해 Gemini 2.5 Pro와 Seed-1.8 모델보다 15% 이상 높은 EtF1 점수를 달성했어요.