Pulse · AI 뉴스

장시간 동영상 자연어 시간 정렬은 검색 문제: 벤치마크 및 실증적 분해

ExtremeWhenBench · 2026-06-11

연구진은 시간 정렬이 장시간 동영상에서 검색 성능에 좌우된다는 점을 밝혀냈어요. 새로운 벤치마크 'ExtremeWhenBench'를 공개하여 시간 규모가 큰 동영상에 대한 자연어 질의 응답 성능을 평가했어요. 기존 Video-LLM은 검색 능력 부족으로 실패했지만, 프레임 단위 검색 방식이 더 나은 성능을 보여줬어요.

ExtremeWhenBench는 194개의 동영상(최대 9시간)에 대한 2,273개의 질의를 포함하며, 기존 Video-LLM은 대부분 검색 실패로 인해 성능이 저하되는 것으로 나타났어요. 연구 결과, 실패 원인의 85%가 검색 문제이며, 검색 후 정렬 방식이 단일 모델보다 6.7배 더 높은 성능을 보였어요.

##시간정렬##동영상##검색##ExtremeWhenBench##VideoLLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기