연구진이 실시간 양방향 멀티모달 상호작용 평가를 위한 벤치마크 Omni-DuplexEval을 발표했어요. 이 벤치마크는 실시간으로 스트리밍 입력에 대응하는 모델의 능력을 평가하는 두 가지 시나리오로 구성돼요.
Real-Time Description은 시간 동기화된 응답 생성 능력, Proactive Reminder는 중요한 이벤트 식별 및 적절한 시점 응답 능력을 평가해요. 660개의 동영상과 정밀한 시간 메타데이터, 9가지 실제 시나리오 기반 작업을 포함하고 있어요.
자동 평가 프레임워크는 LLM-as-a-Judge 기반으로, 응답 내용과 타이밍을 시간 정보와 순차적 추론을 통해 평가하며, 사람 평가와 높은 일치도를 보여줘요.
현재 최고 성능 모델은 39.6%의 정확도를 기록했으며, 특히 Proactive Reminder에서 20.0%에 불과한 낮은 점수를 기록하며, 적절한 시점에 일관성 있는 콘텐츠 생성의 어려움과 응답 시점 판단 실패가 주요 과제로 확인됐어요.