연구진은 인간의 기억 방식을 모방하여 시점 간 메모리 추론 벤치마크인 EgoExoMem을 발표했어요. EgoExoMem은 2,600개의 고품질 질의응답(QA) 데이터셋으로, 시간, 공간, 시점 간 추론을 평가합니다. E$^2$-Select라는 새로운 프레임 선택 방법은 동기화된 시점 간 비디오에서 관련성을 기반으로 프레임을 선택하여 성능을 향상시킵니다.
기존 MLLM은 EgoExoMem 벤치마크를 해결하는 데 어려움을 겪으며, 최고 성능 모델도 55.3%의 정확도에 그쳤어요. E$^2$-Select는 프레임 선택 및 RAG 기반 모델보다 뛰어난 58.2%의 성능을 달성하며 시점 간 추론의 중요성을 강조합니다.
연구 결과, 시점 간 정보는 상호 보완적인 역할을 하며, 질문의 틀과 답변의 근거 사이에 시점 선호도 충돌이 발생하여 새로운 연구 과제를 제시합니다.