MAVIS는 비디오 검색의 효율성 문제를 해결하기 위해 다중 에이전트 프레임워크를 도입했어요. 원본 비디오를 구조화된 의미 라이브러리로 분해하여 속성 수준의 인덱싱을 가능하게 합니다. 사용자 의도를 하위 작업으로 분해하고, 각 작업에 특화된 에이전트가 후보를 지명하는 방식으로 작동해요.
MAVIS는 논리 기반 토론 메커니즘을 사용하여 불일치를 제거하고, 정밀한 검증을 위한 후보 집합을 좁힙니다. 기존 방식보다 효율적이고 해석 가능하며, 특정 작업에 대한 미세 조정 없이도 경쟁력 있는 성능을 보여줘요.
MSR-VTT, MSVD, ActivityNet 데이터셋에서 실험 결과, 기존 방식보다 효율적이고 뛰어난 성능을 입증했습니다.