InternVideo3는 멀티모달 맥락 추론(MCR)을 통해 장기 비디오 이해 능력을 향상시키는 프레임워크입니다. MCR은 관찰, 지시, 추론, 도구 사용, 기억을 공유하는 맥락을 통해 이해를 반복적인 프로세스로 다룹니다. M^2LA 기술을 통해 효율성을 높였으며, 여러 단계의 학습을 거쳐 Video-MME, MLVU, EgoSchema 벤치마크에서 뛰어난 성능을 보였습니다.
InternVideo3는 검색 도구를 활용하는 비디오 에이전트로 구현되어, 증거 기반의 안정적인 행동을 보여줍니다. M^2LA는 KV-캐시 상태를 압축하면서도 전체 토큰 스트림을 유지하는 토큰 보존 재파라미터화 기술입니다.
연구팀은 InternVideo3의 프레임워크와 모델을 공개하여, 오픈 멀티모달 모델을 시각적으로 기반한 장기적인 에이전트로 발전시키는 데 기여할 것으로 기대됩니다.