InternVideo3는 멀티모달 컨텍스트 추론(MCR)을 통해 장기 비디오 이해 능력을 향상시키는 프레임워크입니다. MCR은 관찰, 지시, 추론, 도구 사용, 메모리를 공유하는 컨텍스트를 통해 이해를 폐쇄 루프 프로세스로 처리합니다. M^2LA 기술을 통해 KV-캐시 상태를 압축하고 효율성을 높였습니다.
Video-MME, MLVU, EgoSchema 벤치마크에서 뛰어난 성능을 보였으며, 검색 도구를 활용한 비디오 에이전트로 구현되어 강력한 증거 기반 행동을 보여줍니다.
연구팀은 지속적인 사전 훈련, 단기-장기 지도 학습, 규칙 기반 강화 학습, 온 정책 증류 등 단계별 훈련을 진행했습니다.