Pulse · AI 뉴스

InternVideo3: 멀티모달 컨텍스트 추론 기반 비디오 에이전트 프레임워크 공개

InternVideo3 · 2026-06-11

InternVideo3는 멀티모달 컨텍스트 추론(MCR)을 통해 장기 비디오 이해 능력을 향상시키는 프레임워크입니다. MCR은 관찰, 지시, 추론, 도구 사용, 메모리를 공유하는 컨텍스트를 통해 이해를 폐쇄 루프 프로세스로 처리합니다. M^2LA 기술을 통해 KV-캐시 상태를 압축하고 효율성을 높였습니다.

Video-MME, MLVU, EgoSchema 벤치마크에서 뛰어난 성능을 보였으며, 검색 도구를 활용한 비디오 에이전트로 구현되어 강력한 증거 기반 행동을 보여줍니다.

연구팀은 지속적인 사전 훈련, 단기-장기 지도 학습, 규칙 기반 강화 학습, 온 정책 증류 등 단계별 훈련을 진행했습니다.

##비디오##에이전트##멀티모달##InternVideo3##MCR

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기