Kwai가 초장시간 비디오 이해 및 에이전트 지능 발전을 위한 오픈소스 MoE 모델 'Kwai Keye-VL-2.0-30B-A3B'를 공개했어요.
DeepSeek Sparse Attention(DSA)을 GQA 기반 멀티모달 아키텍처에 적용해 256K 컨텍스트를 처리하며, 핵심 프레임과 장기적인 시간 의존성을 포착했어요.
Cross-Modal Multi-Teacher On-Policy Distillation(MOPD)을 통해 30B 파라미터만 활성화된 상태에서 코드, 도구, 검색 시나리오에서 멀티모달 셀프 교정을 지원해요.
TimeLens, Video-MME-v2, LongVideoBench 벤치마크에서 동급 규모 모델 대비 최고 성능을 달성하며, 모델 체크포인트를 공개해 커뮤니티 발전을 지원할 예정이에요.