Kwai가 초장시간 비디오 이해와 에이전트 지능 발전을 위한 오픈소스 MoE 모델 'Kwai Keye-VL-2.0-30B-A3B'를 공개했어요.
DeepSeek Sparse Attention(DSA)을 GQA 기반 멀티모달 아키텍처에 적용하여 256K 컨텍스트를 처리하며, 시간 의존성을 포착했어요.
Cross-Modal Multi-Teacher On-Policy Distillation(MOPD)을 통해 30B 파라미터만 활성화하여 코드, 도구, 검색 시나리오에서 멀티모달 에이전트 협업을 지원해요.
TimeLens, Video-MME-v2, LongVideoBench 벤치마크에서 최고 성능을 달성하며 모델 체크포인트를 공개하여 커뮤니티 발전을 지원할 예정이에요.