Moonshot AI에서 Kimi-VL이라는 새로운 오픈 소스 비전-언어 모델을 공개했어요. 이 모델은 2.8B 파라미터만 활성화하여도 강력한 멀티모달 추론, 장문 맥락 이해, 에이전트 기능을 제공해요.
Kimi-VL은 OSWorld와 같은 멀티턴 에이전트 상호작용에서 최고 수준의 성능을 보이며, 이미지 및 비디오 이해, OCR, 수학적 추론 등 다양한 분야에서 뛰어난 능력을 보여줘요.
장문 맥락 처리 능력과 고해상도 시각 정보 처리 능력을 갖추고 있으며, Kimi-VL-Thinking 모델은 특히 복잡한 추론 능력에서 GPT-4o를 능가하는 성능을 보여줘요.