Hunyuan에서 Penguin-VL-2B와 Penguin-VL-8B 모델을 공개하며, LLM 기반 비전 인코더를 활용하여 소규모 VL 모델의 효율성 한계를 탐구했어요.
기존 VL 모델과 달리 Penguin-VL은 텍스트 LLM에서 파생된 비전 인코더를 사용해 시각적 표현과 언어 백본 간의 정렬을 강화했어요.
Penguin-VL은 이미지, 문서, OCR, 수학, 비디오 벤치마크에서 경쟁력 있는 성능을 보이면서도 배포 친화적인 2B 규모를 유지하고 있어요.