PLaMo 2.1-VL은 자율 시스템을 위한 8B 및 2B 파라미터의 경량 Vision Language Model(VLM)이에요. 일본어 환경에서도 작동하며, 엣지 환경에 적합하도록 설계됐어요.
시각 질의 응답(VQA)과 시각적 객체 지시 기능을 핵심으로, 공장 작업 분석 및 인프라 이상 감지 애플리케이션에 적용해 성능을 평가했어요.
PLaMo 2.1-VL은 일본어 및 영어 벤치마크에서 경쟁 모델보다 뛰어난 성능을 보였으며, 합성 데이터 생성 파이프라인과 일본어 학습/평가 리소스를 함께 개발했어요.