최근 비전-언어 모델(VLM)이 빠르게 발전했지만, 영어에 편중된 개발로 인해 다국어 데이터 부족과 평가 벤치마크의 희소성이 문제였습니다.
연구진은 Pixmo 데이터셋을 활용한 합성 데이터 생성과 수동 주석을 결합한 재생-번역 방식을 통해 영어, 프랑스어, 독일어, 이탈리아어, 스페인어 5개 유럽 언어의 훈련 및 평가 자원을 구축했습니다.
다국어 훈련 데이터는 영문 벤치마크 성능 향상뿐 아니라 비영어 벤치마크에서도 긍정적인 효과를 가져왔습니다.