ESsEN은 제한된 자원으로 훈련할 수 있는 소형 시각-언어 모델입니다. 연구진은 아동의 언어 학습 과정을 참고하여 저자원 환경에서 효과적인 모델을 개발했습니다. ESsEN은 기존 모델 대비 훨씬 적은 파라미터로도 유사한 성능을 보여, 시각-언어 모델링 접근성을 높입니다.