연구진은 인도네시아 전통 의상 이미지에 대한 제로샷 캡셔닝을 위해 Custom ZeroCLIP 프레임워크를 개발했어요. 이 프레임워크는 38개 인도네시아 모든 주에서 수집한 3,800장의 전문가 해설 이미지 데이터셋을 활용했어요.
Custom ZeroCLIP은 CLIP 이미지 인코더, BERT 텍스트 인코더, LSTM 캡션 디코더를 결합하여 훈련했고, 훈련 주에서만 캡션을 활용해 성능을 검증했어요. 평가 결과 기존 모델보다 CLIPScore, BLEU-4, METEOR 점수가 높게 나타났어요.
인간 평가 결과, Custom ZeroCLIP은 문화적 정확성과 유창성이 향상된 것으로 확인되었으며, 데이터셋은 GitHub에서 공개되어 문화유산 분야의 저자원 환경에서 활용될 수 있을 거예요.