플로리다 대학교 Gators 팀이 AmericasNLP 2026 문화 이미지 캡셔닝 셰어드 태스크에 제출한 시스템을 소개했어요. Qwen2.5-VL로 스페인어 중간 캡션을 생성한 후 Gemini 2.5 Flash를 활용해 대상 언어 캡션을 생성하는 2단계 파이프라인을 사용했어요.
Bribri, Guaraní, Orizaba Nahuatl 언어 캡셔닝에서 셰어드 태스크 기준 성능보다 각각 164.1%, 131.7%, 122.6% 향상된 결과를 얻었고, 테스트 세트 평가에서도 Bribri와 Orizaba Nahuatl 언어에서 150% 이상의 성능 향상을 유지했어요.
검색 기능은 언어 의존적이며, 대규모 도메인 내 데이터에서만 유용하며, 합성 데이터 증강이 Guaraní 개발 세트 chrF++ 성능 향상의 약 28%를 차지하는 것으로 확인됐어요.