Pulse · AI 뉴스

문화 이미지 캡셔닝: AmericasNLP 2026 Gators 제출

Gemini · 2026-05-20

플로리다 대학교 Gators 팀이 AmericasNLP 2026 문화 이미지 캡셔닝 셰어드 태스크에 제출한 시스템을 소개했어요. Qwen2.5-VL로 스페인어 중간 캡션을 생성한 후 Gemini 2.5 Flash를 활용해 대상 언어 캡션을 생성하는 2단계 파이프라인을 사용했어요.

Bribri, Guaraní, Orizaba Nahuatl 언어 캡셔닝에서 셰어드 태스크 기준 성능보다 각각 164.1%, 131.7%, 122.6% 향상된 결과를 얻었고, 테스트 세트 평가에서도 Bribri와 Orizaba Nahuatl 언어에서 150% 이상의 성능 향상을 유지했어요.

검색 기능은 언어 의존적이며, 대규모 도메인 내 데이터에서만 유용하며, 합성 데이터 증강이 Guaraní 개발 세트 chrF++ 성능 향상의 약 28%를 차지하는 것으로 확인됐어요.

##문화이미지##캡셔닝##인공지능##Qwen##Gemini
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기