Pulse · AI 뉴스

베트남어 장면 텍스트 이미지 캡셔닝을 위한 언어학적 정보 기반 다중 모드 융합: 데이터셋, 그래프 프레임워크 및 음운적 주의

arXiv cs.CL · 2026-04-30

연구진은 베트남어 장면 텍스트 이미지 캡셔닝의 어려움을 해결하기 위해 언어학적 지식을 융합 메커니즘에 통합하는 새로운 프레임워크를 제안했어요.

HSTFG(Heterogeneous Scene-Text Fusion Graph)라는 일반적인 그래프 융합 프레임워크를 개발하고, ViTextCaps라는 대규모 베트남어 장면 텍스트 캡셔닝 데이터셋을 공개했어요.

ViTextCaps 데이터셋 분석 결과, 어묵 충돌 위험이 있는 어휘가 52.8%에 달하는 것으로 나타났어요.

##베트남어##이미지캡셔닝##데이터셋##그래프융합

매일 핵심 AI 소식을 한국어로, 빠르게