연구진은 베트남어 장면 텍스트 이미지 캡셔닝의 어려움을 해결하기 위해 언어학적 지식을 융합 메커니즘에 통합하는 새로운 프레임워크를 제안했어요.
HSTFG(Heterogeneous Scene-Text Fusion Graph)라는 일반적인 그래프 융합 프레임워크를 개발하고, ViTextCaps라는 대규모 베트남어 장면 텍스트 캡셔닝 데이터셋을 공개했어요.
ViTextCaps 데이터셋 분석 결과, 어묵 충돌 위험이 있는 어휘가 52.8%에 달하는 것으로 나타났어요.