연구진은 장면 텍스트 스포팅의 불완전한 마스크 제안 문제를 해결하기 위해 Soft Attention Mask Embedding (SAME) 모듈을 제안했어요.
SAME 모듈은 Transformer 인코더의 전역 수용 범위를 활용하여 고차원 특징을 인코딩하고, 예측된 마스크와 계층적으로 임베딩하여 배경 노이즈를 효과적으로 억제하는 텍스트 경계 인식 마스크를 생성해요.
SAME-Net은 문자 수준 어노테이션이나 텍스트 수정 모듈 없이도 Total-Text 데이터셋에서 기존 최고 성능인 GLASS보다 1.02% 향상된 84.02%의 H-mean을 달성했어요.