수화 번역(SLT)은 수화 영상과 구어 텍스트 간의 모달 불일치로 인해 어려움을 겪고 있으며, 특히 글로스 프리 환경에서 더욱 그렇습니다.
최근 SLT 시스템은 교차 모달 정렬을 위해 CLIP과 유사한 비전-언어 사전 훈련(VLP)을 채택하고 있지만, 무작위 배치 내 대비는 몇 개의 배치 의존적 부정 샘플을 제공하고 의미적으로 유사한 쌍을 부정으로 잘못 라벨링하여 노이즈가 많고 일관성 없는 정렬 감독을 도입할 수 있습니다.
저희는 훈련 과정에서 부정 비디오-텍스트 유사성을 추적하는 초기 경로 기반 분석을 수행하여, 효과적인 정렬을 위한 대비 감독을 강화하면서 노이즈가 많은 부정 샘플의 영향을 줄이는 커리큘럼을 통해 미니 배치를 구성하는 페어 선택(PS) 전략을 제안합니다.