연구진은 수어 번역(SLT) 모델의 성능 향상을 위해 새로운 데이터 증강 방법을 제안했어요. 이 방법은 추가적인 수어 비디오 코퍼스나 생성 모델 없이 기존의 어휘 주석(gloss) 데이터와 LLM을 활용해 새로운 수어-문장 쌍을 생성해요. 생성된 합성 데이터는 기존 RGB 기반 SLT 모델에 바로 적용 가능하거나, 포즈 또는 특징 표현으로 변환될 수 있어요. 실험 결과, 제안된 증강 방법은 기존 모델 성능을 2.92 BLEU-4 향상시켰어요.
합성 데이터가 시각-언어 사전 훈련에 해를 끼칠 수 있으며, 시각적 부드러움을 위한 클립 전환 최적화가 L2 기반 기준에서 비효율적이라는 점을 발견했어요. 연구진은 갑작스러운 경계가 일종의 암묵적 정규화 역할을 할 수 있다고 제안해요.
코드와 모델은 GitHub에서 확인할 수 있어요.