연구진이 수어 번역(SLT)의 의미 이해 평가를 위한 새로운 벤치마크 SLU-2K를 공개했어요. SLU-2K는 2,350개의 질의응답 쌍으로 구성되어 있으며, 수어 영상에서 핵심 의미 정보를 정확하게 파악하는 시스템의 능력을 평가해요.
기존 벤치마크는 표면적인 유사성을 측정하는 데 집중했지만, SLU-2K는 행동, 사실, 사람, 사물 등 의미적 측면을 평가해요. Multimodal Large Language Models(MLLM)은 무작위 수준의 성능을 보였고, 최첨단 번역 시스템도 의미적 격차가 컸어요.
연구 결과, 현재의 SLT 평가 방식은 실제 이해도를 과대평가하며, 향후에는 유창성과 n-gram 중첩뿐 아니라 의미적 정확성으로도 평가해야 할 필요가 있어요. SLU-2K 데이터셋과 관련 파일은 GitHub에서 확인할 수 있어요.