음성 번역 오류는 시스템 신뢰도를 떨어뜨리고 심각한 결과를 초래합니다. 현재 음성 번역 품질과 신뢰도 추정 평가 방법은 확립되지 않았습니다. 연구진은 음성 번역 오류 라벨링(STEL)을 제안하여 이 문제를 해결하고자 합니다.
텍스트 기반 XCOMET과 멀티모달 LLM Qwen2.5-Omni는 인간의 약 절반 수준의 정확도로 STEL 작업을 수행할 수 있음을 확인했습니다. 직접적인 음성 처리의 필요성을 발견했으며, 현재 텍스트 기반과 음성 처리 시스템은 ST에서 번역 오류와 음성 처리 오류를 라벨링하는 데 상호 보완적입니다.
연구진은 STEL 작업 프로토콜과 소규모 평가 데이터셋을 구축하고 기존 텍스트 기반 및 음성 처리 시스템의 성능을 분석했습니다.