연구진이 개인 정보 보호와 대역폭 효율성을 높인 Edge-cloud Speech Recognition and Translation (ESRT) 프레임워크를 제안했어요. 음성 데이터를 전송하지 않고 중간 특징만 전송하여 개인 정보 유출을 막고 대역폭을 10배 줄였어요.
영어 중심 편향을 극복하기 위해 다국어 데이터 균형 학습 전략을 도입하여 45개 언어 간 번역 성능을 향상시켰어요.
ESRT-4B와 ESRT-12B 모델은 FLEURS 데이터셋에서 45×44 방향으로 최고 성능을 달성했으며, 코드와 모델은 GitHub에서 공개됐어요.