연구진은 음성 인식과 텍스트-텍스트 번역을 결합한 SpeechLLM 아키텍처를 제안했어요. 이 모델은 음성 정보와 오류를 줄여 번역 품질을 향상시키는 것을 목표로 합니다. 기존 SpeechLLM 시스템의 느린 속도 문제를 해결하기 위해 실시간 스트리밍 방식을 도입했습니다.
제안된 아키텍처는 LLM이 출력 토큰을 생성하는 것 외에도 충분한 오디오를 수집했는지 판단하는 기능을 학습하도록 설계되었어요. 자동 정렬을 통해 음성 입력과 출력 텍스트를 학습시켰습니다.
다양한 언어 쌍에 대한 실험 결과, 번역 품질은 비스트리밍 기준선과 거의 비슷하지만 지연 시간은 1~2초로 단축되었습니다.