Pulse · AI 뉴스

오디오 LLM 활용, 음성-음성 번역 데이터 필터링

arXiv cs.CL · 2026-06-12

연구진은 음성-음성 번역(S2ST) 데이터 필터링을 위해 오디오 LLM을 활용하는 방법을 연구했어요. 두 단계의 Rank-to-Distill 전략을 통해 음성 데이터를 직접 평가하는 모델을 만들었어요. CVSS-C와 SpeechMatrix 데이터셋 실험 결과, 필터링된 데이터로 학습했을 때 ASR-BLEU가 최대 1.4% 향상됐어요.

초기에는 가벼운 랭커가 음성 쌍에 대한 보존/삭제 의사 라벨을 생성하고, 이후 오디오 LLM이 원시 음성 데이터로부터 직접 보존/삭제를 예측하도록 학습해요. 이 모델은 음향 충실도와 교차 언어 의미 일관성을 동시에 파악해 음성 조건부 데이터 선택을 지원해요.

연구 결과, 필터링되지 않은 데이터로 학습하는 것보다 성능이 향상됐으며, 이는 대규모 데이터셋에서 노이즈를 제거하는 방법의 효과를 입증해요.

##음성번역##오디오LLM##데이터필터링##S2ST

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기