연구진이 온라인 잠재 예측과 불변 시각 및 재구축(OLIVE)을 제안했어요. OLIVE는 분석 및 합성 목표를 동시에 최적화하는 자기 지도 음성 표현 학습 프레임워크입니다. 파형 재구성은 초기 인코더 특징이 신호 수준 정보를 유지하도록 제약하고, 마스크 잠재 예측은 강력한 다운스트림 성능을 위해 후기 컨텍스트 표현을 불변성으로 형성합니다.
OLIVE는 생성 및 화자 작업에 결과를 개선하고, 인식 및 의미 작업에서 경쟁력 있는 성능을 유지하며, 파형 재구성을 개선합니다. 다양한 작업에서 지원되는 표현을 가능하게 합니다.
연구 결과, OLIVE는 기존 방식 대비 음성 표현 학습 성능을 향상시키는 효과를 보였습니다.