연구진이 음성 인식 모델 훈련을 위한 가상 대화 데이터 생성 파이프라인을 제안했어요. 이 파이프라인은 시나리오 기반 대화 생성, TTS 음성 프로필 매핑, 화자 인지 시뮬레이션 대화 조립으로 구성돼요. 67시간의 실제 대화와 636시간의 합성 데이터를 활용해 2700시간의 실제 음성 데이터로 훈련된 모델보다 성능이 향상됐어요.
FastConformer-Large 레시피를 활용해 5개의 LLM 패밀리를 평가한 결과, 생성기 선택과 데이터 구성이 성능 향상에 큰 영향을 미치는 것으로 나타났어요. 이 방법은 각 구성 요소 자원이 있다면 어떤 언어에도 적용 가능해요.
헝가리어 BEA-Dialogue 벤치마크에서 합성 대화가 음성 인식 성능을 꾸준히 향상시키는 것을 확인했어요.