이 연구는 제2외국어 음성 인식에서 다중 작업 학습(MTL)이 표면 음성 인식 성능을 저하시킨다는 것을 밝혀냈습니다. 특히 영어의 경우 표면과 의미의 차이가 클수록 성능 저하가 심화됩니다. 연구 결과, 한국어는 각 작업에 대한 구별된 표현을 유지하는 반면 영어는 표현이 거의 동일하게 얽혀 있다는 것을 확인했습니다.
이러한 현상은 인코더 수준의 얽힘과 관련이 있으며, 의미를 담당하는 디코더는 고유한 표현을 갖는 반면 표면을 담당하는 디코더는 인코더에 의해 제약됩니다. 연구는 이중 출력 제2외국어 음성 인식에서 인코더 수준의 얽힘을 완화하는 MTL 프레임워크 설계의 필요성을 강조합니다.
Levenshtein 편집 거리를 활용하여 표면과 의미의 차이를 측정하고, 인코더 분석 및 디코더 분석을 통해 문제의 원인을 규명했습니다.