연구진은 실시간 MRI에서 성도관 분할 문제를 해결하기 위해 음성 및 음성학적 감독을 활용하는 3단계 프레임워크를 제안했어요. 음성 표현은 성도관 위치 파악을 위한 공간 경계 상자 우선순위로 변환돼요.
시각 및 음성 인코더는 양방향 교차 모달 대비 사전 훈련을 통해 정렬되고 학습된 표현은 교차 주의 디코더를 통해 융합돼 단일 모달 추론 파이프라인으로 다중 모달 지식을 효과적으로 전달해요.
75명의 화자~주석-16 및 USC-TIMIT 데이터 세트에서 평가 결과 기존 단일 모달 및 다중 모달 방법보다 성능이 뛰어나 다중 모달 감독이 정확하고 임상적으로 배포 가능한 성도관 분할에 이점을 제공하는 것으로 나타났어요.