연구진이 텍스트 감독 없이 이미지와 음성 설명을 활용해 음성 단어 어휘를 구축하는 시각적 기반 방법을 제시했어요. 이미지 캡셔닝 시스템을 활용해 이미지 속 주요 시각적 개념을 나타내는 단어 어휘를 구축하고, 각 단어에 해당하는 음성 발화를 찾아 음성 단어 세그먼트를 연결했어요. 음성 단어 검색 및 키워드 검색 실험에서 제안된 방법이 강력한 신경망 기준을 능가하며 더 높은 해석력을 보여줬어요.
이 방법은 영어에서 실현 가능성을 입증했으며, 음성 기록이 없는 저자원 언어에 대한 미래 연구를 촉진할 것으로 보입니다. 이미지 캡셔닝 시스템을 통해 단어 어휘를 구축하고, 각 단어에 해당하는 음성 발화를 찾아 음성 단어 세그먼트를 연결하는 방식으로 작동해요. 텍스트 감독 없이 음성 단어 세그먼트를 연결하는 데 성공했어요.
음성 단어 검색 및 키워드 검색 실험에서 제안된 방법은 강력한 신경망 기준을 능가하며 더 높은 해석력을 보여줬습니다. 이 결과는 영어에서 실현 가능성을 입증했으며, 음성 기록이 없는 저자원 언어에 대한 미래 연구를 촉진할 것으로 보입니다.