Pulse · AI 뉴스

이미지를 활용한 음성-단어 연결 방법

arXiv cs.CL · 2026-06-15

연구진이 텍스트 감독 없이 이미지와 음성 설명을 활용해 음성 단어 어휘를 구축하는 시각적 기반 방법을 제시했어요. 이미지 캡셔닝 시스템을 활용해 이미지 속 주요 시각적 개념을 나타내는 단어 어휘를 구축하고, 각 단어에 해당하는 음성 발화를 찾아 음성 단어 세그먼트를 연결했어요. 음성 단어 검색 및 키워드 검색 실험에서 제안된 방법이 강력한 신경망 기준을 능가하며 더 높은 해석력을 보여줬어요.

이 방법은 영어에서 실현 가능성을 입증했으며, 음성 기록이 없는 저자원 언어에 대한 미래 연구를 촉진할 것으로 보입니다. 이미지 캡셔닝 시스템을 통해 단어 어휘를 구축하고, 각 단어에 해당하는 음성 발화를 찾아 음성 단어 세그먼트를 연결하는 방식으로 작동해요. 텍스트 감독 없이 음성 단어 세그먼트를 연결하는 데 성공했어요.

음성 단어 검색 및 키워드 검색 실험에서 제안된 방법은 강력한 신경망 기준을 능가하며 더 높은 해석력을 보여줬습니다. 이 결과는 영어에서 실현 가능성을 입증했으며, 음성 기록이 없는 저자원 언어에 대한 미래 연구를 촉진할 것으로 보입니다.

##음성인식##이미지인식##저자원언어##비지도학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기