Pulse · AI 뉴스

음성-언어 모델이 이질적인 음성 인식에 다중 모드 컨텍스트를 활용하지 못하는 이유

arXiv cs.AI · 2026-05-05

연구진은 음성-언어 모델이 이질적인 음성 인식에 있어 진단 정보, 음성 평가, 임상적 설명을 활용하지 못한다는 점을 확인했습니다. SAP 데이터셋을 기반으로 구축된 벤치마크를 통해 진단 정보와 임상적 설명을 활용한 프롬프트가 성능 향상에 미미한 영향을 미치거나 오히려 오류율을 높이는 것을 발견했습니다.

LoRA 적응을 통해 임상적 프롬프트 형식을 혼합하여 튜닝했을 때, 기존 모델 대비 52%의 단어 오류율 감소를 달성했습니다. 다운 증후군 및 경미한 증상 화자에게서 상당한 개선을 보였습니다.

연구 결과는 현재 모델의 한계를 명확히 하고, 더욱 포괄적인 음성 인식 시스템 개발을 위한 테스트베드를 제공합니다.

##음성인식##이질적인음성##임상적컨텍스트##LoRA

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기