Pulse · AI 뉴스

WHO 기반 다국어 음성 대화 데이터셋 HEALTHDIAL 공개

WHO · 2026-05-29

연구진이 WHO 자료 기반 다국어 음성 대화 데이터셋 HEALTHDIAL을 공개했어요. 아랍어, 중국어, 영어, 스페인어 4개 언어로 총 6,000개의 대화(언어별 1,500개)를 포함하며, 사용자 음성 163시간분을 담고 있어요. 각 화자는 성별, 나이, 출신 지역 등 다양한 정보로 분류돼요.

벤치마크 테스트 결과, 언어별 성능 차이가 뚜렷하게 나타났으며, 고자원 언어에서도 예외는 아니었어요. 데이터셋과 프로토타입 시스템, 데이터 수집 및 시스템 평가 도구도 함께 공개됐어요.

HEALTHDIAL은 RAG 기반 음성 대화 시스템 개발 및 평가에 활용될 예정이며, 다국어 정보 검색 분야 연구에 기여할 것으로 기대돼요.

##데이터셋##음성대화##다국어##RAG
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기