Pulse · AI 뉴스

텍스트를 음성으로: LLM 에이전트의 도구 호출 평가를 위한 재현 가능하고 검증 가능한 프레임워크

Qwen · 2026-05-15

연구진은 텍스트 기반 도구 호출 벤치마크를 음성 기반 평가로 변환하는 프레임워크를 개발하여 음성 에이전트의 도구 사용 신뢰성을 높이고자 했습니다.

Confetti 및 When2Call 데이터셋을 음성으로 변환하여 7개 모델을 평가한 결과, 모델 및 작업에 따라 성능 차이가 컸으며, Gemini-3.1-Flash-Live는 Confetti에서, GPT-Realtime-1.5는 When2Call에서 가장 좋은 성능을 보였습니다.

연구 결과, 오픈 소스 Qwen3 모델이 8B 파라미터 이상일 경우, 독점적인 평가 모델과 80% 이상의 일치도를 보여주며 개인 정보 보호 평가를 지원하는 것으로 나타났습니다.

##LLM##음성인식##도구호출

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기