Pulse · AI 뉴스

로컬 오디오/멀티모달 모델로 언어 발음 평가 가능할까

Gemma · 2026-05-13

파트너가 Duolingo에 지쳐서, 로컬 모델로 언어 학습 및 연습 도구를 만들기로 했습니다. 텍스트 기반 질문에는 Gemma 4가 좋은 성과를 보여주고 있지만, 음성 평가를 위한 모델을 찾고 있습니다. GPT-4o와 같은 모델이 이 기능을 지원하는 연구가 있지만, 로컬 모델로도 가능성이 있는지 확인 중입니다.

Gemma 4 E4B를 시도했지만, 오디오를 직접 들을 수 없다는 이유로 발음 평가를 임의로 수행했습니다. Nemotron-3-Nano-Omni-30B-A3B-Reasoning 모델은 llama.cpp에서 오디오 지원이 아직 구현되지 않아 사용이 불가능합니다.

모델을 하나씩 테스트하기 전에, 이 기능을 잘 수행할 수 있는 모델에 대한 정보를 얻고 싶습니다.

##모델출시##오디오##발음##Gemma

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기