Kanana-O는 텍스트, 이미지, 오디오를 종합적으로 이해하고 자연스러운 텍스트와 음성으로 응답하는 멀티모달 모델이에요. 모델을 학습하는 것과 사용자에게 서비스하는 것은 다른 문제이며, Kanana-O를 실시간 음성 대화 서비스로 제공하기 위해 여러 엔지니어링 문제에 직면했어요. Kanana-Omni Server를 통해 Kanana-O 모델을 서빙하며 핵심 최적화 기법들을 적용했습니다.