연구진은 응답성과 능력을 동시에 갖춘 음성 에이전트 개발을 위해 '대화형 인필(Conversational Infill)' 기술을 선보였습니다. 대화형 인필은 작은 모델이 즉시 응답을 생성하는 동시에 외부 추론 모델의 지식을 실시간으로 통합하여 지연 시간을 숨기는 방식입니다. ConvFill 시스템은 밀리초 단위의 빠른 응답 속도를 유지하면서도 기존 추론 모델 성능 격차를 6.3% 이내로 줄였습니다.