연구진은 음성 언어 모델(SLM)이 비언어적 신호(어조, 배경 소음 등)를 인식하지만, 대화에서는 이를 활용하지 못하는 문제점을 발견했어요.
ParaBridge는 훈련 과정에서 일시적인 가이드라인(scaffold)을 활용하여 모델이 비언어적 신호에 반응하는 행동을 안정적으로 학습하는 self-distillation 방법론이에요.
Qwen3-Omni-thinking 모델에서 VoxSafeBench SAR 점수를 14.6%에서 40.3%로 향상시키고, EchoMind 평균 평점을 3.27에서 3.92로 끌어올리는 등 긍정적인 효과를 보였어요.