연구진은 대화형 감정 인식(ERC)의 정확도를 높이기 위해 화자 중심 시각적 감정 특징 학습 프레임워크인 VISAFF를 제안했어요. VISAFF는 화자의 감정적 시각적 단서를 파악하고, 텍스트 및 음향 정보를 활용하여 시각적 불확실성을 보완하는 2단계 방식으로 구성돼요. 기존 VLM의 fine-tuning 없이도 뛰어난 성능을 달성하며, 대규모 VLM fine-tuning에 필요한 막대한 계산 비용을 절감했어요.