연구진은 MLLM의 감성 분석 성능 향상을 위해 멀티모달 적응형 퓨샷 프롬프팅(MAF) 프레임워크를 제안했어요. MAF는 입력에 따라 관련 데모를 동적으로 검색하고 통합하여 MLLM의 감성 추론 능력을 활용하는 방식이에요. 얼굴 표정, 장면 맥락, 텍스트 의미를 종합적으로 인코딩하고, 화자 식별을 위한 입술 움직임 감지 메커니즘을 도입했어요.