연구진은 음성 감정 인식 모델이 정치 연설의 '파토스' 차원을 대리할 수 있는지 조사했어요. LLM 기반 분석은 음성 모델보다 정치적 감정을 더 잘 포착하는 것으로 나타났어요.
독일 연방 의회 연설을 분석한 결과, Gemini 2.5 Flash 모델의 Valence 값이 TRUST-Pathos 점수와 강한 상관관계를 보였어요 (rho = +0.664, p < 0.001).
연구 결과, LLM 기반 다중 모드 분석은 음성 모델만으로는 파악하기 어려운 의미론적 정치 감정을 더 잘 이해할 수 있음을 시사하며, Arousal 추정에는 음성 특징이 여전히 유용해요.
향후 연구에서는 표정 및 시선을 포함한 비디오 기반 분석으로 확장할 예정이며, 표준 음성 감정 인식 벤치마크 데이터셋의 문제점 (과장된 연기, 문화적 편향, 범주 불일치)을 지적했어요.