최근 비전-언어 모델(VLM)은 시각 관련 작업에서 상당한 발전을 이루었지만, 놀랍게도 인간 감정 인식 능력은 여전히 부족하며, 전문적인 비전 분류기조차 능가하지 못합니다.
연구 결과, VLM의 감정 인식 실패 원인은 감정 데이터의 불균형과 시간 정보 처리의 한계에서 비롯되는 것으로 나타났습니다. 특히, 웹 규모 데이터로 사전 훈련 시 흔한 감정에 편향되어 희귀한 감정을 일반적인 범주로 뭉치는 문제가 발생합니다.
연구진은 프레임 간 정보를 자연어 요약으로 변환하여 VLM에 제공하는 다단계 컨텍스트 강화 전략을 제안하여, 시간 정보를 보존하고 주의 분산을 방지하는 새로운 접근 방식을 제시했습니다.