연구진은 얼굴 표정 인식(FER)의 정확도를 높이기 위해 랜드마크 기반 대비 학습 네트워크와 비전-언어 향상 기술을 결합한 LaCoVL-FER 모델을 제안했어요.
LaCoVL-FER는 얼굴 랜드마크의 기하학적 정보와 비전-언어 모델의 의미론적 정보를 활용하여 불필요한 주의 집중을 줄이고 핵심 얼굴 영역에 집중하도록 설계됐어요.
RAF-DB, FERPlus, AffectNet 등 세 가지 실제 데이터셋에서 기존 최고 성능 모델보다 우수한 결과를 보여줬으며, GitHub에서 코드 확인할 수 있어요.