연구진이 얼굴 표정 평가 모델의 해석 가능성을 높이기 위해 TraMP-LLaMA라는 새로운 프레임워크를 개발했어요. 이 프레임워크는 표정의 심각도 점수와 함께 관찰 가능한 얼굴 움직임에 대한 텍스트 보고서를 생성합니다.
TraMP-LLaMA는 RGB 영상과 얼굴 움직임 정보를 결합하고, 심각도 예측과 텍스트 생성 간의 간섭을 줄이기 위해 분리된 명령 튜닝 전략을 사용해요.
새로운 데이터셋 PFED5-plus를 구축하여 실험한 결과, 기존 모델보다 보고서 생성 성능이 뛰어나고 심각도 예측 성능도 향상됐어요 (스피어만 순위 상관관계 4.39% 향상).