연구진은 비동기 화상 인터뷰(AVI)에서 성격 및 인지 능력 평가 문제를 해결하기 위해 ACM Multimedia AVI Challenge 2026에 참가했어요.
CLIP, Whisper, RoBERTa, E5, DeBERTaV3 등 동결된 멀티모달 인코더를 활용하여 시각, 음향, 텍스트 특징을 추출하고, 이를 기반으로 저용량 다운스트림 모델을 구축했어요.
Track 1(성격)에서는 평균 검증 MSE 0.2696을 달성하여 공식 기준선(0.3334)을 개선했고, Track 2(인지 능력)에서는 0.5313의 정확도를 기록했어요.
연구 결과는 AVI 기반 심리 평가에서 성격별 멀티모달 모델링이 효과적이지만, 인지 능력 예측은 데이터셋의 편향을 주의해야 함을 시사해요.