연구진은 유머 이해의 구조적 추론 과정을 명확히 하기 위해 IRS(Incongruity-Resolution Supervision)라는 새로운 프레임워크를 제안했습니다.
IRS는 부조화 모델링, 해결 모델링, 선호도 정렬의 세 가지 구성 요소를 활용하여 시각적 불일치를 식별하고, 일관성 있는 재해석을 구성하며, 후보 해석을 평가합니다.
7B, 32B, 72B 모델에 IRS를 적용한 결과, 캡션 매칭 및 순위화 작업에서 기존 모델들을 능가했으며, 특히 가장 큰 모델은 전문가 수준의 순위 성능에 근접했습니다.