연구진은 수사적 역할 라벨링(RRL)의 어려운 예시에 대한 예측 정확도를 높이는 RISE 프레임워크를 개발했어요. RISE는 기존 모델을 수정하거나 재학습하지 않고, 라벨 의미를 활용해 예측을 재정렬하는 방식이에요. 8개의 도메인별 RRL 데이터셋에서 평균 +9.15의 macro-F1 점수 향상을 보였어요.
연구진은 모델과 인간의 관점에서 어려움을 분석하기 위해 수동으로 난이도 주석을 추가했어요. Cohen's kappa 값은 0.40으로, 모델과 인간의 판단이 어느 정도 일치하는 것을 확인했어요.
RISE는 추론 시간 동안 라벨 의미를 활용해 저신뢰 예측을 재검토하며, 다양한 LM 아키텍처에서 효과적인 것으로 나타났어요.