연구진은 내러티브 질문 응답(NQA)의 불완전하고 일관성 없는 답변 문제를 해결하기 위해 자기 앙상블 재순위화 프레임워크를 제안했어요.
FLAN-T5와 Pegasus-Large 모델을 NarrativeQA 데이터셋에서 평가한 결과, 모든 모델에서 성능이 향상됐어요.
특히 FLAN-T5-Base는 전체 성능이 82.32%에서 86.66%로 (+4.34%) 향상됐고, Pegasus-Large는 72.50%에서 87.07%로 (+14.57%) 크게 개선됐어요.
제안된 방법은 기존 아키텍처 수정 없이 다양한 답변 방식을 탐색하며, 합의 기반 선택을 통해 견고성을 높여요.