연구진은 LLM의 질문 답변 능력을 평가하기 위한 새로운 방법인 Q-DAPS를 제시했습니다. Q-DAPS는 후보 답변들의 가능성 점수를 기반으로 질문 난이도를 추정하며, 기존 방법보다 성능이 뛰어납니다.
Q-DAPS는 TriviaQA, NQ, MuSiQue, QASC 등 4개의 QA 데이터셋에서 기존 방법들을 능가하는 성능을 보여주었으며, 다양한 환경에서도 안정적인 성능을 유지합니다.
사람의 판단과도 일치하는 Q-DAPS는 해석 가능하고 확장 가능한 질문 난이도 추정 방법으로, 현대적인 QA 시스템에 기여할 것으로 기대됩니다.