연구진은 LLM이 문항 난이도 추정에 도움을 줄 수 있는지 평가하기 위해 6개 초등학교 수학 영역의 문항을 활용했어요. LLM의 난이도 추정 정확도는 기존 연구에서 보고된 인간 전문가 수준에 근접했으며, 특히 단순 산술 문제에서 높은 정확도를 보였어요. 문항 난이도 추정 시 쌍대 비교 방식이 절대 판단 방식보다 우수했으며, 토큰 확률과 예시 문항을 활용하면 절대 판단 방식도 높은 정확도를 보였어요.