연구진은 LLM을 활용한 교육 자료 난이도 평가 시 인간 평가자와의 의견 불일치를 예측하는 방법을 제안했습니다. 기존 방식과 달리 생성 시간 확률 신호에 의존하지 않고, 난이도가 순위 척도라는 점을 활용하여 별도의 임베딩 공간에서 불일치 가능성이 높은 경우를 식별합니다. GPT-OSS-120B와 Qwen3-235B-A22B를 활용한 실험 결과, 제안된 방법이 확률 기반의 기존 방식보다 인간 평가자와의 의견 불일치 예측 정확도가 높았습니다.