Pulse · AI 뉴스

LLM 평가 시 인간 평가자와의 의견 불일치 예측: 생성 시간 확률 신호 없이 가능

Qwen · 2026-05-13

연구진은 LLM을 활용한 교육 자료 난이도 평가 시 인간 평가자와의 의견 불일치를 예측하는 방법을 제안했습니다.

기존 방식과 달리 생성 시간 확률 신호에 의존하지 않고, 난이도가 순위 척도라는 점을 활용하여 별도의 임베딩 공간에서 불일치 가능성이 높은 경우를 식별합니다.

GPT-OSS-120B와 Qwen3-235B-A22B를 활용한 실험 결과, 제안된 방법이 확률 기반의 기존 방식보다 인간 평가자와의 의견 불일치 예측 정확도가 높았습니다.

##LLM##평가##난이도##불일치##임베딩

매일 핵심 AI 소식을 한국어로, 빠르게