연구진이 LLM 평가 시 발생하는 판단 오류를 정량화하고 교정하는 새로운 방법론을 제시했어요. LLM을 심판으로 활용하는 방식의 엘로 추정 정확도를 향상시켜 인간 평가와 17.9 Elo MAE 차이로 줄였어요.
각 전투별 불확실성을 추정하고, 분산 없는 예측 구간을 생성하여 LLM과 인간의 의견 불일치 정도를 고려하는 준법 예측 기법을 적용했어요.
연구 결과는 개발자가 인간 어노테이션 없이 교정된 엘로 추정치와 신뢰 구간을 확보할 수 있도록 돕고, 관련 코드는 GitHub에서 공개됐어요.