연구진은 LLM 심판을 정확도 지표 대신 측정 도구로 보고해야 한다고 주장했어요.
Judge Datasheet 프로토콜을 통해 LLM 심판의 dark current, cross-sensitivity, positional bias, target sensitivity 등을 측정했어요.
Llama-3.1-8B는 dark current가 높고, Qwen2.5-32B는 엄격한 tie 기준에서 marginal target 신호를 흡수하는 현상을 보였어요.