Pulse · AI 뉴스

LLM 심판의 숨겨진 오류: LLM 심판 평가를 위한 심리 측정 데이터 시트

Qwen · 2026-06-14

연구진은 LLM 심판을 정확도 지표 대신 측정 도구로 보고해야 한다고 주장했어요.

Judge Datasheet 프로토콜을 통해 LLM 심판의 dark current, cross-sensitivity, positional bias, target sensitivity 등을 측정했어요.

Llama-3.1-8B는 dark current가 높고, Qwen2.5-32B는 엄격한 tie 기준에서 marginal target 신호를 흡수하는 현상을 보였어요.

##LLM##심판##평가##데이터시트##측정

매일 핵심 AI 소식을 한국어로, 빠르게