본 연구는 자동 NLG 평가에 사용되는 LLM 심판의 개별 인스턴스 신뢰도를 진단하기 위한 도구를 제시합니다. 전이성 분석 결과, 입력별 일관성 부족이 심각하며, 33~67%의 문서가 적어도 하나의 방향성 3-사이클을 보입니다. 컨포멀 예측 집합을 활용하여 1~5점 리커트 척도에 대한 신뢰 구간을 설정하고, 구간 너비가 개별 인스턴스 신뢰도 지표로 활용될 수 있음을 확인했습니다.