LLM의 신뢰도 신호는 판단 유보, 라우팅, 안전 관련 의사 결정에 활용돼요. 임상 심리 평가에서 사용되는 타당성 검사 원칙을 LLM 신뢰도 데이터 검증 프로토콜로 적용했어요. 20개의 최첨단 LLM을 검증한 결과, 4개의 모델이 타당하지 않은 것으로 분류되었고, 교차 벤치마크 검증을 통해 다양한 벤치마크와 프로브 형식에서도 적용 가능성이 확인되었어요.