MCJudgeBench는 다중 제약 조건 따르기에서 제어 수준 판별 평가를 위한 새로운 벤치마크입니다. 각 인스턴스는 지시, 후보 응답, 명시적 제약 조건 목록, {예, 부분, 아니오}의 제약 조건별 골드 레이블, 응답 측면의 제어된 교란을 포함합니다.
정확성 및 일관성 지표를 사용하여 독점 및 오픈 소스 LLM 판별자를 평가하고, 확률적 디코딩 하에서의 내재적 일관성에서 프롬프트 및 응답 교란 하에서의 절차적 일관성을 구별합니다.
연구 결과, 판별자 신뢰성에는 여러 차원이 있으며, 전반적인 성능이 강력하더라도 특히 희귀한 부분 및 아니오 사례에 대한 신뢰할 수 있는 감지 능력이 균일하지 않음을 보여줍니다.