연구진은 ChaosNLI 데이터셋의 100명 주석을 활용해 NLI 모델을 튜닝하며, 평가 메트릭에 따라 필요한 주석자 수가 달라지는 현상을 발견했어요. 엔트로피 상관관계는 모델이 어떤 항목에서 의견 불일치가 발생하는지 파악하는 데 약 20~50명의 주석자가 필요하지만, 분포 일치(KL 발산)는 약 10명으로 포화된다고 밝혔어요. 이는 라벨 불일치 상황에서 정보 획득에 필요한 주석자 수가 평가 메트릭에 따라 달라짐을 보여주는 결과입니다.