연구진이 9개의 최첨단 LLM 평가 패널을 테스트한 결과, 실제로는 2개의 독립적인 투표와 비슷한 정보량만 제공하는 것으로 나타났어요. 9개의 LLM 패널은 자연어 추론 데이터셋에서 인간 어노테이션 100개씩을 평가했는데, 3/4 정도만 독립적인 투표의 가치를 지니고 있었어요. 다양한 모델의 투표를 결합하여 평가의 신뢰성을 높이려는 기존 방식에 대한 새로운 분석 결과입니다.