연구에서는 반복 LLM 추론 시 테스트 시간 컴퓨팅의 이점을 평가하며, 단일 호출 정확도뿐 아니라 각 예제의 잠재적 정확도 분포가 중요함을 밝혀냈습니다.
두 번의 레이블링된 호출을 통해 잠재적 성공 확률의 평균과 두 번째 모멘트를 파악하여, 각 예제별 정확도 상관관계를 식별하고 안정적인 오류와 복구 가능한 무작위성을 구분할 수 있습니다.
세 번의 투표를 사용하는 첫 번째 유용한 예산은 최대 1/8의 폭을 가지며, 잠재적 가중치가 1/2 주변에 있을 때 임계값에 민감하게 반응합니다.