연구진은 검증기 기반 자기 DPO 방식에서 검증기 품질이 작업별로 매우 다르다는 점을 발견했어요. MathVista, MMMU, BLINK 등 다양한 작업에서 검증기가 학생 모델 성능을 저하시키는 현상이 나타났으며, 성능 저하 폭은 3.4~10.9%에 달했어요. 잘못된 선호 쌍을 증폭시키는 자기 개선 방식의 문제점을 지적하며, 검증기 품질을 작업별 정확도로 측정하고, 성능 향상이 줄어들면 검증기 예산으로 제한해야 한다고 조언했어요.