연구진은 코드 생성 시스템 평가에 있어 기준 중심의 판단 방식이 중요함을 강조하며, CriterAlign이라는 새로운 프레임워크를 제안했어요.
CriterAlign은 기준 수준의 쌍대 비교 판단, 동점 해결을 위한 기준 개선, 일관성 필터링, 최종 쌍대 비교 합성 등의 과정을 거쳐 기존 방식보다 코드 선호도 예측 정확도를 향상시켰어요.
BigCodeReward 데이터셋에서 CriterAlign은 Qwen2.5-VL-32B 모델의 정확도를 60.4%에서 66.3%로 끌어올렸으며, 이는 기준 설계와 HPAG의 기여를 확인시켜 줘요.