프로사 연구팀은 LLM 평가 시 모델 편향 문제를 해결하기 위해 루브릭 기반 다중 평가 방식을 제시했습니다. 프로사는 브라질 포르투갈어 사용자 채팅 벤치마크로, 1,000개의 대화 데이터를 3명의 평가자가 16개 모델에 대해 평가했습니다. 루브릭 기반 평가에서는 16개 모델 모두 순위가 일치했지만, 전체 평가 방식에서는 7개 모델만 일치했습니다.
루브릭 필터링 파이프라인은 인접 모델 간의 평균 점수 차이를 47% 증가시켜 프로사의 판별력을 향상시켰습니다. 새로운 모델을 프로사로 평가하는 데는 약 2.1달러의 비용이 소요되며, 벤치마크와 필터링 코드를 공개하여 향후 모델 평가의 일관성을 확보했습니다.