연구자가 55개 LLM을 활용해 서로의 답변을 평가하는 실험을 진행했어요. 평가 결과, Qwen 모델은 Qwen 모델을 평균 0.9점 높게 평가하는 등 모델 패밀리 간 편향성이 나타났어요. Mistral 모델은 Mistral 모델을 1점 낮게 평가하는 독특한 결과도 관찰됐어요.
코드 평가에서는 모델 간 의견 불일치가 가장 컸으며, 이는 단일 모델 평가의 신뢰성을 저해할 수 있다는 점을 시사해요. 연구 결과는 GitHub 저장소와 논문에서 확인할 수 있어요.
향후 연구에서는 실제 정답과의 비교, 응답 품질에 따른 편향성 제어, 평가자 엄격도 측정 등 다양한 개선 방안을 고려할 예정이에요.