본 연구는 생성형 AI 모델의 안전성, 견고성, 신뢰성을 확보하기 위해 평가 재현성 문제를 다룹니다. 현재 AI 평가는 인간 평가자의 주관적인 편향으로 인해 신뢰성이 떨어지는 경향이 있습니다. 연구팀은 다단계 부트스트래핑 접근 방식을 통해 평가자 행동을 현실적으로 모델링하고, 통계적 유의성을 확보하기 위해 필요한 항목 수와 응답 수를 분석했습니다.
기존 평가 방식은 항목당 3~5개의 평가만 사용하고, 평가자 식별자를 지속적으로 사용하지 않아 평가자 간의 차이를 모델링하기 어렵다는 한계가 있습니다. 이번 연구에서는 대규모 평가 데이터와 지속적인 평가자 식별자를 활용하여 평가 재현성이 어떻게 개선되는지 분석했습니다.
연구 결과, 평가 재현성을 높이기 위해서는 더 많은 항목과 응답이 필요하며, 이는 AI 모델의 신뢰성을 확보하는 데 중요한 요소임을 확인했습니다.