연구진은 기존 MCQA 벤치마크가 모델의 실제 지식 능력 대신 특정 표현에 대한 친숙도를 평가한다는 문제를 확인했어요. ParaEval이라는 새로운 평가 프레임워크를 제안하여, 답변 옵션마다 여러 표현을 사용하여 모델을 평가하고 가장 유리한 표현으로 점수를 매겨서 평가 오류를 줄였어요. 70B 및 120B 규모의 최첨단 모델에서도 이러한 평가 오류가 지속됨을 확인했어요.
ParaEval은 모델의 실제 지식 능력을 평가하는 데 있어 표면 형태의 친숙도에 대한 의존성을 줄이는 데 효과적이에요. 기존 방식으로는 2점이 넘는 성능 차이가 발생했지만, ParaEval을 사용하면 1점 미만의 성능 차이로 줄일 수 있었어요. 이 연구는 LLM 평가의 신뢰성을 높이는 데 기여할 수 있어요.
연구진은 1B~8B 규모의 모델을 동일한 지식으로 학습시켜 테스트한 결과, ParaEval을 통해 모델의 실제 지식 능력을 보다 정확하게 평가할 수 있음을 입증했어요. ParaEval은 LLM 연구 및 개발에 유용한 도구가 될 수 있어요.