연구진은 최신 임베딩 모델 평가 방식의 문제점을 지적하며, 단일 프롬프트 사용으로 인해 지시문 표현에 따른 민감성이 간과될 수 있다고 밝혔습니다.
6개 임베딩 모델, 11개 데이터셋, 15개 프롬프트를 활용한 실험 결과, 보고된 성능 점수는 실제 점수 분포를 왜곡하며, 특정 프롬프트 선택에 따라 순위가 크게 변동하는 것으로 나타났습니다.
연구 결과, 임베딩 모델 벤치마크는 프롬프트 강건성(robustness)을 고려해야 하며, 여러 프롬프트를 사용하거나 민감도를 함께 보고하는 방안을 제안합니다.