연구진은 기존 평가 지표 PR-AUC가 실제 성능과 괴리가 있어 의미론적 캐싱 모델 선택에 오류를 발생시킨다는 문제점을 지적했어요. 새로운 지표 P-CHR AUC와 CRR을 제시하여 캐시 활용 수준에 따른 정밀도를 측정하고, 오프라인 평가와 실제 배포 환경 간의 성능 차이를 분석했어요. 연구 결과, 데이터 규모보다 학습 목표가 교정 간극에 더 큰 영향을 미치며, 사후 교정은 부분적으로만 개선 효과를 가져온다고 밝혔어요.
기존 순위 기반 모델 선택 방식에서 벗어나, 의미론적 캐싱 모델은 교정 문제를 해결하는 데 집중해야 한다고 강조했어요. P-CHR AUC와 CRR을 활용하여 모델을 선택하고, 교정 간극을 좁히는 것이 중요하다고 설명했어요. 연구진은 데이터셋의 양성 비율에 의해 결정되는 구조적 한계도 고려해야 한다고 덧붙였어요.
의미론적 캐싱 모델의 성능을 정확하게 평가하고 개선하기 위해 새로운 지표와 분석 방법을 제시함으로써, LLM 추론 비용 절감에 기여할 것으로 기대돼요.