연구진은 양자화 및 가지치기와 같은 모델 압축 기법이 LLM의 정확성을 얼마나 보존하는지 평가하는 기존 방식에 주목하며, 안전이 중요한 애플리케이션에서는 모델의 불확실성을 신뢰성 있게 측정하는 능력도 중요하다고 지적했어요.
Conformal prediction을 사용하여 12개의 LLM을 다양한 압축 환경에서 벤치마크한 결과, 압축은 정확성과 불확실성을 분리하는 경우가 많고, 큰 모델은 작은 모델보다 압축으로 인한 불확실성을 더 효과적으로 흡수하며, 불확실성 증가가 점진적이지 않고 임계값과 유사한 경향을 보였어요.
연구 결과에 따르면 모델 압축 파이프라인에 불확실성 기반 벤치마크를 포함하는 것이 필요하며, 정확성 평가만으로는 압축된 LLM의 배포 준비 상태를 평가하기에 충분하지 않아요.