연구진은 대규모 언어 모델을 가지치기할 때 발생하는 문제점을 분석했어요. 가지치기된 모델은 객관식 평가에서는 좋은 성능을 보이지만, 자유로운 답변 생성에서는 실패할 수 있어요. 연구 결과, 모델이 정답을 잊는 것이 아니라, 정답이 최상위 답변으로 나타나기 어려워지는 문제였어요.
Wanda와 같은 고밀도 가지치기 환경에서 모델은 객관식 시험에서는 정답을 선택하지만, 탐욕적 생성에서는 답변을 실패하는 '벤치마크 착시' 현상을 보였어요. 정답은 사라지지 않고, 빔 서치나 샘플링을 통해 다시 나타나는 경우가 많았어요.
연구진은 압축된 LLM의 유용성을 평가할 때, 인식 능력뿐 아니라 답변 생성 능력도 함께 고려해야 한다고 강조했어요.