이 글은 Qwen3.5-4B와 Gemma 4B 모델의 언세็น서드 버전 성능을 비교 분석한 내용을 담고 있습니다. PPL(Perplexity) 평가를 통해 모델의 예측 성능을 측정하고, 긍정/부정 델타(delta) 값을 활용하여 모델의 언세็น서드 정도를 시각화했습니다.
분석 결과, 긍정 델타는 모델이 기준 모델보다 텍스트 예측 성능이 떨어지는 것을 나타내며, 부정 델타는 기준 모델보다 더 나은 예측 성능을 나타냅니다. 이상적인 언세็น서드 모델은 긍정/부정 델타가 0에 가까워 기준 모델과 유사한 성능을 유지해야 합니다.
저자는 실험 과정에서 다양한 오류를 겪었으며, 데이터셋의 품질, 툴의 작동 방식, 하드웨어 문제 등 여러 요인이 분석 결과에 영향을 미쳤음을 밝혔습니다. 향후 실험에서는 데이터 패딩을 통해 정확도를 높일 계획입니다.