사용자는 Llama 3.1 8B 모델을 Qlora 방식으로 파인튜닝하던 중 학습률을 2e-4에서 1e-4로 낮추고 에포크 수를 3에서 5로 늘려 평가 결과를 개선했습니다. 데이터셋 크기가 작을 때는 학습률이 너무 높으면 모델이 과적합되어 학습이 제대로 이루어지지 않는다는 것을 확인했습니다. 불명확하고 잘못 레이블링된 데이터를 약 3분의 1 줄인 결과 평가 성능이 향상되는 것을 관찰했습니다.