BERT 모델을 활용한 저자원 언어 분류 시 과적합 문제가 발생하고 있습니다. LinearSVC와 Logistic Regression 모델이 80% 이상의 정확도를 보였지만, 딥러닝 모델은 과적합을 피하기 어렵습니다. 데이터 증강 기법과 조기 종료 기법이 효과를 보지 못하고 있으며, 학습 과정에서 개선점을 찾고 있습니다.
학습 데이터는 9000개 샘플, 11개의 클래스로 구성되어 있으며, 클래스 불균형을 해소하기 위해 가중치를 적용했습니다. 토큰 ID와 어텐션 마스크의 최대 길이를 120으로 설정했으며, 평균적으로 훈련 샘플당 17개의 단어가 포함되어 있습니다. 현재 dropout 비율 조정으로 과적합을 완화하려 노력 중입니다.
AdamW 옵티마이저를 사용하고 있으며, 학습률은 각 레이어별로 2e-5, 3e-5로 설정했습니다. 훈련 로그를 통해 학습 과정의 변화를 관찰하고 있으며, 75% 이상의 정확도를 달성하기 위한 추가적인 방법을 모색하고 있습니다.