Pulse · AI 뉴스

데이터 부족 환경에서 혼합 학습이 하이퍼파라미터 튜닝보다 효과적: 이중 언어 사전 학습 연구

arXiv cs.LG · 2026-05-13

연구진은 데이터가 부족한 언어 모델 사전 학습 환경에서 영어 데이터를 활용한 이중 언어 학습(mixing)이 하이퍼파라미터 튜닝보다 성능 향상에 더 효과적임을 확인했습니다. 150만에서 14억 파라미터 규모의 모델을 대상으로 아랍어를 타겟 언어, 영어를 보조 언어로 사용해 1000회 이상 사전 학습을 진행했습니다.

혼합 학습은 검증 손실 및 downstream 작업 정확도 측면에서 하이퍼파라미터 튜닝보다 더 큰 개선을 가져왔으며, 모델 크기가 커질수록 그 격차가 벌어지는 것으로 나타났습니다. 특히 혼합 학습은 검증 손실을 2~3배, downstream 작업 정확도를 2~13배 향상시키는 효과를 보였습니다.

연구 결과, 검증 손실은 혼합 학습의 가치를 과소평가하며, 이는 혼합 학습이 훈련 신호를 다양화하고 반복되는 타겟 코퍼스에서 얻을 수 없는 지식을 제공하기 때문입니다.

##이중언어학습##사전학습##데이터증강##언어모델##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기