본 연구는 레이블링된 데이터가 부족한 NLP 분류 작업에서, 핀란드 BERT 모델을 핀란드 의료 텍스트 데이터로 도메인 튜닝하는 과정에서의 관찰 내용을 설명합니다.
연구진은 도메인 튜닝으로 인한 임베딩 변화의 기하학적 구조를 관찰하여 핀란드 BERT의 도메인 특화 사전 훈련의 이점을 예측하려 시도했습니다.
의료 AI 분야에서 데이터셋 획득에 오랜 시간이 걸리는 상황에 대한 동기를 바탕으로, 본 연구는 핀란드 의료 데이터에 특화된 BERT 모델 개발에 기여하고자 합니다.