연구진은 인코더를 새로운 도메인에 적용할 때, 마스크 언어 모델링(MLM) 대신 일시적으로 인과 언어 모델링(CLM)을 사용한 후 짧은 MLM 감쇠 과정을 거치면 성능이 향상된다는 것을 밝혔습니다.
ModernBERT를 이용한 생의학 텍스트 실험에서, CLM 우회 학습은 동일한 데이터와 컴퓨팅 자원을 사용한 MLM 기준 성능을 프랑스어 8개, 영어 11개 생의학 과제에서 각각 1.2~2.8pp, 0.3~0.8pp만큼 능가했습니다.
연구진은 CLM의 밀집 지도 학습이 낮은 트랜스포머 레이어(0~7)에 더 큰 영향을 미치며, 이 효과는 MLM 감쇠 과정에서도 유지된다는 것을 확인했습니다.