연구진은 SPLADE와 같은 학습된 희소 검색 모델에서 BERT 대신 더 강력한 사전 훈련된 인코더를 사용하면 성능이 저하될 수 있음을 발견했어요.
MLM 헤드의 스케일 불일치 문제를 확인하고, 이를 해결하기 위해 초기화 단계에서 MLM 헤드 프로젝션을 재조정하는 방법을 제안했어요.
이 간단한 수정은 모델 아키텍처나 학습 목표를 변경하지 않고도 학습 안정성을 개선하고, ModernBERT와 Ettin과 같은 대규모 백본 모델의 성능을 향상시켰어요.