SimReg은 LLM 사전 훈련 시 토큰 임베딩의 불균일성을 해소하기 위한 정규화 기법입니다. SimReg은 동일한 레이블을 가진 토큰 임베딩 간 유사성을 높이고, 다른 레이블의 토큰과 분리하는 방식으로 작동합니다. SimReg을 적용한 결과, 훈련 속도가 30% 이상 단축되고, 다운스트림 작업 성능이 1% 이상 향상되었습니다.