연구진은 거대 언어 모델의 사전 훈련에 필요한 막대한 컴퓨팅 자원을 줄이기 위해 계층적 순환 모델(HRM) 기반의 HRM-Text를 제안했어요.
HRM-Text는 전략 계층과 실행 계층으로 분리된 구조를 가지며, MagicNorm과 워밍업 심층 크레딧 할당 기법을 활용해 안정성을 확보했어요.
400억 개의 토큰과 1,500달러의 예산으로 훈련한 10억 파라미터 HRM-Text 모델은 기존 2~70억 파라미터 모델과 경쟁력 있는 성능을 보여줬어요.