연구진은 거대 언어 모델 사전 훈련의 장벽을 낮추기 위해 계층적 순환 모델(HRM) 기반의 HRM-Text를 제안했어요. HRM-Text는 전략 계층과 실행 계층으로 연산이 분리되고 MagicNorm과 워밍업 심층 크레딧 할당을 통해 안정성을 확보했어요. 400억 개의 토큰과 1,500달러 예산으로 훈련한 10억 파라미터 HRM-Text 모델은 기존 2~70억 파라미터 모델과 경쟁력 있는 성능을 보여줬어요.