연구에 따르면 루프 언어 모델에서 희소 레이어(Sparse Layers)를 사용하면 표준 트랜스포머보다 더 나은 성능을 낼 수 있습니다. 특히 Looped-MoE 모델은 루프를 통과할 때마다 다른 전문가가 활성화되어 표현력을 회복합니다. 또한 루프 경계는 표준 모델보다 더 빠른 출력 수렴을 보이는 우수한 조기 종료 지점입니다.
연구 결과, 루프 언어 모델은 표준 모델보다 계산 품질 측면에서 더 나은 균형을 제공하며, 각 루프는 최종 출력을 생성하는 동일한 레이어로 끝나기 때문에 조기 종료 지점으로 적합합니다. 이를 통해 메모리와 추론 비용을 절감하면서도 품질 저하를 최소화할 수 있습니다.
연구는 루프 언어 모델의 확장 방향을 제시하며, Looped-MoE 모델과 조기 종료 기능을 결합하면 표준 트랜스포머를 능가하는 성능을 달성하고 메모리와 추론 비용을 절감할 수 있다고 강조합니다.