연구진은 기존 Transformer LLM을 하이브리드 아키텍처로 전환하는 '업사이클링' 방법을 제시하며, HyLo라는 새로운 솔루션을 개발했어요.
HyLo는 Transformer 블록, MLA, Mamba2/Gated DeltaNet 등과 함께 스테이지별 장문 컨텍스트 학습 및 증류를 통해 성능을 향상시켰어요.
HyLo는 기존 모델 대비 장문 컨텍스트 처리 능력을 32배 향상시키고 KV-캐시 메모리를 90% 이상 줄여 2M 토큰까지 처리할 수 있어요.