연구진은 반복적인 추론 능력을 향상시키는 루프 언어 모델(LoopLM)의 메모리 사용량 문제를 해결하기 위해 MELT(Memory-Efficient Looped Transformer)라는 새로운 아키텍처를 제안했습니다.
MELT는 각 레이어마다 단일 KV 캐시를 유지하고, 학습 가능한 게이팅 메커니즘을 통해 이 캐시를 업데이트하여 추론 깊이와 메모리 소비를 분리합니다.
실험 결과, MELT 모델은 기존 LLM과 비슷한 메모리 사용량을 유지하면서도 LoopLM의 성능을 능가하며, 가벼운 후처리 과정을 통해 효율적인 반복 추론을 달성했습니다.