연구진이 에이전트 LLM의 추론 속도를 높이는 LayerRoute라는 경량 어댑터를 개발했어요. LayerRoute는 입력에 따라 트랜스포머 블록을 선택적으로 건너뛰는 방식으로 작동하며, Qwen2.5-0.5B-Instruct 모델에 적용되었어요. 3,000단계 학습 후, 12.91%의 FLOPs 스킵 차이를 달성하며, 툴 호출 시에는 15.25%, 계획 단계에서는 2.34%만 스킵했어요.
LayerRoute는 각 레이어마다 897개의 파라미터로 구성된 라우터와 8랭크의 LoRA 어댑터를 사용하며, 백본 가중치는 동결되어 있어요. 학습에는 Hermes, Glaive, GSM8K, Turing 데이터셋이 사용되었고, 게이트 정규화 항을 통해 스키핑 패턴을 학습했어요.
LoRA 적응을 통해 기존 모델 대비 툴 호출 시 퍼플렉시티가 1.29 감소하고, 계획 단계에서는 1.30 감소하는 성능 향상을 보였으며, 전체적으로 1.10M개의 학습 가능한 파라미터(백본의 0.22%)만 사용했어요.