연구진은 독립적으로 학습된 LoRA 어댑터를 단일 LLM으로 통합하는 새로운 프레임워크 'Hard-Routed MoR-LoRA'를 제안했어요. 이 방법은 검증 가능한 피드백을 활용한 강화 학습으로 도메인별 LoRA 전문가를 학습하고, 이후 전문가를 동결한 후 추론 과정을 추출해 경량화된 라우터와 어텐션 LoRA만 학습해요. 하드 토픽-1 라우팅을 통해 토큰 당 하나의 전문가만 선택하여 기존 방식보다 적은 학습 파라미터로 전문가 행동을 보존해요.
Hard-Routed MoR-LoRA는 5개 벤치마크, 다양한 모델 크기, 모델 패밀리에서 실험을 거쳤으며, 기존 소프트 라우팅 방식 대비 성능이 우수했어요. 분석 결과, 정규화된 소프트 혼합은 종종 단일 전문가에게 대부분의 라우팅 가중치를 집중시키는 경향이 있어 하드 라우팅이 효율적인 추상화임을 확인했어요.
이 프레임워크는 원본 학습 데이터를 공유할 수 없는 다중 도메인 적응에 특히 유용하며, 기존 방식의 단점을 보완하여 전문가 행동을 유지하면서 학습 효율성을 높여요.