연구진이 단일 GPU에서 LLM 추론 효율성을 높이기 위해 ModeSwitch-LLM이라는 경량 컨트롤러를 개발했어요.
ModeSwitch-LLM은 FP16, 양자화 모드, 추론 속도 향상 기법 등 다양한 모드를 상황에 맞게 선택하여 평균 지연 시간을 2.1배 단축하고 에너지 소비를 51.7% 줄였어요.
자동 벤치마크에서 정확도는 FP16과 거의 동일하게 유지되었으며, 학습 기반 라우터는 규칙 기반 컨트롤러보다 성능이 떨어지는 것으로 나타났어요.