연구진이 대규모 언어 모델(LLM) 기반 에이전트의 온디바이스 배포를 위한 DuoMem 프레임워크를 공개했어요. DuoMem은 큰 모델의 문제 해결 능력을 작은 모델로 이전하는 기술로, 컨텍스트 공간 증류와 파라미터 공간 증류를 활용해요.
DuoMem을 적용한 4B 파라미터 모델은 ALFWorld 벤치마크에서 작업 성공률이 4.3%에서 77.9%로 크게 향상됐으며, 72B 모델(87.1%)과 거의 동등한 성능을 냈어요.
DuoMem은 72B 모델보다 3배 빠른 속도로 작업을 완료하며, 실시간 온디바이스 배포를 가능하게 해줘요. 8개의 모델에 대한 실험 결과, 두 가지 증류 방식이 상호 보완적으로 기여하는 것으로 나타났어요.