연구진이 대규모 언어 모델(LLM) 기반 에이전트의 온디바이스 배포를 위한 새로운 프레임워크 DuoMem을 공개했어요. DuoMem은 큰 모델의 문제 해결 능력을 작은 모델로 전달하여 자원 제약적인 환경에서도 복잡한 작업을 처리할 수 있도록 합니다.
DuoMem은 컨텍스트 공간 증류와 파라미터 공간 증류, 두 가지 방식으로 작동하며, 4B 파라미터 모델의 성공률을 4.3%에서 77.9%로 끌어올렸어요.
DuoMem을 적용한 4B 모델은 72B 모델보다 3배 빠른 속도로 작업을 완료하여 실시간 온디바이스 배포가 가능해졌으며, 메모리 사용량도 최소화했어요.