GRASPrune는 LLM의 FFN 채널과 KV 헤드 그룹을 동시에 가지치기하는 새로운 프레임워크예요. 가짓치기 예산 제약 하에 가벼운 게이트 점수를 학습하여 모델의 메모리 및 지연 시간 비용을 줄여요. LLaMA-2-7B 모델에서 50%의 파라미터를 제거하고도 성능을 유지하며, 단일 NVIDIA A100 GPU에서 4개의 에폭으로 구현했어요.