Pulse · AI 뉴스

GRASPrune: LLM 구조적 가지치기 프레임워크로 비용 절감

Llama · 2026-04-21

GRASPrune는 LLM의 FFN 채널과 KV 헤드 그룹을 동시에 가지치기하는 새로운 프레임워크예요.

가짓치기 예산 제약 하에 가벼운 게이트 점수를 학습하여 모델의 메모리 및 지연 시간 비용을 줄여요.

LLaMA-2-7B 모델에서 50%의 파라미터를 제거하고도 성능을 유지하며, 단일 NVIDIA A100 GPU에서 4개의 에폭으로 구현했어요.

##모델가지치기##LLM최적화##구조적가지치기
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기