Pulse · AI 뉴스

산업 IoT 환경에서 온디바이스 LLM 추론을 위한 다중 입자율 가지치기 프레임워크

NVIDIA · 2026-06-25

연구진이 산업 IoT 환경에서 LLM 추론을 위한 다중 입자율 가지치기 프레임워크를 개발했어요. 이 프레임워크는 레이어, 어텐션 헤드, 피드포워드 채널을 순차적으로 제거하며, 각 단계 사이에 저랭크 복구를 통해 중요도를 재평가합니다.

MHA+GELU 아키텍처에서 최대 13.8배 압축률을 달성했으며, 정확도는 83.82%로 기존 최고 성능보다 3.70% 향상됐어요. 반면 GQA+SwiGLU 아키텍처에서는 정확도가 크게 떨어지는 것을 확인했어요.

압축된 모델은 NVIDIA DGX Spark에서 추론 지연 시간을 최대 67.2% 단축하고, 최고 메모리 사용량을 62.5% 줄여 산업 현장 온디바이스 추론에 적합함을 입증했어요.

##LLM##가지치기##산업IoT##온디바이스##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기