연구진이 FFN 레이어의 구조적 희소성을 극대화하는 PrunePath 프레임워크를 발표했어요. PrunePath는 MoEfication 기반으로 토큰 단위 예산 제어를 통해 중요 전문가를 활성화하고, 성능 저하 없이 희소성을 높여요. Triton 커널을 활용해 메모리 절감 및 디코딩 속도 향상 효과를 입증했어요.
기존 정적 희소화 및 MoEfication 방식 대비 성능과 희소성 간 균형이 우수하며, NLU, NLG, Instruction-tuning 평가에서 효과를 확인했어요. PrunePath는 배포 친화적인 고도로 희소한 LLM 구축에 기여할 것으로 기대돼요.
KV-캐시 디코딩을 위한 Triton 커널을 구현하여 구조적 희소성을 실제 메모리 절감 및 디코딩 속도 향상으로 연결했어요.