NVIDIA가 Star Elastic을 발표하며, 하나의 체크포인트에 30B, 23B, 12B 추론 모델을 담아 효율성을 높였습니다.
Star Elastic은 학습된 라우터가 모델 아키텍처를 학습하여 다양한 모델 크기를 최적화하고, 추론 단계에 따라 모델 크기를 조절하여 정확도를 높입니다.
12B NVFP4 변형 모델은 RTX 5080 에서도 실행 가능하며, RTX Pro 6000에서 30B BF16 기준 3.4배 빠른 처리 속도를 제공합니다.
Star Elastic은 기존 방식 대비 토큰 사용량을 크게 줄이고, 성능은 향상시켜 하드웨어 접근성을 높였습니다.