젯슨 오린 나노 슈퍼 8GB에서 135M~1B 파라미터의 8개 초소형 LLM을 벤치마크했어요. llama.cpp CUDA를 사용해 7W, 15W, 25W, MAXN의 4가지 전력 모드에서 테스트했죠.
25W 전력 모드가 모든 모델에서 파레토 최적의 성능을 보여줬어요. 15W 대비 토큰 생성 속도가 36~47% 향상되고, 에너지 효율도 3~26% 더 좋았어요.
1B 클래스 모델 중에서는 LFM2.5-1.2B가 가장 빠르고 에너지 효율이 높았으며, Gemma3-1B는 전력 소비가 낮아 토큰/J 측면에서 우위를 점했어요. 자세한 내용은 블로그에서 확인 가능해요.