Redditor 사용자가 Jetson Orin NX에 Hermes 에이전트를 구축하고 벤치마킹 결과를 공유했어요. 기존 LLM 서버를 대체할 수 있을 정도로 작은 시스템을 만들었으며, 조용하고 높은 토큰 처리 속도를 목표로 했어요.
Gemma 4 26B A4B UD Q2_K_XL 모델을 사용했을 때 65K 컨텍스트 윈도우에서 10.21 토큰/초의 성능을 보여줬으며, 멀티 툴 호출과 긴 프롬프트에서도 괜찮은 성능을 유지했어요.
새로운 케이스 제작과 다양한 모델·양자화 변형 테스트를 거쳐 구축했으며