StepFun이 Llama.cpp의 최신 브랜치로 M5 Max에서 속도 벤치마크를 진행했어요. 128GB 메모리에서 16K 컨텍스트는 빠르고 반응성이 좋으며, 32K~64K 컨텍스트도 사용 가능해요. Pelican 벤치마크 결과도 함께 공개됐어요.
M5 Max에서 65536 컨텍스트까지 처리 가능하며, 메모리 피크는 약 120GB를 사용해요. 짧은 컨텍스트에서 빠른 속도를 보여주지만, 긴 컨텍스트에서는 속도가 느려질 수 있어요.
벤치마크 결과, 32768 컨텍스트에서 22.428초, 65536 컨텍스트에서 178.227초 소요됐으며, 토큰 생성 속도도 함께 측정됐어요.