사용자가 MacOS 환경에서 Qwen3.5-35B-A3B 모델을 llama.cpp로 실행하며 프롬프트 처리 속도가 느려 최적화에 어려움을 겪고 있습니다. llama-optimus를 활용하고 싶지만 100k 컨텍스트 범위 테스트 방법을 모르고 있습니다. llama-bench를 활용한 최적화 방법이나, brute force 방식이 아닌 효율적인 워크플로우를 찾고 있습니다.
llama-optimus를 사용하여 100k 컨텍스트 범위에서 테스트하는 방법이나, llama-bench를 활용하여 효율적으로 최적화하는 방법을 문의했습니다. 기존 벤치마크가 환경에 맞지 않아 직접 테스트하려 합니다.
새 모델 테스트 및 성능 최적화를 위해 컨텍스트 범위가 크게 변하지 않는 환경에서 어떤 워크플로우를 사용하는지 질문했습니다.