사용자가 모델 배포 시 양자화 방식 성능 비교를 위해 CLI 도구 'LitmusLab'을 개발했어요. FP16, INT8, NF4 등 다양한 양자화 형식을 Hugging Face Transformers와 vLLM 백엔드에서 지원하며, GPU VRAM 부족 문제를 해결하는 기능도 포함돼 있어요. Groq를 활용한 AI 기반 배포 추천 기능도 제공하지만, 오프라인/결정적 실행도 가능합니다.