사용자가 두 개의 Nvlinked A100 GPU를 사용하여 Gemma 4 31B-it 모델을 vLLM으로 실행 중 품질 저하 문제를 겪고 있습니다. vLLM에서 생성된 출력은 JSON 형식이 깨지는 등 품질이 좋지 않지만, Google API를 통해 동일 모델을 실행하면 정상적인 출력이 나옵니다. 사용자는 vLLM 실행 방식에 문제가 있을 가능성을 염두에 두고, 관련 파라미터와 코드를 점검하고 있습니다.