DiffusionGemma를 내부 테스트한 결과, TPS 수치만으로 모델의 성능을 판단하기 어렵다는 의견이 나왔어요.
H100 GPU는 예상대로 확장성이 뛰어나지만, A100 GPU는 동시 접속자 증가에 따라 성능 차이가 더 크게 벌어졌어요.
짧은 생성 작업에서는 모델이 매우 빠르지만, 긴 출력, 다양한 요청 길이, 스트리밍 등 복잡한 워크로드에서는 성능이 급격히 변하는 경향이 있어요.
GPU 사용량 패턴도 기존 트랜스포머 추론과는 다른 양상을 보이며, 더 많은 테스트와 분석이 필요해요.