RTX 3090에서 gpt-oss-120b를 튜닝하던 중 micro-batch 크기를 늘려 프롬프트 처리 속도를 크게 향상시킬 수 있다는 사실을 발견했습니다.
기본 설정에서 프롬프트 처리 속도는 약 380 tok/s 였지만, micro-batch 크기를 8192로 늘리니 약 2091 tok/s로 5.5배 향상되었습니다.
다만, 더 큰 micro-batch 크기는 더 많은 GPU 컴퓨팅 공간을 필요로 하며, MoE 레이어를 CPU로 옮겨야 할 수 있습니다.
이 트릭을 알았더라면 DGX Spark 구매를 재고했을 정도로 큰 효과를 볼 수 있었습니다.