Pulse · AI 뉴스

RTX 3090에서 gpt-oss-120b 프롬프트 처리 속도 획기적 향상 방법

gpt-oss-120b · 2026-05-12

RTX 3090에서 gpt-oss-120b를 튜닝하던 중 micro-batch 크기를 늘려 프롬프트 처리 속도를 크게 향상시킬 수 있다는 사실을 발견했습니다.

기본 설정에서 프롬프트 처리 속도는 약 380 tok/s 였지만, micro-batch 크기를 8192로 늘리니 약 2091 tok/s로 5.5배 향상되었습니다.

다만, 더 큰 micro-batch 크기는 더 많은 GPU 컴퓨팅 공간을 필요로 하며, MoE 레이어를 CPU로 옮겨야 할 수 있습니다.

이 트릭을 알았더라면 DGX Spark 구매를 재고했을 정도로 큰 효과를 볼 수 있었습니다.

##llama.cpp##gpt##최적화##RTX3090##성능

매일 핵심 AI 소식을 한국어로, 빠르게