OpenAI 엔지니어들이 새로운 최적화를 통해 추론 비용을 50% 이상 절감하는 방법을 발견했어요. ChatGPT 사용자에게 적용했을 때 필요한 Nvidia GPU 수를 200개 수준으로 줄였어요. 구체적인 방법은 양자화, 키-값 캐싱, 배치 처리, 모델 분산 활용 등이 포함된 것으로 추정돼요.
OpenAI는 서버 칩 접근성 확보 노력 외에도 기존 서버의 효율을 높이는 연구를 진행하고 있어요. ChatGPT 무료 사용자에게 적용했을 때 GPU 사용량을 대폭 줄이는 성과를 거뒀어요. 이 기술은 OpenAI의 추론 비용 절감에 기여할 것으로 보입니다.
새로운 최적화 기술은 OpenAI의 모델 운영 효율성을 높여 비용 절감에 기여할 것으로 예상돼요.