오픈 소스 기여자 과정에서 Bifrost (LLM 게이트웨이) 로드 밸런싱을 구현하며 OpenAI, Azure 등 LLM 제공업체의 불안정한 트래픽 패턴에 적응형 라우팅의 필요성을 느꼈습니다.
지연 시간, 에러율, 처리량 등 실시간 지표 기반으로 가중치를 조절하는 적응형 라우팅을 구축했으며, 노이즈에 덜 민감하도록 EWMAs를 사용했습니다.
고 RPS 환경에서 락 병목 현상을 피하기 위해 원자적 연산을 사용하고 별도의 고루틴으로 지표를 읽고 가중치를 재계산하는 방식을 채택했습니다.