GLM-5 기반 코딩 에이전트를 대규모로 서비스하면서 KV 캐시 레이스 컨디션 버그를 발견하고 수정했어요. 인프라 엔지니어링의 한계를 극복하기 위해 스케일링 법칙을 활용하며 처리량 개선 최적화를 진행했어요. 이번 글에서는 버그 재현 및 수정 과정과 함께 처리량 개선을 위한 최적화 경험을 공유합니다.