Bifrost 팀은 LLM 게이트웨이에 시맨틱 캐싱을 구축하는 과정에서 얻은 경험을 공유했어요. 정확한 해시 매칭과 벡터 유사성 검색을 결합한 이중 레이어 아키텍처를 사용하며, Weaviate를 벡터 저장소로 활용해 서브 밀리초 단위의 빠른 검색을 구현했어요. 모델 및 제공업체 격리, 요청별 오버라이드, 스트리밍 지원 등 다양한 구현 결정을 내렸고, 관련 코드를 오픈 소스로 공개했어요.