사용자는 클라우드 API 사용 시 발생하는 높은 비용에 부담을 느껴, 개인 프로젝트의 대부분을 4090으로 이전하기로 결정했어요. GPT-4o-mini 단일 RAG 쿼리에 약 0.0005달러가 소요되지만, 100만 쿼리 시 월 500달러의 비용이 발생할 수 있다고 해요. 4090에서 Llama-3.1-8B를 로컬에서 실행하면 전기 요금과 하드웨어 마모로 인해 월 15~30달러로 동일한 작업을 처리할 수 있으며, 지연 시간도 단축돼요.