사용자가 vLLM 0.8과 Hunyuan Hy3를 활용해 코드 처리 비용을 절감하는 방법을 공유했어요. 간단한 작업은 Hunyuan Hy3, 복잡한 작업은 Claude Opus로 라우팅하여 비용을 최적화했어요. 14개의 파일로 구성된 순환 참조 문제에서는 Opus가 필요하다는 한계도 확인했어요.
Hunyuan Hy3는 12k 라인 Python 코드 처리 시 380단계 중 380단계를 처리하며, Claude Opus는 나머지 20단계를 처리하여 총 15.60달러로 완료했어요. 간단한 단계에서는 추론을 비활성화하여 토큰 사용량을 30% 줄였어요.
DeepSeek V4는 유사한 정확도를 보였지만, 검색 루프 단계에서 2배 더 느렸어요. 순환 참조 문제에서는 여전히 Claude Opus가 필요하며, Tencent는 495단계 워크플로우에서 99.99%의 성공률을 보인다고 보고했어요.