Anthropic의 Claude Opus 4.7과 OpenAI의 GPT-5는 파일 관리 에이전트 테스트에서 성능 차이가 거의 없지만 비용은 10배까지 차이가 나는 것으로 나타났어요.
15,000 라인 Python 프로젝트에서 8가지 리팩토링 작업을 수행한 결과, Claude Opus 4.7은 98~99%, GPT-5는 약 96%의 성공률을 보였으며, 비용은 Claude가 약 15달러, GPT-5가 약 11달러였어요.
DeepSeek V4 Pro와 Tencent Hunyuan Hy3는 Claude Opus와 비슷한 성능을 보이면서도 훨씬 저렴한 비용으로 운영 가능했으며, 이는 튜얼 콜 실패 시 재시도해도 괜찮은 작업에 적합해요.
저렴한 모델로 작업량을 옮겨 일일 비용을 40달러에서 9달러로 줄였으며, 앞으로도 더 많은 작업을 로컬 모델로 전환할 계획이에요.