DeepSWE 벤치마크 결과 DeepSeek v4 Pro 모델이 전체 테스트 항목의 8%만 통과하는 것으로 나타났어요. 일부 사용자들은 OpenCode 환경에서 v4 Pro 모델의 성능이 Claude Opus 4.6에 근접하다고 주장하며 결과에 의문을 제기하고 있어요. DeepSWE 벤치마크는 LLM의 코딩 능력을 평가하는 지표로 활용돼요.