Reddit 사용자가 실제 코드베이스에서 코딩 모델의 성능을 평가한 티어 리스트를 공개했어요. Claude Opus 4.7이 가장 높은 S 티어에 랭크되었고, ChatGPT 5.5와 GLM 5.1이 A 티어에 올랐어요. Gemini는 성능이 좋지 않아 F 티어에 속했으며, Mistral Medium과 MiMo는 최하위 평가를 받았어요.
Claude Opus 4.7은 대규모 코드베이스 작업에서 뛰어난 성능을 보였으며, 특히 여러 파일을 관리하고 합리적인 구현 결정을 내리는 데 강점을 보여요. ChatGPT 5.5는 S 티어에 근접한 성능을 보이지만, 가끔 중요한 부분을 놓치는 경향이 있어요.
GLM 5.1은 예상보다 뛰어난 성능을 보여줬으며, 안정적인 제공자와 좋은 비즈니스 관행이 있다면 S 티어로 올라갈 잠재력이 있다고 평가받았어요. Qwen, Kimi, DeepSeek는 특정 작업이나 버그 수정에 적합하지만, 아키텍처 및 예외 처리에서 더 많은 감독이 필요해요.