Zod, graphql-go-tools 저장소에서 추출한 56개의 실제 코딩 작업을 활용해 GPT-5.5, GPT-5.4, Claude Opus 4.7 모델의 패치 품질을 비교하는 벤치마크 결과가 공개됐어요. GPT-5.5는 테스트 통과율, 인간 패치와의 동등성, 코드 리뷰 통과율에서 높은 점수를 기록했어요. 이번 벤치마크는 세 모델의 코딩 작업 성능을 객관적으로 평가하고, 개발자들이 모델 선택에 도움을 줄 수 있도록 제작됐습니다.