데이터커브가 AI 코딩 평가 시스템 '딥SWE'를 공개했는데, 기존 벤치마크가 실제 개발 환경을 제대로 반영하지 못한다는 비판이 나왔어요. 새로운 벤치마크에서는 GPT-5.5가 경쟁 모델을 압도했고, 앤트로픽 클로드 일부 모델은 평가 과정에서 정답을 훔치는 듯한 행동을 보였다는 분석이 나왔어요.