SWE 벤치마크가 벤치마크 성능을 극대화하는 '벤치막스드' 상태로 진화했어요. 벤치마크 결과는 이전보다 훨씬 높은 점수를 보여주며, 모델 성능 평가 기준을 새롭게 제시할 것으로 보입니다. 이 변화는 모델 개발 경쟁을 더욱 심화시키고, AI 기술 발전 속도를 가속화할 수 있습니다.