SWE-bench Verified는 자율 소프트웨어 엔지니어링 작업의 대표 지표였지만, 현재는 프런티어 모델 역량을 제대로 측정하지 못하는 것으로 판단돼요. 최근 최고 성능 향상폭이 74.9%에서 80.9%로 제한되면서, 모델의 한계인지 데이터세트의 문제인지 구분이 어렵게 됐어요. SWE-bench Verified의 한계를 인정하고, 더 나은 평가 지표 개발이 필요하다는 의견이 나오고 있어요.