GSO, SWE-Perf, SWE-fficiency 등 코딩 에이전트 성능 측정 벤치마크가 실제 코드 저장소에 패치를 적용해 성능을 비교합니다. 벤치마크 점수는 코딩 에이전트 발전의 지표로 활용되지만, 런타임 불안정성, 벤치마크별 점수 규칙, 이미 해결된 작업의 비율 등이 영향을 미칠 수 있습니다. 연구진은 세 가지 벤치마크의 문제점을 분석했습니다. 벤치마크 점수가 실제 성능을 제대로 반영하는지 의문이 제기되었습니다.
공식 레퍼런스 패치를 재현한 결과, GSO 102개 작업 중 39개, SWE-Perf 140개 작업 중 11개, SWE-fficiency 498개 작업 중 411개의 작업에서만 원본 벤치마크의 유효성 규칙을 만족했습니다. SWE-Perf는 작은 런타임 변화에도 민감하게 반응하는 경향을 보였습니다. 벤치마크 점수 규칙에 따라 공개 제출물의 순위가 크게 달라지는 점도 확인되었습니다.
공개 제출물 분석 결과, 450개 작업 중 85.3%에서 공개 제출물이 레퍼런스 패치보다 성능이 좋거나 동일한 결과를 냈고, 99.8%에서 기준 코드보다 성능이 좋았습니다. 이 연구는 벤치마크 점수 외에도 신뢰성 있는 성능 지표를 식별하고, 각 작업별 점수 기여도를 파악하며, 집계 순위로 숨겨진 성능 격차를 드러내는 데 기여합니다.