Reddit 사용자가 'Senior SWE Bench'라는 새로운 벤치마크를 공개했어요. 이 벤치마크는 실제 소프트웨어 엔지니어링 작업처럼 의도적으로 정보가 부족한 기능 구현 작업을 평가하는 데 초점을 맞추고 있어요. 기존 벤치마크의 한계를 극복하고 실무 능력 측정에 더 적합하도록 설계됐다고 해요.
이 벤치마크는 실제 개발 환경에서 발생하는 모호함과 불확실성을 반영하여, 문제 해결 능력과 의사소통 능력을 함께 평가합니다. 개발자가 스스로 질문하고 정보를 찾아 해결하는 과정을 중요하게 고려했어요.