Senior SWE-Bench는 실제 시니어 엔지니어가 맡는 기능 개발과 유사한 코딩 에이전트 평가 벤치마크예요. 자연어 지시사항으로 구성된 기능 과제를 통해 현실적인 평가가 가능하도록 설계됐어요. 기존 벤치마크가 주니어 과제에 집중하는 경향이 있었던 점을 개선하여, 실제 업무 환경과 유사한 과제를 제공하는 것이 특징이에요. 제출된 해법에 맞춰 행위가 평가돼요.