REAP은 실제 코딩 에이전트 사용 데이터를 기반으로 자동 벤치마크를 생성하는 시스템입니다. 기존 벤치마크의 한계를 극복하고, 실제 사용 환경에서의 성능을 측정하는 데 목적을 둡니다.
REAP은 코딩 에이전트의 성능을 평가하기 위해 사용자가 생성한 작업 기록을 수집하고 분석하여 벤치마크를 자동으로 구성합니다. 이를 통해 다양한 작업과 환경에서의 성능을 측정할 수 있습니다.
연구팀은 REAP을 통해 생성된 벤치마크를 활용하여 다양한 코딩 에이전트의 성능을 비교 분석하고, 개선 방향을 제시할 예정입니다.