연구진은 코딩 에이전트의 레포지토리 이해, 컨텍스트 검색, 코드 위치 파악, 버그 진단 능력 평가를 위한 SWE-Explore 벤치마크를 발표했어요.
SWE-Explore는 레포지토리와 이슈가 주어지면 관련 코드 영역 순위를 매기는 방식으로 평가하며, 848개의 이슈와 203개의 오픈소스 레포지토리를 포함해요.
기존 벤치마크보다 레포지토리 탐색 능력을 더 정확하게 측정하며, 파일 수준 위치 파악은 이미 강력하지만, 라인 수준 커버리지와 효율적인 순위 결정이 중요해요.