연구진은 LLM 기반 프로그램 수정 에이전트의 코드 실행 패턴을 분석하여, 실행 횟수와 성공률 간의 관계를 파악했어요. SWE-bench 벤치마크의 7,745개 에이전트 로그와 3,000회 수정 시도를 분석한 결과, 에이전트마다 실행 횟수가 2~19회까지 다양하게 나타났어요. 코드 실행 제한은 성공률에 큰 영향을 미치지 않지만, 토큰 비용과 실행 시간을 절약할 수 있으며, 실행 효과가 특정 작업에 집중되는 경향이 있다는 점이 밝혀졌어요.