연구진은 LLM 기반 소프트웨어 엔지니어링 에이전트의 패치 생성 과정에 버그 재현 테스트(BRT) 활용 가능성을 연구했어요.
BRT를 직접 활용한 패치 생성 시 fail-to-fail BRT는 에이전트를 오도하고, fail-to-pass BRT는 부분적인 패치를 유발하는 한계가 있음을 확인했어요.
연구진은 SWE-Doctor라는 에이전트를 개발하여 다각적인 BRT 실행 결과로부터 얻은 런타임 진단을 기반으로 패치 생성을 안내하고, SWE-bench Verified와 SWE-bench Pro에서 기존 에이전트 대비 우수한 성능을 보였어요.