연구진은 OpenAI Codex, GitHub Copilot, Devin, Cursor, Claude Code 등 5개 코딩 에이전트가 작성한 86,156개 테스트 패치에 대한 연구를 진행했어요.
분석 결과, 테스트 패치의 80.2%는 명시적인 검증 로직(오라클 신호)이 부족하거나 전혀 없었어요.
강력한 오라클 신호가 있는 PR은 합병 가능성이 더 높았으며, 테스트 파일 수를 기준으로 검증 강도를 과대평가하는 문제를 해결할 수 있다고 밝혔어요.