GPT-5.5 Codex를 실제 작업 26개에 적용한 결과, 추론 노력 설정에 따라 테스트 통과율 외에 코드 리뷰 통과율에 차이가 컸습니다. low 설정에서는 21개의 테스트 통과, medium 설정에서도 21개의 테스트 통과를 기록했지만, high 설정에서는 25개의 테스트 통과를 기록했습니다. xhigh 설정에 대한 구체적인 결과는 언급되지 않았습니다.