연구진은 LLM의 자체 수정 과정을 제어 이론적 관점에서 분석하여, 오류 수정률(ECR)과 오류 발생률(EIR) 간의 비율이 특정 임계값(0.5% 이하)을 넘어야 반복 수정이 도움이 된다는 사실을 밝혀냈어요.
GPT-5를 제외한 o3-mini, Claude Opus 4.6, o4-mini 모델은 자체 수정으로 성능이 향상되었지만, GPT-5는 오히려 성능이 저하되는 현상이 나타났어요.
검증 우선 프롬프트 기법을 통해 GPT-4o-mini 모델의 EIR을 0%로 낮추고 성능 저하를 개선할 수 있었으며, 이는 프롬프트만으로도 자체 수정 과정을 효과적으로 제어할 수 있음을 보여줘요.