연구진이 프로그램-오브-생킹(PoT)의 실패를 극복하기 위해 RePoT(Recoverable PoT)를 제안했어요. RePoT는 환경에서 계획을 실행하며 첫 번째 오류 지점까지 이동한 후 LLM을 한 번 더 호출하여 복구를 시도해요.
PoT가 실패하는 약 14%의 문제에서만 추가 LLM 호출이 필요하며, PuzzleZoo-775에서 GPT-5.4-mini-medium 모델에서 96.9%의 정확도를 기록하며 PoT보다 최대 10.6% 향상됐어요.
Derail-550 벤치마크에서 체크포인트 정보 접근 시 오류 정보만 사용할 때보다 훨씬 높은 성공률을 보이며, 이는 복구에 중요한 신호가 체크포인트 정보임을 보여줘요.