연구진은 기존 방식의 잠재적 추론 방식의 최적화 및 해석 어려움을 해결하기 위해 SWITCH라는 새로운 프레임워크를 제안했어요. SWITCH는 명시적인 경계 토큰을 사용하여 잠재적 블록을 표준 온-정책 강화 학습에 적합하게 만들고, 잠재적 단계를 직접적으로 조사하고 원인 개입할 수 있도록 했어요. 실험 결과, SWITCH는 기존 방식보다 우수한 성능을 보였으며, 잠재적 단계가 문제별로 중요한 계산을 수행한다는 사실을 밝혀냈어요.