연구진이 Switchable Latent Reasoning (SWITCH) 프레임워크를 제안했어요. 이 프레임워크는 잠재적 추론 과정의 시작과 끝을 나타내는 경계 토큰을 사용해 온-정책 강화 학습(RL)을 가능하게 하고, 추론 과정을 분석할 수 있도록 설계됐어요.
SWITCH는 기존의 잠재적 추론 방식보다 성능이 뛰어나며, 문제 해결에 중요한 계산이 단일 숨겨진 상태 전환에 집중된다는 사실을 밝혀냈어요.
연구 결과는 잠재적 상태 재귀적 추론이 RL 학습이 가능하며, 내부 작동 방식에 대한 직접적인 분석도 가능하다는 것을 보여줘요.