연구진은 기존 Tiny Recursive Model (TRM)의 한계를 극복하기 위해 Probabilistic Tiny Recursive Model (PTRM)을 개발했어요. PTRM은 각 단계에 가우시안 노이즈를 주입하여 다양한 해결책을 탐색하고, 모델 자체의 Q 헤드를 활용해 최적의 답을 선택합니다.
Sudoku-Extreme에서 87.4%에서 98.75%로, Pencil Puzzle Bench에서 62.6%에서 91.2%로 정확도가 크게 향상됐어요.
7백만 개의 파라미터로 기존 LLM보다 훨씬 저렴한 비용으로 퍼즐 해결 성능을 2배 가까이 끌어올렸어요.