연구진이 훈련 없이 반복 처리하는 새로운 트랜스포머 모델을 선보였습니다. 기존 모델의 중간 레이어 블록을 테스트 시간에 반복하여 사용하며, 추가적인 튜닝이나 학습 없이도 성능을 향상시킵니다. 이 방법은 기존의 반복 트랜스포머 방식과 달리, 사전 훈련된 모델에 테스트 시간에 재귀 구조를 적용합니다.
단순히 레이어를 반복 적용하는 방식은 성능 저하를 일으키므로, 반복 적용 전략이 중요합니다. 연구진은 사전 노름 트랜스포머 블록을 ODE의 전방 유클리드 단계로 보고, 반복을 동일한 근사값의 개선으로 취급하여 작은 감쇠된 하위 단계를 사용합니다.
Qwen3-4B-Instruct 모델의 MMLU-Pro 점수가 2.64pp 향상되는 등, 다양한 모델에서 성능 개선을 확인했습니다.