MathFormer는 4백만 파라미터의 작은 seq2seq 모델로, 수학 지식 없이 훈련했을 때 기호 수학 작업에서 98.6%의 정확도를 달성했어요.
이 결과는 모델이 연산자나 변수에 대한 이해 없이 구조적 토큰 변환을 학습한다는 것을 시사하며, LLM의 수학적 '추론' 능력을 설명하는 데 도움을 줄 수 있어요.
연구는 RL이 이러한 패러다임을 어떻게 바꿀 수 있는지에 대한 질문을 제기하며, 모델 아키텍처가 여전히 어텐션 기반이라는 점을 고려해요.