본 연구는 LLM이 수학적 논리 추론을 하는지, 아니면 단순히 훈련 데이터의 패턴을 암기하는지를 파악하기 위해 Architectural Reasoning 능력을 평가합니다.
Obfuscated Natural Number Game이라는 새로운 벤치마크를 통해, Lean 4에서 식별자를 변경하여 외부 정보 없이도 증명을 구성할 수 있는 능력을 측정했습니다.
일반 모델은 성능이 저하되지만, DeepSeek-R1, GPT-5, DeepSeek-Prover-V2와 같은 추론 모델은 Semantic cues가 없어도 정확도를 유지하는 것으로 나타났습니다.