연구진은 최단 경로 계획 문제를 기반으로 하는 통제된 합성 환경을 도입하여 LLM의 일반화 능력을 분석했습니다. 모델은 공간 이동(새로운 지도 적용)에는 강점을 보였으나, 문제 해결 경로의 길이 증가에는 일관되게 실패하는 것으로 나타났습니다. 데이터 범위, 강화 학습, 추론 시간 스케일링 등 학습 파이프라인의 다양한 단계가 문제 해결 능력에 미치는 영향을 분석했습니다.