STaD 프레임워크는 LLM의 약점을 명확하게 보여주기 위해 벤치마크 작업을 단계별로 지원하는 스캐폴딩 개념을 기반으로 설계됐어요. 이 프레임워크는 벤치마크 작업의 통제된 변형을 생성하여 모델이 부족한 추론 능력의 조합을 체계적이고 확장 가능하게 탐색할 수 있도록 돕습니다. 다양한 크기의 6개 모델에 대한 실험 결과, 세 가지 추론 벤치마크에서 여러 실패 지점을 발견하고 각 모델의 고유한 기술 격차를 강조했습니다.