GSM-Symbolic 벤치마크는 LLM의 추론 능력 부족을 주장했지만, 통계적 근거가 부족하다는 비판이 나왔어요. 재평가 결과, 20개 오픈 웨이트 모델 중 절반은 원래 프롬프트 형식에서 통계적으로 유의미한 성능 변화를 보이지 않았어요. 문제 텍스트 내 큰 정수 비율 차이가 성능 변화의 원인으로 밝혀졌으며, 이를 보정하면 상당수 사례에서 유의미한 차이가 사라졌어요.
모델별 실패 원인을 분석한 결과, 변수 바인딩 취약성, 산술 한계, 이중 작업 간섭 등 구체적인 문제점을 발견했어요. LLM의 추론 능력에 대한 일반화된 주장은 통계적으로 성급하며, 기계적 이해가 부족하다는 점을 시사합니다.
연구 결과는 LLM의 추론 능력에 대한 기존 평가가 통계적 오류와 숨겨진 요인에 의해 왜곡되었을 가능성을 제기하며, 보다 세심한 분석과 모델별 특성을 고려한 연구의 필요성을 강조합니다.