최근 LLM 발전으로 수학적 추론 능력이 향상되었지만, 기존의 기호 수학 비교 방식은 다양한 표현과 형식에 취약했어요. 연구진은 LLM 기반 평가 프레임워크를 제안하여 다양한 수학적 표현과 답변 형식을 정확하게 평가할 수 있도록 했어요. 새로운 프레임워크는 기존 평가 방식의 실패 사례를 보여주며, 더 신뢰성 있는 평가와 벤치마킹을 가능하게 해요.