연구진은 LLM의 추론 능력을 평가하는 데 한계가 있는 기존 벤치마크의 문제를 해결하기 위해 QMFOL 프레임워크를 제안했어요.
QMFOL은 conjunction과 disjunction 패턴을 활용해 논리적 복잡성을 정량적으로 제어하고, 외부 prover를 통해 논리적 일관성을 보장해요.
QMFOLBench는 2880개의 인스턴스와 960개의 구성을 포함하며, 6개의 LRM과 2개의 LLM 평가 결과, 논리적 복잡도가 증가할수록 성능 저하와 계산 비용 증가가 확인됐어요.