연구진은 LLM의 SAT(Boolean satisfiability) 문제 해결 능력을 2-SAT, 3-SAT, Vertex Cover, 3D packing 문제로 체계적으로 분석했어요.
기존 평가 지표(정확도, 정밀도, 재현율, F1)는 LLM의 SAT 문제 해결 능력을 오도할 수 있으며, 변수 증가에 따라 성능이 급격히 저하되는 경향을 보였어요.
페어링 기법과 ADR(Accurate Differentiation Rate)을 도입하여 추론 능력을 가진 모델과 휴리스틱 모델을 구분하고, 모델의 결정이 CNF, 그래프, 3D packing 표현 방식에 따라 일관성을 보이는지 확인했어요.