연구진은 복잡한 공식 수학 문제를 해결하는 AI 에이전트가 새로운 기호 구조를 이해하고 재조합하는 조합 학습 행동(CLB) 능력이 필요하다고 제안했어요.
S2B-LM 벤치마크를 통해 10개의 Lean~4 증명기를 평가한 결과, Olympiad 수준의 성능을 보이는 모델은 상위 5개 CLB 점수 모델에 속하는 경향이 있음을 확인했어요.
모델 규모를 배제한 결과, CLB 능력은 공식 수학 검증의 어려운 부분을 해결하는 데 필요하지만 충분하지 않다는 점을 보여줬어요.